我们已经更新我们的隐私政策使它更加清晰我们如何使用您的个人资料。

我们使用cookie来提供更好的体验。你可以阅读我们的饼干的政策在这里。

广告

Chat-MD吗?科学家把人工智能模型的医疗技能测试

平板显示医疗信息
信贷:iStock

想要一个免费的PDF版本的这个新闻吗?

完成下面的表格,我们将电子邮件您的PDF版本“Chat-MD ?科学家把人工智能模型的医疗技能测试”

听与
喋喋不休地说
0:00
注册免费听这篇文章
谢谢你!听这篇文章使用上面的球员。
阅读时间:

在一个新的研究发表在自然从谷歌,科学家研究引入了一个新基准,称为MultiMedQA,评估大型语言模型的能力(llm)提供准确的医疗问题的答案。研究也强调了Med-PaLM的发展,一个LLM专门为解决医疗问题。尽管如此,团队表示,重大障碍前必须清除llm可以可靠地咨询医疗建议。

一天一个人工智能…

准确的医疗建议是高度追求但很难访问的(或者至少是昂贵的)。这导致patient-led在线医疗建议网站的兴起,从而导致不准确的诊断和忧郁症(brain-flattening负载头痛可能不是脑癌)。信息的广度和特异性等llm ChatGPT可能使他们看起来像一个有吸引力的替代,但现有的模型容易产生合理的医疗信息不正确或带有偏见,会无意地突出了健康的不平等。

想要更多的最新消息?

订阅188金宝搏备用的日常通讯,提供每天打破科学消息直接发送到您的收件箱中。

免费订阅

为了解决这个问题,研究人员一直在研究方法评估的准确性llm的医学知识。这些标准仍然非常缺乏,即使LLM可以通过multi-choice医学考试,它可能挣扎面对现实世界的医疗查询。


科学家从谷歌研究着手建立一个更好的基准AI的临床知识。作者最终设计了一个基准,称为MultiMedQA合并六现有数据集的全谱专业医疗实践、研究和消费者的提问。团队还集成一个新的资源HealthSearchQA,一个新的数据集包含3173一般搜索在线医疗问题。

调了一个人工智能

之后,两个llm的团队分析了性能基准。他们评估棕榈,LLM 5400亿参数,和一个变种,Flan-PaLM。后者在多个数据集,取得了骄人的成绩,打破了此前表现llm MedQA数据集。Flan-PaLM尤其擅长的问题从这个数据集由美国行医执照考试,优于其他高级llm超过17%。


但就像一个学生医生花了太多时间阅读教科书和没有足够的病人,Flan-PaLM的实用性一落千丈考试一旦离开了大厅。


当被问及给长篇回答消费者网上查询关于健康,Flan-PaLM的反应判断临床医生需要符合医疗小组共识只有61.9%的时间。令人担忧的是,近三分之一(29.7%)的LLM的答案被评估为可能产生有害的结果。


解决这些重大缺点,研究小组使用了一种叫做指令及时调优,一个方法是一种有效的解决方案适应广义llm专业领域。


这些调整了适应模型,Med-PaLM显示,承诺在其最初的评估。Med-PaLM长篇答案的92.6%是由一组临床医生判断结合科学共识,这个数字大约相当于人类临床试验数据集产生的答案。5.8%的Med-PaLM被评为潜在有害的反应。如果你仍然似乎有点高,知道人类医生同样的数据是非常相似的为6.5%。


然而,作者强调需要进一步评估。他们强调,必须做出重大进展llm之前认为适合临床使用,包括根除工作中潜在的错误模型的训练。“需要更多的研究来评估llm用于医疗保健的同质化和放大的偏见和安全漏洞继承基础模型,”他们在他们的论文结论。


参考:Singhal K,阿齐兹年代,你T, et al。大型语言模型编码的临床知识。自然。2023:1-9。doi:10.1038 / s41586 - 023 - 06291 - 2


这篇文章是发布的一份新闻稿的返工施普林格自然。材料已经编辑的长度和内容。

满足作者
Ruairi J麦肯齐
Ruairi J麦肯齐
高级科学作家
广告
Baidu