1. 主页 > AI行业 > 行业快讯

微软通过“提示工程”让GPT-4 成医学专家​,测试准确率首次超过 90%

微软最新研究再次证明了提示工程的威力,他们仅凭「提示工程」让 GPT-4 成为医学专家!在医疗专业领域,GPT-4 在 MultiMed QA 九个测试集中取得最优结果。使用他们提出的最新提示策略 Medprompt,GPT-4 在医学专业测试准确率首次超过 90%,超越了高度微调模型 BioGPT 和 Med-PaLM 等。研究人员表示 Medprompt 方法是通用的,不仅适用于医学,还可以推广到电气工程、机器学习、法律等专业中。

微软仅凭「提示工程」让 GPT-4 成医学专家.jpg

微软仅凭“提示工程”让 GPT-4 成医学专家

Medprompt 是多种提示策略的组合体,包含三大法宝:

动态少样本选择(Dynamic few-shot selection);

自生成思维链(Self-generated chain of thought);

选项洗牌集成(Choice shuffling ensemble)。

使用 Medprompt 提示策略的 GPT-4,在 MultiMedQA 的九个基准数据集中均取得最高分,优于 Flan-PaLM 540B、Med-PaLM 2。

此外研究人员还讨论了 Medprompt 策略在“Eyes-Off”数据上的表现,也就是在训练或优化过程中模型未曾见过的数据中的表现,用于检验模型是否过拟合训练数据。

结果 GPT-4 结合 Medprompt 策略在多个医学基准数据集上表现出色,平均准确率达到了 91.3%。

研究人员还在 MedQA 数据集上进行了消融实验,探索了三个组件对于整体性能的相对贡献。

其中自动生成思维链步骤对性能提升的贡献最大。而且 GPT-4 自动生成的思维链比 Med-PaLM 2 中专家策划的得分更高!

本文由小熊AI网发布,不代表小熊AI网立场,转载联系作者并注明出处:https://www.xiaoxiong360.com/html/info/2023.html