微软通过“提示工程”让GPT-4 成医学专家，测试准确率首次超过 90%

微软最新研究再次证明了提示工程的威力，他们仅凭「提示工程」让 GPT-4 成为医学专家！在医疗专业领域，GPT-4 在 MultiMed QA 九个测试集中取得最优结果。使用他们提出的最新提示策略 Medprompt，GPT-4 在医学专业测试准确率首次超过 90%，超越了高度微调模型 BioGPT 和 Med-PaLM 等。研究人员表示 Medprompt 方法是通用的，不仅适用于医学，还可以推广到电气工程、机器学习、法律等专业中。

微软仅凭「提示工程」让 GPT-4 成医学专家.jpg

微软仅凭“提示工程”让 GPT-4 成医学专家

Medprompt 是多种提示策略的组合体，包含三大法宝：

动态少样本选择（Dynamic few-shot selection）；

自生成思维链（Self-generated chain of thought）；

选项洗牌集成（Choice shuffling ensemble）。

使用 Medprompt 提示策略的 GPT-4，在 MultiMedQA 的九个基准数据集中均取得最高分，优于 Flan-PaLM 540B、Med-PaLM 2。

此外研究人员还讨论了 Medprompt 策略在“Eyes-Off”数据上的表现，也就是在训练或优化过程中模型未曾见过的数据中的表现，用于检验模型是否过拟合训练数据。

结果 GPT-4 结合 Medprompt 策略在多个医学基准数据集上表现出色，平均准确率达到了 91.3%。

研究人员还在 MedQA 数据集上进行了消融实验，探索了三个组件对于整体性能的相对贡献。

其中自动生成思维链步骤对性能提升的贡献最大。而且 GPT-4 自动生成的思维链比 Med-PaLM 2 中专家策划的得分更高！

本文由小熊AI网发布，不代表小熊AI网立场，转载联系作者并注明出处：https://www.xiaoxiong360.com/html/info/2023.html

微软通过“提示工程”让GPT-4 成医学专家​，测试准确率首次超过 90%

相关推荐

微软通过“提示工程”让GPT-4 成医学专家，测试准确率首次超过 90%