引文幻觉大幅下降的AI模型诞生准确率与人类专家相近_人工智能_资讯头条

引文幻觉大幅下降的AI模型诞生准确率与人类专家相近

2026-02-05 网易 189 0

核心提示：引文幻觉大幅下降的AI模型诞生准确率与人类专家相近

《自然》4日报道了一个开源语言模型“OpenScholar”，其在准确进行文献综述方面可超越商用大语言模型。比如，在该研究开展的实验中，GPT4o会在78%至90%的情况下出现引文幻觉，而“OpenScholar”的引文准确率却与人类专家相仿。虽然仍需进一步优化，但该工具有望帮助科学家处理复杂且日益繁重的科学文献综述任务。

科学文献综述对于支持循证决策、微调科学过程和引导新发现都很重要。然而，文献发表数量的增长使研究人员很难掌握全部资讯。商用大语言模型可以提供协助，但却很容易出错，如归因能力有限和引文幻觉。

为了生成准确、全面、透明的科学文献综述，美国华盛顿大学团队推出了“OpenScholar”。该模型是专为科研任务设计的检索增强语言模型。其他系统也用过这个框架，但研究团队将其与一个包含4500万篇最新开放获取科研论文的专业数据库以及一个自我评估机制相结合，从而优化了其输出。

研究团队还创建了名为“ScholarQABench”的基准工具来评估文献综述的自动化。测试显示，“OpenScholar”的准确率比GPT4o和PaperQA2（一个文献综述工具）这类现有系统分别高出6.1%和5.5%。此外，“OpenScholar”生成的答案，在50%到70%的情况下比专家注释器的答案更有用。

团队总结道，以上结果和引文幻觉大幅下降证明了“OpenScholar”有望支持和推动进一步研究工作。但他们指出，该系统仍有局限性并强调基于语言模型的系统无法使科学文献综述完全自动化。他们向学界同时开放“ScholarQABench”和“OpenScholar”，以鼓励进一步研究和优化。

(责任编辑：小编)

点赞 0 反对 0 举报 0 收藏 0 打赏 0 评论 0

免责声明

•: 本文仅代表作者个人观点，本站未对其内容进行核实，请读者仅做参考，如若文中涉及有违公德、触犯法律的内容，一经发现，立即删除，作者需自行承担相应责任。涉及到版权或其他问题，请及时联系我们228559116@qq.com

0 条相关评论

• 不让中国人用 Claude，A社塞了个“间谍软件开	• AI能力进步速度已超过人类科学认知
• 微信正在与华为、荣耀、小米、OPPO、vivo 等手	• 欧盟AI监管体系持续完善并日逐走向成熟
• 多国积极调整人工智能发展战略	• AI并不万能，福特“灰胡子工程师”重新上岗
• 高通携全新CPU和大手笔收购入局AI算力	• 中国科研团队发布“智医随行”医疗大模型
• 智谱 GLM 5.2 超越 Claude Fable 5登顶 Design	• 金山办公将正式推出面向组织级应用的全新AI办公

特色频道

扩展专区

用户专区

引文幻觉大幅下降的AI模型诞生准确率与人类专家相近

人形机器人产业正全面迈入“实景实训”的关键落地期

超级智能与存在论难题的破解

特色频道

扩展专区

用户专区

引文幻觉大幅下降的AI模型诞生 准确率与人类专家相近

人形机器人产业正全面迈入“实景实训”的关键落地期

超级智能与存在论难题的破解

引文幻觉大幅下降的AI模型诞生准确率与人类专家相近