《自然》杂志刊登研究论文：AI大模型越先进越“聪明”，越容易出现「睁着眼睛说瞎话」

2025-01-07 来源｜AI图库吧

9 月 29 日消息，一项新研究发现，随着大语言模型变得越来越强大，它们似乎也越来越容易编造事实，而不是避免或拒绝回答它们无法回答的问题。这表明，这些更聪明的 AI 聊天机器人实际上变得不太可靠。

这项研究发表在《自然》杂志上，研究人员研究了一些业界领先的商业化 AI 大模型：OpenAI 的 GPT 和 Meta 的 LLaMA，以及由研究小组 BigScience 创建的开源模型 BLOOM。

研究发现，虽然这些 LLM 的回答在许多情况下变得更加准确，但总体上可靠性更差，给出错误答案的比例比旧模型更高。

瓦伦西亚人工智能研究所在西班牙的研究员 José Hernández-Orallo 对《自然》杂志表示：“如今，它们几乎可以回答一切。这意味着更多正确的答案，但也意味着更多错误的答案。”

格拉斯哥大学的科学和技术哲学家 Mike Hicks 对此进行了更严厉的评价，Mike Hicks（未参与该研究）告诉《自然》杂志：“在我看来，这就像我们所说的胡说八道，它越来越擅长假装知识渊博。”

测试中，这些大模型被问及了从数学到地理等各种主题，并被要求执行诸如按指定顺序列出信息等任务。总体而言，更大、更强大的模型给出了最准确的答案，但在更难的问题上表现不佳，其准确率较低。

研究人员称，一些最大的“撒谎者”，比如 OpenAI 的 GPT-4 和 OpenAI o1，但所有被研究的大模型似乎都呈这种趋势，对于 LlaMa 系列模型，没有一个能够达到 60% 的准确率，即使是最简单的问题。

而当被要求判断聊天机器人的回答是准确还是不准确时，一小部分参与者有 10% 到 40% 的概率判断错误。

总之研究表明，随着 AI 模型的参数规模越大（就参数、训练数据和其他因素而言），它们给出错误答案的比例就越高。

研究人员称，解决这些问题最简单的方法是让大语言模型不那么急于回答一切。Hernández-Orallo 称：“可以设置一个阈值，当问题具有挑战性时，让聊天机器人说「不，我不知道」。”

但如果 AI 聊天机器人被限制为只回答它们知道的东西，可能会暴露技术的局限性。

【AI奇点网2024年11月11日早报】本站每日播报AI业界最新资讯，触摸时代脉搏，掌握未来科技动向。事不宜迟，点击查看今日AI资讯早餐。

【AI奇点网2024年11月12日早报】本站每日播报AI业界最新资讯，触摸时代脉搏，掌握未来科技动向。事不宜迟，点击查看今日AI资讯早餐。

【AI奇点网2024年11月13日早报】本站每日播报AI业界最新资讯，触摸时代脉搏，掌握未来科技动向。事不宜迟，点击查看今日AI资讯早餐。

这两天就有朋友来问我，有没有那种能修图的AI，就是扩图+消除啥的傻瓜好用的。大家大概的需求总结一下其实就两，AI消除+AI扩图。

据华尔街日报报道，苹果公司退出了对 OpenAI 的新一轮融资谈判，而微软则计划向 OpenAI 追加约 10 亿美元的投资。

Meta公司推出了Llama 3 2，也是它首款能够理解图像和文本的旗舰视觉模型。包含中型和小型两个版本，以及更轻量化可用于手机端侧的纯文本模型。