4月20日·OpenAI的o3模型幻觉率飙升,强化学习成“背锅侠”
4月20日·周日 AI工具和资源推荐
AI智库导航-aiguide.cc为您提供最新的AI新闻资讯和最新的AI工具推荐,在这里你可以获得用于营销的AI聊天机器人、AI在商业管理中的应用、用于数据分析的AI工具、机器学习模型、面向企业的AI解决方案、AI在商业客户服务中的应用、AI和自动化工具等。
OpenAI的o3模型幻觉率飙升,强化学习成“背锅侠”
OpenAI的最新推理模型o3和o4-mini在性能提升的同时,幻觉率却显著增加。根据PersonQA基准测试,o3的幻觉率高达33%,几乎是前代模型o1(16%)的两倍,而o4-mini的幻觉率更是高达48%。这一问题引发了广泛关注,尤其是在编码任务中,o3的幻觉问题尤为显著,被认为对编写和开发超1000行代码的项目极其不利。研究指出,强化学习(RL)可能是导致幻觉率上升的根源。o3和o4-mini采用了基于强化学习的训练方法,虽然在特定任务上表现优异,但在无法解决问题时,模型倾向于输出“最佳猜测”,而非承认局限,从而加剧了幻觉现象。此外,o系列模型在训练中因成功使用“代码工具”而获得奖励,即使在禁用工具的场景中,也可能“假想”使用工具来组织推理过程,这种行为在训练中被强化,但也导致了模型虚构工具使用的场景。尽管o3在某些任务上表现出色,但过度优化问题使其在一些普通任务上表现不佳,甚至不如前代模型。这一现象表明,强化学习中的过度优化问题需要进一步研究和解决。来源:微信公众号【新智元】

AI版宝可梦冲上全球前10%!德州大学团队用Transformer和离线强化学习训练智能体
德州大学奥斯汀分校的研究团队开发了一个名为Metamon的宝可梦对战AI智能体,该智能体通过Transformer架构和离线强化学习,仅靠47.5万场人类对战回放数据进行训练,成功在全球宝可梦对战平台Pokémon Showdown的排名中进入前10%。这一成果展示了AI在复杂策略游戏中的强大能力。研究团队通过将第三方视角的回放数据转换为第一人称视角,构建了一个大规模的离线强化学习数据集。他们采用了actor-critic架构,结合行为克隆和强化学习技术,训练了多个不同大小的模型,最终实现了与人类玩家相当的竞技水平。该研究不仅展示了数据驱动AI在游戏领域的潜力,还为未来AI在复杂任务中的应用提供了新的思路。来源:微信公众号【新智元】

近40年前的数学赌局终结:拉马努金图的概率之谜被解开
近40年前,数学家Noga Alon和Peter Sarnak就最优扩展图(拉马努金图)的概率展开了一场赌局。Alon认为这些图很常见,而Sarnak则认为它们极为罕见。最近,姚班校友黄骄阳与姚鸿泽、Theo McKenzie等三位数学家通过物理方法和随机矩阵理论,成功解决了这一难题。他们证明了随机正则图的第二特征值分布遵循Wigner普遍性猜想,并计算出大约69%的随机正则图是拉马努金图。这一结果表明,拉马努金图既不算常见,也不算稀有,从而终结了这场持续数十年的数学赌局。该研究不仅为图论领域带来了新的突破,也为随机矩阵理论的应用开辟了新的方向。来源:微信公众号【机器之心】

首个融合重建-预测-规划的生成式世界模型AETHER开源
上海人工智能实验室开源了生成式世界模型AETHER,这是首个通过合成数据训练而成的模型,能够实现3D空间决策与规划能力。AETHER采用了“重建—预测—规划”一体化框架,通过几何空间建模,大幅提升了模型的空间推理能力和一致性。该模型在目标导向视觉规划、4D动态重建和动作条件视频预测等任务中表现出色,即使仅使用合成数据训练,也能在真实环境中展现出强大的零样本泛化能力。AETHER的设计包括三大核心技术:目标导向视觉规划、4D动态重建和动作条件视频预测,这些技术使模型能够感知环境、理解物体之间的关系,并做出智能决策。实验结果表明,AETHER在动态场景重建方面达到了甚至超过现有SOTA水平,为具身智能大模型在数据增强、路径规划和基于模型的强化学习等方向提供了新的技术支撑。来源:微信公众号【机器之心】

复旦与字节联手开源纯自回归图像生成模型SimpleAR
复旦大学视觉与学习实验室和字节Seed的研究者们开源了纯自回归图像生成模型SimpleAR。该模型在0.5B参数规模下,能够生成1024分辨率的高质量图像,并在文生图基准测试中取得了1B以内模型的最佳性能。SimpleAR通过“预训练-有监督微调-强化学习”的三阶段训练,显著提升了模型的指令跟随能力和生成效果。此外,SimpleAR将文本编码和视觉生成集成在一个decoder-only的Transformer中,更好地支持跨模态对齐,并且在推理效率上取得了显著提升,仅需14秒即可生成1024分辨率的图像。该模型的开源为自回归视觉生成领域提供了新的探索方向,其代码和模型权重已在GitHub上公开。来源:微信公众号【机器之心】
