黑料吃瓜在线-黑料正能量网-黑料爆料不打烊入口
  • 黑料吃瓜在线-黑料正能量网-黑料爆料不打烊入口
  • 网站首页
  • 安博电竞
    企业简介
  • 产品展示
    产品一类
    产品二类
    产品三类
    产品四类
  • 新闻资讯
  • 成功案例
  • 安博体育APP
主页 > 新闻资讯 >

将推理的代币减少46%! Meta的新技术缩短了思维

发表时间:2025年10月19日浏览量:

PAN-时间:来自Aofeisi量子位|官方帐户Qbitai Big Model总是采取重复的步骤,从而导致更长的链条思维? META,MILA-QUEBEC AI研究所,蒙特利尔大学和普林斯顿大学共同提出了重新使用元认知能力的机制。简而言之,让模型审查并总结解决问题本身的问题,在更简洁的“行为”中区分常用的推理活动,然后将其隐藏在“行为手册”中。当您再次发现类似的问题时,该模型可以直接从手册中调用相应的行为而无需恢复。实验结果表明,这种机制通过三个APLI情况来实现了数学基准测试,例如数学和AIME等数学基准测试:行为,自我挖掘和行为条件的管理条件的行为以及适当的调整。在保持准确性速度不变的同时,推理令牌的使用可能是减少多达46%。让我们在下面详细介绍一下。简化重复的片段。如今,大型语言模型已被广泛用于考虑在求解数学和编程等复杂任务时进行推理。因此,每次遇到新问题时,都需要重复共同的替代品。这不仅会导致令牌用来扩展和延迟延迟的增加,还可以占据上下文窗口空间,从而降低了模型探索新路径的能力。同时,现有LLM的备忘录系统(例如破布)仅存储对“什么”和缺乏重复使用“如何思考”机制的知识的表达性知识,这不能解决重复推理的不反应问题。为了应对上述问题,研究小组提出了一种重复使用元认知的机制。让模型处理问题并尝试首先解决问题,然后查看整个推理过程,确定从中理解的可用步骤,一个nd最终将其转换为一组“行为”标准 - 将通过规范名称实现指令。这些“行为”包含在捕获的“手动行为”中,可以在试验阶段通过上下文的信号来调用,或者通过管理微调通过管理模型的内在内置能力。首先,研究人员描述了“行为”的整个构建过程,该框架使模型可以在识别过程中扮演3个不同的角色。元认知方法(LLM A):负责从其自身推理中获得行为;教师(LLM B):负责开发管理微调培训(SFT)的数据;研究(LLM C):推理过程可以通过行为来帮助,包括进行推理或进行SFT条件的条件。为了获得“行为”,元认知方法首先为给定问题开发解决方案,包括轨迹的推理 +最终答案。然后,rE-输入问题对解决方案以产生掩膜,主要是为了评估推理是否是逻辑的,答案是否正确,以及是否可以获得新的可用行为,以简化解决未来问题的过程。最后,通过另一个查询,元引入知识方法将问题,答案和冥想转换为一组“行为条目(包括名称和说明)”,并将它们添加到“ manu -manua角色”中。研究团队试图在三种不同的情况下执行模型识别,而令牌则更少。在第一种情况下,使用BCI进行了两个数学和AIME-24/25th数据集,而DeepSeek-R1-Distill-lalama-70b(R1-Llama-70B)和Qwen3-32b使用了BCI。 R1-LALAMA-70B用作元认知方法发生器。从上图可以看出,BCI可以通过更少的令牌实现可比性或更好的性能。另外,随着令牌的增加,Performa这种方法的不断增长仍然有所改善,表明它不会对原始模型的能力产生不利影响。在该实验中,由行为指导的自我完善,R1-llama-70b具有两个功能:元认知和学生方法。具体的方法是直接让模型批评并纠正其自己的推理轨迹以实现自我改善。这种方法就像让大型模型自行“更改课程”。给模型一个问题Q,该Q首先写入对R1轨迹的初始理解。然后,将问题Q和R1一起返回模型,让ITONG审查和改进,并生成新的轨迹R2以纠正错误或增加缺失的步骤。从下图可以看出,尽管没有更新参数,但模型可以通过使用从先前的问题解决过程中获得的行为模式来优化推理的后续效果。与普通的“临界校正”方法相比e基线,这种方法可以提高高达10%的准确性。 The conduct of conduct of fine tuning (BC-SF) BC-SFs aims to directly include high quality behavior in the model parameters, in which the R1-Llama-70B acts as both metacognitive strategyist and a teacher model, and QWEN2.5-14B, QWEN2.5-32B-Ins Llama-3.1-8B is used as student models that require fine-tuning.与常规SFT相比,新方法可以更有效地改变模型,而无需将其推理为具有推理能力的模型。值得一提的是,BC-SFT不仅在使用代币方面更好,而且在几乎所有情况下,其精度也比两个基线模型更高。参考链接:[1] https://x.com/connordovavis_ai/status/1971937767975498160 [2] https://arxiv.org/abs/2509.132237 特别声明:上面的内容(包括照片或视频(如果有))已由“ NetEase”自助媒体平台的用户上传和发布。该平台仅提供信息存储服务。注意:上面的内容(包括照片和视频(如果有))已由NetEase Hao用户上传和发布,该用户是一个社交媒体平台,仅提供服务是在存储信息中。
上一篇:布朗尼由于腿弱而在12分中的12分? Redick还在赞美 下一篇:没有了
黑料吃瓜在线-黑料正能量网-黑料爆料不打烊入口

黑料吃瓜在线-黑料正能量网-黑料爆料不打烊入口

  • 广东省广州市天河区88号
  • 400-123-4567
  • [email protected]
手机:13988999988

安博电竞

  • 企业简介

产品展示

  • 产品一类
  • 产品二类
  • 产品三类
  • 产品四类

新闻资讯

安博体育APP

Copyright © 2024-2026 黑料吃瓜在线-黑料正能量网-黑料爆料不打烊入口 版权所有

网站地图

友情链接: