Youtu-LLM – 腾讯Youtu团队开源的轻量级语言模型

Youtu-LLM是什么

Youtu-LLM 是腾讯 Youtu 团队开源的轻量级语言模型,参数规模为 19.6 亿。专为智能体任务设计,具备强大的“原生智能体能力”,在多项任务中超越同规模甚至更大模型。模型采用紧凑架构和 128K 长上下文窗口,支持长程任务处理,并针对 STEM 领域优化词表,提升推理效率。模型已全面开源,支持 Base 和 Instruct 版本,提供微调工具,方便开发者使用。

Youtu-LLM

Youtu-LLM的主要功能

  • 强大的智能体能力:具备原生智能体能力,能自主规划任务、执行操作并根据反馈调整策略,适合复杂任务处理。
  • 高效推理与长上下文支持:采用紧凑架构,支持 128K 上下文窗口,适合长程任务如复杂代码修复和多跳研究。
  • 优化的 STEM 词表:针对数学、代码等专业领域设计,提升 token 压缩率和推理效率。
  • 系统性预训练课程:从零开始预训练,通过常识、STEM、智能体三阶段学习,逐步提升模型能力。
  • 高质量智能体轨迹数据:引入大量智能体轨迹数据,涵盖数学推理、代码修复、深度研究等场景,提升模型的智能体任务表现。
  • 开源与灵活部署:全面开源,支持 Base 和 Instruct 版本,提供微调工具,方便开发者在资源受限的场景中部署。

Youtu-LLM的技术原理

  • 紧凑架构与长上下文:采用 Dense MLA 架构,支持 128K 上下文窗口,适合长程任务处理,同时保持高效的推理能力。
  • 优化的分词器设计:专为 STEM 领域设计的 128K 词表,提升数学和代码等专业领域的推理效率。
  • 三阶段预训练课程:从零开始预训练,分为常识阶段、STEM 聚焦阶段和智能体中训阶段,逐步提升模型的推理和规划能力。
  • 智能体轨迹合成:引入高质量的智能体轨迹数据,涵盖数学推理、代码修复、深度研究等场景,强化模型的智能体任务表现。
  • 创新的训练范式:通过“常识 → STEM → 智能体”的课程式训练,让模型内化规划、执行、反思等能力,实现轻量但原生智能。

Youtu-LLM的项目地址

  • 项目官网:https://youtu-tip.com/#llm
  • Github仓库:https://github.com/TencentCloudADP/youtu-tip/tree/master/youtu-llm

Youtu-LLM的应用场景

  • 代码助手:能理解复杂代码库结构,定位和修复代码中的错误,编写符合项目规范的代码,自动化软件工程任务。
  • 研究助手:适合文献综述和信息整合,支持多跳问答和知识推理,能自动生成研究报告,辅助学术写作。
  • 通用智能体:可以自动化日常任务,实现多工具协同工作,分解和执行复杂任务,作为个人 AI 助手使用。
  • 边缘部署:由于参数量较小,适合在消费级 GPU、移动端和边缘设备上运行,提供低延迟、低成本的推理服务,适用于隐私敏感场景的本地部署。
  • 多跳推理与总结:能解决需要多步推理的复杂问题,如深度关联分析、因果推理等。
  • 知识密集型任务:高效处理依赖大量结构化知识的问题,如企业知识库问答、技术文档深度解析。
© 版权声明

相关文章

即梦AI

暂无评论

暂无评论...