AI项目和框架

AI工具集介绍和收录了当前流行的AI研究项目和框架,紧跟最新AI领域的进展,解读AI研究论文和方法框架,帮你快速了解这些项目的工作原理。

【限时福利】云服务器+通义万相超值套餐,首购119元起!

价值千元的组合套餐新用户首购仅需119元!云服务器ECS 2核2G 99元/年,通义万相模型节省计划 20元/3个月。让创意自由落地,低成本实现 AI 生图生视频全流程。

Obsidian-skills – Obsidian推出的开源AI工具包

Obsidian-skills 是 Obsidian 团队开发的一组开源工具,帮助用户更好地将 AI 工具(如 Claude Code)与 Obsidian 笔记系统结合使用。包含三大核心技能:obsid...

FantasyWorld – 高德地图联合北邮推出的3D世界建模框架

FantasyWorld是高德地图(AMAP)和北京邮电大学合作开发的创新性3D世界建模框架,专注于通过统一的视频和3D预测生成高质量的3D场景。框架通过在冻结的视频基...

Nemotron Speech ASR – 英伟达开源的语音识别模型

Nemotron Speech ASR 是英伟达开源的专注于低延迟、实时流式语音识别的模型。通过缓存感知架构,将已处理的语音特征缓存,仅对新音频帧进行计算,实现单句转...

DeepTutor – 香港大学开源的AI学习助手

DeepTutor 是香港大学数据科学实验室开源的 AI 学习助手,通过多智能体架构和知识图谱技术,将复杂的知识体系转化为高效的学习体验。

Qwen3-VL-Reranker – 阿里通义开源的跨模态理解模型

Qwen3-VL-Reranker 是阿里通义基于 Qwen3-VL 构建的跨模态理解模型,专为多模态信息检索设计。模型接收任意模态组合的查询与文档对(如图文查询匹配图文文档...

Qwen3-VL-Embedding – 阿里通义开源的多模态信息检索模型

Qwen3-VL-Embedding 是阿里通义推出的多模态信息检索模型,专为处理文本、图像、可视化文档和视频等多种模态输入而设计。模型基于强大的 Qwen3-VL 架构,能将...

ChatDev 2.0 – 清华联合面壁智能开源的零代码多智能体工具

ChatDev 2.0 是清华大学、上海交通大学、OpenBMB、面壁智能联合团队开源的零代码多智能体工具。工具通过可视化交互,让用户通过“拖拽 + 配置”快速构建多智能...

VoiceSculptor – 西工大联合语图智能等开源的音色设计模型

VoiceSculptor 是西北工业大学、语图智能等机构推出的音色设计模型,能通过自然语言指令实现对语音合成的细粒度控制。

EvoCUA – 美团开源的通用多模态计算机操作模型

EvoCUA(Evolving Computer Use Agent)是美团开源的多模态模型,专注于计算机使用自动化任务。EvoCUA通过自然语言指令和屏幕截图实现对Chrome、Excel、Power...
1 2 3 270