人工智能/深度学习

2025年 3月 7日
基于 1F1B 的 MoE A2A 通信计算 Overlap
在 MoE 模型的训练过程中,EP rank 之间的 A2A 通信在端到端时间中占据了相当大比重,对训练效率影响很大,
3 MIN READ

2024年 7月 24日
借助最新 NVIDIA Merlin TensorFlow 插件实现大规模 Embedding 扩展
通过封装 NVIDIA Merlin HugeCTR,Sparse Operation Kit(以下简称 SOK)使得…
4 MIN READ

2024年 7月 4日
探索 FP8 训练中 Debug 思路与技巧
目前,市场上许多公司都积极开展基于 FP8 的大模型训练,以提高计算效率和性能。 在此,
2 MIN READ

2024年 4月 19日
利用 NVIDIA Merlin HierarchicalKV 实现唯品会在搜推广场景中的 GPU 推理实践
本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin…
2 MIN READ

2024年 3月 19日
FP8:前沿精度与性能的新篇章
在深度学习和人工智能的快速发展背景下,尤其是大语言模型(Large Language Model, LLM)的蓬勃发展,
3 MIN READ

2023年 12月 4日
如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型
大型语言模型正以其惊人的新能力推动人工智能的发展,扩大其应用范围。然而,由于这类模型具有庞大的参数规模,部署和推理的难度和成本极高,
2 MIN READ

2023年 11月 9日
NVIDIA Merlin 助力陌陌推荐业务实现高性能训练优化
本案例中,NVIDIA 团队与陌陌推荐系统团队深度合作,共同使用 NVIDIA GPU 和 Merlin 软件解决方案替代其原有解决方案。
2 MIN READ

2023年 11月 2日
使用 Milvus 和 NVIDIA Merlin 搭建高效推荐系统
如何搭建一个高效的推荐系统? 简单来说,现代推荐系统由训练/推理流水线(pipeline)组成,涉及数据获取、数据预处理、模型训练和调整检索、
4 MIN READ

2023年 3月 15日
适用于基于 NVIDIA 的 PC 的端到端人工智能: NVIDIA TensorRT 部署
这篇文章是关于 优化端到人工智能 的系列文章中的第五篇。 NVIDIA TensorRT 是一种在 NVIDIA…
2 MIN READ

2023年 2月 8日
基于 NVIDIA 的 PC 的端到端 AI : ONNX Runtime 中的 CUDA 和 TensorRT 执行提供程序
这篇文章是 optimizing end-to-end AI 系列文章的第四篇。 有关更多信息,请参阅以下帖子:
2 MIN READ

2023年 1月 3日
回顾年度: 2022 年趋势文章
2022 年标志着新技术和不断发展的一年,各行业产生了广泛的进步和人工智能驱动的解决方案。其中包括提高 HPC 和 AI 的工作量、
2 MIN READ

2022年 12月 5日
Sky Hackthon 比赛指北 - 基础篇
Sky Hackthon 比赛是由 Nvidia 中国开发者社区举办的,面向国内高校学生的关于算法模型应用比赛,比赛期间,
2 MIN READ

2022年 11月 1日
来 NVIDIA 第七届 Sky Hackathon,挑战智能语音垃圾分类任务
Sky Hackathon 由 NVIDIA 发起并主办,项目旨在帮助在校学生、
2 MIN READ

2022年 9月 18日
GPU 教育的他山之石 – NVIDIA GPU教育论坛
NVIDIA GEC(GPU Education Center)是提供给全国 在 GPU 教育领域正在做出贡献的教师们的沟通交流平台,
1 MIN READ

2022年 8月 31日
与 Sophia Abraham 一起探索人工智能事业
Sophia Abraham 一直认为她会成为一名医生。她目前正在圣母大学攻读计算机科学和计算机工程博士学位。
1 MIN READ

2022年 8月 18日
免费学 DOCA 软件开发入门课程 释放 DPU 潜力
继今年 1 月 NVIDIA 推出第一个自学 DOCA 课程之后,NVIDIA 深度学习培训中心(DLI)今天又发布了第二个免费自学…
1 MIN READ