人工智能/深度学习

2025年 3月 7日

基于 1F1B 的 MoE A2A 通信计算 Overlap

在 MoE 模型的训练过程中，EP rank 之间的 A2A 通信在端到端时间中占据了相当大比重，对训练效率影响很大，

3 MIN READ

2024年 7月 24日

借助最新 NVIDIA Merlin TensorFlow 插件实现大规模 Embedding 扩展

通过封装 NVIDIA Merlin HugeCTR，Sparse Operation Kit（以下简称 SOK）使得…

4 MIN READ

2024年 7月 4日

探索 FP8 训练中 Debug 思路与技巧

目前，市场上许多公司都积极开展基于 FP8 的大模型训练，以提高计算效率和性能。在此，

2 MIN READ

2024年 4月 19日

利用 NVIDIA Merlin HierarchicalKV 实现唯品会在搜推广场景中的 GPU 推理实践

本实践中，唯品会 AI 平台与 NVIDIA 团队合作，结合 NVIDIA TensorRT 和 NVIDIA Merlin…

2 MIN READ

2024年 3月 19日

FP8：前沿精度与性能的新篇章

在深度学习和人工智能的快速发展背景下，尤其是大语言模型（Large Language Model, LLM）的蓬勃发展，

3 MIN READ

2023年 12月 4日

如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

大型语言模型正以其惊人的新能力推动人工智能的发展，扩大其应用范围。然而，由于这类模型具有庞大的参数规模，部署和推理的难度和成本极高，

2 MIN READ

2023年 11月 9日

NVIDIA Merlin 助力陌陌推荐业务实现高性能训练优化

本案例中，NVIDIA 团队与陌陌推荐系统团队深度合作，共同使用 NVIDIA GPU 和 Merlin 软件解决方案替代其原有解决方案。

2 MIN READ

2023年 11月 2日

使用 Milvus 和 NVIDIA Merlin 搭建高效推荐系统

如何搭建一个高效的推荐系统？简单来说，现代推荐系统由训练/推理流水线（pipeline）组成，涉及数据获取、数据预处理、模型训练和调整检索、

4 MIN READ

2023年 3月 15日

适用于基于 NVIDIA 的 PC 的端到端人工智能： NVIDIA TensorRT 部署

这篇文章是关于优化端到人工智能的系列文章中的第五篇。 NVIDIA TensorRT 是一种在 NVIDIA…

2 MIN READ

2023年 2月 8日

基于 NVIDIA 的 PC 的端到端 AI ： ONNX Runtime 中的 CUDA 和 TensorRT 执行提供程序

这篇文章是 optimizing end-to-end AI 系列文章的第四篇。有关更多信息，请参阅以下帖子：

2 MIN READ

2023年 1月 3日

回顾年度： 2022 年趋势文章

2022 年标志着新技术和不断发展的一年，各行业产生了广泛的进步和人工智能驱动的解决方案。其中包括提高 HPC 和 AI 的工作量、

2 MIN READ

2022年 12月 5日

Sky Hackthon 比赛指北 - 基础篇

Sky Hackthon 比赛是由 Nvidia 中国开发者社区举办的，面向国内高校学生的关于算法模型应用比赛，比赛期间，

2 MIN READ

2022年 11月 1日

来 NVIDIA 第七届 Sky Hackathon，挑战智能语音垃圾分类任务

Sky Hackathon 由 NVIDIA 发起并主办，项目旨在帮助在校学生、

2 MIN READ

2022年 9月 18日

GPU 教育的他山之石 – NVIDIA GPU教育论坛

NVIDIA GEC（GPU Education Center）是提供给全国在 GPU 教育领域正在做出贡献的教师们的沟通交流平台，

1 MIN READ

2022年 8月 31日

与 Sophia Abraham 一起探索人工智能事业

Sophia Abraham 一直认为她会成为一名医生。她目前正在圣母大学攻读计算机科学和计算机工程博士学位。

1 MIN READ

2022年 8月 18日

免费学 DOCA 软件开发入门课程释放 DPU 潜力

继今年 1 月 NVIDIA 推出第一个自学 DOCA 课程之后，NVIDIA 深度学习培训中心（DLI）今天又发布了第二个免费自学…

1 MIN READ

人工智能/深度学习

基于 1F1B 的 MoE A2A 通信计算 Overlap

借助最新 NVIDIA Merlin TensorFlow 插件实现大规模 Embedding 扩展

探索 FP8 训练中 Debug 思路与技巧

利用 NVIDIA Merlin HierarchicalKV 实现唯品会在搜推广场景中的 GPU 推理实践

FP8：前沿精度与性能的新篇章

如何在 NVIDIA TensorRT-LLM 中支持 Qwen 模型

NVIDIA Merlin 助力陌陌推荐业务实现高性能训练优化

使用 Milvus 和 NVIDIA Merlin 搭建高效推荐系统

适用于基于 NVIDIA 的 PC 的端到端人工智能： NVIDIA TensorRT 部署

基于 NVIDIA 的 PC 的端到端 AI ： ONNX Runtime 中的 CUDA 和 TensorRT 执行提供程序

回顾年度： 2022 年趋势文章

Sky Hackthon 比赛指北 - 基础篇

来 NVIDIA 第七届 Sky Hackathon，挑战智能语音垃圾分类任务

GPU 教育的他山之石 – NVIDIA GPU教育论坛

与 Sophia Abraham 一起探索人工智能事业

免费学 DOCA 软件开发入门课程 释放 DPU 潜力

免费学 DOCA 软件开发入门课程释放 DPU 潜力