PaperCache

AI Research Papers

首页
论文合集
关于
演示文稿合集

⭐ 我的收藏 👤 个人资料 📊 统计分析

正在验证管理员权限...

🔒

访问受限

此页面仅限管理员访问。

返回首页

演示文稿合集

探索最新的演示文稿和技术分享

计算中... 演示文稿总数

计算中... 分类数量

计算中... 标签数量

智能筛选

共找到 计算中... 个标签

LLM

Llm › engineering › inference

2025-11aiday25-hz

Best practice of Blackwell GPU deployment in the Chinese market
何平, NVIDIA TensorRT团队高级工程师张一林, NVIDIA GPU加速计算专家团队高级工程师 AI Open Day 20251107
2025-11aiday25-hz

TensorRT-LLM Large-scale Expert Parallelism Optimizations
Enwei Zhu (朱恩伟), NVIDIA 加速计算专家团队高级工程师 Jinyang Yuan (袁劲飏), NVIDIA 加速计算专家团队高级工程师
2025-11aiday25-hz

Linear Attention
韩广云，NVIDIA GPU 加速计算专家团队高级工程师 | AI Open Day/2025-11-07
2025-11aiday25-hz

A Practical Guide to Deploying NVFP4 for Efficient Inference on Blackwell GPUs
薛博阳, NVIDIA 加速计算专家团队高级工程师 2025/11/07
2025-05aiday25-bj

TensorRT-LLM驱动DeepSeek性能极限-协同腾讯联合优化实践
Raccoon Liu : 腾讯大模型推理负责人朱文熙 : 腾讯开悟平台研发负责人王猛 : NVIDIA 高级加速计算专家
2025-05aiday25-bj

TensorRT-LLM × PyTorch: A New Development Paradigm for High-Performance LLM Inference
更多示例和参数：更多带有附加参数的示例可在 examples/pytorch/quickstart_advanced.py 中找到。
2025-05aiday25-bj

TensorRT-LLM
TensorRT LLM 旨在帮助用户在 NVIDIA AI 平台上获得大型语言模型（LLM）推理部署的最佳性能。
2025-03gtc25

FlashAttention-3: Fast and Accurate Attention with Asynchrony and Low-precision
Tri Dao¹ and Jay Shah² ¹ Together AI / Princeton University, tri@tridao.me ² ...

Llm › engineering › train

2025-11aiday25-hz

Megatron Core MoE Updates - 2025 H2
颜子杰, 陈楷文 | NVIDIA GPU加速计算专家团队 | Nov 07, 2025
2025-11aiday25-hz

Distributed Implementation of Muon and Emerging Optimizers in Megatron-Core
傅德禹, NVIDIA GPU 加速计算专家团队 | Al Open Day | Nov 07, 2025
2025-11aiday25-hz

Best Practice of MLA Kernel Optimization on Blackwell
王泽宇, NVIDIA GPU加速计算专家团队高级工程师 | November 7, 2025
2025-11aiday25-hz

Best Practices of Reinforcement Learning with verl
Liwei Ma, Yan Bai, DevTech China | NVIDIA AI Open Day, Nov. 7th, 2025
2025-11aiday25-hz

DeepSeek-V3 Pre-training Optimization on Grace Blackwell
姚鑫 | NVIDIA GPU加速计算专家团队高级工程师 | NVIDIA AI Open Day, Nov. 7th, 2025
2025-11aiday25-hz

Hybrid-EP: An Efficient MoE Communication Implementation
郁凡, 刘童, NVIDIA GPU加速计算专家团队, 高级工程师 | NVIDIA AI Open Day, Nov. 7th, 2025
2025-05aiday25-bj

MCore MoE in 2025 - DeepSeek-V3 and Beyond
Zijie Yan and Hongbin Liu NVIDIA
2025-05aiday25-bj

Megatron-Core Custom FSDP
全分片数据并行（FSDP）简介 - FSDP 工作原理：ZeRO-DP 分片策略 - FSDP 工作原理：FSDP 单元 ...
2025-05aiday25-bj

FP8 Training Recipes, Performance and Convergence
Xin Yao, DevTech | AI Open Day/May 30, 2025
2025-03gtc25

Profiling Large Language Model Trainings on the Grace Hopper Superchip using Nsight Systems
Karin Sevegnani, Senior Solutions Architect, NVAITC UK | GTC2025 Giuseppe Fia...

MLSYS

Mlsys › cpu

2025-03gtc25

Application Optimization for NVIDIA Grace CPU
Lukas Krenz, Mathias Wagner, Sr. Developer Technology Engineer | S72978 | GTC...

Mlsys › framework

2022-03gtc22

TPAT : TensorRT Plugin Autogen Tool
Qian Qiu Tencent AI Lab Meng Wang NVIDIA DevTech 作者信息未提供

Mlsys › gpu

2025-11aiday25-hz

DeepGEMM 2.0 Technical Overview
Ray Wang (王辉） NVIDIA GPU加速计算专家团队高级工程师

Mlsys › gpu › cuda

2025-05aiday25-bj

Optimizing Memory Bandwidth and Latency on Hopper + Blackwell
Allard Hendriksen, Sr. Developer Technology Engineer Beijing Open AI Day, May...
2025-05aiday25-bj

Balancing the Compute Throughput & Latency in Async Programming
Petrick Liu, Jiang Shao, NVIDIA DevTech Team | AI Open Day / 2025.05.30
2025-03gtc25

CUDA Techniques to Maximize Compute and Instruction Throughput [S72685]
Ben Pinzone, Compute Developer Technology Engineer David Clark, Compute Devel...
2025-03gtc25

CUDA Techniques to Maximize Memory Bandwidth and Hide Latency [S72683]
Athena Elafrou, Sr. Developer Technology Engineer Allard Hendriksen, Sr. Deve...
2025-03gtc25

How You Should Write a CUDA C++ Kernel
George Sifniotakis, Software Engineering Manager | March 18
2025-03gtc25

The CUDA Python Developer's Toolbox
Katrina Riehl, PhD Principal Technical Product Manager - CUDA Python GTC 2025...
2025-03gtc25

1,001 Ways to Write CUDA Kernels in Python
Leo Fang, CUDA Python Tech Lead | GTC 2025
2025-03gtc25

How to Get Data Between Storage and the GPU at the Speed of Light
CJ Newburn (Distinguished Engineer, NVIDIA GPU Cloud), Vikram Maddimedi (Seni...
2025-03gtc25

Performance Optimization Tutorial, Part 3 [S72686]: CUDA Techniques to Maximize Concurrency and System Utilization
Myrto Papadopoulou (NVIDIA DevTech Compute) Igor Terentyev (NVIDIA DevTech Co...
2025-03gtc25

THE CUDA C++ DEVELOPER'S TOOLBOX
Bryce Adelstein Lelbach, NVIDIA
2025-03gtc25

It's Easier than You Think – Debugging and Optimizing CUDA with Intelligent Developer Tools
CUPTI: CUDA Profiling Tools Interface
2025-03gtc25

Accelerated Python The Community and Ecosystem
Anshuman Bhat, Product Management Compute Platforms Jeremy Tanner, Open Sourc...
2025-03gtc25

How To Write A CUDA Program The Parallel Programming Edition
Stephen Jones, CUDA Architect | GTC 2025
2025-03gtc23

The Performance of CUDA with the Flexibility of PyTorch
本次演讲的目标是展示 PyTorch 用户如何从机器学习研究者转变为系统研究者，并说服听众也进行同样的转变。
2025-03gtc25

Get the most performance from Grace Hopper
Akshay Subramaniam, Devtech Compute | GTC 2025
2025-03gtc25

CUDA: New Features and Beyond
Stephen Jones, CUDA Architect | GTC 2025
2024-03gtc24

Advanced Performance Optimization in CUDA [S62192]
Igor Terentyev*, NVIDIA DevTech Compute GPU Technology Conference / March 18t...
2024-03gtc24

Grace Hopper Superchip Architecture and Performance Optimizations for AI Applications
Matthias Jouanneaux, Vishal Mehta, NVIDIA DevTech Compute | GPU Technology Co...
2024-03gtc24

CUDA: New Features and Beyond
Stephen Jones, CUDA Architect | GTC 2024
2023-03gtc23

Programming Model and Applications for Grace Hopper Superchip
Vishal Mehta, Mathias Wagner, Devtech Compute GTC, March 2023
2023-03gtc23

Optimizing at Scale: Investigating Hidden Bottlenecks in Multi-Node Workloads
Daniel Horowitz, Sr Director of Engineering, NVIDIA Developer Tools | GTC Mar...
2023-03gtc23

Robust and Efficient CUDA C++ Concurrency with Stream-Ordered Allocation
Mark Harris, NVIDIA 作者信息未提供日期信息未提供
2023-03gtc23

CUDA: New Features and Beyond
报告开篇引用了NVIDIA CEO Jensen Huang的论断：“摩尔定律已死（Moore's Law is dead）”。
2023-03gtc23

Increasing Data Center Efficiency by Optimizing GPU Utilization Session ID: S51297
Milan Diebel, Sr Product Line Manager NVIDIA Varun Nanda Kumar, Sr Product Ma...
2023-03gtc23

CUDA Graphs 101
Sally Stevenson, Senior System SW Engineer | GTC 2023 March 22, 2023
2023-03gtc23

How To Write A CUDA Program
本系列幻灯片旨在介绍如何编写CUDA程序。演讲从CUDA平台的历史发展和演讲者的个人经历入手，引出程序员与GPU硬件交互的核心问题。
2022-03gtc22

OPTIMIZING CUDA APPLICATIONS FOR NVIDIA HOPPER ARCHITECTURE
Guillaume Thomas-Collignon, Vishal Mehta DevTech Compute, GTC 2022
2022-03gtc22

INSIDE THE NVIDIA HOPPER ARCHITECTURE
MICHAEL ANDERSCH & GREG PALMER, GPU ARCHITECTS 作者信息未提供
2022-03gtc22

AUTOMATED PERFORMANCE IMPROVEMENT USING CUDA LINK TIME OPTIMIZATION
MIKE MURPHY, COMPILER DEVELOPMENT 作者信息未提供
2022-03gtc22

CUDA: New Features and Beyond
软件开发的第一个时代是单线程时代（持续至约2007年），其特点是顺序执行代码（Straight-Line Code）。
2022-03gtc22

ACCELERATING BACKWARD DATA GRADIENT BY INCREASING TENSOR CORE UTILIZATION IN CUTLASS
隐式 GEMM 卷积 (Implicit GEMM Convolution)
2022-03gtc22

HOW CUDA PROGRAMMING WORKS
本演讲探讨了CUDA编程为何会呈现出当前的形式。核心原因在于：
2021-04gtc21

ACCELERATING CONVOLUTION WITH TENSOR CORES IN CUTLASS
CUTLASS 是一个用于深度学习和线性代数的 CUDA C++ 模板库。下图展示了其从 CUTLASS 1.3 到 2.6 的发展时间线，以及与 CUD...
2018-03Slides

PROGRAMMING TENSOR CORES: NATIVE VOLTA TENSOR CORE GEMM
Andrew Kerr, Timmy Liu, Mostafa Hagog, Julien Demouth, John Tran (NVIDIA, Mar...
2007-01Slides

Optimizing Parallel Reduction in CUDA
Mark Harris NVIDIA Developer Technology

Mlsys › gpu › cuda › profile

2025-11aiday25-hz

CUDA Profiling and Debugging Tools for LLM
Min Xu (徐敏), NVIDIA GPU应用研发, 资深工程师
2025-05gtc25

S72867: AI Developer Tools for Accelerated Computing - Scarce Data Isn't Scary!
Matt Frazier, Director for AI Assisted Developer Tools | GTC25
2023-03gtc23

Debugging CUDA: An Overview of CUDA Correctness Tools
Steve Ulrich & Aurelien Chartier | GTC March 2023
2023-03gtc23

S51205 From the Macro to the Micro: CUDA Developer Tools Find and Fix Problems at Any Scale
Jackson Marusarz | Technical Product Manager March 22nd 2023
2023-03gtc23

Become Faster in Writing Performant CUDA Kernels using the Source Page in Nsight Compute
Magnus Strengert | GTC2023 | 03/23/23
2022-03gtc22

WHAT, WHERE, AND WHY? USE CUDA DEVELOPER TOOLS TO DETECT, LOCATE, AND EXPLAIN BUGS AND BOTTLENECKS
开发者工具分为几个主要类别，以支持CUDA应用的调试、性能分析和正确性检查。

Mlsys › gpu › cuda-math

2024-03gtc24

Deep Dive into Math Libraries
Arthy Sundaram, Product Manager Harun Bayraktar, Director of Engineering GTC ...
2023-03gtc23

cuNumeric and Legate: How to Create a Distributed, GPU-Accelerated Library
超越密集数组编程 (Beyond Dense Array Programming
2023-03gtc23

Recent Developments in NVIDIA Math Libraries
Harun Bayraktar, Director of Engineering Roman Dubtsov, Principal Engineer Sa...

Mlsys › gpu › cutlass

2025-11aiday25-hz

The Evolution and Applications of CuTeDSL
Jie Fang (方杰) NVIDIA GPU加速计算专家团队、高级工程师 Yuxi Chi (池宇希) NVIDIA GPU加速计算专家团队、高级工程师
2025-05aiday25-bj

Enable Tensor Core Programming in Python with CUTLASS 4.0
Albert Di, Vincent Zhang | 2025-05-30
2025-03gtc25

Programming Blackwell Tensor Cores with CuTe and CUTLASS
Cris Cecka, Mike Rubbelke (NVIDIA GTC | March 21, 2024)
2025-03gtc25

USE CUTLASS TO FUSE MULTIPLE GEMMS TO EXTREME PERFORMANCE
下图展示了GEMM操作在GPU上执行时的数据层次和划分方式，从全局内存（Global Memory）到共享内存（Shared Memory），再到寄存器文...
2024-03gtc24

CUTLASS: A Performant, Flexible, and Portable Way to Target Hopper Tensor Cores
Vijay Thakkar, Jack Kosaian NVIDIA GTC 2024 | 2024/03/19
2023-03gtc23

Developing Optimal CUDA Kernels on Hopper Tensor Cores
Pradeep Ramani, Cris Cecka | March 22, 2023
2022-09gtc22

CUTLASS: Python API, Enhancements, and CUTLASS 3.0 Preview
Andrew Kerr, Cris Cecka | GTC Fall 2022
2020-05gtc21

DEVELOPING CUDA KERNELS TO PUSH TENSOR CORES TO THE ABSOLUTE LIMIT ON NVIDIA A100
可以通过以下两种方式利用 Tensor Cores 进行深度学习和数学库编程：

Mlsys › gpu › hpc

2022-03gtc22

WARP: A HIGH-PERFORMANCE PYTHON FRAMEWORK FOR GPU SIMULATION AND GRAPHICS
MILES MACKLIN, PRINCIPAL ENGINEER, NVIDIA
2022-02gtc22

STANDARD PARALLELISM
Bryce Adelstein Lelbach HPC Programming Models Architect Standard C++ Library...

Mlsys › gpu › network

2025-03gtc25

Inter-GPU Communication Technology
NVIDIA 监控套件 (NVIDIA Monitoring Suite
2025-03gtc23

S51882: Become Faster in Writing Performant CUDA Kernels using the Source Page in Nsight Compute
Magnus Strengert | GTC2023 | 03/23/23
2023-03gtc23

Accelerating data movement between GPUs and storage or memory
Chris J. Newburn (CJ), Distinguished Engineer, NVIDIA, cnewburn@nvidia.com Ma...
2023-03gtc23

S5111: Scaling Deep Learning Training: Fast Inter-GPU Communication with NCCL
NCCL (NVIDIA Collective Communications Library) 是专为多GPU计算设计的关键通信库，针对从桌面到DGX S...
2023-03gtc23

How to Streamline Shared Memory Space With the NVSHMEM Communication Library
Akhil Langer, Seth Howell, Jim Dinan, Nvidia | GTC Spring 2023
2022-03gtc22

MULTI GPU PROGRAMMING WITH MPI
JIRI KRAUS, PRINCIPAL DEVTECH COMPUTE 作者信息未提供
2022-03gtc22

FAST INTER-GPU COMMUNICATION WITH NCCL FOR DEEP LEARNING TRAINING, AND MORE
AllReduce 性能 (ALLREDUCE PERFORMANCE
2022-03gtc22

S41825: LATEST ON NVIDIA MAGNUM IO GPUDIRECT TECHNOLOGIES
Davide Rossetti, Pak Markthub March 23, 2022

Mlsys › gpu › triton

2025-03gtc25

Blackwell Programming for the Masses With OpenAI Triton
Phil Tillet | OpenAI dePaul Miller | NVIDIA

Mlsys › networking

2026-01Slides

RDMA Aware Networks Programming User Manual
本文档是一份针对支持RDMA（远程直接内存访问）网络的编程用户手册。其核心目标是为高级程序员提供使用VPI（虚拟协议互连）Verbs API、RDMA_C...
2020-07atc20

Reexamining Direct Cache Access to Optimize I/O Intensive Applications for Multi-hundred-gigabit Networks
Alireza Farshin, Amir Roozbeh+, Gerald Q. Maguire Jr., Dejan Kostić (KTH Roya...
2020-06Slides

RDMA WITH GPU MEMORY VIA DMA-BUF
Jianxin Xiong, Intel Corporation
2018-01Slides

RDMA Tutorial
Jana Giceva, Large-Scale Data & Systems (LSDS) Group, Imperial College London

RECSYS

ROBOTICS

总访问量 0

© 2026 PaperCache. All rights reserved.

Powered by Jekyll | Analytics by Busuanzi

独立访客 0

登录

或

邮箱

密码

忘记密码？

还没有账号？立即注册

注册

或

用户名

邮箱

密码至少6个字符

已有账号？立即登录

忘记密码

请输入您的邮箱地址，我们将发送密码重置链接到您的邮箱。

邮箱

重发验证邮件

未收到验证邮件？请输入您的邮箱地址，我们将重新发送验证链接。

邮箱

返回登录 | 去注册

处理中...