0% found this document useful (0 votes)

189 views45 pages

Dojo System v25

Uploaded by

Bill Petrie

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

189 views45 pages

Dojo System v25

Uploaded by

Bill Petrie

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 45

Super-Compute System Scaling for ML Training

Bill Chang, Rajiv Kurian, Doug Williams, Eric Quinnell

Path to General Autonomy

Model Architecture
Vision, Path Planning, Auto-Labeling
New Models Architectures
Parameter Sizes Increasing Exponentially

Training Data
Video Training Data With 4D Labels
Ground Truth Generation

Training Infrastructure
Training and Evaluation Pipeline
Accelerated ML Training System

Flexible System Architecture

Software at Scale
Typical System

Compute

Fixed Ratio

Memory I/O
Optimized ML Training System

Compute

ML Requirements Evolving

Memory I/O
Disaggregated System Architecture

Compute

Flexible Ratio

Memory I/O
Optimized Compute

Compute

Memory I/O
Technology-Enabled Scaling

System-On-Wafer Technology
- 25 D1 Compute Dies + 40 I/O Dies
- Compute and I/O Dies Optimize Efficiency and Reach
- Heterogenous RDL Optimized for High-Density and High-
Power Layout

Maximize Performance and Yield

- Known Good Die and Fault Tolerant Designs
- Each Tile Assembled With Fully Functional Dies
- Harvesting and Fully Configurable Routing for Yield
Training Tile

Unit of Scale
- Large Compute With Optimized I/O
- Fully Integrated System Module (Power/Cooling)

Uniform High-Bandwidth
- 10 TB/s on-tile bisection bandwidth
- 36 TB/s o -tile aggregate bandwidth

9 PFLOPS BF16/CFP8
11 GB High-Speed ECC SRAM
36 TB/s Aggregate I/O BW
ff
Flexible Building Block

Tile Tile Tile

9 TB/s 9 TB/s

Tile Tile Tile

Scale With Multiple Tiles

No Additional Power/Cooling Design Needed

Disaggregated Memory

Compute

Memory I/O
V1 Dojo Interface Processor

32GB High-Bandwidth Memory

- 800 GB/s Total Memory Bandwidth

900 GB/s TTP Interface

- Tesla Transport Protocol (TTP) - Full custom protocol
- Provides full DRAM bandwidth to Training Tile

50 GB/s TTP over Ethernet (TTPoE)

- Enables extending communication over standard Ethernet
- Native hardware support

32 GB/s Gen4 PCIe Interface

Dojo Interface Processor - PCIe Topology

160GB Total DRAM per Tile edge

PCIe Host
- Shared memory for training tiles
HBM
HBM
HBM
5 DIP Cards Provide Max Bandwidth
HBM
HBM

- 4.5 TB/s aggregate bandwidth to DRAM over TTP DIP

DIP
DIP
PCIe DIP
DIP Tile
Tile

80 Lanes PCIe Gen4 Interface

- Provide standard connectivity to hosts
Scalable Communication

Compute

Memory I/O
Tesla Transport Protocol

Node

D1
Bandwidth

TTP Tile

DIP

TTPoE

Latency
Dojo Interface Processor - Z-Plane Topology

TTPoE - Point-to-Point over Ethernet

- Provides high-radix connectivity in Z-plane TTP network
- Enables “shortcuts” across the network Ethernet
Switch
- Manage latency for sync and control across compute plane
Dojo Interface Processor - Z-Plane Topology

TTPoE - Point-to-Point over Ethernet

- Provides high-radix connectivity in Z-plane TTP network
- Enables “shortcuts” across the network Ethernet ~30 Hops
Switch
- Manage latency for sync and control across compute plane
Dojo Interface Processor - Z-Plane Topology

TTPoE - Point-to-Point over Ethernet

- Provides high-radix connectivity in Z-plane TTP network
- Enables “shortcuts” across the network Ethernet
~4 Hops
Switch
- Manage latency for sync and control across compute plane
Dojo Network Interface Card

Host
Remote DMA over TTPoE
- DMA to/from any TTP endpoint (compute SRAM, DRAM)
- Leverage switched Ethernet networks
DRAM

DNIC
CPU TTPoE

Enables Remote Compute for Pre/post-

processing
Remote DMA Topology

HBM
HBM
HBM
HBM
HBM
DRAM

CPU
DNIC DIP
DIP
DIP
DIP
DIP Tile
DRAM

DNIC
CPU

DRAM
Ethernet
DNIC Switch
CPU

DRAM

DNIC
CPU
HBM
HBM
HBM
HBM
DRAM
HBM

DNIC
CPU
DIP
DIP
DIP
DIP
DIP Tile

Scale-Out for CPU/Memory Bound

Pre-Processing Workloads
V1 Dojo Training Matrix

DRAM HBM HBM DRAM

4.5 TB/s 4.5 TB/s

CPU DIP
DIP Tile Tile Tile
DIP
DIP CPU
x5 x5

9 TB/s 9 TB/s

DRAM HBM HBM DRAM

4.5 TB/s 4.5 TB/s

CPU DIP Tile Tile Tile
DIP CPU
x5 x5

Switch

DNIC DNIC DNIC DNIC DNIC DNIC

1 EFLOP BF16/CFP8
DRAM DRAM DRAM DRAM DRAM DRAM
1.3 TB High-Speed ECC SRAM
CPU CPU CPU CPU CPU CPU
13 TB High-BW DRAM
Disaggregated Scalable System

Tile

Compute

Interface Processor Network Interface

Memory I/O
Software at Scale
Model Execution

Workloads operate almost entirely Unlike typical accelerators, all forms of

out of SRAM parallelism may cross die boundaries
Single copy of parameters - replicated just in time Thanks to High TTP Bandwidth
High utilization

HBM HBM

4.5 TB/s 4.5 TB/s

DIP
DIP Tile Tile Tile
DIP
DIP
x5 x5

9 TB/s 9 TB/s

HBM HBM

4.5 TB/s 4.5 TB/s

DIP Tile Tile Tile
DIP
x5 x5
Model Execution
P0 [C K1 R S]

DIP
x5

Tile

DIP
x5
P1 [K1 K2 R S]

Parameters Are Distributed Across the DIPs

Model Execution
P0 [C K1 R S]

DIP
x5

C
[ K1 R S]
2

Tile

C
[ K1 R S]
2

Tile

K1
[ K2 R S]
2
Tile

K1
[ K2 R S]
2

Tile

DIP
x5
P1 [K1 K2 R S]

Parameters Are Sharded Across the Tiles at Load Time

Once per training run
Model Execution
N
P0 [C K1 R S] I0 [ C H W]
2
DIP
x5

Tile

DIP
x5
N
P1 [K1 K2 R S] I0 [ C H W]
2

Inputs Sharded Across the DIPs in the Batch Dimension

Model Execution
N
P0 [C K1 R S] I0 [ C H W]
2
DIP
x5

N
[ C H W]
4

Tile

N
[ C H W]
4
Tile

N
[ C H W]
4

Tile

N
[ C H W]
4
Tile

DIP
x5
N
P1 [K1 K2 R S] I0 [ C H W]
2

Inputs Are Also Sharded (by Batch) Across the Tiles

Model Execution
N
P0 [C K1 R S] I0 [ C H W]
2
DIP
x5

C C
[ K1 R S] [ K1 R S]
2 2

Tile

C C
[ K1 R S] [ K1 R S]
2 2

Tile

DIP
x5
N
P1 [K1 K2 R S] I0 [ C H W]
2

Parameters Are Replicated Across the Tiles Just in Time

A single copy of parameter in the entire system - use the high BW to replicate parameters just in time
Model Execution
N
P0 [C K1 R S] I0 [ C H W]
2
DIP
x5

[C K1 R S]

Tile

[C K1 R S]

Tile

[C K1 R S]

Tile

[C K1 R S]

Tile

DIP
x5
N
P1 [K1 K2 R S] I0 [ C H W]
2

Parameters Are Replicated Across the Tiles Just in Time

A single copy of parameter in the entire system - use the high BW to replicate parameters just in time
Model Execution
N
P0 [C K1 R S] I0 [ C H W]
2
DIP
x5

N N
[ C H W] [ K1 H W]
[C K1 R S] 4 4

Tile

N N
[ C H W] [ K1 H W]
[C K1 R S] 4 4

Tile

N N
[ C H W] [ K1 H W]
[C K1 R S] 4 4

Tile

N N
[ C H W] [ K1 H W]
[C K1 R S] 4 4

Tile

DIP
x5
N
P1 [K1 K2 R S] I0 [ C H W]
2

The First Layer Is Run in a Data Parallel Manner

Model Execution
N
P0 [C K1 R S] I0 [ C H W]
2
DIP
x5

K1
[ K2 R S]
2
Tile

DIP
x5
N
P1 [K1 K2 R S] I0 [ C H W]
2

Parameters For the Next Layer Are Replicated Concurrently

1 copy per 2 tiles. The next layer is better executed in a model parallel manner
Model Execution
N
P0 [C K1 R S] I0 [ C H W]
2
DIP
x5

C
[ K1 R S]
2

Tile

C
[ K1 R S]
2

Tile

DIP
x5
N
P1 [K1 K2 R S] I0 [ C H W]
2

Discard Replicated Parameters and Input for Minimal SRAM Footprint

Model Execution
N
P0 [C K1 R S] I0 [ C H W]
2
DIP
x5

N K1
[ H W]
4 2

Tile

N K1 N
[ H W] [ K1 H W]
4 2 4

Tile

DIP
x5
N
P1 [K1 K2 R S] I0 [ C H W]
2

Replicate Input Activation for the Next Layer - Split Across Channels
Only 1 N/4 batch shown
Model Execution
N
P0 [C K1 R S] I0 [ C H W]
2
DIP
x5

K1 N K1 N
[ K2 R S] [ H W] [ K2 H W]
2 4 2 4

Tile

K1 N K1 N
[ K2 R S] [ H W] [ K2 H W]
2 4 2 4

Tile

DIP
x5
N
P1 [K1 K2 R S] I0 [ C H W]
2

Compute Partial Sum for Each N/4 Batch on Each Tile

Only 1 N/4 batch shown
Model Execution
N
P0 [C K1 R S] I0 [ C H W]
2
DIP
x5

N N
[ K2 H W] [ K2 H W]
4 4

Tile

N
[ K2 H W]
4

Tile

DIP
x5
N
P1 [K1 K2 R S] I0 [ C H W]
2

Reduce Partial Sum for Each N/4 Batch Across Tiles

Small packet size, fine-grained synchronization and low-latency network makes pipelined partial sums work
Model Execution
N
P0 [C K1 R S] I0 [ C H W]
2
DIP
x5

N
[ K2 H W]
4

Tile

N
[ K2 H W]
4

Tile

N
[ K2 H W]
4

Tile

N
[ K2 H W]
4

Tile

DIP
x5
N
P1 [K1 K2 R S] I0 [ C H W]
2

Same Computation Runs on Every Other N/4 Batch

Combination of data and model parallel
End-To-End Training Work ow

Compute Post
Data Loading
(Training) Processing

File Loading
Output
Decode
Compression
Augmentation
File Write
Ground Truth Generation
fl
Video-Based Training

Data Loading

Flexible compute required for: Multi-camera, multi-frame models

- Augmentation - Requires decoding GOP_SIZE/2 frames for first per-
- Image rectification camera frame and 1 decode for every frame after
- Ground truth generation
Data Loading Needs of Di erent Model

Decode

PCIE

Storage BW

CPU Cores
0% 25% 50% 75% 100%

Requirements as % of a Single Host’s Capacity

Model 1

Model 2
ff
Data Loading Needs of Di erent Models

Decode

PCIE

Storage BW

CPU Cores
0% 88% 175% 263% 350% 438% 525% 613% 700%

Requirements as % of a Single Host’s Capacity

Model 1

Model 2

Model 3
ff
Disaggregated Data Loading Tier

HBM HBM

DIP
DIP Tile Tile Tile
DIP
DIP
x5 x5

HBM HBM

DIP Tile Tile Tile

DIP
x5 x5

Switch

DNIC DNIC DNIC DNIC

DRAM DRAM DRAM DRAM

CPU CPU CPU CPU

Disaggregated Data Loading Tier

HBM HBM

DIP
DIP Tile Tile Tile
DIP
DIP
x5 x5

HBM HBM

DIP Tile Tile Tile

DIP
x5 x5

Batch 1B Batch 1C

Batch 1A DNIC DNIC DNIC DNIC

Batch 1D

DRAM DRAM DRAM DRAM

CPU CPU CPU CPU

Disaggregated Resources

Model 1 Model 2 Model 3

ML Compute

Memory

Resources Can Be Partitioned per Job

Dojo Supercomputer for ML Training

New integration enable high-bandwidth and

performance ML Compute

Uniform high-bandwidth enables full exploitation Memory

of parallelism by software
IO

Vertically integrated I/O addresses all workload Training

bottlenecks including data loading

Class 11 Unit 1 Mind Map
100% (3)
Class 11 Unit 1 Mind Map
3 pages
DR Failover Runbook PDF
50% (2)
DR Failover Runbook PDF
33 pages
Flask Python
No ratings yet
Flask Python
324 pages
Basic Design Approaches To Accelerating Deep Neural Networks
No ratings yet
Basic Design Approaches To Accelerating Deep Neural Networks
93 pages
A Comparative Study of AI Agent Orchestration Frameworks
No ratings yet
A Comparative Study of AI Agent Orchestration Frameworks
13 pages
Nvidia Gtc2024 Keynote
No ratings yet
Nvidia Gtc2024 Keynote
71 pages
Orca PNR Project
100% (1)
Orca PNR Project
22 pages
Uniden Bcd996xt Scanner User Guide
No ratings yet
Uniden Bcd996xt Scanner User Guide
130 pages
5.1.3.6 Packet Tracer - Configuring Router-On-A-Stick Inter-VLAN Routing Instructions
80% (5)
5.1.3.6 Packet Tracer - Configuring Router-On-A-Stick Inter-VLAN Routing Instructions
5 pages
Cadence SOC Encounter
0% (1)
Cadence SOC Encounter
222 pages
4 1.soc Encounter
No ratings yet
4 1.soc Encounter
181 pages
MOSFET Gate Drivers From Texas Instruments
No ratings yet
MOSFET Gate Drivers From Texas Instruments
6 pages
Cadence SOC Encounter PDF
No ratings yet
Cadence SOC Encounter PDF
222 pages
Operating Systems Requirements - R12.2.x
No ratings yet
Operating Systems Requirements - R12.2.x
6 pages
HC31 1.13 Cerebras - SeanLie.v02 PDF
No ratings yet
HC31 1.13 Cerebras - SeanLie.v02 PDF
31 pages
Final Project Report Risc
No ratings yet
Final Project Report Risc
25 pages
17 HC2024 Tesla TTPoE v5
No ratings yet
17 HC2024 Tesla TTPoE v5
23 pages
Pseudo-Random Number Generator: Site Wikipedia
100% (1)
Pseudo-Random Number Generator: Site Wikipedia
5 pages
Intel Smart Connect Technology: Setup & Configuration Guide
No ratings yet
Intel Smart Connect Technology: Setup & Configuration Guide
44 pages
Opencl On Fpga: Marc Gaucheron INTEL Programmable Solution Group
No ratings yet
Opencl On Fpga: Marc Gaucheron INTEL Programmable Solution Group
128 pages
Internet Technology and Web Designing
No ratings yet
Internet Technology and Web Designing
242 pages
Aaa Model Radius and Tacacs Servers Lesson Full Illustration
No ratings yet
Aaa Model Radius and Tacacs Servers Lesson Full Illustration
15 pages
Chapter 6 Soc Encounter
No ratings yet
Chapter 6 Soc Encounter
222 pages
Auto-Tuning Stencil Codes For Cache-Based Multicor
No ratings yet
Auto-Tuning Stencil Codes For Cache-Based Multicor
168 pages
Fona - Cdr-Cdrelite - 3-4-2012
No ratings yet
Fona - Cdr-Cdrelite - 3-4-2012
31 pages
2024 11 28 Engineered Carbon Removals Energy Security Affordability Quiggin
No ratings yet
2024 11 28 Engineered Carbon Removals Energy Security Affordability Quiggin
53 pages
Conv PHD Thesis Urbinati Firmata
No ratings yet
Conv PHD Thesis Urbinati Firmata
146 pages
qt7r21z1s7 Nosplash
No ratings yet
qt7r21z1s7 Nosplash
107 pages
Intranet VS Extranet
No ratings yet
Intranet VS Extranet
13 pages
14 Mibs
No ratings yet
14 Mibs
38 pages
CIC Edi
No ratings yet
CIC Edi
262 pages
DCR PS Et CS
No ratings yet
DCR PS Et CS
37 pages
Terra 101-qsg PDF
No ratings yet
Terra 101-qsg PDF
121 pages
2D To 3D Image Conversion Algorithms
0% (1)
2D To 3D Image Conversion Algorithms
10 pages
Introduction
No ratings yet
Introduction
46 pages
Introduction To Data-Oriented Design 2014DICE 1
No ratings yet
Introduction To Data-Oriented Design 2014DICE 1
77 pages
Unit8 Assignment1 Mobile Application
No ratings yet
Unit8 Assignment1 Mobile Application
5 pages
Synopsis Report of School Website
75% (8)
Synopsis Report of School Website
4 pages
Modeling A Non-Uniform Memory Access Architecture For Optimizing
No ratings yet
Modeling A Non-Uniform Memory Access Architecture For Optimizing
79 pages
Luong Thesis
No ratings yet
Luong Thesis
81 pages
Energy-Efficient CNN Hardware Design
No ratings yet
Energy-Efficient CNN Hardware Design
72 pages
High-Street Changes and Populism ssrn-5119375
No ratings yet
High-Street Changes and Populism ssrn-5119375
94 pages
Revision In: Database & Database Management System
No ratings yet
Revision In: Database & Database Management System
74 pages
Google TPU
No ratings yet
Google TPU
27 pages
s7122 Stephen Jones Cuda Optimization Tips Tricks and Techniques
No ratings yet
s7122 Stephen Jones Cuda Optimization Tips Tricks and Techniques
71 pages
THESIS LucasHuijbregts Final
No ratings yet
THESIS LucasHuijbregts Final
86 pages
LEGO
No ratings yet
LEGO
63 pages
A 0.8-m CMOS 2.5 Gb/s Oversampling Receiver and Transmitter For Serial Links
No ratings yet
A 0.8-m CMOS 2.5 Gb/s Oversampling Receiver and Transmitter For Serial Links
9 pages
Tiny Machine Learning For IOT Jiaying 041123
No ratings yet
Tiny Machine Learning For IOT Jiaying 041123
87 pages
Matrix-Matrix Multiplication Using Shared Memory
No ratings yet
Matrix-Matrix Multiplication Using Shared Memory
27 pages
Adapting The Adaptive Toolbox - Set of Cognitive Mechanisms
No ratings yet
Adapting The Adaptive Toolbox - Set of Cognitive Mechanisms
70 pages
Aboveboard f4316msf11
0% (1)
Aboveboard f4316msf11
2 pages
Ishii
No ratings yet
Ishii
43 pages
Implementing AI Models On FPGAs - A Comprehensive T
No ratings yet
Implementing AI Models On FPGAs - A Comprehensive T
43 pages
High-Performance Hardware For Machine Learning - 0916
No ratings yet
High-Performance Hardware For Machine Learning - 0916
68 pages
3 Lecture 21 01 25
No ratings yet
3 Lecture 21 01 25
62 pages
SCALE-Sim Tutorial ASPLOS2021 2 Overview
No ratings yet
SCALE-Sim Tutorial ASPLOS2021 2 Overview
35 pages
Neural Network Accelerators: CS223 Computer Architecture & Organization
No ratings yet
Neural Network Accelerators: CS223 Computer Architecture & Organization
45 pages
GTC2025 Keynote
No ratings yet
GTC2025 Keynote
73 pages
An Efficient Hardware Architecture For Exploiting Sparsity in Neural Networks Master Thesis
No ratings yet
An Efficient Hardware Architecture For Exploiting Sparsity in Neural Networks Master Thesis
63 pages
A Trading Agent With No Intelligence Routinely Outperforms AI
No ratings yet
A Trading Agent With No Intelligence Routinely Outperforms AI
8 pages
A Beginner's Guide To Variational Inference
No ratings yet
A Beginner's Guide To Variational Inference
48 pages
The Attention System of The Human Brain
No ratings yet
The Attention System of The Human Brain
32 pages
5 Lecture 28 01 25
No ratings yet
5 Lecture 28 01 25
47 pages
Tutorial On DNN 4 of 9 DNN Accelerator Architectures PDF
No ratings yet
Tutorial On DNN 4 of 9 DNN Accelerator Architectures PDF
73 pages
Lecture02 - High-Level Digital Design Automation
No ratings yet
Lecture02 - High-Level Digital Design Automation
34 pages
3 Data Centric Directives
No ratings yet
3 Data Centric Directives
32 pages
Introduction To Data Oriented Design
No ratings yet
Introduction To Data Oriented Design
77 pages
Functional Architecture of The Cerebral Cortex
No ratings yet
Functional Architecture of The Cerebral Cortex
30 pages
Benini ISC2023 Paving The Road For Riscv
No ratings yet
Benini ISC2023 Paving The Road For Riscv
40 pages
Building The Unified Data Warehouse and Data Lake TDWI Best Practices Report
No ratings yet
Building The Unified Data Warehouse and Data Lake TDWI Best Practices Report
30 pages
(Yet) Another Theoretical Model of Thinking
No ratings yet
(Yet) Another Theoretical Model of Thinking
24 pages
User Manual of 3D - NeuroSim - V1.0
No ratings yet
User Manual of 3D - NeuroSim - V1.0
28 pages
Uc Software Release Notes 5 9 2
No ratings yet
Uc Software Release Notes 5 9 2
37 pages
RFID
No ratings yet
RFID
3 pages
Language Evolution As Cultural Evolution
No ratings yet
Language Evolution As Cultural Evolution
6 pages
Referat-Probleme Fabricaţie Asistată de Calculator Cap.7 Modelarea Grupurilor de Serveri Individuali Entitatea Storage
No ratings yet
Referat-Probleme Fabricaţie Asistată de Calculator Cap.7 Modelarea Grupurilor de Serveri Individuali Entitatea Storage
15 pages
Comparative Analysis of Low Power 4-Bit Multipliers Using 120nm CMOS Technology
No ratings yet
Comparative Analysis of Low Power 4-Bit Multipliers Using 120nm CMOS Technology
28 pages
Adopting Cognitive Computing Solutions in Healthcare
No ratings yet
Adopting Cognitive Computing Solutions in Healthcare
14 pages
Mind The Gaps. Logical English, Prolog, and Multi-Agent Systems For Autonomous Vehicles
No ratings yet
Mind The Gaps. Logical English, Prolog, and Multi-Agent Systems For Autonomous Vehicles
14 pages
A Case Study On AI Engineering Practices
No ratings yet
A Case Study On AI Engineering Practices
13 pages
Intrusion Detection-Watchdog: For Secure AODV Routing Protocol in VANET
No ratings yet
Intrusion Detection-Watchdog: For Secure AODV Routing Protocol in VANET
7 pages
Rfid Cisco
No ratings yet
Rfid Cisco
38 pages
Agents and Ambient Intelligence Case Studies
No ratings yet
Agents and Ambient Intelligence Case Studies
11 pages
Agent-Based Modeling The Emergent Behavior of A System of Systems
No ratings yet
Agent-Based Modeling The Emergent Behavior of A System of Systems
10 pages
) Evolution of Brain Size and Juvenile Periods in Primates
No ratings yet
) Evolution of Brain Size and Juvenile Periods in Primates
10 pages
Accelerating A Just Transition To Smart, Sustainable Cities
No ratings yet
Accelerating A Just Transition To Smart, Sustainable Cities
10 pages
HC2021.UWisc - Karu Sankaralingam.v02
No ratings yet
HC2021.UWisc - Karu Sankaralingam.v02
20 pages
CamScanner 04-11-2023 12.58
No ratings yet
CamScanner 04-11-2023 12.58
14 pages
2003 ML3 Controller PDF
No ratings yet
2003 ML3 Controller PDF
10 pages
Manual Del Módulos KML 1-5N
No ratings yet
Manual Del Módulos KML 1-5N
34 pages
Logical Reasoning in Large Language Models A Survey
No ratings yet
Logical Reasoning in Large Language Models A Survey
9 pages
A - Deep - Learning - Approach - To - Classify - Classify Drones and Birds
No ratings yet
A - Deep - Learning - Approach - To - Classify - Classify Drones and Birds
7 pages
AI and The Frontiers of Finance
No ratings yet
AI and The Frontiers of Finance
7 pages
AIAgent Frameworkin Healthcare Industry
No ratings yet
AIAgent Frameworkin Healthcare Industry
8 pages
A Case of Applying AI To An Ethylene Plant
No ratings yet
A Case of Applying AI To An Ethylene Plant
6 pages
Design Automation of Cellular Neural Networks For Data Fusion Applications
No ratings yet
Design Automation of Cellular Neural Networks For Data Fusion Applications
12 pages
30.207 P3U30 Modbus Map 3LN-Uo
No ratings yet
30.207 P3U30 Modbus Map 3LN-Uo
17 pages
NEURALINK A Brain-Machine Interface Device
No ratings yet
NEURALINK A Brain-Machine Interface Device
5 pages
Accelerating AI Impact by Taming The Data Beast
No ratings yet
Accelerating AI Impact by Taming The Data Beast
6 pages
w1 - Machine Learning Hardware Design For Efficiency, Flexibility, and Scalability (Feature)
No ratings yet
w1 - Machine Learning Hardware Design For Efficiency, Flexibility, and Scalability (Feature)
19 pages
IRC5-IRC5 Socket Messaging
No ratings yet
IRC5-IRC5 Socket Messaging
5 pages
Quiz-1 Syllabus of Embedded Systems Design
No ratings yet
Quiz-1 Syllabus of Embedded Systems Design
20 pages
Elon Musk's Neuralink Brain Chip
No ratings yet
Elon Musk's Neuralink Brain Chip
5 pages
Auditory Cortex - Science
No ratings yet
Auditory Cortex - Science
4 pages
Hidet: Task-Mapping Programming Paradigm For Deep Learning Tensor Programs
No ratings yet
Hidet: Task-Mapping Programming Paradigm For Deep Learning Tensor Programs
15 pages
Tugas Praktikum VHDL 3.2 Multiplexer
No ratings yet
Tugas Praktikum VHDL 3.2 Multiplexer
18 pages
Accelerating VGG16 DCNN With An FPGA: Dongjoon Park, Pranoti Dhamal
No ratings yet
Accelerating VGG16 DCNN With An FPGA: Dongjoon Park, Pranoti Dhamal
7 pages
SCL Logic Synthesis Report
No ratings yet
SCL Logic Synthesis Report
10 pages
Fully On-Chip MAC at 14 NM Enabled by Accurate Row-Wise Programming of PCM-Based Weights and Parallel Vector-Transport in Duration-Format
No ratings yet
Fully On-Chip MAC at 14 NM Enabled by Accurate Row-Wise Programming of PCM-Based Weights and Parallel Vector-Transport in Duration-Format
8 pages
FPGA-based Neuromorphic Computing System With A Scalable Routing Network
No ratings yet
FPGA-based Neuromorphic Computing System With A Scalable Routing Network
4 pages
Resume - Spring 2020 PDF
No ratings yet
Resume - Spring 2020 PDF
1 page
ZyNet Automating Deep Neural Network Implementation On Low-Cost Reconfigurable Edge Computing Platforms
No ratings yet
ZyNet Automating Deep Neural Network Implementation On Low-Cost Reconfigurable Edge Computing Platforms
4 pages
Fin Irjmets1684902949
No ratings yet
Fin Irjmets1684902949
6 pages
2 Active Agent Auto-Registration
No ratings yet
2 Active Agent Auto-Registration
4 pages
Multiplication - Ipynb - Colab
No ratings yet
Multiplication - Ipynb - Colab
2 pages
Master System Architecture: Architecture of Consoles: A Practical Analysis, #15
From Everand
Master System Architecture: Architecture of Consoles: A Practical Analysis, #15
Rodrigo Copetti
2/5 (1)
Nintendo DS Architecture: Architecture of Consoles: A Practical Analysis, #14
From Everand
Nintendo DS Architecture: Architecture of Consoles: A Practical Analysis, #14
Rodrigo Copetti
No ratings yet
PC Engine / TurboGrafx-16 Architecture: Architecture of Consoles: A Practical Analysis, #16
From Everand
PC Engine / TurboGrafx-16 Architecture: Architecture of Consoles: A Practical Analysis, #16
Rodrigo Copetti
No ratings yet

Dojo System v25

Uploaded by

Dojo System v25

Uploaded by

Super-Compute System Scaling for ML Training

Bill Chang, Rajiv Kurian, Doug Williams, Eric Quinnell

Flexible System Architecture

Maximize Performance and Yield

Tile Tile Tile

Tile Tile Tile

Scale With Multiple Tiles

No Additional Power/Cooling Design Needed

32GB High-Bandwidth Memory

900 GB/s TTP Interface

50 GB/s TTP over Ethernet (TTPoE)

32 GB/s Gen4 PCIe Interface

160GB Total DRAM per Tile edge

- 4.5 TB/s aggregate bandwidth to DRAM over TTP DIP

80 Lanes PCIe Gen4 Interface

TTPoE - Point-to-Point over Ethernet

TTPoE - Point-to-Point over Ethernet

TTPoE - Point-to-Point over Ethernet

Enables Remote Compute for Pre/post-

Scale-Out for CPU/Memory Bound

DRAM HBM HBM DRAM

4.5 TB/s 4.5 TB/s

DRAM HBM HBM DRAM

4.5 TB/s 4.5 TB/s

DNIC DNIC DNIC DNIC DNIC DNIC

Interface Processor Network Interface

Workloads operate almost entirely Unlike typical accelerators, all forms of

4.5 TB/s 4.5 TB/s

4.5 TB/s 4.5 TB/s

Parameters Are Distributed Across the DIPs

Parameters Are Sharded Across the Tiles at Load Time

Inputs Sharded Across the DIPs in the Batch Dimension

Inputs Are Also Sharded (by Batch) Across the Tiles

Parameters Are Replicated Across the Tiles Just in Time

Parameters Are Replicated Across the Tiles Just in Time

The First Layer Is Run in a Data Parallel Manner

Parameters For the Next Layer Are Replicated Concurrently

Discard Replicated Parameters and Input for Minimal SRAM Footprint

Compute Partial Sum for Each N/4 Batch on Each Tile

Reduce Partial Sum for Each N/4 Batch Across Tiles

Same Computation Runs on Every Other N/4 Batch

Flexible compute required for: Multi-camera, multi-frame models

Requirements as % of a Single Host’s Capacity

Requirements as % of a Single Host’s Capacity

DIP Tile Tile Tile

DNIC DNIC DNIC DNIC

DRAM DRAM DRAM DRAM

CPU CPU CPU CPU

DIP Tile Tile Tile

Batch 1A DNIC DNIC DNIC DNIC

DRAM DRAM DRAM DRAM

CPU CPU CPU CPU

Model 1 Model 2 Model 3

Resources Can Be Partitioned per Job

New integration enable high-bandwidth and

Uniform high-bandwidth enables full exploitation Memory

Vertically integrated I/O addresses all workload Training

bottlenecks including data loading

You might also like