Cuda Examples

The document provides examples of Cuda code for common parallel computing tasks including dot product, matrix-vector multiplication, sparse matrix multiplication, and parallel reduction. It also describes implementing scalar-vector addition (SAXPY) both serially and in parallel using Cuda. For sparse matrix multiplication, it shows representations for sparse matrices and implementations of serial and parallel multiplication of a sparse matrix and vector. Caching values in shared memory is also demonstrated to improve performance for sparse matrix multiplication.

Uploaded by

Swati Choudhary

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

76 views

Cuda Examples

Uploaded by

Swati Choudhary

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

ExamplesofCuda code

1) Thedotproduct
2) Matrixvectormultiplication
3) Sparsematrixmultiplication
4) Globalreduction

Computingy=ax+ywithaSerialLoop
voidsaxpy_serial(int n,floatalpha,float*x,float*y)
{
for(inti=0;i<n;++i)
y[i]=alpha*x[i]+y[i];
}
//InvokeserialSAXPYkernel
saxpy_serial(n,2.0,x,y);

Computingy=ax+yinparallelusingCUDA
_global_void saxpy_parallel(int n,floatalpha,float*x,float*y)
{
int i =blockIdx.x*blockDim.x +threadIdx.x;
if(i<n)y[i]=alpha*x[i]+y[i];
}
//InvokeparallelSAXPYkernel(256threadsperblock)\\
intnblocks=(n+255)/256;
saxpy_parallel<<<nblocks,256>>>(n,2.0,x,y);

ComputingMatrixvectormultiplicationinparallelusingCUDA
__global__voidmm_simple(float*C,float*A,float*B,int n)
{
int row=blockIdx.y *blockDim.y +threadIdx.y;
int col=blockIdx.x *blockDim.x +threadIdx.x;
floatsum=0.0f;
for(int k=0;k<n;k++){
sum+=A[row*n+k]*B[k*n+col];
}
C[row*n+col]=sum;
}

Sparsematrixrepresentation

30900
05002
00700
00584
00600

Av=[395275846]=nonzeroelements
Aj =[021422342]=columnindicesofelements
Ap =[024589]=pointerstothefirstelementineachrow

Serialsparsematrix/vectormultiplication
voidcsrmul_serial(int *Ap,int *Aj,float*Av,int num_rows,
float*x,float*y)
{
for(int row=0;row<num_rows;++row)
{
int row_begin =Ap[row];
int row_end =Ap[row+1];
y[row]=multiply_row(row_end row_begin, Aj+row_begin,
Av+row_begin,x);
}
}
floatmultiply_row(int rowsize,
int *Aj,
//columnindicesforrow
float*Av,
//nonzeroentriesforrow
float*x)
//theRHSvector
{
floatsum=0;
for(int column=0;column<rowsize;++column)
sum+=Av[column]*x[Aj[column]];
returnsum;
}

Parallelsparsematrix/vectormultiplication
_global_void csrmul_kernel(int *Ap,int *Aj,float*Av,int num_rows,
float*x,float*y)
{
int row=blockIdx.x*blockDim.x +threadIdx.x;
if(row<num_rows )
{
int row_begin =Ap[row];
int row_end =Ap[row+1];
y[row]=multiply_row(row_end row_begin,Aj+row_begin,
Av+row_begin,x);
}
}

Thecodetolaunchtheaboveparallelkernelis:
unsignedint blocksize =128;//oranysizeupto512
unsignedint nblocks =(num_rows +blocksize 1)/blocksize;
csrmul_kernel<<<nblocks,blocksize>>>(Ap,Aj,Av,num_rows,x,y);

Cachinginsharedmemory

=
Block_begin
Cachein
shared
memory

Athread
Block_end

therowexecuted
byathread

Expectmostofthenon
zeroelementshere
(aroundthediagonal)

_global_void csrmul_cached(int Ap,int Aj,floatAv,int num_rows,constfloatx,float*y)

{
_shared_float cache[blocksize];//Cachetherowsofx[]correspondingtothisblock.
int block_begin =blockIdx.x *blockDim.x;
int block_end =block_begin +blockDim.x;
int row=block_begin +threadIdx.x;
//Fetchandcacheourwindowofx[].
if(row<num_rows)cache[threadIdx.x]=x[row];
_syncthreads();
if(row<num_rows )
{
int row_begin =Ap[row];
int row_end =Ap[row+1];
floatx_j ,sum=0;
for(int col=row_begin;col<row_end;++col)
{
int j=Aj[col];
if(j>=block_begin &&j<block_end ) //Fetchx_j fromourcachewhenpossible
x_j =cache[jblock_begin];
else
x_j =x[j];
sum+=Av[col]*x_j;
}
y[row]=sum;
}
}

Parallelreduction
_global_void plus_reduce(int *input,int N,int *total)
{
int tid =threadIdx.x;
int i =blockIdx.x*blockDim.x +threadIdx.x;
//Eachblockloadsitselementsintosharedmemory
_shared_int x[blocksize];
x[tid]=(i<N)?input[i]:0;
//lastblockmaypadwith0s
_syncthreads();
//Buildsummationtreeoverelements.
for(int s=blockDim.x/2;s>0;s=s/2)
{
if(tid <s)x[tid]+=x[tid +s];
_syncthreads();
}
//Thread0addsthepartialsumtothetotalsum
if(tid ==0)atomicAdd(total,x[tid]);
}

Seal Sign 2.4
No ratings yet
Seal Sign 2.4
130 pages
OPERA PMS Reference Manual: Opera Hotel Edition Version 4.0
100% (1)
OPERA PMS Reference Manual: Opera Hotel Edition Version 4.0
526 pages
VLSI Interview Questions
No ratings yet
VLSI Interview Questions
7 pages
Matrix Mult
100% (1)
Matrix Mult
55 pages
HPC-Practical-4Addition of two large vectors
No ratings yet
HPC-Practical-4Addition of two large vectors
4 pages
Hpc file
No ratings yet
Hpc file
22 pages
CUDA Programming: Johan Seland Johan - Seland@sintef - No
No ratings yet
CUDA Programming: Johan Seland Johan - Seland@sintef - No
76 pages
HPC 4 B
No ratings yet
HPC 4 B
5 pages
Lab Report 6
No ratings yet
Lab Report 6
12 pages
PyCUDA AH PDF
No ratings yet
PyCUDA AH PDF
16 pages
20 Quiz 14
No ratings yet
20 Quiz 14
12 pages
Parallel Computing Lab4
No ratings yet
Parallel Computing Lab4
13 pages
CUDA Introduction Mod
No ratings yet
CUDA Introduction Mod
50 pages
PDC assignment
No ratings yet
PDC assignment
9 pages
Threads
No ratings yet
Threads
54 pages
Introduction To CUDA: CAP 4730 Spring 2012
No ratings yet
Introduction To CUDA: CAP 4730 Spring 2012
35 pages
HPC (Pra 04)
No ratings yet
HPC (Pra 04)
11 pages
217 Lec3
No ratings yet
217 Lec3
46 pages
Using CUDA
No ratings yet
Using CUDA
57 pages
3-CUDA
No ratings yet
3-CUDA
5 pages
CUDA
No ratings yet
CUDA
3 pages
CUDA MatrixMultiplication
No ratings yet
CUDA MatrixMultiplication
2 pages
2023-CSC14120-Lecture01-CUDAIntroduction
No ratings yet
2023-CSC14120-Lecture01-CUDAIntroduction
32 pages
7. Moving to Parallel - Addition of 2 Matrices
No ratings yet
7. Moving to Parallel - Addition of 2 Matrices
14 pages
Multithreaded Architectures: Memory and Data Locality
No ratings yet
Multithreaded Architectures: Memory and Data Locality
39 pages
CUDA Exercises
No ratings yet
CUDA Exercises
185 pages
BECOA157 Parallel Matrix Multiplication
No ratings yet
BECOA157 Parallel Matrix Multiplication
3 pages
CUDA Compute Unified Device Architecture
No ratings yet
CUDA Compute Unified Device Architecture
26 pages
Lecture17 12
No ratings yet
Lecture17 12
86 pages
CUDA_part-1
No ratings yet
CUDA_part-1
52 pages
HPC Int2 Key
No ratings yet
HPC Int2 Key
10 pages
4. Cuda Add Mult
No ratings yet
4. Cuda Add Mult
3 pages
Rishi
No ratings yet
Rishi
30 pages
cuda_mode_lecture2
No ratings yet
cuda_mode_lecture2
33 pages
combinepdf
No ratings yet
combinepdf
28 pages
GPU Programming: CUDA
No ratings yet
GPU Programming: CUDA
29 pages
CUDA
No ratings yet
CUDA
33 pages
217 Lec2
No ratings yet
217 Lec2
24 pages
BCS3413 Principle & Applications of Parallel Programming Quiz 2: Gpgpu Cuda
No ratings yet
BCS3413 Principle & Applications of Parallel Programming Quiz 2: Gpgpu Cuda
3 pages
Csnb594csnb4423 Lab 5 01a Harveen Velan Sw0104101
No ratings yet
Csnb594csnb4423 Lab 5 01a Harveen Velan Sw0104101
19 pages
27th Aug - Introduction To GPGPU - Part 1
No ratings yet
27th Aug - Introduction To GPGPU - Part 1
32 pages
3 Some Commonly Used CUDA API: 3.1 Function Type Qualifiers
No ratings yet
3 Some Commonly Used CUDA API: 3.1 Function Type Qualifiers
7 pages
CUDA_part-1-LMS
No ratings yet
CUDA_part-1-LMS
51 pages
CUDAProgModel
No ratings yet
CUDAProgModel
24 pages
Gpu History and Cuda Programming Basics
No ratings yet
Gpu History and Cuda Programming Basics
44 pages
Matrix Computation On The GPU
No ratings yet
Matrix Computation On The GPU
455 pages
Lecture2 Cuda Basic 2010
No ratings yet
Lecture2 Cuda Basic 2010
44 pages
01 Cuda c Basics
No ratings yet
01 Cuda c Basics
32 pages
GPU_Programming_slides_2
No ratings yet
GPU_Programming_slides_2
37 pages
ORNL Tensor Core Training Aug2019
No ratings yet
ORNL Tensor Core Training Aug2019
113 pages
ECE 498AL The CUDA Programming Model
No ratings yet
ECE 498AL The CUDA Programming Model
37 pages
CUDA Libraries and CUDA Fortran: Massimiliano Fatica
No ratings yet
CUDA Libraries and CUDA Fortran: Massimiliano Fatica
55 pages
Class 10
No ratings yet
Class 10
13 pages
Lab 1 Parallel
No ratings yet
Lab 1 Parallel
4 pages
8 Cud A 1
No ratings yet
8 Cud A 1
38 pages
Lecture 4
No ratings yet
Lecture 4
48 pages
cs239 Ejer1
No ratings yet
cs239 Ejer1
2 pages
CUDA PPT Anurita Unit3
No ratings yet
CUDA PPT Anurita Unit3
42 pages
Cuda Talk
100% (1)
Cuda Talk
82 pages
GPUMod 2
No ratings yet
GPUMod 2
64 pages
LinearAlgebra Matlab HW3 V2s
No ratings yet
LinearAlgebra Matlab HW3 V2s
5 pages
Cuda Notes From Udacity Lecture
No ratings yet
Cuda Notes From Udacity Lecture
3 pages
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
CC Ref 1
No ratings yet
CC Ref 1
560 pages
UX Design with Figma User Centered Interface Design and Prototyping with Figma Design Thinking 1st Edition Tom Green 2024 scribd download
100% (8)
UX Design with Figma User Centered Interface Design and Prototyping with Figma Design Thinking 1st Edition Tom Green 2024 scribd download
75 pages
What Is Java Lecture1
No ratings yet
What Is Java Lecture1
14 pages
RedLab 1408FS - en
No ratings yet
RedLab 1408FS - en
33 pages
Normal Accidents
No ratings yet
Normal Accidents
2 pages
Airline Reservation System
No ratings yet
Airline Reservation System
12 pages
Unifi: System Administrator's Guide
No ratings yet
Unifi: System Administrator's Guide
116 pages
EcoSUI EN AN Configuration I-RC1
No ratings yet
EcoSUI EN AN Configuration I-RC1
175 pages
3140707 COA Lab Manual
No ratings yet
3140707 COA Lab Manual
55 pages
Keyboard Shortcuts
No ratings yet
Keyboard Shortcuts
1 page
LEARNING PLAN 3rd Grading
No ratings yet
LEARNING PLAN 3rd Grading
3 pages
Describe The Role of Inetinfo - Exe, Aspnet - Isapi - DLL Andaspnet - WP - Exe in The Page Loading Process
No ratings yet
Describe The Role of Inetinfo - Exe, Aspnet - Isapi - DLL Andaspnet - WP - Exe in The Page Loading Process
5 pages
Downloaded From WWW - ETTV.tv
No ratings yet
Downloaded From WWW - ETTV.tv
1 page
Zad Elsayed Frontend CV
No ratings yet
Zad Elsayed Frontend CV
1 page
Build
No ratings yet
Build
3 pages
Royalty Rates Software Artificial Intelligence
No ratings yet
Royalty Rates Software Artificial Intelligence
302 pages
Interface Design
No ratings yet
Interface Design
9 pages
Visar
No ratings yet
Visar
14 pages
Jeeevee Final Reporttt
No ratings yet
Jeeevee Final Reporttt
31 pages
Download Complete Trustworthy Systems Through Quantitative Software Engineering First Edition Lawrence Bernstein PDF for All Chapters
100% (4)
Download Complete Trustworthy Systems Through Quantitative Software Engineering First Edition Lawrence Bernstein PDF for All Chapters
61 pages
Submitted To: Submitted By:: Text Mining
No ratings yet
Submitted To: Submitted By:: Text Mining
15 pages
Configuration Studio Overview Guide EPDOC-X113-En-410
No ratings yet
Configuration Studio Overview Guide EPDOC-X113-En-410
58 pages
StealthBurner Assembly Manual V1.02-BETA
No ratings yet
StealthBurner Assembly Manual V1.02-BETA
28 pages
DMS Acknowledgement
No ratings yet
DMS Acknowledgement
3 pages
PDF
No ratings yet
PDF
1 page
Veritas Volume Manager (VXVM) For Hp-Ux: Russell I. Henmi Technical Instructor Veritas Education Services
No ratings yet
Veritas Volume Manager (VXVM) For Hp-Ux: Russell I. Henmi Technical Instructor Veritas Education Services
24 pages
LDAP Integration Feature Module
No ratings yet
LDAP Integration Feature Module
20 pages

Cuda Examples

Uploaded by

Cuda Examples

Uploaded by

ExamplesofCuda code

_global_void csrmul_cached(int *Ap,int *Aj,float*Av,int num_rows,constfloat*x,float*y)

You might also like

_global_void csrmul_cached(int Ap,int Aj,floatAv,int num_rows,constfloatx,float*y)