0% found this document useful (0 votes)

75 views8 pages

Ejercicio 2 Práctica 3: CUDA Desempeño en Función de La Homogeneidad para Acceder A Memoria y de La Regularidad Del Código

This document contains the code for an exercise on CUDA that analyzes performance based on memory access regularity and homogeneity. It defines a kernel that squares or adds array elements in parallel depending on a thread's group, implements timing using CUDA events, and checks for errors. Main allocates host and device memory, copies data to the device, runs the kernel concurrently on blocks of threads, returns results to the host, and prints timing results.

Uploaded by

Hecttor Juarez

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as RTF, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

75 views8 pages

Ejercicio 2 Práctica 3: CUDA Desempeño en Función de La Homogeneidad para Acceder A Memoria y de La Regularidad Del Código

Uploaded by

Hecttor Juarez

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as RTF, PDF, TXT or read online on Scribd

You are on page 1/ 8

/*

* Ejercicio 2 Práctica 3: CUDA

* Desempeño en función de la
homogeneidad para acceder a memoria

* y de la regularidad del código

#include <stdio.h>

//PP#include <cuda.h>

#define STRIDE 32

#define OFFSET 0

#define GROUP_SIZE 512

/* Utilidad para checar errores de CUDA

void checkCUDAError(const char*);

// Kernel that executes on the CUDA

device

global void square_array(float *a,

int N)

int n_elem_per_thread = N /
(gridDim.x * blockDim.x);

int block_start_idx =
n_elem_per_thread * blockIdx.x *
blockDim.x;

int thread_start_idx =
block_start_idx

+ (threadIdx.x / STRIDE)
* n_elem_per_thread * STRIDE

+ ((threadIdx.x +
OFFSET) % STRIDE);

int thread_end_idx =
thread_start_idx + n_elem_per_thread *
STRIDE;

if(thread_end_idx > N)
thread_end_idx = N;
int group = (threadIdx.x /
GROUP_SIZE) & 1;

// printf("%d",group);

for(int idx=thread_start_idx; idx

< thread_end_idx; idx+=STRIDE)

if(!group) a[idx] = a[idx]

* a[idx];

else a[idx] = a[idx] +

a[idx];

<<<<<<< HEAD

=======

//printf("idx: %d a: %d
\n", idx, a[idx]);

//printf("start: %d end: %d
STRIDE: %d OFFSET: %d GS: %d \n",

// thread_start_idx,
thread_end_idx, STRIDE, OFFSET,
GROUP_SIZE);

>>>>>>>
3bbd12b90c03095c7e4f6b401835b31e27
8d3066

// main routine that executes on the host

int main(void)

float a_h, a_d; // Pointer to

host & device arrays

const int N = 1<<22; // Make a

big array with 2**10 elements

size_t size = N * sizeof(float);

/* Auxiliares para medir tiempos */

cudaEvent_t start, stop;

float time;

a_h = (float *)malloc(size); //

Allocate array on host

cudaMalloc((void **) &a_d,

size); // Allocate array on device
// Initialize host array and copy it to
CUDA device

for (int i=0; i<N; i++)

a_h[i] = (float)i;

//for (int i=0; i<N; i+=N/50)

printf("%d %f\n", i, a_h[i]);

cudaMemcpy(a_d, a_h, size,

cudaMemcpyHostToDevice);

checkCUDAError("memcpy");

// Create timer for timing CUDA

calculation

//PPunsigned int timer = 0;

//PPcutCreateTimer( &timer );

cudaEventCreate(&start);

cudaEventCreate(&stop);
// Set number of threads and blocks

int n_threads_per_block =
128;//1<<9; // 512 threads per block

int n_blocks = 256;//1<<10; //

1024 blocks

// Do calculation on device

cudaEventRecord(start,0);

square_array <<< n_blocks,

n_threads_per_block >>> (a_d, N);

cudaThreadSynchronize(); //
Wait for square_array to finish on CUDA

checkCUDAError("kernel
invocation");

// Retrieve result from device and

store it in host array
cudaMemcpy(a_h, a_d, size,
cudaMemcpyDeviceToHost);

checkCUDAError("memcpy");

cudaEventRecord(stop,0);

cudaEventSynchronize(stop);

cudaEventElapsedTime( &time, start,

stop );

// Print some of the results

for (int i=0; i<N; i+=N/50)

printf("%d %f\n", i, a_h[i]);

// Imprime tiempo de ejecución

printf("\n\nTIEMPO DE
EJECUCIÓN: %f mSeg\n\n", time);

cudaEventDestroy( start );

cudaEventDestroy( stop );
free(a_h); cudaFree(a_d);

/* Utility function to check for and report

CUDA errors */

void checkCUDAError(const char *msg)

cudaError_t err = cudaGetLastError();

if( cudaSuccess != err)

fprintf(stderr, "Cuda error: %s:

%s.\n", msg, cudaGetErrorString( err) );

exit(EXIT_FAILURE);

002.SAP ABAP On HANA Training Videos - Materials - Course Content Details
No ratings yet
002.SAP ABAP On HANA Training Videos - Materials - Course Content Details
4 pages
Questions For OPIC
100% (1)
Questions For OPIC
11 pages
CUDA Exercises
No ratings yet
CUDA Exercises
185 pages
LP 1,,1
No ratings yet
LP 1,,1
5 pages
Introduction To CUDA: CAP 4730 Spring 2012
No ratings yet
Introduction To CUDA: CAP 4730 Spring 2012
35 pages
Recipe For Running Simple CUDA Code On A GPU Based Rocks Cluster
No ratings yet
Recipe For Running Simple CUDA Code On A GPU Based Rocks Cluster
17 pages
CUDA PPT Anurita Unit3
No ratings yet
CUDA PPT Anurita Unit3
42 pages
Cuda
No ratings yet
Cuda
4 pages
Cuda 1
No ratings yet
Cuda 1
45 pages
2023 CSC14120 Lecture01 CUDAIntroduction
No ratings yet
2023 CSC14120 Lecture01 CUDAIntroduction
32 pages
217 Lec2
No ratings yet
217 Lec2
24 pages
Cuda C/C++ Basics: NVIDIA Corporation
No ratings yet
Cuda C/C++ Basics: NVIDIA Corporation
67 pages
CUDA Introduction
No ratings yet
CUDA Introduction
39 pages
Introduction To CUDA C 3
No ratings yet
Introduction To CUDA C 3
67 pages
GPU Programming: CUDA
No ratings yet
GPU Programming: CUDA
29 pages
Gpu History and Cuda Programming Basics
No ratings yet
Gpu History and Cuda Programming Basics
44 pages
CUDA Programming Invert
No ratings yet
CUDA Programming Invert
36 pages
3 Cuda
No ratings yet
3 Cuda
5 pages
Lecture 11 Programming On Gpus Part 1 Zxu2acms60212 40212 S15lec 11 Gpupdf
No ratings yet
Lecture 11 Programming On Gpus Part 1 Zxu2acms60212 40212 S15lec 11 Gpupdf
121 pages
CUDA Introduction Mod
No ratings yet
CUDA Introduction Mod
50 pages
CUDA Compute Unified Device Architecture
No ratings yet
CUDA Compute Unified Device Architecture
26 pages
Cuda Review 1
No ratings yet
Cuda Review 1
13 pages
Aca Lab Manual Final
No ratings yet
Aca Lab Manual Final
28 pages
CUDA Putting It All Together
No ratings yet
CUDA Putting It All Together
39 pages
cs239 Ejer1
No ratings yet
cs239 Ejer1
2 pages
Vector Addition
No ratings yet
Vector Addition
3 pages
Csnb594csnb4423 Lab 5 01a Harveen Velan Sw0104101
No ratings yet
Csnb594csnb4423 Lab 5 01a Harveen Velan Sw0104101
19 pages
Introduccion CUDA C
No ratings yet
Introduccion CUDA C
51 pages
GPU Computing 2
No ratings yet
GPU Computing 2
28 pages
Cuda Talk
100% (1)
Cuda Talk
82 pages
3 Computation
No ratings yet
3 Computation
28 pages
Lecture2 Cuda Basic 2010
No ratings yet
Lecture2 Cuda Basic 2010
44 pages
Cuda Mode Lecture2
No ratings yet
Cuda Mode Lecture2
33 pages
Google Colab Solution Activity
No ratings yet
Google Colab Solution Activity
5 pages
Cuda Add Mult
No ratings yet
Cuda Add Mult
3 pages
An Introduction To PyCUDA Using Prefix Sum Algorithm PDF
No ratings yet
An Introduction To PyCUDA Using Prefix Sum Algorithm PDF
6 pages
Using CUDA
No ratings yet
Using CUDA
57 pages
8 Cud A 1
No ratings yet
8 Cud A 1
38 pages
CUDAProg Model
No ratings yet
CUDAProg Model
24 pages
CUDA MatrixMultiplication
No ratings yet
CUDA MatrixMultiplication
2 pages
Lab 1 Parallel
No ratings yet
Lab 1 Parallel
4 pages
Cuda Firstprograms PDF
No ratings yet
Cuda Firstprograms PDF
6 pages
01 Cuda C Basics
No ratings yet
01 Cuda C Basics
32 pages
HPC Final 4-8
No ratings yet
HPC Final 4-8
25 pages
Intro To CUDA
No ratings yet
Intro To CUDA
76 pages
GPU Series III CUDA Compilation Host Side 1721302802
No ratings yet
GPU Series III CUDA Compilation Host Side 1721302802
8 pages
HPCXX 2023 d4
No ratings yet
HPCXX 2023 d4
52 pages
Moving To Parallel - Addition of 2 Matrices
No ratings yet
Moving To Parallel - Addition of 2 Matrices
14 pages
HW 2
No ratings yet
HW 2
12 pages
27th Aug - Introduction To GPGPU - Part 1
No ratings yet
27th Aug - Introduction To GPGPU - Part 1
32 pages
3 Some Commonly Used CUDA API: 3.1 Function Type Qualifiers
No ratings yet
3 Some Commonly Used CUDA API: 3.1 Function Type Qualifiers
7 pages
Introduction To CUDA C
No ratings yet
Introduction To CUDA C
67 pages
BECOA157 Parallel Matrix Multiplication
No ratings yet
BECOA157 Parallel Matrix Multiplication
3 pages
Addition Cuda
No ratings yet
Addition Cuda
2 pages
Programming Gpus With Cuda: John Mellor-Crummey
No ratings yet
Programming Gpus With Cuda: John Mellor-Crummey
42 pages
L06 GPGPU CUDA Programming 1
No ratings yet
L06 GPGPU CUDA Programming 1
23 pages
002 - Introduction To CUDA Programming - 1
No ratings yet
002 - Introduction To CUDA Programming - 1
54 pages
PDC Assignment
No ratings yet
PDC Assignment
9 pages
Lec 1
No ratings yet
Lec 1
27 pages
CUDA Part-1
No ratings yet
CUDA Part-1
52 pages
Computer Engineering Laboratory Solution Primer
From Everand
Computer Engineering Laboratory Solution Primer
Karan Bhandari
No ratings yet
LPIC-1 Primer
From Everand
LPIC-1 Primer
John Greene
4.5/5 (3)
PLT5 450B
No ratings yet
PLT5 450B
9 pages
Oriel Monochromators
No ratings yet
Oriel Monochromators
27 pages
Leybold 55877 Plancks Constant Photocell
No ratings yet
Leybold 55877 Plancks Constant Photocell
4 pages
Yao Padgett 2011
No ratings yet
Yao Padgett 2011
45 pages
Problema Resuelto de Mecánica
No ratings yet
Problema Resuelto de Mecánica
5 pages
Sách bài tập Giải tích Demidovich-trang-18-43
No ratings yet
Sách bài tập Giải tích Demidovich-trang-18-43
26 pages
Andrew Steinmann-Antichrist DN 11
No ratings yet
Andrew Steinmann-Antichrist DN 11
16 pages
The Number System: Alright Class, Now It's Time To Summarize The Chapter - Number System
No ratings yet
The Number System: Alright Class, Now It's Time To Summarize The Chapter - Number System
9 pages
NUSTrive by Nowsherwan - Part 1 - Advance Maths MCQS Guide..
No ratings yet
NUSTrive by Nowsherwan - Part 1 - Advance Maths MCQS Guide..
146 pages
Presentation (IDIOMS)
No ratings yet
Presentation (IDIOMS)
10 pages
Detailed Instagram Content Calendar April 2025
No ratings yet
Detailed Instagram Content Calendar April 2025
2 pages
Continuity 1
No ratings yet
Continuity 1
12 pages
Kouymjian2002 Armenian Paleography
No ratings yet
Kouymjian2002 Armenian Paleography
76 pages
WT Unit 3
No ratings yet
WT Unit 3
86 pages
List Yang Belum Ngisi Google Form Kondisi Kesehatan Karyawan
No ratings yet
List Yang Belum Ngisi Google Form Kondisi Kesehatan Karyawan
20 pages
Cg1 Assignment 2 Transform
No ratings yet
Cg1 Assignment 2 Transform
7 pages
Learning by Injection: Attention Embedded Recurrent Neural Network For Amharic Text-Image Recognition
No ratings yet
Learning by Injection: Attention Embedded Recurrent Neural Network For Amharic Text-Image Recognition
10 pages
Listening Test 3 - 2023
No ratings yet
Listening Test 3 - 2023
3 pages
Life Unfolding (Version For Homeopaths) May2023
No ratings yet
Life Unfolding (Version For Homeopaths) May2023
40 pages
API RBI Software E2G
No ratings yet
API RBI Software E2G
3 pages
Ofs Modes
100% (1)
Ofs Modes
17 pages
2010 Word Calendar
No ratings yet
2010 Word Calendar
12 pages
English 5 Q2 Week 1
No ratings yet
English 5 Q2 Week 1
10 pages
Comparison AUTOCAD VS DRAFTSIGHT PREMIUM - OCTOBER 3 - 2019
No ratings yet
Comparison AUTOCAD VS DRAFTSIGHT PREMIUM - OCTOBER 3 - 2019
12 pages
QFT Qpe
No ratings yet
QFT Qpe
19 pages
Present Perfect Tense: Function Pattern Example Time Signal
No ratings yet
Present Perfect Tense: Function Pattern Example Time Signal
1 page
Latin American Regional Contest ACM-ICPC 2017
No ratings yet
Latin American Regional Contest ACM-ICPC 2017
28 pages
Memory
No ratings yet
Memory
12 pages
Win32api Types
No ratings yet
Win32api Types
61 pages
IC M802 SPANISHinstructions
100% (1)
IC M802 SPANISHinstructions
80 pages
Kamustahan Balitaan Kamustahan Balitaan Kamustahan Balitaan Kamustahan Balitaan Kamustahan Balitaan
No ratings yet
Kamustahan Balitaan Kamustahan Balitaan Kamustahan Balitaan Kamustahan Balitaan Kamustahan Balitaan
10 pages
7 Secrets To Power Praying
91% (11)
7 Secrets To Power Praying
21 pages
Kaizen Idea Sheet: Countermeasure
No ratings yet
Kaizen Idea Sheet: Countermeasure
1 page

Ejercicio 2 Práctica 3: CUDA Desempeño en Función de La Homogeneidad para Acceder A Memoria y de La Regularidad Del Código

Uploaded by

Ejercicio 2 Práctica 3: CUDA Desempeño en Función de La Homogeneidad para Acceder A Memoria y de La Regularidad Del Código

Uploaded by

/*

* Ejercicio 2 Práctica 3: CUDA

* y de la regularidad del código

#define GROUP_SIZE 512

/* Utilidad para checar errores de CUDA

void checkCUDAError(const char*);

// Kernel that executes on the CUDA

__global__ void square_array(float *a,

for(int idx=thread_start_idx; idx

if(!group) a[idx] = a[idx]

else a[idx] = a[idx] +

// main routine that executes on the host

float *a_h, *a_d; // Pointer to

const int N = 1<<22; // Make a

size_t size = N * sizeof(float);

/* Auxiliares para medir tiempos */

cudaEvent_t start, stop;

a_h = (float *)malloc(size); //

cudaMalloc((void **) &a_d,

for (int i=0; i<N; i++)

//for (int i=0; i<N; i+=N/50)

cudaMemcpy(a_d, a_h, size,

// Create timer for timing CUDA

//PPunsigned int timer = 0;

int n_blocks = 256;//1<<10; //

square_array <<< n_blocks,

// Retrieve result from device and

cudaEventElapsedTime( &time, start,

// Print some of the results

for (int i=0; i<N; i+=N/50)

// Imprime tiempo de ejecución

/* Utility function to check for and report

void checkCUDAError(const char *msg)

cudaError_t err = cudaGetLastError();

if( cudaSuccess != err)

fprintf(stderr, "Cuda error: %s:

You might also like

global void square_array(float *a,

float a_h, a_d; // Pointer to