CUDA

쿠다
CUDA
개발자	엔비디아
발표일	2007년 6월 23일(17년 전)
안정화 버전	12.6 / 2024년 8월 1일(2개월 전)
운영 체제	윈도우 XP 이상; macOS; 리눅스
플랫폼	아래의 지원 GPU 참고
종류	GPGPU
라이선스	프리웨어
웹사이트	developer.nvidia.com/cuda-zone

CUDA("Compute Unified Device Architecture", 쿠다)는 그래픽 처리 장치(GPU)에서 수행하는 (병렬 처리) 알고리즘을 C 프로그래밍 언어를 비롯한 산업 표준 언어를 사용하여 작성할 수 있도록 하는 GPGPU 기술이다. CUDA는 엔비디아가 개발해오고 있으며 이 아키텍처를 사용하려면 엔비디아 GPU와 특별한 스트림 처리 드라이버가 필요하다. CUDA는 G8X GPU로 구성된 지포스 8 시리즈급 이상에서 동작한다. CUDA 플랫폼은 컴퓨터 커널의 실행을 위해 GPU의 가상 명령 집합과 병렬 연산 요소들을 직접 접근할 수 있는 소프트웨어 계층이다.^[1]

개발자는 패스스케일 오픈64 C 컴파일러로 컴파일 된 '쿠다를 위한 C' (C언어를 엔비디아가 확장한 것)를 사용하여 GPU 상에서 실행시킬 알고리듬을 작성할 수 있다. 쿠다 구조는 일련의 계산 인터페이스를 지원하며 이에는 OpenCL, DirectX Compute가 포함된다. C 언어가 아닌 다른 프로그래밍언어에서의 개발을 위한 래퍼(Wrapper)도 있는데, 현재 파이썬, 펄, 포트란, 자바와 매트랩 등을 위한 것들이 있다. 이러한 접근성은 병렬 프로그래밍 전문가들이 GPU 리소스를 쉽게 이용할 수 있게 해주며, 이는 그래픽스 프로그래밍의 고급 기술을 요구하였던 Direct3D와 OpenGL과 같은 이전 API 솔루션들과 대비된다. 또, CUDA는 OpenACC와 OpenCL과 같은 프로그래밍 프레임워크를 지원한다.^[1]

최신 드라이버는 모두 필요한 쿠다 콤포넌트를 담고 있다. 쿠다는 모든 엔비디아 GPU (G8X 시리즈 이후)를 지원하며 이 대상에는 지포스, 쿼드로, 테슬라 제품군이 포함된다. 엔비디아는 지포스 8 시리즈를 위해 개발된 프로그램들이 수정 없이 모든 미래의 엔비디아 비디오 카드에서 실행될 것이라고 선언하였다.

쿠다를 통해 개발자들은 쿠다 GPU 안 병렬 계산 요소 고유의 명령어 집합과 메모리에 접근할 수 있다. 쿠다를 사용하여 최신 엔비디아 GPU를 효과적으로 개방적으로 사용할 수 있다. 그러나 CPU와는 달리 GPU는 병렬 다수 코어 구조를 가지고 있고, 각 코어는 수천 스레드를 동시에 실행시킬 수 있다. 응용 프로그램이 수행하는 작업(계산)이 이러한 병렬처리연산에 적합할 경우, GPU를 이용함으로써 커다란 성능 향상을 기대할 수 있다.

컴퓨터 게임 업계에서는 그래픽 랜더링에 덧붙여, 그래픽 카드의 게임 물리 계산 (파편, 연기, 불, 유체 등 물리 효과)에 사용되며, 예로는 PhysX와 불렛이 있다. 쿠다는 그래픽이 아닌 응용 프로그램, 즉, 계산 생물학, 암호학, 그리고 다른 분야에서 10배 또는 그 이상의 속도 혜택을 가져왔다. 이 한 예는 BOINC 분산 계산 클라이언트이다.

쿠다는 저수준 API와 고수준 API 모두를 제공한다. 최초의 CUDA SDK는 2007년 2월 15일에 공개되었으며 마이크로소프트 윈도우와 리눅스를 지원했다. OS X 지원은 2.0 버전에 추가되었다.

이점

쿠다가 그래픽 API를 사용하는 전통적인 범용 GPU에 비해 가지는 몇 가지 장점은 다음과 같다.

흩뿌린 읽기 - 코드가 메모리의 임의 위치에서 데이터를 읽을 수 있다.
공유 메모리 - 쿠다는 고속 공유 메모리 지역 (16 또는 48KB 크기) 을 드러내어 스레드 간에 나눌 수 있게 해 준다. 이는 사용자 관리 캐시로 사용될 수 있는데, 텍스처 룩업을 이용하는 경우 보다 더 빠른 대역폭이 가능해진다.
디바이스 상의 읽기, 쓰기가 호스트보다 더 빠르다.
정수와 비트 단위 연산을 충분히 지원한다. 정수 텍스처 룩업이 포함된다.

제한

재귀호출, 함수 포인터가 없는 C 언어의 하부 집합을 확장하여 사용한다. 그러나 한 개의 처리 장치가 여러 개의 쪼개진 메모리 공간에 대하여 작업하여야 하는 점이 다른 C 언어 실행 환경과 다른 점이다.
텍스처 랜더링은 지원 되지 않는다.
배정도에 관해서는 IEEE 754 표준과 다르지 않다. 단정도에서는 비정규 값과 신호 NaN이 지원되지 않고, IEEE 반올림 모드 가운데서는 두 가지만 지원하며, 이도 명령어에 따라서 지원되는 것으로 제어 단어(Control word)에서 지원 되는 것은 아니다.(이것이 제한점인지는 논란의 대상이 될 수 있다) 그리고 나눗셈과 제곱근의 정밀도가 단정도에 비해 조금 낮다.
CPU와 GPU 사이의 버스 대역폭과 시간 지연에서 병목이 발생할 수 있다.
스레드가 최소한 32개씩 모여서 실행되어야 최선의 성능 향상을 얻을 수 있으며, 스레드 수의 합이 수천 개가 되어야 한다. 프로그램 코드에서의 분기는, 각각의 32 스레드가 같은 실행 경로를 따른다면, 성능에 큰 지장을 주지 않는다. SIMD 실행 모델은 어떠한 내재적으로 분기하는 임무에게는 심각한 제한이 된다. (예를 들어, 광선 추적 가속 자료 구조)
쿠다 기반 GPU는 엔비디아에서만 나온다.

지원 GPU

CUDA 수준의 지원 GPU 및 카드이다. 엔비디아 웹사이트도 참고할 것:

연산 능력 (버전)	마이크로- 아키텍처	GPU	지포스	쿼드로	워크스테이션, 데이터센터	Tegra, Jetson
1.0	테슬라	G80	지포스 8800 울트라, 지포스 8800 GTX, 지포스 8800 GTS(G80)	쿼드로 FX 5600, 쿼드로 FX 4600, 쿼드로 Plex 2100 S4	테슬라 C870, 테슬라 D870, 테슬라 S870
1.1		G92, G94, G96, G98, G84, G86	지포스 GTS 250, 지포스 9800 GX2, 지포스 9800 GTX, 지포스 9800 GT, 지포스 8800 GTS(G92), 지포스 8800 GT, 지포스 9600 GT, 지포스 9500 GT, 지포스 9400 GT, 지포스 8600 GTS, 지포스 8600 GT, 지포스 8500 GT, 지포스 G110M, 지포스 9300M GS, 지포스 9200M GS, 지포스 9100M G, 지포스 8400M GT, 지포스 G105M	쿼드로 FX 4700 X2, 쿼드로 FX 3700, 쿼드로 FX 1800, 쿼드로 FX 1700, 쿼드로 FX 580, 쿼드로 FX 570, 쿼드로 FX 470, 쿼드로 FX 380, 쿼드로 FX 370, 쿼드로 FX 370 Low Profile, 쿼드로 NVS 450, 쿼드로 NVS 420, 쿼드로 NVS 290, 쿼드로 NVS 295, 쿼드로 Plex 2100 D4, 쿼드로 FX 3800M, 쿼드로 FX 3700M, 쿼드로 FX 3600M, 쿼드로 FX 2800M, 쿼드로 FX 2700M, 쿼드로 FX 1700M, 쿼드로 FX 1600M, 쿼드로 FX 770M, 쿼드로 FX 570M, 쿼드로 FX 370M, 쿼드로 FX 360M, 쿼드로 NVS 320M, 쿼드로 NVS 160M, 쿼드로 NVS 150M, 쿼드로 NVS 140M, 쿼드로 NVS 135M, 쿼드로 NVS 130M, 쿼드로 NVS 450, 쿼드로 NVS 420, 쿼드로 NVS 295
1.2		GT218, GT216, GT215	지포스 GT 340, 지포스 GT 330, 지포스 GT 320, 지포스 315, 지포스 310*, 지포스 GT 240, 지포스 GT 220, 지포스 210, 지포스 GTS 360M, 지포스 GTS 350M, 지포스 GT 335M, 지포스 GT 330M, 지포스 GT 325M, 지포스 GT 240M, 지포스 G210M, 지포스 310M, 지포스 305M	쿼드로 FX 380 Low Profile, 엔비디아 NVS 300, 쿼드로 FX 1800M, 쿼드로 FX 880M, 쿼드로 FX 380M, 엔비디아 NVS 300, NVS 5100M, NVS 3100M, NVS 2100M, ION
1.3		GT200, GT200b	지포스 GTX 295, GTX 285, GTX 280, 지포스 GTX 275, 지포스 GTX 260	쿼드로 FX 5800, 쿼드로 FX 4800, 쿼드로 FX 4800 for Mac, 쿼드로 FX 3800, 쿼드로 CX, 쿼드로 Plex 2200 D2	테슬라 C1060, 테슬라 S1070, 테슬라 M1060
2.0	페르미	GF100, GF110	지포스 GTX 590, 지포스 GTX 580, 지포스 GTX 570, 지포스 GTX 480, 지포스 GTX 470, 지포스 GTX 465, 지포스 GTX 480M	쿼드로 6000, 쿼드로 5000, 쿼드로 4000, 쿼드로 4000 for Mac, 쿼드로 Plex 7000, 쿼드로 5010M, 쿼드로 5000M	테슬라 C2075, 테슬라 C2050/C2070, 테슬라 M2050/M2070/M2075/M2090
2.1	페르미	GF104, GF106 GF108, GF114, GF116, GF117, GF119	지포스 GTX 560 Ti, 지포스 GTX 550 Ti, 지포스 GTX 460, 지포스 GTS 450, 지포스 GTS 450, 지포스 GT 640 (GDDR3), 지포스 GT 630, 지포스 GT 620, 지포스 GT 610, 지포스 GT 520, 지포스 GT 440, 지포스 GT 440, 지포스 GT 430, 지포스 GT 430, 지포스 GT 420, 지포스 GTX 675M, 지포스 GTX 670M, 지포스 GT 635M, 지포스 GT 630M, 지포스 GT 625M, 지포스 GT 720M, 지포스 GT 620M, 지포스 710M, 지포스 610M, 지포스 820M, 지포스 GTX 580M, 지포스 GTX 570M, 지포스 GTX 560M, 지포스 GT 555M, 지포스 GT 550M, 지포스 GT 540M, 지포스 GT 525M, 지포스 GT 520MX, 지포스 GT 520M, 지포스 GTX 485M, 지포스 GTX 470M, 지포스 GTX 460M, 지포스 GT 445M, 지포스 GT 435M, 지포스 GT 420M, 지포스 GT 415M, 지포스 710M, 지포스 410M	쿼드로 2000, 쿼드로 2000D, 쿼드로 600, 쿼드로 410, 쿼드로 4000M, 쿼드로 3000M, 쿼드로 2000M, 쿼드로 1000M, NVS 5400M, NVS 5200M, NVS 4200M, 엔비디아 NVS 315, 엔비디아 NVS 310
3.0	케플러	GK104, GK106, GK107	지포스 GTX 770, 지포스 GTX 760, 지포스 GT 740, 지포스 GTX 690, 지포스 GTX 680, 지포스 GTX 670, 지포스 GTX 660 Ti, 지포스 GTX 660, 지포스 GTX 650 Ti BOOST, 지포스 GTX 650 Ti, 지포스 GTX 650, 지포스 GTX 880M, 지포스 GTX 780M, 지포스 GTX 770M, 지포스 GTX 765M, 지포스 GTX 760M, 지포스 GTX 680MX, 지포스 GTX 680M, 지포스 GTX 675MX, 지포스 GTX 670MX, 지포스 GTX 660M, 지포스 GT 750M, 지포스 GT 650M, 지포스 GT 745M, 지포스 GT 645M, 지포스 GT 740M, 지포스 GT 730M, 지포스 GT 640M, 지포스 GT 640M LE, 지포스 GT 735M, 지포스 GT 730M	쿼드로 K5000, 쿼드로 K4200, 쿼드로 K4000, 쿼드로 K2000, 쿼드로 K2000D, 쿼드로 K600, 쿼드로 K420, 쿼드로 K500M, 쿼드로 K510M, 쿼드로 K610M, 쿼드로 K1000M, 쿼드로 K2000M, 쿼드로 K1100M, 쿼드로 K2100M, 쿼드로 K3000M, 쿼드로 K3100M, 쿼드로 K4000M, 쿼드로 K5000M, 쿼드로 K4100M, 쿼드로 K5100M, 엔비디아 NVS 510	테슬라 K10, GRID K340, GRID K520
3.2		GK20A				Tegra K1, Jetson TK1
3.5		GK110, GK208	지포스 GTX 타이탄 Z, 지포스 GTX 타이탄 Black, 지포스 GTX 타이탄, 지포스 GTX 780 Ti, 지포스 GTX 780, 지포스 GT 640 (GDDR5), 지포스 GT 630 v2, 지포스 GT 730, 지포스 GT 720, 지포스 GT 710,지포스 GT 740M (64비트, DDR3)	쿼드로 K6000, 쿼드로 K5200	테슬라 K40, 테슬라 K20x, 테슬라 K20
3.7		GK210			테슬라 K80
5.0	맥스웰	GM107, GM108	지포스 GTX 750 Ti, 지포스 GTX 750, 지포스 GTX 960M, 지포스 GTX 950M, 지포스 940M, 지포스 930M, 지포스 GTX 860M, 지포스 GTX 850M, 지포스 845M, 지포스 840M, 지포스 830M	쿼드로 K2200, 쿼드로 K1200, 쿼드로 K620, 쿼드로 M2000M, 쿼드로 M1000M, 쿼드로 M600M, 쿼드로 K620M, 엔비디아 NVS 810
5.2		GM200, GM204, GM206	지포스 GTX 타이탄 X, 지포스 GTX 980 Ti, 지포스 GTX 980, 지포스 GTX 970, 지포스 GTX 960, 지포스 GTX 950, 지포스 GTX 750 SE, 지포스 GTX 980M, 지포스 GTX 970M, 지포스 GTX 965M	쿼드로 M6000 24GB, 쿼드로 M6000, 쿼드로 M5000, 쿼드로 M4000, 쿼드로 M2000, 쿼드로 M5500, 쿼드로 M5000M, 쿼드로 M4000M, 쿼드로 M3000M	테슬라 M4, 테슬라 M40, 테슬라 M6, 테슬라 M60
5.3		GM20B				Tegra X1, Jetson TX1, Jetson Nano
6.0	파스칼	GP100		쿼드로 GP100	테슬라 P100
6.1		GP102, GP104, GP106, GP107, GP108	엔비디아 타이탄 X, 지포스 GTX 1080, 지포스 GTX 1070, 지포스 GTX 1070 Ti, 지포스 GTX 1060, 지포스 GTX 1050 Ti, 지포스 GTX 1050	쿼드로 P6000, 쿼드로 P5000, 쿼드로 P4000, 쿼드로 P2200, 쿼드로 P2000, 쿼드로 1000, 쿼드로 P620, 쿼드로 P600, 쿼드로 P400	테슬라 P40, 테슬라 P4
6.2		GP10B				Jetson TX2
7.0	볼타	GV100	엔비디아 타이탄 V	쿼드로 GV100	테슬라 V100
7.2	볼타	GV10B				Jetson AGX Xavier, Jetson Xavier NX
7.5	튜링	TU102, TU104, TU106, TU116, TU117	엔비디아 타이탄 RTX, 지포스 RTX 2080Ti, 지포스 RTX 2080, 지포스 RTX 2070, 지포스 RTX 2060, 지포스 GTX 1660 Ti, 지포스 GTX 1660, 지포스 GTX 1650, 지포스 GTX 1630	쿼드로 RTX 8000, 쿼드로 RTX 6000, 쿼드로 RTX 5000, 쿼드로 RTX 4000	테슬라 T4
8.0	암페어	GA100			엔비디아 A100, 엔비디아 A30
8.6		GA102, GA104, GA106, GA107	지포스 RTX 3080, 지포스 RTX 3070, 지포스 RTX 3060Ti, 지포스 RTX 3060, 지포스 RTX 3050Ti, 지포스 RTX 3050	RTX A6000, RTX A5000, RTX A4000, RTX A3000, RTX A2000	엔비디아 A40, 엔비디아 A10, 엔비디아 A16
8.7		GA10B				Jetson AGX Orin, Jetson Orin NX, Jetson Orin Nano
8.9	에이다 러브레이스	AD102, AD103, AD104, AD106, AD107	지포스 RTX 4090, 지포스 RTX 4080, 지포스 RTX 4070 Ti, 지포스 RTX 4070, 지포스 RTX 4060, 지포스 RTX 4050,	RTX 6000	엔비디아 L4, 엔비디아 L40
9.0	호퍼	GH100			엔비디아 H100
9.1
9.2
10.0
10.1

'*' - OEM 전용 제품

언어 결합

커먼 리스프 - cl-cuda
포트란 - FORTRAN CUDA Archived 2012년 4월 10일 - 웨이백 머신, PGI CUDA Fortran Compiler
F# - Alea.CUDA
하스켈 - Data.Array.Accelerate
IDL - GPULib Archived 2012년 11월 7일 - 웨이백 머신
자바 - jCUDA, JCuda, JCublas, JCufft, CUDA4J
루아 - KappaCUDA
매스매티카 - CUDALink
MATLAB - 병렬 컴퓨팅 툴박스, MATLAB 분산 컴퓨팅 서버,^[2] 재킷과 같은 타사 패키지.
.NET - CUDA.NET, Managed CUDA, CUDAfy.NET .NET 커널 및 호스트 코드, CURAND, CUBLAS, CUFFT
펄 - KappaCUDA, CUDA::Minimal
파이썬 - Numba, NumbaPro, PyCUDA, KappaCUDA, Theano Archived 2020년 11월 8일 - 웨이백 머신
루비 - KappaCUDA
R - gputools

예제

C++

이 예제는 텍스처 하나를 어떤 이미지로부터 GPU상의 행렬로 읽어들인다.

cudaArray* cu_array;
texture<float, 2> tex;

// 행렬 할당
cudaMallocArray(&cu_array, cudaCreateChannelDesc<float>(), width, height);

// 이미지 데이터를 행렬로 복사
cudaMemcpy(cu_array, image, width*height, cudaMemcpyHostToDevice);

// 행렬을 텍스처에 연결한다.
cudaBindTexture(tex, cu_array);

// 커널을 실행한다
dim3 blockDim(16, 16, 1);
dim3 gridDim(width / blockDim.x, height / blockDim.y, 1);
kernel<<< gridDim, blockDim, 0 >>>(d_odata, width, height);
cudaUnbindTexture(tex);

__global__ void kernel(float* odata, int height, int width)
{
   unsigned int x = blockIdx.x*blockDim.x + threadIdx.x;
   unsigned int y = blockIdx.y*blockDim.y + threadIdx.y;
   float c = texfetch(tex, x, y);
   odata[y*width+x] = c;
}

파이썬

파이선 언어의 바인딩은 PyCUDA에서 구할 수 있다.

아래 예제는 두 배열의 곱을 GPU 상에서 계산한다.

import pycuda.driver as drv
import numpy
import pycuda.autoinit

mod = drv.SourceModule("""
__global__ void multiply_them(float *dest, float *a, float *b)
{
  const int i = threadIdx.x;
  dest[i] = a[i] * b[i];
}
""")

multiply_them = mod.get_function("multiply_them")

a = numpy.random.randn(400).astype(numpy.float32)
b = numpy.random.randn(400).astype(numpy.float32)

dest = numpy.zeros_like(a)
multiply_them(
        drv.Out(dest), drv.In(a), drv.In(b),
        block=(400,1,1))

print dest-a*b

행렬 곱셈을 단순화하는 추가 파이선 바인딩을 사용한 예제이다.

import numpy
from pycublas import CUBLASMatrix
A = CUBLASMatrix( numpy.mat([[1,2,3],[4,5,6]],numpy.float32) )
B = CUBLASMatrix( numpy.mat([[2,3],[4,5],[6,7]],numpy.float32) )
C = A*B
print C.np_mat()

같이 보기

각주

↑ ^가 ^나 Abi-Chahla, Fedy (2008년 6월 18일). “Nvidia's CUDA: The End of the CPU?”. Tom's Hardware. 2015년 5월 17일에 확인함.
↑ “MATLAB Adds GPGPU Support”. 2010년 9월 20일. 2010년 9월 27일에 원본 문서에서 보존된 문서. 2010년 10월 12일에 확인함.

제이슨 샌더스, 에드워드 캔드롯 저, 박춘언 역, 예제로 배우는 CUDA 프로그래밍(입문자를 위한 GPGPU 프로그래밍의 기초), ISBN 9788994774060.
Farber, Rob 저, CUDA Application Design and Development, ISBN 9780123884268.
Hwu, Wen-Mei 저, GPU Computing GEMs - Jade Edition, ISBN 9780123859631.

외부 링크

위키미디어 공용에 CUDA 관련 미디어 분류가 있습니다.
(영어) CUDA - 공식 웹사이트
(영어) CUDA 커뮤니티 - 구글+
(영어) VRAM 크기 조절 도구
(영어) CUDA GPUs - 공식적으로 CUDA를 지원하는 장치 목록

[CUDA_intro_-_TomsHardware-1] 가 ^나 Abi-Chahla, Fedy (2008년 6월 18일). “Nvidia's CUDA: The End of the CPU?”. Tom's Hardware. 2015년 5월 17일에 확인함.

[2] “MATLAB Adds GPGPU Support”. 2010년 9월 20일. 2010년 9월 27일에 원본 문서에서 보존된 문서. 2010년 10월 12일에 확인함.

[1]

[2]

v t e 프로세서 기술
구조	튜링 기계 포스트 튜링 기계 범용 튜링 기계 양자 튜링 기계 벨트 머신 스택 머신 레지스터 머신 카운터 머신 포인터 머신 랜덤 접근 기계 랜덤 액세스 스토어드 프로그램 머신 유한 상태 기계 큐 오토마톤 폰 노이만 하버드 (수정됨) 데이터플로 TTA 셀룰러 인공신경망 기계 학습 딥 러닝 신경 처리 장치 (NPU) 돌림형 신경망 로드/스토어 아키텍처 레지스터 메모리 아키텍처 엔디언 FIFO 제로 카피 NUMA HUMA HSA 모바일 컴퓨팅 서피스 컴퓨팅 착용 컴퓨팅 이기종 컴퓨팅 병렬 컴퓨팅 병행 컴퓨팅 분산 컴퓨팅 클라우드 컴퓨팅 무정형 컴퓨팅 유비쿼터스 컴퓨팅 패브릭 컴퓨팅 재배열 컴퓨팅 인지 컴퓨팅 아날로그 컴퓨팅 기계식 컴퓨팅 하이브리드 컴퓨팅 디지털 컴퓨팅 DNA 컴퓨팅 펩타이드 컴퓨팅 화학 컴퓨팅 유기 컴퓨팅 웻웨어 컴퓨팅 양자 컴퓨터 신경 모방 컴퓨팅 광 컴퓨터 리버서블 컴퓨팅 비전통 컴퓨팅 하이퍼 계산 3진법 컴퓨터 대칭형 다중 처리 (SMP) 비대칭형 다중 처리 (AMP) 캐시 계층 메모리 계층 구조
ISA 유형	ASIP CISC RISC EDGE (TRIPS) VLIW (EPIC) MISC OISC NISC ZISC 비교
ISA	X86 z/아키텍처 ARM MIPS 파워 아키텍처 (파워PC) SPARC 밀 아이테니엄 (IA-64) 알파 프리즘 슈퍼H V850 클리퍼 VAX 유니코어 PA-RISC 마이크로블레이즈 RISC-V
워드 크기	1비트 2비트 4비트 8비트 9비트 10비트 12비트 15비트 16비트 18비트 22비트 24비트 25비트 26비트 27비트 31비트 32비트 33비트 34비트 36비트 39비트 40비트 48비트 50비트 60비트 64비트 128비트 256비트 512비트 가변
실행	명령어 파이프라인 버블 피연산자 포워딩 비순차적 명령어 처리 레지스터 리네이밍 모의 실행 분기 예측 메모리 의존성 예측 하자드
병렬 레벨	비트 비트 직렬 워드 명령어 파이프라이닝 스칼라 슈퍼스칼라 태스크 스레드 프로세스 데이터 벡터 메모리
멀티스레딩	시간적 동시 (SMT) (하이퍼스레딩) SpMT 선점 협력형 클러스터 멀티스레드 (CMT) 하드웨어 스카웃
플린 분류	SISD SIMD (SWAR) SIMT MISD MIMD SPMD 어드레싱 모드
CPU 성능	초당 명령 수 (IPS) 클럭당 명령어 처리 횟수 (IPC) 명령어 당 사이클 (CPI) 플롭스 (FLOPS) 초당 트랜잭션 수 (TPS) SUPS 전성비 계산 차수 캐시 성능 측정 및 메트릭
코어 카운트	싱글 코어 프로세서 멀티 코어 매니코어 프로세서
유형	중앙 처리 장치 (CPU) GPGPU AI 가속기 시각 처리 장치 (VPU) 벡터 프로세서 배럴 프로세서 스트림 프로세서 디지털 신호 처리 장치 (DSP) 입출력 프로세서/DMA 컨트롤러 네트워크 프로세서 베이스밴드 프로세서 물리 처리 장치 (PPU) 코프로세서 안전한 암호 보조 처리기 주문형 반도체 FPGA FPOA 복합 프로그래머블 논리 소자 마이크로컨트롤러 마이크로프로세서 모바일 프로세서 노트북 프로세서 초저전압 프로세서 멀티 코어 매니코어 프로세서 타일 프로세서 멀티칩 모듈 (MCM) 칩 스택 멀티칩 모듈 단일 칩 시스템 (SoC) 멀티프로세서 시스템 온 칩 (MPSoC) 프로그래밍 가능 단일 칩 시스템 (PSoC) 네트워크 온 칩 (NoC)
구성 요소	실행 장치 (EU) 산술 논리 장치 (ALU) 주소 생성 장치 (AGU) 부동소수점 장치 (FPU) 로드 스토어 유닛 (LSU) 분기 예측 유니파이드 레저베이션 스테이션 배럴 시프터 언코어 Sum addressed decoder (SAD) 프론트 사이드 버스 백사이드 버스 노스브리지 사우스브리지 가산기 곱셈기 복호화 주소 디코더 멀티플렉서 멀티플렉서 레지스터 캐시 메모리 관리 장치 (MMU) IOMMU 통합 메모리 컨트롤러 (IMC) 전원 관리 장치 (PMU) 변환 색인 버퍼 (TLB) 스택 엔진 레지스터 파일 프로세서 레지스터 하드웨어 레지스터 메모리 버퍼 레지스터 (MBR) 프로그램 카운터 마이크로코드 ROM 데이터패스 제어 장치 인스트럭션 유닛 재배열 버퍼 버퍼 쓰기 버퍼 코프로세서 전자 개폐기 전자 회로 집적 회로 3차원 집적 회로 불리언 회로 디지털 회로 아날로그 회로 혼합 신호 집적 회로 전원 관리 집적 회로 퀀텀 회로 논리 회로 조합 논리 순차 논리 이미터 결합 논리 (ECL) 트랜지스터-트랜지스터 논리 (TTL) 글루 로직 퀀텀 게이트 게이트 배열 계수기 버스 반도체 소자 클럭 속도 CPU 배수 비전 칩 멤리스터
전원 관리	APM ACPI 동적 주파수 스케일링 동적 전압 스케일링 클럭 게이팅
하드웨어 보안	NX 비트 인텔 MPX 인텔 시큐어 키 하드웨어 제한 (펌웨어) Software Guard Extensions (인텔 SGX) Trusted Execution Technology 신뢰 플랫폼 모듈 (TPM) 안전한 암호 보조 처리기 하드웨어 보안 모듈 헝즈칩
관련 항목	범용 CPU의 역사

v t e 병렬 컴퓨팅
일반	클라우드 컴퓨팅 고성능 컴퓨팅 클러스터 컴퓨팅 분산 컴퓨팅 그리드 컴퓨팅
병렬화 수준	비트 명령어 데이터 테스크
스레드	슈퍼스레딩 하이퍼스레딩
이론	암달의 법칙 구스타프슨의 법칙 비용 효과 카프-플랫 척도 감속 스피드업
구성 요소	프로세스 스레드 파이버 PRAM 명령어 윈도우
조정	멀티스레딩 메모리 일관성 캐시 일관성 Barrier 동기화 애플리케이션 체크포인트
프로그래밍	모델(내재적 병렬성 외재적 병렬성 동시성) 플린의 분류학(SISD SIMD MISD MIMD) 스레드
하드웨어	다중 처리(대칭형 비대칭형) 메모리(NUMA COMA 분산 공유 분산 공유) SMT SMP MPP 슈퍼스칼라 벡터 프로세서 슈퍼컴퓨터 베어울프
API	POSIX 스레드 OpenMP PVM MPI UPC 스레딩 빌딩 블록 Boost 전역 배열 Charm++ Cilk/실크 플러스 Co-array Fortran OpenCL CUDA
문제	처치 곤란 병렬 문제 그랜드 챌린지 문제 소프트웨어 락아웃 확장성 경쟁 상태 교착 상태 라이브락 결정론적 알고리즘 병렬 감속