Da Fermi 16 SIMD-Lanes hat, enthält jede 2048 Register. Jeder CUDA-Thread erhält ein Element von jedem der Vektorregister. Beachten Sie, dass ein CUDA-Thread einfach ein vertikaler Schnitt eines Threads von SIMD-Befehlen ist, der einem von einer SIMD-Lane ausgeführten Element entspricht. Vergessen Sie dabei nicht, dass CUDA-Threads sehr verschieden von POSIX-Threads sind; es ist nicht möglich, in einem CUDA-Thread beliebig Systemaufrufe und Synchronisierungen durchzuführen.
NVIDIA GPU-Speicherstrukturen
Abbildung 6.8 zeigt die Speicherstrukturen einer NVIDIA GPU. Den on-Chip-Speicher, der auf jedem mehrfädigen SIMD-Prozessor vorhanden ist, nennen wir lokalen Speicher. Er wird von den SIMD-Lanes innerhalb eines mehrfädigen SIMD-Prozessors geteilt, ...
Get Rechnerorganisation und Rechnerentwurf, 5th Edition now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.