Abbildung 6.20 zeigt die absolute Zunahme der Performanz, wenn die Anzahl der Threads von 1 auf 16 steigt. DGEMM arbeitet nun mit 174GFLOPS für 960×960-Matrizen. Während die nicht optimierte C-Version von DGEMM in Abbildung 3.12 diesen Code mit 0,8GFLOPS ausführt, führen die Optimierungen in den Kapiteln 3 bis 6, die den Code für die zugrunde liegende Hardware maßschneidern, insgesamt zu einer 200-mal so schnelle Ausführung!
Im nächsten Abschnitt folgen unsere Warnungen vor Fallstricken und Trugschlüssen. Der Friedhof der Computerarchitektur ist voll mit Projekten der Parallelverarbeitung, bei denen diese Warnungen ignoriert wurden.
Anmerkungen: 1) Diese Ergebnisse gelten für eingeschalteten Turbo Mode. Wie verwenden hier ein duales Chipsystem, ...
Get Rechnerorganisation und Rechnerentwurf, 5th Edition now with the O’Reilly learning platform.
O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.