مجله الکا
تحلیل کارت گرافیک های تسلا جدید شرکت Nvidia از جمله B100 , B200, H100, H200

مرور کلی
در این مقاله، اطلاعات سختافزاری مربوط به GPU های Blackwell از NVIDIA، شامل مدلهای B100، B200، GH200 و NVL72، همچنین SuperPod-576 و کارتهای شبکه ConnectX-800G، سوئیچهای Quantum-X800 IB و سوئیچهای اترنت Spectrum-X800 به طور کامل جمعآوری کردهایم و آنها را با سریهای قبلی مقایسه کردهایم. لازم به ذکر است که برخی از مطالب موجود در مقاله، دادههایی هستند که بر اساس اطلاعات مختلف استنباط کردهایم، مانند بخشهای قرمز در برخی از جداول، و دادههای نهایی تابع white paper رسمی خواهند بود (که هنوز منتشر نشده است). علاوه بر این، این مقاله شامل محتوای مربوط به اکوسیستم نرمافزاری نمیشود.
1. مرور کلی 1.1. تکامل 2.1. تک پردازنده GPU 3.1. سرورهای HGX 4.1. NVL و SuperPod 2. پردازنده گرافیکی Blackwell 3. مدلهای GH200 و GB200 1.3.GH200 2.3. GB200 4. سرورهای HGX H100/H200 و HGX B100/B200 1.4. HGX H100 و HGX H200 2.4. HGX B100 و HGX B200 5. NVLink و NVSwitch 1.5. NVSwitch نسل سوم 2.5. NVSwitch نسل چهارم 6. کارتهای شبکه و سوئیچهای شبکه 1.6. کارت شبکه InfiniBand ConnectX-8 2.6. پردازشگر BlueField-3 DPU/SuperNIC 3.6. سوئیچ Quantum-X800 IB 4.6. سوئیچ اترنت Spectrum-X800 7. GH200 NVL32 & GH200 SuperPod 1.7. GH200 Compute Tray 2.7. سینی NVSwitch 3.7. GH200 NVL32 4.7. GH200 SuperPod 8. GB200 NVL72 و GB200 SuperPod 1.8. GB200 Compute Tray 2.8. سینی NVSwitch 3.8. GB200 NVL72 4.8. GB200 SuperPod 9. تحلیل دادههای عملکردی 1.9. عملکرد DGX GB200 2.9. مصرف انرژی در هنگام آموزش GPT-MoE-1.8T
تکامل
NVIDIA معماری جدید Blackwell را در تاریخ 19 مارس 2024 منتشر کرد که مهمترین مدلهای آن شامل B200، B100 و GB200 هستند، همچنین مدلهای مرتبط با GB200-NVL72 و GB200-SuperPod نیز معرفی شدهاند. رابطه بین این پردازندههای گرافیکی مختلف در شکل زیر نشان داده شده است.
تک پردازنده GPU
جدول زیر قدرتمندترین GPU ها در سریهای Ampere، Hopper و جدیدترین سری Blackwell را نشان میدهد. میتوان مشاهده کرد که حافظه، قدرت محاسباتی و NVLink به طور تدریجی در حال تقویت هستند. (توجه: NVIDIA همچنین یک راهحل ویژه منتشر کرده است که در آن دو نسخه H100 PCIe از طریق NVBridge به هم متصل میشوند که به آن H100 NVL گفته میشود، اما از آنجا که اینها هنوز دو پردازنده گرافیکی مجزا هستند، جزئیات آن در اینجا مطرح نمیشود.)
· A100 -> H100: قدرت محاسباتی FP16 برای محاسبات فشرده بیش از 3 برابر افزایش یافته است، در حالی که مصرف انرژی فقط از 400 وات به 700 وات افزایش یافته است.
· H200 -> B200: قدرت محاسباتی FP16 برای محاسبات فشرده بیش از 2 برابر افزایش یافته است، در حالی که مصرف انرژی فقط از 700 وات به 1000 وات افزایش یافته است.
· قدرت محاسباتی FP16 پردازنده B200 حدود 7 برابر بیشتر از A100 است، در حالی که مصرف انرژی تنها 2.5 برابر شده است.
GPU های Blackwell از دقت FP4 پشتیبانی میکنند، که قدرت محاسباتی آنها دو برابر دقت FP8 است. برخی از دادهها در گزارشهای NVIDIA قدرت محاسباتی FP4 را با قدرت محاسباتی FP8 معماری Hopper مقایسه کردهاند، بنابراین نسبت شتابدهی ممکن است اغراقآمیز به نظر برسد.
شایان ذکر است که:
GB200 از چیپ کامل B200 استفاده میکند، در حالی که B100 و B200 نسخههای تقلیل یافته مربوط به آن هستند.
سرورهای HGX
HGX یک سرور با عملکرد بالا از NVIDIA است که معمولاً شامل 8 یا 4 پردازنده گرافیکی (GPU) میباشد. این سرورها معمولاً با CPUهای Intel یا AMD جفت میشوند و از NVLink و NVSwitch برای دستیابی به ارتباط کامل بین پردازندهها استفاده میکنند. (8 GPU معمولاً حد بالای ارتباط کامل NVLink است، به جز در موارد NVL و SuperPod.)
· از HGX A100 به HGX H100 و HGX H200، قدرت محاسباتی FP16 برای محاسبات فشرده بیش از 3.3 برابر افزایش یافته است، در حالی که مصرف انرژی کمتر از 2 برابر افزایش یافته است.
· از HGX H100 و HGX H200 به HGX B100 و HGX B200، قدرت محاسباتی FP16 برای محاسبات فشرده حدود 2 برابر افزایش یافته است، در حالی که مصرف انرژی مشابه باقی مانده است و در بدترین حالت از 50% بیشتر نمیشود.
شایان ذکر است که:
شبکه HGX B100 و HGX B200 بهروز نشده است و کارت شبکه IB همچنان از نوع 8x400Gb/s است.
NVL و SuperPod
علاوه بر سرورهای GPU سری HGX، NVIDIA همچنین راهحلهایی برای کابینتها و خوشههای کامل ارائه میدهد که همگی از راهحل جدید CPU + GPU Grace استفاده کرده و به سیستمهای خنکسازی مایع متصل هستند. جدول زیر کابینتهای NVL و SuperPod مربوط به معماریهای Hopper و Blackwell را نشان میدهد.
· NVL32 -> NVL72: تعداد GPU ها از 32 به 72 افزایش یافت و قدرت محاسباتی FP16 برای محاسبات فشرده از 32P به 180P افزایش یافت که تقریباً 6 برابر است، در حالی که مصرف انرژی نیز از 40kW (بدون مشاهده عدد دقیق، داده تخمینی) به 120kW افزایش یافت که تقریباً 3 برابر است.
· GH200 SuperPod -> GB200 SuperPod: تعداد GPU ها از 256 به 576 افزایش یافت و قدرت محاسباتی FP16 برای محاسبات فشرده از 256P به 1440P افزایش یافت که تقریباً 6 برابر است و مصرف انرژی مربوطه هنوز مشخص نشده است.
کارتهای شبکه ConnectX-8 IB جدید با پهنای باند 800Gb/s در NVL72 و GB200 SuperPod استفاده میشوند، در حالی که HGX B100 و HGX B200 همچنان از کارتهای شبکه ConnectX-7 IB با پهنای باند 400Gb/s استفاده میکنند.
شایان ذکر است که:
· NVIDIA معرفی کرده است که GB200 SuperPod از 8 NVL72 تشکیل شده است، در حالی که GH200 SuperPod از 8 NVL32 تشکیل نشده است.
· تعداد سینیهای L1 NVSwitch و L2 NVSwitch در GB200 SuperPod هنوز مشاهده نشده است و این دادهها تخمینی هستند.
پردازنده گرافیکی Blackwell
پردازنده گرافیکی Blackwell و H100 هر دو از فناوری TSMC 4N برای ساخت استفاده میکنند. H100 دارای 80 میلیارد ترانزیستور است، در حالی که Blackwell GPU شامل 208 میلیارد ترانزیستور است. با این حال، H100 یک پکیج single-die (واحد نیمهرسانا واحد) است، در حالی که Blackwell GPU یک پکیج multi-die (چند واحد نیمهرسانا) با 2 die دارد.
هر die از پردازنده گرافیکی Blackwell حدود 1.25 برابر قدرت محاسباتی H100 را دارد و مجموع دو die قدرت محاسباتی حدود 2.5 برابر H100 را فراهم میکند. این موضوع را میتوان از تعداد ترانزیستورها نیز مشاهده کرد.
عرضه پهنای باند ارتباطی بین دو die برابر با 10TB/s است.
حافظه از HBM3e استفاده میکند، به طوری که هر چیپ دارای اندازه 24GB است و محدودیت پهنای باند نظری آن 1.2TB/s میباشد، در حالی که پهنای باند واقعی آن 1TB/s است. کل GPU Blackwell دارای 8 چیپ حافظه از این نوع است.
خلاصه مشخصات کلیدی یک پردازنده گرافیکی Blackwell:
قدرت محاسباتی sparse (قدرت محاسباتی فشرده * 2):
FP16: 5P FLOPS (2 * 2.5P)
FP8/FP6/INT8: 10P FLOPS (2 * 5P)
FP4: 20P FLOPS (2 * 10P)
حافظه:
حجم: 192GB (8 * 24GB)
پهنای باند: 8TB/s (8 * 1TB/s)
GH200 و GB200
GH200
GH200 پردازندهای است که ترکیبی از GPU H200 منتشر شده در سال گذشته و CPU Grace از NVIDIA است. هر CPU Grace با یک GPU H200 جفت شده است و GPU H200 میتواند حداکثر 96GB یا 144GB حافظه داشته باشد.
CPU Grace و GPU Hopper از طریق NVLink-C2C به هم متصل میشوند که پهنای باندی معادل 900GB/s فراهم میکند. علاوه بر حافظه HBM3e، CPU Grace همچنین دارای 480GB حافظه خارجی LPDDR5X است، اگرچه پهنای باند آن پایینتر و معادل 500GB/s میباشد.
GB200
برخلاف GH200، هر GB200 از 1 CPU Grace و 2 GPU Blackwell تشکیل شده است که باعث دو برابر شدن قدرت محاسباتی GPU و حافظه میشود. CPU و GPU ها همچنان از طریق NVLink-C2C با پهنای باند 900GB/s به هم متصل میشوند. مصرف انرژی مربوطه 1200W است.
GB200 شامل 384GB حافظه HBM3e و همان 480GB حافظه LPDDR5X است که در مجموع 864GB حافظه سریع را تشکیل میدهد.
HGX H100/H200 و HGX B100/B200
HGX H100 و HGX H200
همانطور که نشان داده شده است، H200 همان قدرت محاسباتی H100 را دارد، اما با حافظه بزرگتر. حداکثر حافظه برای 8 GPU از 640GB به 1.1TB افزایش یافته است. قدرت محاسباتی FP16 sparse برای 8 GPU معادل 16P و FP8 sparse برابر با 32P است. پهنای باند ارتباطی GPU به GPU برای هر دو 900GB/s است.
HGX B100 و HGX B200
B100 و B200 معادل H100 و H200 قبلی هستند، اما بدون CPU Grace، بنابراین میتوانند با CPUهای Intel یا AMD استفاده شوند.
حافظه B100 و B200 بزرگتر از H100 و H200 است. حداکثر حافظه برای 8 GPU معادل 1.5TB است. (توجه: وبسایت NVIDIA ابتدا 1.4TB را نشان داده بود که با 192GB*8 همخوانی نداشت، اما بعداً به 1.5TB اصلاح شد، در حالی که برگه دادههای DGX B200 به طور واضح 1440GB یا 180GB حافظه برای هر GPU را اعلام کرده است).
قدرت محاسباتی B100 حدود 3/4 قدرت B200 است. قدرت محاسباتی FP16 sparse برای 8xB100 معادل 28P و برای 8xB200 معادل 36P است، بنابراین 8xB200 معادل 2.25 برابر قدرت محاسباتی 8xH100/H200 میباشد. این بدان معناست که قدرت محاسباتی FP16 sparse یک B200 معادل 4.5P است. لازم به ذکر است که قدرت محاسباتی واقعی B200 معادل 90% از قدرت کامل B200 در GB200 است.
تصویر دادههای برگه مشخصات DGX B200 را نشان میدهد.
هستههای Tensor Blackwell پشتیبانی از FP6 و FP4 را اضافه کردهاند، به طوری که قدرت محاسباتی FP4 دو برابر قدرت FP8 و چهار برابر قدرت FP16 است. همچنین، هستههای CUDA در Blackwell دیگر از INT8 پشتیبانی نمیکنند و از معماری Hopper به بعد، دیگر از INT4 نیز پشتیبانی نخواهند کرد.
هستههای Tensor Blackwell پشتیبانی از فرمت داده Microscaling را اضافه کردهاند، که ممکن است نحوه پشتیبانی آنها از FP8، FP6، FP4 و INT8 باشد.
NVLink و NVSwitch
NVSwitch نسل سوم
NVSwitch نسل سوم دارای 64 پورت NVLink است که هر کدام از آنها دارای 2 خط (lane) میباشند. محدودیت پهنای باند آن برابر با 64 * 50GB/s = 3.2TB/s است.
NVSwitch نسل چهارم
چیپ NVSwitch دارای 72 پورت NVLink است که هر کدام از آنها دارای 2 خط (lane) میباشند. پهنای باند دوطرفه برای هر پورت برابر با 2 x 2 x 200 Gb/s = 100GB/s است، که در مجموع 7.2TB/s پهنای باند کلی را تشکیل میدهد. NVLink های 1.8TB/s در تصویر مربوط به 18 پورت هستند.
B100 و B200 از NVLink نسل پنجم و NVSwitch نسل چهارم استفاده میکنند. هر GPU در B100 و B200 همچنان دارای 18 NVLink است، اما پهنای باند هر لینک از 50GB/s در NVLink نسل چهارم (H100) به 100GB/s ارتقا یافته است. بنابراین، حداکثر پهنای باند GPU-to-GPU برای B100 و B200 برابر با 1.8TB/s است.
NVSwitch نسل چهارم همچنین پهنای باند GPU-to-GPU را دو برابر کرده و به 1.8TB/s افزایش داده است. این نسل قادر به پشتیبانی از حداکثر 576 GPU است، که در مجموع محدودیت پهنای باند آن برابر با 576 * 1.8TB/s = 1PB/s میباشد.
کارتهای شبکه و سوییچهای شبکه
کارت شبکه ConnectX-8 InfiniBand
NVIDIA همچنین نسل جدیدی از کارتهای شبکه InfiniBand را با نام ConnectX-8 (یا ConnectX-800G) معرفی کرده است که پهنای باند ارتباطی معادل 800Gb/s دارد. کارت شبکههای قبلی H100 و H200 از کارت شبکه ConnectX-7 با پهنای باند 400Gb/s استفاده میکردند، در حالی که A100 از کارت شبکه ConnectX-6 با پهنای باند 200Gb/s بهره میبرد.
با این حال، NVIDIA از کارت شبکه ConnectX-800G جدید در HGX B100/B200 استفاده نکرده است و به جای آن همچنان از نسل قبلی کارت شبکه ConnectX-7 استفاده میکند، همانطور که در تصاویر نشان داده شده است (مانند NVIDIA Launches Blackwell-Powered DGX SuperPOD for Generative AI Supercomputing at Trillion-Parameter Scale و NVIDIA Blackwell Platform Arrives to Power a New Era of Computing).
BlueField-3 DPU/SuperNIC
BlueField-3 از اتصالات Ethernet و InfiniBand با سرعتهای تا 400Gb/s پشتیبانی میکند و میتواند با شتابدهندههای سختافزاری شبکه و ذخیرهسازی ترکیب شود که از طریق NVIDIA DOCA برنامهریزی میشود. با BlueField-3، مدلهای مربوطه BlueField-3 DPU و BlueField-3 SuperNIC وجود دارند. BlueField-3 SuperNIC میتواند دسترسی مستقیم به حافظه از راه دور (RoCE) Ethernet را بین سرورهای GPU با سرعتهای تا 400Gb/s فراهم کند و از پورت تک 400Gb/s یا پورت دوتایی 200Gb/s پشتیبانی میکند. نسل قبلی BlueField-2 SuperNIC تنها از پورت تک 200Gb/s یا پورت دوتایی 100Gb/s پشتیبانی میکرد.
Quantum-X800 IB Switch
Quantum-X800 نسل جدید سوییچ NVIDIA Quantum IB است که قادر به ایجاد اتصالات 800Gb/s از ابتدا تا انتها با تأخیر بسیار پایین است و عمدتاً از کارت شبکه NVIDIA ConnectX-8 پشتیبانی میکند. سوییچ مربوطه Quantum-X800 Q3400-RA (مدل 4U) میتواند 144 پورت 800Gb/s ارائه دهد، همانطور که در تصویر نشان داده شده است. این سوییچ از خنککننده هوا استفاده میکند اما همچنین از خنککننده مایع نیز پشتیبانی میکند.
Spectrum-X800 Ethernet Switch
Spectrum-X800 نسل جدید سوییچ NVIDIA Spectrum Ethernet است که شامل دو نوع SN5600 و SN5400 میباشد، هر دو از طراحی 2U استفاده میکنند.
همانطور که در جدول نشان داده شده است، SN5600 میتواند تا 800Gb/s برای هر پورت پشتیبانی کند، با 64 پورت و پهنای باند کلی 51.2Tb/s، در حالی که SN5400 میتواند تا 400Gb/s برای هر پورت پشتیبانی کند، با 64 پورت و پهنای باند کلی 25.6Tb/s.
GH200 NVL32 & GH200-SuperPod
GH200 Compute Tray
GH200 Compute Tray بر اساس طراحی MGX NVIDIA (با اندازه 1U) ساخته شده است و شامل 2 واحد GH200 در هر Compute Tray است، به این معنی که شامل 2 Grace CPU و 2 H200 GPU میباشد.
NVSwitch Tray
NVSwitch Tray نسل اول شامل 2 چیپ NVSwitch نسل سوم است که در مجموع دارای 128 پورت NVLink میباشد و حداکثر پهنای باند ارتباطی آن 6.4TB/s است.
GH200 NVL32
هر کابینت شامل 16 GH200 Compute Tray و 9 NVSwitch Tray است، که در مجموع دارای 32 GPU GH200 و 18 NVSwitch میباشد. 32 GPU GH200 دارای 32×18 = 576 NVLink هستند و به طور نظری تنها به 576/64 = 9 NVSwitch برای دستیابی به ارتباط کامل نیاز است، اما این طراحی شامل 18 NVSwitch است.
GH200 SuperPod
GH200 SuperPod از 256 GPU GH200 تشکیل شده است که در یک پیکربندی کاملاً متصل به هم قرار دارند. این سیستم از 8 واحد NVL32 ساخته نشده است، بلکه از 32 8-Grace Hopper Superchips تشکیل شده است.
همانطور که در شکل 7 نشان داده شده است، هر 8-Grace Hopper Superchip شامل موارد زیر میباشد:
8 Hopper Compute Trays (8U)، که هر کدام شامل:
1 GH200 GPU
1 ConnectX-7 IB network card با پهنای باند 400Gb/s
1 کارت Ethernet با پهنای باند 200Gb/s
3 NVSwitch Trays (3U)، که در مجموع دارای 6 NVSwitch هستند.
اتصالات NVLink همانطور که در شکل 6 نشان داده شده است، هر GH200 و هر NVSwitch دارای 3 اتصال NVLink هستند. این طراحی از 24 پورت برای هر NVSwitch در این جهت استفاده میکند. علاوه بر این، هر NVSwitch دارای 24 پورت متصل به L2 NVSwitch است، که در مجموع 48 پورت در هر NVSwitch استفاده میشود.
(توجه: برخی از پورتهای NVSwitch اضافی هستند و به طور نظری فقط به 4.5 NVSwitch نیاز است، بنابراین 3 NVSwitch Tray انتخاب شده است.)
همانطور که در شکل 8 نشان داده شده است، GH200 SuperPod از 32 8-Grace Hopper Superchips تشکیل شده است. سطح L1 شامل 32 x 3 = 96 NVSwitch Tray (که معادل 192 NVSwitch) میباشد، و سطح L2 شامل 36 NVSwitch Tray (که معادل 64 NVSwitch) است. هر L1 NVSwitch Tray دارای 24 x 2 = 48 پورت است که به L2 NVSwitch Tray ها متصل میشود، بنابراین برای این کار به 36 L2 NVSwitch Tray نیاز است.
همانطور که در شکل 12 نشان داده شده است، 256 GH200 GPU همچنین از طریق یک سوییچ IB دو سطحی به یکدیگر متصل شدهاند.
اتصال کامل GH200 SuperPod در شکل 5 نشان داده شده است.
GB200 NVL72 & GB200 SuperPod
GB200 Compute Tray
GB200 Compute Tray نیز بر اساس طراحی MGX NVIDIA (با اندازه 1U) ساخته شده است، که هر Compute Tray شامل 2 واحد GB200 است، به این معنی که شامل 2 Grace CPU و 4 Blackwell GPU میباشد، همانطور که در تصویر نشان داده شده است.
هر GB200 Compute Tray از 1.7TB حافظه سریع پشتیبانی میکند. (توجه: احتمالاً عبارت “HBM3e” در تصویر اشتباه است و باید “Fast Memory” باشد نه “HBM3e”). اگر به حافظه هر Blackwell GPU اشاره شود، باید 192GB x 4 = 768GB باشد. 1.7TB احتمالاً شامل 480GB LPDDR5X اضافی برای هر GB200 است، بنابراین مجموعاً میشود 768GB + 480GB x 2 = 1728GB.
NVSwitch Tray
همانطور که در تصویر نشان داده شده است، NVSwitch Tray نسل جدید نیز شامل 2 NVSwitch chip (با اندازه 1U) است که مجموعاً 144 NVLink Ports دارد (72 پورت NVLink برای هر NVSwitch chip). هر پورت دارای پهنای باند 100GB/s است که از یک پهنای باند کلی معادل 14.4TB/s پشتیبانی میکند. سیستم NVSwitch نسل چهارم میتواند تا 576 GPU را پشتیبانی کند، بنابراین محدودیت پهنای باند کلی میتواند به 576 * 1.8TB/s = 1PB/s برسد. (توجه: 8 پورت در تصویر پورتهای NVLink نیستند، هر کدام معادل 18 NVLink میباشند
سیستم NVSwitch استفاده شده در NVL72 که در زیر نشان داده شده است، شامل 9 NVSwitch Tray است. 72 پورت در تصویر به پورتهای تصویر قبلی مربوط میشود و نه پورتهای NVLink، با پهنای باند 1.8TB/s (18 x 100GB/s NVLink).
GB200 NVL72
یک GB200 NVL72 شامل 18 GB200 Compute Tray است، بنابراین دارای 36 Grace CPU و 72 GPU میباشد. حافظه کل GPU برابر با 72 * 192GB = 13.8TB است و حافظه سریع CPU از نوع LPDDR5X برابر با 480GB x 36 = 17TB است، بنابراین مجموع حافظه سریع برابر با 30TB میشود. همچنین شامل 9 NVSwitch Tray است.
NVIDIA همچنین یک پیکربندی NVL36 ارائه میدهد که همچنان شامل 18 GB200 Compute Tray است، اما هر Compute Tray فقط یک GB200 دارد، بنابراین مجموعاً 18 Grace CPU و 36 B200 GPU خواهد داشت. توان محاسباتی مربوطه در تصویر نشان داده شده است. بنابراین 30TB که ذکر شده احتمالاً شامل 13.5TB HBM3e + 17TB LPDDR5X است.
توان محاسباتی مربوطه در شکل زیر نشان داده شده است:
بنابراین، 30TB HBM3e در اینجا باید شامل 13.5TB HBM3e و 17TB LPDDR5X باشد.
GB200 SuperPod
GB200 SuperPod از 8 واحد NVL72 تشکیل شده است که در مجموع شامل 576 Blackwell GPUs میباشد. برای رسیدن به اتصالات کامل، مشابه به 256 GH200 GPUs قبلی، نیاز به سیستم NVSwitch Tray دو لایه است (حداکثر پهنای باند نظری برابر با 576 * 1.8TB/s = 1PB/s):
NVSwitch Tray لایه اول نیمی از پورتهای خود را به 576 Blackwell GPUs متصل میکند، بنابراین به تعداد 144 NVSwitch Tray نیاز است (با استفاده از فرمول 576 * 18 / (144/2)) که باقیمانده 144 * 72 پورتها هستند.
NVSwitch Tray لایه دوم تمامی پورتهای خود را به پورتهای باقیمانده از NVSwitch لایه اول متصل میکند، بنابراین به 72 NVSwitch Tray نیاز است. هر NVSwitch Tray لایه دوم به تمام NVSwitch Trayهای لایه اول متصل است (هر اتصال با 2 پورت انجام میشود).
تحلیل دادههای عملکرد
عملکرد DGX GB200
NVIDIA ادعا میکند که DGX B200 (معادل HGX B200) در مقایسه با نسل قبلی DGX H100 (HGX H100) عملکرد آموزش را ۳ برابر و عملکرد استنتاج را ۱۵ برابر بهبود بخشیده است. با این حال، این بهبودها تحت شرایط خاصی است. اگر تنها به قدرت محاسباتی FP16 یا FP8 از HGX H100 به HGX B200 نگاه کنیم، قدرت محاسباتی ۲.۲۵ برابر افزایش یافته است. اما اندازه حافظه بزرگتر شده، پهنای باند حافظه حدود ۲.۳ برابر بیشتر شده و پهنای باند NVLink نیز دو برابر شده است. بنابراین، بهبود کلی ۳ برابری در سرعت آموزش با انتظارات همخوانی دارد.
طبق تصویر نشان داده شده، سرعت ۳ برابری آموزش بر روی ۴۰۹۶ سیستم HGX B200 در مقابل ۴۰۹۶ سیستم HGX H100 اندازهگیری شده است، که مدل GPT-MoE-1.8T را آموزش دادهاند.
طبق تصویر نشان داده شده، سرعت استنتاج ۱۵ برابری بر روی ۸ سیستم HGX B200 در مقابل ۸ سیستم HGX H100 اندازهگیری شده است، که از مدل GPT-MoE-1.8T برای استنتاج استفاده کردهاند (استنتاج مدل GPT معمولاً محدود به ورودی/خروجی است، بنابراین پهنای باند حافظه بسیار حیاتی است؛ برای پشتیبانی از همزمانی بالاتر، اندازه حافظه بزرگ نیز مهم است؛ و چون مدل بزرگ است، استراتژیهایی مانند Tensor Parallel معمولاً استفاده میشود، بنابراین پهنای باند NVLink نیز اهمیت زیادی دارد). این سیستمها به ترتیب توانستهاند ۳.۵ توکن/ثانیه و ۵۸ توکن/ثانیه را بدست آورند.
عوامل مؤثر بر استنتاج GPT متعدد هستند و برای این دو سیستم، بهبودها به شرح زیر تعیین شده است:
پهنای باند حافظه VRAM (۸×۳.۳۵TB/s -> ۸×۸TB/s)
اندازه حافظه VRAM (۸×۱۴۱GB -> ۸×۱۹۲GB)
پهنای باند NVLink (۷.۲TB/s -> ۱۴.۴TB/s)
قدرت محاسباتی دو برابر شده (۱۶P -> ۳۶P)
FP8 -> FP4 (x2)
طبق تصویر آخر، جنسن هوانگ در سخنرانی اصلی خود در GTC مقایسهای دقیقتر ارائه داد که نشان میدهد بهبود عملکرد تنها حدود ۳ برابر است وقتی که B200 FP8 با H200 FP8 مقایسه میشود (در اینجا TP، EP، DP و PP به ترتیب نمایانگر Tensor Parallel، Expert Parallel، Data Parallel و Pipeline Parallel هستند). اما وقتی از GB200 در FP4 استفاده میشود، بهبود عملکرد بسیار قابل توجه است (احتمالاً به دلیل اتصالات کامل NVLink در NVL72).
در سخنرانی اصلی جنسن هوانگ در GTC، او همچنین مصرف برق برای آموزش مدل GPT-MoE-1.8T را مورد بررسی قرار داد و GPUهای Hopper و Blackwell را مقایسه کرد:
یک کابینت NVL32 دارای مصرف برق 40 کیلووات است، بنابراین ۸۰۰۰ GPU مصرفی حدود 10 مگاوات خواهند داشت، به علاوه مصرف برق دیگر تجهیزات که احتمالاً حدود 15 مگاوات خواهد بود.
یک کابینت NVL72 دارای مصرف برق 120 کیلووات است، بنابراین ۲۰۰۰ GPU مصرفی حدود 3.3 مگاوات خواهند داشت، به علاوه مصرف برق دیگر تجهیزات مانند سوئیچهای شبکه که مجموعاً حدود 4 مگاوات خواهد شد.
منبع نوشته: این لینک