اخبار

تحلیل کارت گرافیک های تسلا جدید شرکت Nvidia از جمله B100 , B200, H100, H200

تحلیل سخت‌افزارهای جدید NVIDIA از جمله : B100/B200/GH200/NVL72/SuperPod
مرور کلی

 در این مقاله، اطلاعات سخت‌افزاری مربوط به GPU های Blackwell از NVIDIA، شامل مدل‌های B100، B200، GH200 و NVL72، همچنین SuperPod-576 و کارت‌های شبکه ConnectX-800G، سوئیچ‌های Quantum-X800 IB و سوئیچ‌های اترنت Spectrum-X800 به طور کامل جمع‌آوری کرده‌ایم و آن‌ها را با سری‌های قبلی مقایسه کرده‌ایم. لازم به ذکر است که برخی از مطالب موجود در مقاله، داده‌هایی هستند که بر اساس اطلاعات مختلف استنباط کرده‌ایم، مانند بخش‌های قرمز در برخی از جداول، و داده‌های نهایی تابع white paper رسمی خواهند بود (که هنوز منتشر نشده است). علاوه بر این، این مقاله شامل محتوای مربوط به اکوسیستم نرم‌افزاری نمی‌شود.

آکاردیون تکی

 

تکامل

NVIDIA معماری جدید Blackwell را در تاریخ 19 مارس 2024 منتشر کرد که مهم‌ترین مدل‌های آن شامل B200، B100 و GB200 هستند، همچنین مدل‌های مرتبط با GB200-NVL72 و GB200-SuperPod نیز معرفی شده‌اند. رابطه بین این پردازنده‌های گرافیکی مختلف در شکل زیر نشان داده شده است.

Evolution

تک پردازنده GPU

جدول زیر قدرتمندترین GPU ها در سری‌های Ampere، Hopper و جدیدترین سری Blackwell را نشان می‌دهد. می‌توان مشاهده کرد که حافظه، قدرت محاسباتی و NVLink به طور تدریجی در حال تقویت هستند. (توجه: NVIDIA همچنین یک راه‌حل ویژه منتشر کرده است که در آن دو نسخه H100 PCIe از طریق NVBridge به هم متصل می‌شوند که به آن H100 NVL گفته می‌شود، اما از آنجا که این‌ها هنوز دو پردازنده گرافیکی مجزا هستند، جزئیات آن در اینجا مطرح نمی‌شود.)

·         A100 -> H100: قدرت محاسباتی FP16 برای محاسبات فشرده بیش از 3 برابر افزایش یافته است، در حالی که مصرف انرژی فقط از 400 وات به 700 وات افزایش یافته است.

·         H200 -> B200: قدرت محاسباتی FP16 برای محاسبات فشرده بیش از 2 برابر افزایش یافته است، در حالی که مصرف انرژی فقط از 700 وات به 1000 وات افزایش یافته است.

·         قدرت محاسباتی FP16 پردازنده B200 حدود 7 برابر بیشتر از A100 است، در حالی که مصرف انرژی تنها 2.5 برابر شده است.

GPU های Blackwell از دقت FP4 پشتیبانی می‌کنند، که قدرت محاسباتی آن‌ها دو برابر دقت FP8 است. برخی از داده‌ها در گزارش‌های NVIDIA قدرت محاسباتی FP4 را با قدرت محاسباتی FP8 معماری Hopper مقایسه کرده‌اند، بنابراین نسبت شتاب‌دهی ممکن است اغراق‌آمیز به نظر برسد.

شایان ذکر است که:

GB200 از چیپ کامل B200 استفاده می‌کند، در حالی که B100 و B200 نسخه‌های تقلیل یافته مربوط به آن هستند.

سرورهای HGX

HGX یک سرور با عملکرد بالا از NVIDIA است که معمولاً شامل 8 یا 4 پردازنده گرافیکی (GPU) می‌باشد. این سرورها معمولاً با CPUهای Intel یا AMD جفت می‌شوند و از NVLink و NVSwitch برای دستیابی به ارتباط کامل بین پردازنده‌ها استفاده می‌کنند. (8 GPU معمولاً حد بالای ارتباط کامل NVLink است، به جز در موارد NVL و SuperPod.)

·         از HGX A100 به HGX H100 و HGX H200، قدرت محاسباتی FP16 برای محاسبات فشرده بیش از 3.3 برابر افزایش یافته است، در حالی که مصرف انرژی کمتر از 2 برابر افزایش یافته است.

·         از HGX H100 و HGX H200 به HGX B100 و HGX B200، قدرت محاسباتی FP16 برای محاسبات فشرده حدود 2 برابر افزایش یافته است، در حالی که مصرف انرژی مشابه باقی مانده است و در بدترین حالت از 50% بیشتر نمی‌شود.

شایان ذکر است که:

شبکه HGX B100 و HGX B200 به‌روز نشده است و کارت شبکه IB همچنان از نوع 8x400Gb/s است.

NVL و SuperPod

علاوه بر سرورهای GPU سری HGX، NVIDIA همچنین راه‌حل‌هایی برای کابینت‌ها و خوشه‌های کامل ارائه می‌دهد که همگی از راه‌حل جدید CPU + GPU Grace استفاده کرده و به سیستم‌های خنک‌سازی مایع متصل هستند. جدول زیر کابینت‌های NVL و SuperPod مربوط به معماری‌های Hopper و Blackwell را نشان می‌دهد.

·         NVL32 -> NVL72: تعداد GPU ها از 32 به 72 افزایش یافت و قدرت محاسباتی FP16 برای محاسبات فشرده از 32P به 180P افزایش یافت که تقریباً 6 برابر است، در حالی که مصرف انرژی نیز از 40kW (بدون مشاهده عدد دقیق، داده تخمینی) به 120kW افزایش یافت که تقریباً 3 برابر است.

·         GH200 SuperPod -> GB200 SuperPod: تعداد GPU ها از 256 به 576 افزایش یافت و قدرت محاسباتی FP16 برای محاسبات فشرده از 256P به 1440P افزایش یافت که تقریباً 6 برابر است و مصرف انرژی مربوطه هنوز مشخص نشده است.

کارت‌های شبکه ConnectX-8 IB جدید با پهنای باند 800Gb/s در NVL72 و GB200 SuperPod استفاده می‌شوند، در حالی که HGX B100 و HGX B200 همچنان از کارت‌های شبکه ConnectX-7 IB با پهنای باند 400Gb/s استفاده می‌کنند.

شایان ذکر است که:

·         NVIDIA معرفی کرده است که GB200 SuperPod از 8 NVL72 تشکیل شده است، در حالی که GH200 SuperPod از 8 NVL32 تشکیل نشده است.

·         تعداد سینی‌های L1 NVSwitch و L2 NVSwitch در GB200 SuperPod هنوز مشاهده نشده است و این داده‌ها تخمینی هستند.

پردازنده گرافیکی Blackwell

پردازنده گرافیکی Blackwell و H100 هر دو از فناوری TSMC 4N برای ساخت استفاده می‌کنند. H100 دارای 80 میلیارد ترانزیستور است، در حالی که Blackwell GPU شامل 208 میلیارد ترانزیستور است. با این حال، H100 یک پکیج single-die (واحد نیمه‌رسانا واحد) است، در حالی که Blackwell GPU یک پکیج multi-die (چند واحد نیمه‌رسانا) با 2 die دارد.

هر die از پردازنده گرافیکی Blackwell حدود 1.25 برابر قدرت محاسباتی H100 را دارد و مجموع دو die قدرت محاسباتی حدود 2.5 برابر H100 را فراهم می‌کند. این موضوع را می‌توان از تعداد ترانزیستورها نیز مشاهده کرد.

عرضه پهنای باند ارتباطی بین دو die برابر با 10TB/s است.

حافظه از HBM3e استفاده می‌کند، به طوری که هر چیپ دارای اندازه 24GB است و محدودیت پهنای باند نظری آن 1.2TB/s می‌باشد، در حالی که پهنای باند واقعی آن 1TB/s است. کل GPU Blackwell دارای 8 چیپ حافظه از این نوع است.

خلاصه مشخصات کلیدی یک پردازنده گرافیکی Blackwell:
قدرت محاسباتی sparse (قدرت محاسباتی فشرده * 2):

FP16: 5P FLOPS (2 * 2.5P)
FP8/FP6/INT8: 10P FLOPS (2 * 5P)
FP4: 20P FLOPS (2 * 10P)
حافظه:

حجم: 192GB (8 * 24GB)
پهنای باند: 8TB/s (8 * 1TB/s)

GH200 و GB200
GH200

GH200 پردازنده‌ای است که ترکیبی از GPU H200 منتشر شده در سال گذشته و CPU Grace از NVIDIA است. هر CPU Grace با یک GPU H200 جفت شده است و GPU H200 می‌تواند حداکثر 96GB یا 144GB حافظه داشته باشد.

CPU Grace و GPU Hopper از طریق NVLink-C2C به هم متصل می‌شوند که پهنای باندی معادل 900GB/s فراهم می‌کند. علاوه بر حافظه HBM3e، CPU Grace همچنین دارای 480GB حافظه خارجی LPDDR5X است، اگرچه پهنای باند آن پایین‌تر و معادل 500GB/s می‌باشد.

GB200

برخلاف GH200، هر GB200 از 1 CPU Grace و 2 GPU Blackwell تشکیل شده است که باعث دو برابر شدن قدرت محاسباتی GPU و حافظه می‌شود. CPU و GPU ها همچنان از طریق NVLink-C2C با پهنای باند 900GB/s به هم متصل می‌شوند. مصرف انرژی مربوطه 1200W است.

GB200 شامل 384GB حافظه HBM3e و همان 480GB حافظه LPDDR5X است که در مجموع 864GB حافظه سریع را تشکیل می‌دهد.

HGX H100/H200 و HGX B100/B200
HGX H100 و HGX H200

همانطور که نشان داده شده است، H200 همان قدرت محاسباتی H100 را دارد، اما با حافظه بزرگ‌تر. حداکثر حافظه برای 8 GPU از 640GB به 1.1TB افزایش یافته است. قدرت محاسباتی FP16 sparse برای 8 GPU معادل 16P و FP8 sparse برابر با 32P است. پهنای باند ارتباطی GPU به GPU برای هر دو 900GB/s است.

HGX B100 و HGX B200

B100 و B200 معادل H100 و H200 قبلی هستند، اما بدون CPU Grace، بنابراین می‌توانند با CPUهای Intel یا AMD استفاده شوند.

حافظه B100 و B200 بزرگ‌تر از H100 و H200 است. حداکثر حافظه برای 8 GPU معادل 1.5TB است. (توجه: وب‌سایت NVIDIA ابتدا 1.4TB را نشان داده بود که با 192GB*8 همخوانی نداشت، اما بعداً به 1.5TB اصلاح شد، در حالی که برگه داده‌های DGX B200 به طور واضح 1440GB یا 180GB حافظه برای هر GPU را اعلام کرده است).

قدرت محاسباتی B100 حدود 3/4 قدرت B200 است. قدرت محاسباتی FP16 sparse برای 8xB100 معادل 28P و برای 8xB200 معادل 36P است، بنابراین 8xB200 معادل 2.25 برابر قدرت محاسباتی 8xH100/H200 می‌باشد. این بدان معناست که قدرت محاسباتی FP16 sparse یک B200 معادل 4.5P است. لازم به ذکر است که قدرت محاسباتی واقعی B200 معادل 90% از قدرت کامل B200 در GB200 است.

تصویر داده‌های برگه مشخصات DGX B200 را نشان می‌دهد.

هسته‌های Tensor Blackwell پشتیبانی از FP6 و FP4 را اضافه کرده‌اند، به طوری که قدرت محاسباتی FP4 دو برابر قدرت FP8 و چهار برابر قدرت FP16 است. همچنین، هسته‌های CUDA در Blackwell دیگر از INT8 پشتیبانی نمی‌کنند و از معماری Hopper به بعد، دیگر از INT4 نیز پشتیبانی نخواهند کرد.

هسته‌های Tensor Blackwell پشتیبانی از فرمت داده Microscaling را اضافه کرده‌اند، که ممکن است نحوه پشتیبانی آن‌ها از FP8، FP6، FP4 و INT8 باشد.

NVLink و NVSwitch
NVSwitch نسل سوم

NVSwitch نسل سوم دارای 64 پورت NVLink است که هر کدام از آن‌ها دارای 2 خط (lane) می‌باشند. محدودیت پهنای باند آن برابر با 64 * 50GB/s = 3.2TB/s است.

NVSwitch نسل چهارم

چیپ NVSwitch دارای 72 پورت NVLink است که هر کدام از آن‌ها دارای 2 خط (lane) می‌باشند. پهنای باند دوطرفه برای هر پورت برابر با 2 x 2 x 200 Gb/s = 100GB/s است، که در مجموع 7.2TB/s پهنای باند کلی را تشکیل می‌دهد. NVLink های 1.8TB/s در تصویر مربوط به 18 پورت هستند.

B100 و B200 از NVLink نسل پنجم و NVSwitch نسل چهارم استفاده می‌کنند. هر GPU در B100 و B200 همچنان دارای 18 NVLink است، اما پهنای باند هر لینک از 50GB/s در NVLink نسل چهارم (H100) به 100GB/s ارتقا یافته است. بنابراین، حداکثر پهنای باند GPU-to-GPU برای B100 و B200 برابر با 1.8TB/s است.

NVSwitch نسل چهارم همچنین پهنای باند GPU-to-GPU را دو برابر کرده و به 1.8TB/s افزایش داده است. این نسل قادر به پشتیبانی از حداکثر 576 GPU است، که در مجموع محدودیت پهنای باند آن برابر با 576 * 1.8TB/s = 1PB/s می‌باشد.

کارت‌های شبکه و سوییچ‌های شبکه
کارت شبکه ConnectX-8 InfiniBand

NVIDIA همچنین نسل جدیدی از کارت‌های شبکه InfiniBand را با نام ConnectX-8 (یا ConnectX-800G) معرفی کرده است که پهنای باند ارتباطی معادل 800Gb/s دارد. کارت شبکه‌های قبلی H100 و H200 از کارت شبکه ConnectX-7 با پهنای باند 400Gb/s استفاده می‌کردند، در حالی که A100 از کارت شبکه ConnectX-6 با پهنای باند 200Gb/s بهره می‌برد.

با این حال، NVIDIA از کارت شبکه ConnectX-800G جدید در HGX B100/B200 استفاده نکرده است و به جای آن همچنان از نسل قبلی کارت شبکه ConnectX-7 استفاده می‌کند، همانطور که در تصاویر نشان داده شده است (مانند NVIDIA Launches Blackwell-Powered DGX SuperPOD for Generative AI Supercomputing at Trillion-Parameter Scale و NVIDIA Blackwell Platform Arrives to Power a New Era of Computing).

BlueField-3 DPU/SuperNIC

BlueField-3 از اتصالات Ethernet و InfiniBand با سرعت‌های تا 400Gb/s پشتیبانی می‌کند و می‌تواند با شتاب‌دهنده‌های سخت‌افزاری شبکه و ذخیره‌سازی ترکیب شود که از طریق NVIDIA DOCA برنامه‌ریزی می‌شود. با BlueField-3، مدل‌های مربوطه BlueField-3 DPU و BlueField-3 SuperNIC وجود دارند. BlueField-3 SuperNIC می‌تواند دسترسی مستقیم به حافظه از راه دور (RoCE) Ethernet را بین سرورهای GPU با سرعت‌های تا 400Gb/s فراهم کند و از پورت تک 400Gb/s یا پورت دوتایی 200Gb/s پشتیبانی می‌کند. نسل قبلی BlueField-2 SuperNIC تنها از پورت تک 200Gb/s یا پورت دوتایی 100Gb/s پشتیبانی می‌کرد.

Quantum-X800 IB Switch

Quantum-X800 نسل جدید سوییچ NVIDIA Quantum IB است که قادر به ایجاد اتصالات 800Gb/s از ابتدا تا انتها با تأخیر بسیار پایین است و عمدتاً از کارت شبکه NVIDIA ConnectX-8 پشتیبانی می‌کند. سوییچ مربوطه Quantum-X800 Q3400-RA (مدل 4U) می‌تواند 144 پورت 800Gb/s ارائه دهد، همانطور که در تصویر نشان داده شده است. این سوییچ از خنک‌کننده هوا استفاده می‌کند اما همچنین از خنک‌کننده مایع نیز پشتیبانی می‌کند.

Spectrum-X800 Ethernet Switch

Spectrum-X800 نسل جدید سوییچ NVIDIA Spectrum Ethernet است که شامل دو نوع SN5600 و SN5400 می‌باشد، هر دو از طراحی 2U استفاده می‌کنند.

همانطور که در جدول نشان داده شده است، SN5600 می‌تواند تا 800Gb/s برای هر پورت پشتیبانی کند، با 64 پورت و پهنای باند کلی 51.2Tb/s، در حالی که SN5400 می‌تواند تا 400Gb/s برای هر پورت پشتیبانی کند، با 64 پورت و پهنای باند کلی 25.6Tb/s.

GH200 NVL32 & GH200-SuperPod
GH200 Compute Tray

GH200 Compute Tray بر اساس طراحی MGX NVIDIA (با اندازه 1U) ساخته شده است و شامل 2 واحد GH200 در هر Compute Tray است، به این معنی که شامل 2 Grace CPU و 2 H200 GPU می‌باشد.

NVSwitch Tray

NVSwitch Tray نسل اول شامل 2 چیپ NVSwitch نسل سوم است که در مجموع دارای 128 پورت NVLink می‌باشد و حداکثر پهنای باند ارتباطی آن 6.4TB/s است.

GH200 NVL32

هر کابینت شامل 16 GH200 Compute Tray و 9 NVSwitch Tray است، که در مجموع دارای 32 GPU GH200 و 18 NVSwitch می‌باشد. 32 GPU GH200 دارای 32×18 = 576 NVLink هستند و به طور نظری تنها به 576/64 = 9 NVSwitch برای دستیابی به ارتباط کامل نیاز است، اما این طراحی شامل 18 NVSwitch است.

GH200 SuperPod

GH200 SuperPod از 256 GPU GH200 تشکیل شده است که در یک پیکربندی کاملاً متصل به هم قرار دارند. این سیستم از 8 واحد NVL32 ساخته نشده است، بلکه از 32 8-Grace Hopper Superchips تشکیل شده است.

همانطور که در شکل 7 نشان داده شده است، هر 8-Grace Hopper Superchip شامل موارد زیر می‌باشد:

8 Hopper Compute Trays (8U)، که هر کدام شامل:

1 GH200 GPU

1 ConnectX-7 IB network card با پهنای باند 400Gb/s

1 کارت Ethernet با پهنای باند 200Gb/s

3 NVSwitch Trays (3U)، که در مجموع دارای 6 NVSwitch هستند.

اتصالات NVLink همانطور که در شکل 6 نشان داده شده است، هر GH200 و هر NVSwitch دارای 3 اتصال NVLink هستند. این طراحی از 24 پورت برای هر NVSwitch در این جهت استفاده می‌کند. علاوه بر این، هر NVSwitch دارای 24 پورت متصل به L2 NVSwitch است، که در مجموع 48 پورت در هر NVSwitch استفاده می‌شود.

(توجه: برخی از پورت‌های NVSwitch اضافی هستند و به طور نظری فقط به 4.5 NVSwitch نیاز است، بنابراین 3 NVSwitch Tray انتخاب شده است.)

همانطور که در شکل 8 نشان داده شده است، GH200 SuperPod از 32 8-Grace Hopper Superchips تشکیل شده است. سطح L1 شامل 32 x 3 = 96 NVSwitch Tray (که معادل 192 NVSwitch) می‌باشد، و سطح L2 شامل 36 NVSwitch Tray (که معادل 64 NVSwitch) است. هر L1 NVSwitch Tray دارای 24 x 2 = 48 پورت است که به L2 NVSwitch Tray ها متصل می‌شود، بنابراین برای این کار به 36 L2 NVSwitch Tray نیاز است.

همانطور که در شکل 12 نشان داده شده است، 256 GH200 GPU همچنین از طریق یک سوییچ IB دو سطحی به یکدیگر متصل شده‌اند.

اتصال کامل GH200 SuperPod در شکل 5 نشان داده شده است.

GB200 NVL72 & GB200 SuperPod
GB200 Compute Tray

GB200 Compute Tray نیز بر اساس طراحی MGX NVIDIA (با اندازه 1U) ساخته شده است، که هر Compute Tray شامل 2 واحد GB200 است، به این معنی که شامل 2 Grace CPU و 4 Blackwell GPU می‌باشد، همانطور که در تصویر نشان داده شده است.

هر GB200 Compute Tray از 1.7TB حافظه سریع پشتیبانی می‌کند. (توجه: احتمالاً عبارت “HBM3e” در تصویر اشتباه است و باید “Fast Memory” باشد نه “HBM3e”). اگر به حافظه هر Blackwell GPU اشاره شود، باید 192GB x 4 = 768GB باشد. 1.7TB احتمالاً شامل 480GB LPDDR5X اضافی برای هر GB200 است، بنابراین مجموعاً می‌شود 768GB + 480GB x 2 = 1728GB.

NVSwitch Tray

همانطور که در تصویر نشان داده شده است، NVSwitch Tray نسل جدید نیز شامل 2 NVSwitch chip (با اندازه 1U) است که مجموعاً 144 NVLink Ports دارد (72 پورت NVLink برای هر NVSwitch chip). هر پورت دارای پهنای باند 100GB/s است که از یک پهنای باند کلی معادل 14.4TB/s پشتیبانی می‌کند. سیستم NVSwitch نسل چهارم می‌تواند تا 576 GPU را پشتیبانی کند، بنابراین محدودیت پهنای باند کلی می‌تواند به 576 * 1.8TB/s = 1PB/s برسد. (توجه: 8 پورت در تصویر پورت‌های NVLink نیستند، هر کدام معادل 18 NVLink می‌باشند

سیستم NVSwitch استفاده شده در NVL72 که در زیر نشان داده شده است، شامل 9 NVSwitch Tray است. 72 پورت در تصویر به پورت‌های تصویر قبلی مربوط می‌شود و نه پورت‌های NVLink، با پهنای باند 1.8TB/s (18 x 100GB/s NVLink).

GB200 NVL72

یک GB200 NVL72 شامل 18 GB200 Compute Tray است، بنابراین دارای 36 Grace CPU و 72 GPU می‌باشد. حافظه کل GPU برابر با 72 * 192GB = 13.8TB است و حافظه سریع CPU از نوع LPDDR5X برابر با 480GB x 36 = 17TB است، بنابراین مجموع حافظه سریع برابر با 30TB می‌شود. همچنین شامل 9 NVSwitch Tray است.

NVIDIA همچنین یک پیکربندی NVL36 ارائه می‌دهد که همچنان شامل 18 GB200 Compute Tray است، اما هر Compute Tray فقط یک GB200 دارد، بنابراین مجموعاً 18 Grace CPU و 36 B200 GPU خواهد داشت. توان محاسباتی مربوطه در تصویر نشان داده شده است. بنابراین 30TB که ذکر شده احتمالاً شامل 13.5TB HBM3e + 17TB LPDDR5X است.

توان محاسباتی مربوطه در شکل زیر نشان داده شده است:

بنابراین، 30TB HBM3e در اینجا باید شامل 13.5TB HBM3e و 17TB LPDDR5X باشد.

GB200 SuperPod

GB200 SuperPod از 8 واحد NVL72 تشکیل شده است که در مجموع شامل 576 Blackwell GPUs می‌باشد. برای رسیدن به اتصالات کامل، مشابه به 256 GH200 GPUs قبلی، نیاز به سیستم NVSwitch Tray دو لایه است (حداکثر پهنای باند نظری برابر با 576 * 1.8TB/s = 1PB/s):

NVSwitch Tray لایه اول نیمی از پورت‌های خود را به 576 Blackwell GPUs متصل می‌کند، بنابراین به تعداد 144 NVSwitch Tray نیاز است (با استفاده از فرمول 576 * 18 / (144/2)) که باقی‌مانده 144 * 72 پورت‌ها هستند.

NVSwitch Tray لایه دوم تمامی پورت‌های خود را به پورت‌های باقی‌مانده از NVSwitch لایه اول متصل می‌کند، بنابراین به 72 NVSwitch Tray نیاز است. هر NVSwitch Tray لایه دوم به تمام NVSwitch Tray‌های لایه اول متصل است (هر اتصال با 2 پورت انجام می‌شود).

تحلیل داده‌های عملکرد
عملکرد DGX GB200

NVIDIA ادعا می‌کند که DGX B200 (معادل HGX B200) در مقایسه با نسل قبلی DGX H100 (HGX H100) عملکرد آموزش را ۳ برابر و عملکرد استنتاج را ۱۵ برابر بهبود بخشیده است. با این حال، این بهبودها تحت شرایط خاصی است. اگر تنها به قدرت محاسباتی FP16 یا FP8 از HGX H100 به HGX B200 نگاه کنیم، قدرت محاسباتی ۲.۲۵ برابر افزایش یافته است. اما اندازه حافظه بزرگتر شده، پهنای باند حافظه حدود ۲.۳ برابر بیشتر شده و پهنای باند NVLink نیز دو برابر شده است. بنابراین، بهبود کلی ۳ برابری در سرعت آموزش با انتظارات هم‌خوانی دارد.

طبق تصویر نشان داده شده، سرعت ۳ برابری آموزش بر روی ۴۰۹۶ سیستم HGX B200 در مقابل ۴۰۹۶ سیستم HGX H100 اندازه‌گیری شده است، که مدل GPT-MoE-1.8T را آموزش داده‌اند.

طبق تصویر نشان داده شده، سرعت استنتاج ۱۵ برابری بر روی ۸ سیستم HGX B200 در مقابل ۸ سیستم HGX H100 اندازه‌گیری شده است، که از مدل GPT-MoE-1.8T برای استنتاج استفاده کرده‌اند (استنتاج مدل GPT معمولاً محدود به ورودی/خروجی است، بنابراین پهنای باند حافظه بسیار حیاتی است؛ برای پشتیبانی از همزمانی بالاتر، اندازه حافظه بزرگ نیز مهم است؛ و چون مدل بزرگ است، استراتژی‌هایی مانند Tensor Parallel معمولاً استفاده می‌شود، بنابراین پهنای باند NVLink نیز اهمیت زیادی دارد). این سیستم‌ها به ترتیب توانسته‌اند ۳.۵ توکن/ثانیه و ۵۸ توکن/ثانیه را بدست آورند.

عوامل مؤثر بر استنتاج GPT متعدد هستند و برای این دو سیستم، بهبودها به شرح زیر تعیین شده است:

پهنای باند حافظه VRAM (۸×۳.۳۵TB/s -> ۸×۸TB/s)

اندازه حافظه VRAM (۸×۱۴۱GB -> ۸×۱۹۲GB)

پهنای باند NVLink (۷.۲TB/s -> ۱۴.۴TB/s)

قدرت محاسباتی دو برابر شده (۱۶P -> ۳۶P)

FP8 -> FP4 (x2)

طبق تصویر آخر، جنسن هوانگ در سخنرانی اصلی خود در GTC مقایسه‌ای دقیق‌تر ارائه داد که نشان می‌دهد بهبود عملکرد تنها حدود ۳ برابر است وقتی که B200 FP8 با H200 FP8 مقایسه می‌شود (در اینجا TP، EP، DP و PP به ترتیب نمایانگر Tensor Parallel، Expert Parallel، Data Parallel و Pipeline Parallel هستند). اما وقتی از GB200 در FP4 استفاده می‌شود، بهبود عملکرد بسیار قابل توجه است (احتمالاً به دلیل اتصالات کامل NVLink در NVL72).

در سخنرانی اصلی جنسن هوانگ در GTC، او همچنین مصرف برق برای آموزش مدل GPT-MoE-1.8T را مورد بررسی قرار داد و GPU‌های Hopper و Blackwell را مقایسه کرد:

یک کابینت NVL32 دارای مصرف برق 40 کیلووات است، بنابراین ۸۰۰۰ GPU مصرفی حدود 10 مگاوات خواهند داشت، به علاوه مصرف برق دیگر تجهیزات که احتمالاً حدود 15 مگاوات خواهد بود.

یک کابینت NVL72 دارای مصرف برق 120 کیلووات است، بنابراین ۲۰۰۰ GPU مصرفی حدود 3.3 مگاوات خواهند داشت، به علاوه مصرف برق دیگر تجهیزات مانند سوئیچ‌های شبکه که مجموعاً حدود 4 مگاوات خواهد شد.

منبع نوشته: این لینک

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *