متطلبات VRAM لنموذج الذكاء الاصطناعي عبر تكوينات وحدة معالجة الرسوميات المختلفة
مشاركة
يوفر هذا الجدول نظرة عامة على أحجام النماذج التقريبية (بمليارات المعلمات) التي يمكن تشغيلها على تكوينات VRAM المختلفة، بالإضافة إلى أمثلة للنماذج المعروفة. لاحظ أن هذه تقديرات وقد تختلف بناءً على التنفيذات والهندسة المعمارية والتحسينات المحددة.
VRAM (جيجابايت) | FP32 | FP16/BF16 | INT8 | INT4 | INT2 | نماذج سبيل المثال |
---|---|---|---|---|---|---|
16 | 3-4B | 6-8B | 12-16B | 24-32B | 48-64B | GPT-2 (1.5B)، BERT-Large (340M) |
24 | 5-6B | 10-12B | 20-24B | 40-48B | 80-96B | GPT-J (6B)، BLOOM-7B1 |
48 | 10-12B | 20-24B | 40-48B | 80-96B | 160-192B | T5-11B, BLOOM-7B1 (FP32) |
80 | 18-20B | 36-40B | 72-80B | 144-160B | 288-320B | GPT-NeoX-20B، BLOOM-176B2 |
96 | 22-24B | 44-48B | 88-96B | 176-192B | 352-384B | بلوم-176B2، جوراسيك-1 جامبو (178B)2 |
128 | 30-32B | 60-64B | 120-128B | 240-256B | 480-512B | GPT-3 175B2، PaLM 540B2 |
160 | 38-40B | 76-80B | 152-160B | 304-320B | 608-640B | PaLM 540B2، ميجاترون-تورينج NLG 530B2 |
192 | 46-48B | 92-96B | 184-192B | 368-384B | 736-768B | بلوم-176 ب (FP16) |
256 | 62-64B | 124-128B | 248-256B | 496-512B | 992-1024B | GPT-3 175B (INT8)، LLaMA 2 70B (FP32) |
320 | 78-80B | 156-160B | 312-320B | 624-640B | 1248-1280B | شينشيلا 70 ب (FP32) |
384 | 94-96B | 188-192B | 376-384B | 752-768B | 1504-1536B | بالام 540B (INT8) |
512 | 126-128B | 252-256B | 504-512B | 1008-1024B | 2016-2048B | GPT-3 175B (FP16)، BLOOM-176B (FP32) |
الملاحظات:
- يمكن تشغيله بدقة كاملة (FP32)
- يتطلب التكميم أو تقنيات التحسين الأخرى
اعتبارات إضافية:
- تفترض هذه التقديرات أن ذاكرة VRAM بأكملها متاحة للنموذج، وهو ما لا يحدث غالبًا في الممارسة العملية بسبب الذاكرة المستخدمة بواسطة الإطار ونظام التشغيل والعمليات الأخرى.
- يمكن أن تسمح التوازي النموذجي والتقنيات المتقدمة الأخرى بتشغيل نماذج أكبر من خلال توزيعها عبر وحدات معالجة الرسوميات المتعددة.
- تتطلب عملية الاستدلال عادةً ذاكرة أقل من عملية التدريب، لذا يمكن تشغيل نماذج أكبر في كثير من الأحيان للاستدلال على تكوينات VRAM الأصغر.
- يمكن أن تختلف الأحجام الدقيقة وفقًا لهندسة النموذج وتفاصيل التنفيذ والتحسينات المحددة المستخدمة.
الوجبات الرئيسية:
- 16-24 جيجابايت من ذاكرة VRAM: مناسبة لمعظم مهام الذكاء الاصطناعي الموجهة للمستهلكين ونماذج البحث الأصغر حجمًا.
- 48-96 جيجابايت VRAM: تتيح العمل مع النماذج متوسطة إلى كبيرة الحجم، والتي تُستخدم غالبًا في الإعدادات المهنية والبحثية.
- 128-256 جيجابايت VRAM: تسمح بتشغيل بعض من أكبر النماذج المتاحة للجمهور مع تحسينات مختلفة.
- 320-512 جيجابايت VRAM: توفر سعة لأكبر النماذج الحالية والتطورات المستقبلية، والتي غالبًا ما يتم تحقيقها من خلال إعدادات وحدة معالجة الرسومات المتعددة.
يوضح هذا الجدول التأثير الكبير للتكميم وتقنيات التحسين الأخرى في تمكين النماذج الأكبر من العمل على ذاكرة وصول عشوائي محدودة. ومع استمرار تقدم الذكاء الاصطناعي، يمكننا أن نتوقع المزيد من الابتكارات في ضغط النماذج والهندسة المعمارية الموفرة للذاكرة لدفع هذه الحدود إلى أبعد من ذلك.
وإنتظروا... الأمر لا ينتهي عند المحولات...