لقطة واقعية للغاية لقالب السيليكون مع إضافة عمق ولون أرجواني نابض بالحياة

متطلبات VRAM لنموذج الذكاء الاصطناعي عبر تكوينات وحدة معالجة الرسوميات المختلفة

متطلبات VRAM لنموذج الذكاء الاصطناعي عبر تكوينات وحدة معالجة الرسوميات المختلفة

يوفر هذا الجدول نظرة عامة على أحجام النماذج التقريبية (بمليارات المعلمات) التي يمكن تشغيلها على تكوينات VRAM المختلفة، بالإضافة إلى أمثلة للنماذج المعروفة. لاحظ أن هذه تقديرات وقد تختلف بناءً على التنفيذات والهندسة المعمارية والتحسينات المحددة.

VRAM (جيجابايت) FP32 FP16/BF16 INT8 INT4 INT2 نماذج سبيل المثال
16 3-4B 6-8B 12-16B 24-32B 48-64B GPT-2 (1.5B)، BERT-Large (340M)
24 5-6B 10-12B 20-24B 40-48B 80-96B GPT-J (6B)، BLOOM-7B1
48 10-12B 20-24B 40-48B 80-96B 160-192B T5-11B, BLOOM-7B1 (FP32)
80 18-20B 36-40B 72-80B 144-160B 288-320B GPT-NeoX-20B، BLOOM-176B2
96 22-24B 44-48B 88-96B 176-192B 352-384B بلوم-176B2، جوراسيك-1 جامبو (178B)2
128 30-32B 60-64B 120-128B 240-256B 480-512B GPT-3 175B2، PaLM 540B2
160 38-40B 76-80B 152-160B 304-320B 608-640B PaLM 540B2، ميجاترون-تورينج NLG 530B2
192 46-48B 92-96B 184-192B 368-384B 736-768B بلوم-176 ب (FP16)
256 62-64B 124-128B 248-256B 496-512B 992-1024B GPT-3 175B (INT8)، LLaMA 2 70B (FP32)
320 78-80B 156-160B 312-320B 624-640B 1248-1280B شينشيلا 70 ب (FP32)
384 94-96B 188-192B 376-384B 752-768B 1504-1536B بالام 540B (INT8)
512 126-128B 252-256B 504-512B 1008-1024B 2016-2048B GPT-3 175B (FP16)، BLOOM-176B (FP32)

الملاحظات:

  1. يمكن تشغيله بدقة كاملة (FP32)
  2. يتطلب التكميم أو تقنيات التحسين الأخرى

اعتبارات إضافية:

  • تفترض هذه التقديرات أن ذاكرة VRAM بأكملها متاحة للنموذج، وهو ما لا يحدث غالبًا في الممارسة العملية بسبب الذاكرة المستخدمة بواسطة الإطار ونظام التشغيل والعمليات الأخرى.
  • يمكن أن تسمح التوازي النموذجي والتقنيات المتقدمة الأخرى بتشغيل نماذج أكبر من خلال توزيعها عبر وحدات معالجة الرسوميات المتعددة.
  • تتطلب عملية الاستدلال عادةً ذاكرة أقل من عملية التدريب، لذا يمكن تشغيل نماذج أكبر في كثير من الأحيان للاستدلال على تكوينات VRAM الأصغر.
  • يمكن أن تختلف الأحجام الدقيقة وفقًا لهندسة النموذج وتفاصيل التنفيذ والتحسينات المحددة المستخدمة.

الوجبات الرئيسية:

  1. 16-24 جيجابايت من ذاكرة VRAM: مناسبة لمعظم مهام الذكاء الاصطناعي الموجهة للمستهلكين ونماذج البحث الأصغر حجمًا.
  2. 48-96 جيجابايت VRAM: تتيح العمل مع النماذج متوسطة إلى كبيرة الحجم، والتي تُستخدم غالبًا في الإعدادات المهنية والبحثية.
  3. 128-256 جيجابايت VRAM: تسمح بتشغيل بعض من أكبر النماذج المتاحة للجمهور مع تحسينات مختلفة.
  4. 320-512 جيجابايت VRAM: توفر سعة لأكبر النماذج الحالية والتطورات المستقبلية، والتي غالبًا ما يتم تحقيقها من خلال إعدادات وحدة معالجة الرسومات المتعددة.

يوضح هذا الجدول التأثير الكبير للتكميم وتقنيات التحسين الأخرى في تمكين النماذج الأكبر من العمل على ذاكرة وصول عشوائي محدودة. ومع استمرار تقدم الذكاء الاصطناعي، يمكننا أن نتوقع المزيد من الابتكارات في ضغط النماذج والهندسة المعمارية الموفرة للذاكرة لدفع هذه الحدود إلى أبعد من ذلك.

وإنتظروا... الأمر لا ينتهي عند المحولات...

العودة إلى المدونة