بناء نظام الذكاء الاصطناعي الخاص بك: الدليل الكامل لعام 2026 لأجهزة معالجة الرسومات الاستهلاكية لأنظمة التعلم الآلي المحلية
مشاركة
دراسة معمقة لقيود ذاكرة الوصول العشوائي للفيديو، وتجميع وحدات معالجة الرسومات المتعددة، وقيود PCIe، وأداء الفاصلة العائمة
بقلم الفريق التقني لموقع Kentino.com | يناير 2026
مقدمة: لماذا تبني نظام الذكاء الاصطناعي الخاص بك؟
لم تعد ثورة الذكاء الاصطناعي تقتصر على مراكز البيانات فحسب. فمع وصول نماذج مفتوحة المصدر مثل DeepSeek R1 وQwen 3 وLlama 4 وGemma إلى قدرات غير مسبوقة، أصبح تشغيل الذكاء الاصطناعي القوي محليًا ليس ممكنًا فحسب، بل عمليًا أيضًا.
لكن إليك الخدعة التي لا يخبرك بها أحد: ذاكرة الوصول العشوائي للفيديو (VRAM) هي الأهم، وكل شيء آخر هو حل وسط.
سيأخذك هذا الدليل من مرحلة التردد في شراء وحدة معالجة الرسومات (GPU) إلى مرحلة الخبرة في تصميم أنظمة الذكاء الاصطناعي. سنغطي كل شيء بدءًا من إعدادات وحدة معالجة الرسومات المفردة التي تشغل نماذج ذات 8 مليارات مُعامل، وصولًا إلى تكوينات وحدات معالجة الرسومات المتعددة القادرة على التعامل مع نماذج ضخمة ذات 70 مليار مُعامل أو أكثر. سواء كنت تُنشئ مساعدًا برمجيًا، أو محطة عمل بحثية، أو خادم ذكاء اصطناعي خاصًا، فإن هذا الدليل يُغطي جميع احتياجاتك.
الجزء الأول: فهم ذاكرة الوصول العشوائي للفيديو (VRAM) - عملة الذكاء الاصطناعي
لماذا تُعدّ ذاكرة الوصول العشوائي للفيديو (VRAM) أهم من أي شيء آخر؟
عند تشغيل نماذج اللغة الكبيرة (LLMs)، تُعد ذاكرة الوصول العشوائي للفيديو (VRAM) الخاصة بوحدة معالجة الرسومات (GPU) أهم المواصفات. على عكس الألعاب، حيث تُستخدم ذاكرة الوصول العشوائي للفيديو بشكل أساسي لتخزين الصور والإطارات، تتطلب تطبيقات الذكاء الاصطناعي ذاكرة الوصول العشوائي للفيديو للأغراض التالية:
- الأوزان النموذجيةالمليارات من المعايير التي تحدد معرفة الذكاء الاصطناعي
- ذاكرة التخزين المؤقت KV: ذاكرة تتزايد مع طول المحادثة (نافذة السياق)
- ذاكرة التنشيط: حسابات مؤقتة أثناء الاستدلال
- نظام النفقات العامة: نواة CUDA، إدارة الذاكرة، مخازن وقت التشغيل
الوصفة الذهبية:
Required VRAM (GB) = (Parameters in Billions × Precision in Bytes) × 1.2
Examples:
- 8B model @ FP16 (2 bytes): 8 × 2 × 1.2 = ~19.2 GB
- 8B model @ Q4 (0.5 bytes): 8 × 0.5 × 1.2 = ~4.8 GB
- 70B model @ FP16 (2 bytes): 70 × 2 × 1.2 = ~168 GB
- 70B model @ Q4 (0.5 bytes): 70 × 0.5 × 1.2 = ~42 GB
ثورة التكميم
التكميم هو التقنية التي تجعل تشغيل النماذج الكبيرة على أجهزة المستهلكين ممكناً. من خلال تقليل دقة أوزان النموذج من 16 بت (FP16) إلى 4 بت (Q4)، يمكنك تشغيل نماذج كانت تتطلب في السابق أجهزة مخصصة للمؤسسات.
| توضيح | عدد البتات لكل مُعامل | تقليل الذاكرة | تأثير الجودة |
|---|---|---|---|
| FP16 | 16 بت (2 بايت) | خط الأساس | 100% |
| س 8_0 | 8 بت (1 بايت) | 50% | ~ 99٪ |
| س5_ك_م | 5 بت (0.625 بايت) | 68% | ~ 97٪ |
| س4_ك_م | 4 بت (0.5 بايت) | 75% | ~ 95٪ |
| س3_ك_م | 3 بت (0.375 بايت) | 81% | ~ 90٪ |
النقطة المثالية: يوفر التكميم Q4_K_M توفيرًا في الذاكرة بنسبة 75٪ مع فقدان جودة بنسبة 5٪ فقط - مما يجعله المعيار الذهبي لنشر المستهلك في عام 2026.
الجزء الثاني: مشهد وحدات معالجة الرسومات في عام 2026
سلسلة NVIDIA RTX 50 - المعيار الجديد
تُحقق بنية بلاكويل من إنفيديا تحسينات كبيرة لأحمال عمل الذكاء الاصطناعي:
RTX 5090 - الوحش الرائد
| المواصفات الخاصه | RTX 5090 | RTX 4090 (الجيل السابق) |
|---|---|---|
| VRAM | شنومكس غب غدرسنومكس | 24 GB GDDR6X |
| النطاق الترددي الذاكرة | 1,792 جيجابايت / ثانية | 1,008 جيجابايت / ثانية |
| كودا النوى | 21,760 | 16,384 |
| نواة تينسور | 680 (الجيل الخامس) | 512 (الجيل الخامس) |
| قمة الذكاء الاصطناعي (INT8) | ~ 3,400 | ~ 1,300 |
| TDP | 575W | 450W |
| بكيي | 5.0 x16 | 4.0 x16 |
| MSRP | $1,999 | $1,599 |
ما الذي يوفره لك حجم ذاكرة الفيديو 32 جيجابايت:
- Qwen3-32B @ Q4_K_M — بشكل مريح
- DeepSeek R1 32B @ Q4_K_M — مع مراعاة السياق
- لاما 4 8B @ FP16 — دقة كاملة
- نماذج 70 مليار @ Q4_K_M — مع قيود سياقية صارمة
إن تحسين عرض النطاق الترددي بنسبة 78٪ في RTX 5090 مقارنة بـ 4090 يعني توليد الرموز بشكل أسرع، وهو أمر بالغ الأهمية بشكل خاص للنماذج الأكبر حيث يصبح عرض النطاق الترددي للذاكرة هو عنق الزجاجة.
RTX 5080 - الخيار العملي
| المواصفات الخاصه | RTX 5080 |
|---|---|
| VRAM | شنومكس غب غدرسنومكس |
| النطاق الترددي الذاكرة | 960 جيجابايت / ثانية |
| كودا النوى | 10,752 |
| نواة تينسور | 336 (الجيل الخامس) |
| قمة الذكاء الاصطناعي (INT8) | ~ 1,801 |
| TDP | 360W |
| MSRP | $999 |
ما الذي يوفره لك حجم ذاكرة الفيديو 16 جيجابايت:
- Qwen3-14B @ Q4_K_M — أداء رائع
- DeepSeek R1 14B @ Q4_K_M — ممتاز للبرمجة
- لاما 4 8B @ Q8_0 — جودة عالية
- نماذج 32 مليار عند التكميم العدواني - ممكن ولكنه محكم
RTX 5070 Ti – العمود الفقري لميزانية الذكاء الاصطناعي
| المواصفات الخاصه | RTX 5070 Ti |
|---|---|
| VRAM | شنومكس غب غدرسنومكس |
| النطاق الترددي الذاكرة | 896 جيجابايت / ثانية |
| كودا النوى | 8,960 |
| نواة تينسور | 280 (الجيل الخامس) |
| قمة الذكاء الاصطناعي (INT8) | ~ 1,406 |
| TDP | 300W |
| MSRP | $749 |
يوفر RTX 5070 Ti نفس سعة ذاكرة الوصول العشوائي للفيديو (VRAM) البالغة 16 جيجابايت مثل 5080 بتكلفة أقل بنسبة 25٪ - مما يجعله بلا شك الخيار الأفضل من حيث القيمة لأعمال الذكاء الاصطناعي المخصصة عندما لا تكون سرعة الرموز الخام أمرًا بالغ الأهمية.
RTX 5070 — نقطة الدخول
| المواصفات الخاصه | RTX 5070 |
|---|---|
| VRAM | شنومكس غب غدرسنومكس |
| النطاق الترددي الذاكرة | 672 جيجابايت / ثانية |
| كودا النوى | 6,144 |
| TDP | 250W |
| MSRP | $549 |
مشكلة الـ 12 جيجابايت: رغم أن سعر بطاقة RTX 5070 مغرٍ، إلا أن سعة ذاكرة الفيديو (VRAM) البالغة 12 جيجابايت تفرض قيودًا كبيرة. ستواجه صعوبة في استخدام الطرازات التي تتجاوز سعتها 14 جيجابايت مع نوافذ سياقية أطول. لذا، يُنصح بالنظر إلى سعة ذاكرة الفيديو الإضافية البالغة 4 جيجابايت في بطاقة 5070 Ti كضمان أساسي.
لا يزال الجيل السابق قابلاً للتطبيق
RTX 4090 — لا تزال منافسًا
لا تزال بطاقة RTX 4090 المزودة بذاكرة فيديو 24 جيجابايت خيارًا ممتازًا لتطبيقات الذكاء الاصطناعي. إذا وجدت واحدة بسعر مناسب، فستؤدي الغرض المطلوب.
- نماذج 14B عند التكميم العالي
- طرازات 32B في الربع الرابع (محدود)
- عدة نماذج 8B في وقت واحد
RTX 3090 / 3090 Ti — أفضل البطاقات الاقتصادية
بفضل ذاكرة الفيديو بسعة 24 جيجابايت (وهي نفس سعة بطاقة 4090)، تُعد هذه البطاقات القديمة قيمة رائعة لتطبيقات الذكاء الاصطناعي:
- نطاق ترددي أبطأ (936 جيجابايت/ثانية)
- نوى Tensor القديمة (الجيل الثالث)
- لكن بنفس السعة 24 جيجابايت
إذا كانت ذاكرة الوصول العشوائي للفيديو (VRAM) النقية أهم من السرعة (على سبيل المثال، لمعالجة الدفعات أو التطوير)، فإن بطاقة 3090 المستعملة بسعر 700-900 دولار تتفوق على بطاقة 5070 الجديدة بسعر 549 دولارًا لأحمال عمل الذكاء الاصطناعي.
الجزء الثالث: فهم قيود PCIe
واقع عرض النطاق الترددي لـ PCIe
PCIe (Peripheral Component Interconnect Express) هو الطريق السريع بين وحدة معالجة الرسومات (GPU) وبقية مكونات النظام. إليك ما تحتاج معرفته:
| إصدار PCIe | عرض النطاق الترددي لكل مسار | المجموع × 16 | المجموع × 8 | المجموع × 4 |
|---|---|---|---|---|
| بكيي 3.0 | ~1 جيجابايت/ثانية | ~16 جيجابايت/ثانية | ~8 جيجابايت/ثانية | ~4 جيجابايت/ثانية |
| بكيي 4.0 | ~2 جيجابايت/ثانية | ~32 جيجابايت/ثانية | ~16 جيجابايت/ثانية | ~8 جيجابايت/ثانية |
| بكيي 5.0 | ~4 جيجابايت/ثانية | ~64 جيجابايت/ثانية | ~32 جيجابايت/ثانية | ~16 جيجابايت/ثانية |
متى يكون لتقنية PCIe أهمية (ومتى لا تكون كذلك)
أهمية PCIe لـ:
- تحميل النموذج الأولي (توفير دقائق في النماذج الكبيرة)
- الاتصال بين وحدات معالجة الرسومات المتعددة (أمر بالغ الأهمية للتوازي الموتري)
- الاستدلال المختلط بين وحدة المعالجة المركزية ووحدة معالجة الرسومات (عندما ينتقل النموذج إلى ذاكرة الوصول العشوائي)
لا يُعد PCIe مهمًا كثيرًا بالنسبة لما يلي:
- الاستدلال باستخدام وحدة معالجة الرسومات الواحدة بعد تحميل النموذج
- الاستدلال على النموذج الصغير
- جلسات طويلة الأمد يكون فيها وقت التحميل ضئيلاً
إرشادات عملية:
- وحدة معالجة رسومات واحدة: عادةً ما يكون منفذ PCIe 4.0 x8 كافيًا
- وحدة معالجة رسومات مزدوجة: يوصى باستخدام PCIe 4.0 x16/x16 أو x8/x8
- يُنصح باستخدام معالج رسومات رباعي: PCIe 5.0 أو منصات المؤسسات
حدود مسارات وحدة المعالجة المركزية حسب المنصة
| المنظومة | إجمالي مسارات PCIe | التكوين النموذجي |
|---|---|---|
| معالج Intel من الجيل الرابع عشر (لأجهزة سطح المكتب) | 20 من وحدة المعالجة المركزية + 4 من مجموعة الشرائح | وحدة معالجة رسومات واحدة x16 + NVMe |
| AMD Ryzen 9000 | 24 من وحدة المعالجة المركزية | وحدة معالجة رسومات واحدة x16 + NVMe |
| ايه ام دي ثريدريبر برو | 128 حارات | 4 وحدات معالجة رسومية x16 لكل منها |
| إنتل زيون دبليو | 64-112 ممرات | 2-4 وحدات معالجة رسومية x16 لكل منها |
عنق الزجاجة في منصة المستهلك: توفر معظم وحدات المعالجة المركزية المخصصة للمستهلكين (Intel Core، AMD Ryzen) ما بين 16 إلى 24 مسار PCIe فقط من وحدة المعالجة المركزية. وهذا يعني:
- أول وحدة معالجة رسومات تحصل على x16 كاملة
- غالباً ما تؤدي إضافة وحدة معالجة رسومات ثانية إلى إجبار كلتيهما على العمل بسرعة x8/x8
- قد تعمل وحدات معالجة الرسومات الثالثة والرابعة بسرعة x4
بالنسبة لأعمال الذكاء الاصطناعي الجادة متعددة وحدات معالجة الرسومات، ضع في اعتبارك منصات Threadripper PRO أو HEDT.
الجزء 4: تكوينات متعددة وحدات معالجة الرسومات - تجميع ذاكرة الوصول العشوائي للفيديو
الحلم مقابل الواقع
الحلم: قم بدمج 4 بطاقات RTX 5090 للحصول على ذاكرة فيديو موحدة بسعة 128 جيجابايت، وقم بتشغيل أكبر الطرازات كما لو كانت تعمل على مبرد H100.
الحقيقة: الأمر معقد، ولكنه أصبح ممكناً بشكل متزايد.
كيف تعمل تقنية تعدد وحدات معالجة الرسومات في برامج إدارة التعلم
هناك طريقتان رئيسيتان:
التوازي الموتر (TP)
يقسم العمليات الفردية (مثل ضرب المصفوفات) على عدة وحدات معالجة رسومية. يتطلب ذلك اتصالاً عالي النطاق الترددي بين وحدات المعالجة الرسومية.
الأهداف: تطبيقات الاستدلال عالية الإنتاجية والحساسة لزمن الاستجابة المتطلبات: يفضل استخدام NVLink، والحد الأدنى هو PCIe 4.0 x8 لكل وحدة معالجة رسومات مدعوم من: vLLM، TensorRT-LLM، DeepSpeed
توازي خطوط الأنابيب (PP)
يقسم النموذج إلى مراحل متسلسلة، حيث تتولى كل وحدة معالجة رسومية (GPU) معالجة طبقات مختلفة.
الأهداف: تركيب النماذج الكبيرة، والمعالجة الدفعية المتطلبات: نطاق ترددي متوسط بين وحدات معالجة الرسومات مدعوم من: llama.cpp، Ollama، معظم الأطر
NVLink مقابل PCIe - الحقيقة الصعبة
NVLink يوفر اتصالاً مباشراً بين وحدات معالجة الرسومات بسرعة تصل إلى 900 جيجابايت/ثانية (لتقنية NVLink 4.0). ويتيح ذلك تجميع الذاكرة الحقيقي حيث يمكن لوحدات معالجة الرسومات الوصول مباشرةً إلى ذاكرة الوصول العشوائي للفيديو (VRAM) الخاصة بكل منها.
المشكلة: لم تعد بطاقات RTX المخصصة للمستهلكين تدعم تقنية NVLink. وكانت آخر بطاقات الرسومات المخصصة للمستهلكين التي تدعم NVLink هي RTX 3090/3090 Ti (NVLink 3.0 بسرعة 112.5 جيجابايت/ثانية ثنائية الاتجاه).
بدون تقنية NVLink، تستخدم عملية الاتصال بين وحدات معالجة الرسومات المتعددة تقنية PCIe:
- أبطأ بكثير (حوالي 32-64 جيجابايت/ثانية مقابل 900 جيجابايت/ثانية)
- زمن انتقال أعلى
- لا يمكن تجميع ذاكرة الوصول العشوائي للفيديو (VRAM) بشكل مباشر
التأثير العملي:
| الاعداد | الأداء المتوقع |
|---|---|
| 1 × RTX 5090 (32 جيجابايت) | خط الأساس |
| بطاقتان RTX 5090 عبر PCIe | ~1.6-1.8x (وليس 2x) |
| بطاقتان RTX 3090 عبر NVLink | ~1.8-1.9x |
| المؤسسات مع NVLink | ~1.95x+ |
تشغيل تقنية تعدد وحدات معالجة الرسومات بدون NVLink
على الرغم من القيود، أصبحت إعدادات وحدات معالجة الرسومات المتعددة على أجهزة المستهلكين عملية بشكل متزايد:
البرامج الموصى بها:
- اللامادعم ممتاز لوحدات معالجة الرسومات المتعددة، حيث يوزع الطبقات على البطاقات.
- أولاماإعداد بسيط، وتوزيع تلقائي للطبقات
- vLLM: خدمة عالية الأداء، ودعم التوازي الموتري
- exllama2مُحسَّن للاستدلال متعدد وحدات معالجة الرسومات
نصائح التكوين:
- تأكد من أن كلا وحدتي معالجة الرسومات موجودتان على نفس عقدة NUMA (تحقق من ذلك باستخدام
nvidia-smi topo -m) - استخدم منفذ PCIe x8/x8 كحد أدنى لوحدة معالجة الرسومات المزدوجة
- بكج
CUDA_VISIBLE_DEVICESبشكل صحيح - قم بمطابقة طرازات وحدة معالجة الرسومات كلما أمكن ذلك (خلط الأجيال ممكن ولكنه قد يكون غير فعال)
أمثلة على تكوينات متعددة وحدات معالجة الرسومات
بطاقة رسومات مزدوجة RTX 5090 (إجمالي 64 جيجابايت)
Models supported:
- Qwen3-70B @ Q4_K_M (needs ~42GB) ✓
- DeepSeek R1 70B @ Q4_K_M ✓
- Llama 4 70B @ Q4_K_M ✓
- Any 32B model @ FP16 ✓
Performance: ~40-50 tokens/sec on 70B models
Cost: ~$4,000 (GPUs only)
Power: 1,150W peak (GPUs only)
بطاقة رسومات رباعية RTX 5090 (إجمالي 128 جيجابايت)
Models supported:
- Qwen3-235B-A22B (MoE, ~22B active) ✓
- Any 70B model @ Q8_0 ✓
- 120B+ dense models @ Q4_K_M ✓
Performance: Variable, depends heavily on PCIe topology
Cost: ~$8,000 (GPUs only)
Power: 2,300W peak (GPUs only)
Requires: HEDT/Server platform (Threadripper, Xeon)
تجميعة اقتصادية: بطاقتا رسومات RTX 3090 مستعملتان (إجمالي 48 جيجابايت)
Models supported:
- Qwen3-32B @ Q4_K_M ✓
- DeepSeek R1 32B @ Q4_K_M ✓
- 70B models @ aggressive Q3 quantization (marginal)
Performance: ~20-30 tokens/sec on 32B models
Cost: ~$1,400-1,800 (GPUs used)
Advantage: NVLink support!
الجزء الخامس: تحليل معمق لأداء العمليات الحسابية ذات الفاصلة العائمة
شرح تنسيقات الدقة
يستخدم الذكاء الاصطناعي الحديث تنسيقات دقة عددية متنوعة:
| شكل | بت | المدى | الحلول المقترحة |
|---|---|---|---|
| FP32 | 32 | ±3.4×10^38 | التدريب، عالي الدقة |
| FP16 | 16 | ± 65,504 | الاستدلال، متوازن |
| BF16 | 16 | ±3.4×10^38 | التدريب، وحدات معالجة الرسومات الحديثة |
| FP8 | 8 | ±448 (E4M3) | الاستدلال السريع |
| INT8 | 8 | -128 ل127 | الاستدلال الكمي |
| INT4 | 4 | -8 ل7 | التكميم العدواني |
ميزة بلاكويل FP4 و FP8
تقدم سلسلة RTX 50 دعمًا أصليًا لتقنية FP4 في نوى Tensor:
| دقة | RTX 4090 TOPS | RTX 5090 TOPS | تسريع |
|---|---|---|---|
| FP16 | 330 | 418 | 1.27x |
| FP8 | 660 | ~ 1,700 | 2.6x |
| FP4 | لا يوجد | ~ 3,400 | جديد |
| INT8 | 660 | ~ 3,400 | 5.1x |
ماذا يعني هذا:
- يُعدّ استنتاج FP8 وFP4 أسرع بشكل ملحوظ على سلسلة RTX 50
- تشهد النماذج المُحسّنة لـ FP8 تسارعًا هائلاً
- تُعدّ أجيال Tensor Core بنفس أهمية أنوية CUDA
عرض نطاق الذاكرة - عنق الزجاجة الآخر
بالنسبة للنماذج الكبيرة، غالباً ما يكون عرض نطاق الذاكرة أهم من القدرة الحاسوبية:
يتم تحديد عدد الرموز المميزة في الثانية الواحدة بواسطة:
Max Tokens/s = Memory Bandwidth (GB/s) / Bytes per Parameter
RTX 5090 with 70B Q4_K_M model:
1,792 GB/s / 35 GB = ~51 tokens/s theoretical maximum
RTX 4090 with same model:
1,008 GB/s / 35 GB = ~29 tokens/s theoretical maximum
إن تحسين عرض النطاق الترددي بنسبة 78% في RTX 5090 يترجم مباشرة إلى توليد أسرع مع النماذج الكبيرة.
الجزء السادس: مشهد نموذج المصادر المفتوحة - ما الذي يجب تشغيله
المستوى الأول: الطرازات الرائدة (يوصى بذاكرة وصول عشوائي للفيديو بسعة 32 جيجابايت أو أكثر)
Qwen3-235B-A22B (MoE)
- المعلمات النشطة: 22 مليار (235 مليار إجمالي)
- ذاكرة الوصول العشوائي للفيديو في الربع الرابع: ~ 28 جيجابايت
- السياق: 32 ألفًا بشكل أصلي، 131 ألفًا باستخدام YaRN
- نقاط القوة: الرياضيات، البرمجة، متعدد اللغات (119 لغة)
- أفضل ل: أغراض عامة، برمجة، بحث
ديب سيك R1 70B
- المعلمات: 70B
- ذاكرة الوصول العشوائي للفيديو في الربع الرابع: ~ 42 جيجابايت
- السياق: 128K
- نقاط القوة: الاستدلال، التسلسل الفكري، البرمجة
- أفضل ل: حل المشكلات المعقدة، والبحث
اللاما 4 70 ب
- المعلمات: 70B
- ذاكرة الوصول العشوائي للفيديو في الربع الرابع: ~ 42 جيجابايت
- السياق: 128K
- نقاط القوة: القدرات العامة، واتباع التعليمات
- أفضل ل: تطبيقات متعددة الاستخدامات
المستوى الثاني: الطرازات الاحترافية (ذاكرة فيديو 16-24 جيجابايت)
Qwen3-32B
- المعلمات: 32B
- ذاكرة الوصول العشوائي للفيديو في الربع الرابع: ~ 19 جيجابايت
- السياق: 128K
- نقاط القوة: البرمجة (تتوافق مع GPT-4o)، الاستدلال
- أفضل ل: بطاقة رسومات RTX 5090/4090 واحدة، قيد التطوير
ديب سيك آر 1 ديستيل 32 بي
- المعلمات: 32B
- ذاكرة الوصول العشوائي للفيديو في الربع الرابع: ~ 19 جيجابايت
- نقاط القوة: استخلاص المنطق من نموذج أكبر
- أفضل ل: التفكير الفعال من حيث التكلفة
جيما 3 27 ب
- المعلمات: 27B
- ذاكرة الوصول العشوائي للفيديو في الربع الرابع: ~ 16 جيجابايت
- السياق: 128K
- نقاط القوة: فعّال، بجودة جوجل، متعدد الوسائط
- أفضل ل: تجميعات RTX 5080/5070 Ti
المستوى 3: نماذج المستهلكين (8-16 جيجابايت من ذاكرة الوصول العشوائي للفيديو)
Qwen3-14B
- المعلمات: 14B
- ذاكرة الوصول العشوائي للفيديو في الربع الرابع: ~ 8.4 جيجابايت
- السياق: 128K
- نقاط القوة: توازن ممتاز بين الحجم والقدرة
- أفضل ل: RTX 5070 Ti، 4070 Ti، الاستخدام العام
Qwen3-8B
- المعلمات: 8B
- ذاكرة الوصول العشوائي للفيديو في الربع الرابع: ~ 4.8 جيجابايت
- السياق: 32 كيلوبت في الثانية (النسخة الأصلية)، 131 كيلوبت في الثانية (النسخة الموسعة)
- نقاط القوة: سريع، كفؤ، يناسب أي مكان
- أفضل ل: إصدارات للمبتدئين، تطبيقات في الوقت الفعلي
DeepSeek R1 Distill 14B (قاعدة كوين)
- المعلمات: 14B
- ذاكرة الوصول العشوائي للفيديو في الربع الرابع: ~ 8.4 جيجابايت
- نقاط القوة: استدلال قوي من التقطير
- أفضل ل: مساعدو البرمجة، حل المشكلات
اللاما 4 8 ب
- المعلمات: 8B
- ذاكرة الوصول العشوائي للفيديو في الربع الرابع: ~ 4.8 جيجابايت
- نقاط القوة: سريع، متكامل
- أفضل ل: المهام اليومية، تطبيقات الدردشة
المستوى 4: الحافة/المدمجة (4-8 جيجابايت من ذاكرة الوصول العشوائي للفيديو)
Qwen3-4B
- المعلمات: 4B
- ذاكرة الوصول العشوائي للفيديو في الربع الرابع: ~ 2.4 جيجابايت
- نقاط القوة: أداء المنافسين Qwen2.5-7B
- أفضل ل: أجهزة الكمبيوتر المحمولة، والرسومات المدمجة، والأجهزة الطرفية
فاي-4 (مايكروسوفت)
- المعلمات: 14B
- ذاكرة الوصول العشوائي للفيديو في الربع الرابع: ~ 8.4 جيجابايت
- نقاط القوة: استثنائي من حيث الحجم، مع التركيز على العلوم والتكنولوجيا والهندسة والرياضيات
- أفضل ل: التطبيقات التعليمية والتقنية
Qwen3-0.6B
- المعلمات: 0.6B
- ذاكرة الوصول العشوائي للفيديو في الربع الرابع: <1 غيغابايت
- نقاط القوة: يعمل في أي مكان
- أفضل ل: إنترنت الأشياء، والأجهزة المحمولة، والبيئات ذات الموارد المنخفضة للغاية
مخطط انسيابي لاختيار النموذج
What's your primary VRAM capacity?
├─ 32GB+ (RTX 5090, Dual 3090s)
│ └─ Qwen3-235B-A22B or DeepSeek R1 70B @ Q4
│
├─ 24GB (RTX 4090, 3090)
│ └─ Qwen3-32B @ Q4 or DeepSeek R1 32B @ Q4
│
├─ 16GB (RTX 5080, 5070 Ti, 4080)
│ └─ Qwen3-14B @ Q4 or Gemma 3 27B @ Q4
│
├─ 12GB (RTX 5070, 4070 Ti)
│ └─ Qwen3-8B @ Q4 or Llama 4 8B @ Q4
│
└─ 8GB (RTX 4070, 3070)
└─ Qwen3-4B @ Q4 or Phi-4 @ aggressive quant
الجزء 7: توصيات بناء النظام الكامل
البناء 1: نقطة الدخول (1,200-1,500 دولار)
حالة الاستخدام: مساعد شخصي يعمل بالذكاء الاصطناعي، مساعدة في البرمجة، تجارب
| مكون | توصية مجاناً | ملاحظة |
|---|---|---|
| وحدة معالجة الرسوميات: | RTX 5070 Ti (16GB) | أفضل قيمة مقابل 16 جيجابايت |
| وحدة المعالجة المركزية: | AMD Ryzen 7 9700X | 8 أنوية، PCIe 5.0 |
| رامات | 32GB DDR5-6000 | مخزن تحميل النموذج |
| التخزين | محرك أقراص NVMe PCIe 4.0 بسعة 2 تيرابايت | تحميل نموذج سريع |
| جامعة الأمير سلطان | 750 واط 80+ ذهبي | ارتفاع مناسب |
| اللوحة الأم | B650 مع PCIe 5.0 | برهان المستقبل |
يمكن تشغيله:
- Qwen3-14B @ Q4 (~8.4 جيجابايت) — ممتاز
- ديب سيك R1 14B @ Q4 — ممتاز
- Qwen3-32B @ Q3 (هجومي) - ممكن لكن متقارب
- عدة نماذج 8B في وقت واحد
الأداء المتوقع: 35-50 رمزًا/ثانية مع نماذج 14B
البناء الثاني: النقطة المثالية للمستهلك المحترف (3,500-4,500 دولار)
حالة الاستخدام: التطوير المهني، والبحث، وإنشاء المحتوى
| مكون | توصية مجاناً | ملاحظة |
|---|---|---|
| وحدة معالجة الرسوميات: | RTX 5090 (32 جيجابايت) | الحد الأقصى لذاكرة الوصول العشوائي للفيديو (VRAM) لوحدة معالجة الرسومات الواحدة |
| وحدة المعالجة المركزية: | AMD Ryzen 9 9950X | 16 نواة، أداء عالي أحادي الخيوط |
| رامات | 64GB DDR5-6400 | نوافذ السياق الكبيرة |
| التخزين | 4 تيرابايت NVMe Gen4 | مكتبة النماذج |
| جامعة الأمير سلطان | 1000 واط 80+ ذهبي | مطلوب لوحدة معالجة الرسومات بقدرة 575 واط |
| اللوحة الأم | X670E | مجموعة ميزات كاملة |
يمكن تشغيله:
- Qwen3-32B @ Q4 — مريح مع مساحة إضافية تبلغ 13 جيجابايت
- DeepSeek R1 32B @ Q6 — جودة أعلى
- Qwen3-235B-A22B @ Q4 — ضيق ولكنه يعمل
- أي موديل أقل من 32B بجودة عالية
الأداء المتوقع: 50-80 رمزًا/ثانية مع نماذج 32B
الإصدار الثالث: خادم الذكاء الاصطناعي المحلي (7,000-10,000 دولار)
حالة الاستخدام: خادم استدلال الفريق، تجربة النموذج، أحمال العمل الإنتاجية
| مكون | توصية مجاناً | ملاحظة |
|---|---|---|
| وحدات معالجة الرسومات | 2× RTX 5090 (إجمالي 64 جيجابايت) | جاهزية التوازي الموتري |
| وحدة المعالجة المركزية: | معالج AMD Threadripper 7960X | 24 نواة، 48 مسارًا |
| رامات | 128 جيجابايت DDR5-5600 ECC | تصحيح الأخطاء لضمان الموثوقية |
| التخزين | 8 تيرابايت NVMe RAID 0 | تبديل سريع بين النماذج |
| جامعة الأمير سلطان | 1600 واط 80+ تيتانيوم | مساحة رأسية مزدوجة لوحدة معالجة الرسومات |
| اللوحة الأم | TRX50 | دعم كامل لمسارات PCIe |
| تبريد | حلقة مخصصة | الإدارة الحرارية |
يمكن تشغيله:
- DeepSeek R1 70B @ الربع الرابع — الأداء الكامل
- Qwen3-235B-A22B @ Q4 — ممتاز
- أي نموذج أقل من 120B معلمات
- نماذج متعددة من طراز 32B لاختبار A/B
الأداء المتوقع: 40-50 رمزًا/ثانية مع نماذج 70B
البناء الرابع: مختبر الميزانية (2,000-2,500 دولار في سوق المستعمل)
حالة الاستخدام: متحمس للتعلم والتطوير والحرص على التكلفة
| مكون | توصية مجاناً | ملاحظة |
|---|---|---|
| وحدات معالجة الرسومات | 2× RTX 3090 (إجمالي 48 جيجابايت) | يدعم تقنية NVLink! |
| وحدة المعالجة المركزية: | AMD Ryzen 9 5950X | القيمة السابقة للجيل |
| رامات | 64GB DDR4-3600 | لا يزال قادراً |
| التخزين | 2 تيرا بايت NVMe | تخزين النماذج |
| جامعة الأمير سلطان | 1200 واط 80+ ذهبي | معالجات رسومات مزدوجة بقدرة 350 واط |
| اللوحة الأم | X570 مع 2× x16 | دعم NVLink |
| جسر NVLink | RTX 3090 NVLink | حوالي 80 دولار مستعمل |
ميزة NVLink: هذا هو التكوين الاستهلاكي الوحيد الذي يدعم NVLink، مما يوفر تجميعًا حقيقيًا لذاكرة الوصول العشوائي للفيديو بسرعة 112.5 جيجابايت/ثانية مقابل 32 جيجابايت/ثانية تقريبًا لـ PCIe.
يمكن تشغيله:
- Qwen3-32B @ Q8 (جودة أعلى) — مريح
- DeepSeek R1 32B @ FP16 — مع إدارة سياق دقيقة
- طرازات 70B في الربع الثالث القوي - محتمل
الأداء المتوقع: 25-35 رمزًا/ثانية مع طرازات 32B (أسرع من المتوقع بسبب NVLink)
البناء الخامس: محطة الطاقة المحمولة (الكمبيوتر المحمول)
حالة الاستخدام: تطوير الذكاء الاصطناعي للأجهزة المحمولة، والاستدلال أثناء التنقل
| المواصفات | توصية مجاناً |
|---|---|
| وحدة معالجة الرسوميات: | RTX 5090 Mobile (24GB) |
| وحدة المعالجة المركزية: | معالج Intel Core Ultra 9 / معالج AMD Ryzen 9 |
| رامات | 64GB |
| التخزين | 2 تيرا بايت NVMe |
| العرض | 16 بوصة 2560×1600 |
النماذج البارزة:
- ASUS ROG Strix SCAR 18 (2026)
- Razer Blade 18 (2026)
- إم إس آي تيتان جي تي 78 (2026)
يمكن تشغيله:
- Qwen3-14B @ Q4 — ممتاز
- ديب سيك R1 14B @ Q4 — ممتاز
- Qwen3-32B @ Q4 — مباراة متقاربة لكنها ناجحة
ملاحظة: تأتي بطاقة RTX 5090 المحمولة بذاكرة 24 جيجابايت (وليس 32 جيجابايت) واستهلاك طاقة أقل. توقع أداءً يقارب 70% من أداء أجهزة الكمبيوتر المكتبية.
الجزء الثامن: توصيات بشأن حزمة البرامج
الأدوات الأساسية
أولاما - الزر السهل
# Install
curl -fsSL https://ollama.ai/install.sh | sh
# Run Qwen3 8B
ollama run qwen3:8b
# Run with specific quantization
ollama run qwen3:14b-q4_K_M
# Multi-GPU (automatic)
CUDA_VISIBLE_DEVICES=0,1 ollama run qwen3:32b
أفضل ل: البدء، عمليات النشر البسيطة، خدمة واجهة برمجة التطبيقات
LM Studio — تجربة واجهة المستخدم الرسومية
- مستعرض النموذج المرئي
- التنزيلات بنقرة واحدة
- واجهة دردشة مدمجة
- اختيار التكميم
أفضل ل: استكشاف النماذج للمستخدمين غير التقنيين
llama.cpp — أقصى قدر من التحكم
# Build with CUDA
cmake -B build -DGGML_CUDA=ON
cmake --build build --config Release
# Run with multi-GPU
./llama-server -m qwen3-32b-q4_k_m.gguf \
-ngl 99 \
--tensor-split 0.5,0.5 \
-c 8192
أفضل ل: للمستخدمين المتقدمين، وعمليات النشر المخصصة، وأقصى أداء
vLLM — خدمة الإنتاج
# Install
pip install vllm
# Serve with tensor parallelism
python -m vllm.entrypoints.openai.api_server \
--model Qwen/Qwen3-32B \
--tensor-parallel-size 2 \
--dtype auto
أفضل ل: خدمة عالية الإنتاجية، نقاط نهاية واجهة برمجة التطبيقات، الإنتاج
مصادر النموذج
| مصدر | URL | ملاحظة |
|---|---|---|
| وجه يعانق | huggingface.com | البيانات الرسمية |
| مكتبة أولاما | ollama.com/library | مُقاس مسبقًا، سهل |
| الرجل (HF) | huggingface.co/TheBloke | عمليات التكميم GGUF |
| مركز استوديوهات LM | lmstudio.ai | اختيار منسق |
الجزء التاسع: نصائح لتحسين الأداء
تحسين ذاكرة الوصول العشوائي للفيديو
- استخدم التكميم Q4_K_M — أفضل توازن بين الحجم والجودة
- تحديد طول السياق — استخدام 8 كيلوبايت بدلاً من 32 كيلوبايت يوفر حوالي 40% من ذاكرة الوصول العشوائي للفيديو
- تعطيل ذاكرة التخزين المؤقت للقيم المفتاحية للمطالبات الفردية
- استخدم تنبيه الفلاش 2 — يقلل من استهلاك الذاكرة للسياقات الطويلة
- تمكين الاستدلال الفعال من حيث الذاكرة في برنامج الماجستير في القانون الافتراضي
سرعة التحسين
- زيادة عرض نطاق ذاكرة وحدة معالجة الرسومات إلى أقصى حد — ذاكرة وصول عشوائي أسرع = رموز أسرع
- استخدم FP8 عند توفره — زيادة السرعة بمقدار 2-3 أضعاف على سلسلة RTX 50
- تفعيل فك التشفير التخميني — استخدم نموذجًا صغيرًا لتسريع النموذج الكبير
- طلبات الدفعة — زيادة الإنتاجية في تقديم الخدمة
- استخدم الدفعات المستمرة (vLLM) — معالجة الطلبات الديناميكية
تحسين الأداء باستخدام وحدات معالجة الرسومات المتعددة
- طرازات وحدة معالجة الرسومات المتوافقة — تجنب اختلاط الأجيال
- تحقق من بنية NUMA — نفس العقدة = زمن استجابة أقل
- استخدم 8 مسارات كحد أدنى — يؤدي x4 إلى حدوث اختناقات
- شاشة باستخدام nvidia-smi — انتبه للاستخدام غير المتوازن
- اختبر تكوينات TP/PP المختلفة — يختلف الوضع الأمثل باختلاف النموذج
الجزء 10: استكشاف الأخطاء وإصلاحها
"نفدت ذاكرة CUDA"
الأسباب:
- حجم النموذج كبير جدًا بالنسبة لذاكرة الوصول العشوائي للفيديو (VRAM)
- نافذة السياق طويلة جدًا
- نمو ذاكرة التخزين المؤقت KV
الحلول:
- استخدم تكميمًا أكثر فعالية (Q4 → Q3)
- تقليل طول السياق
- تقليل حجم الدفعة
- تفعيل خاصية الانتباه السريع
- موزعة على وحدات معالجة رسومية متعددة
توليد الرموز البطيء
الأسباب:
- عرض نطاق الذاكرة محدود
- تفعيل خاصية تفريغ وحدة المعالجة المركزية
- اختناق الحراري
الحلول:
- تأكد من أن النموذج يناسب ذاكرة الوصول العشوائي للفيديو (VRAM) بالكامل
- تحقق من درجة حرارة وحدة معالجة الرسومات (الهدف <85 درجة مئوية)
- استخدم نموذجًا أصغر
- تفعيل وضع أداء وحدة معالجة الرسومات
- تحسين تدفق الهواء داخل العلبة
لا يتوسع نظام معالجة الرسومات المتعددة
الأسباب:
- اختناق عرض النطاق الترددي لـ PCIe
- تقسيم الطبقات غير السليم
- مشاكل المسافة في نظام NUMA
الحلول:
- تحقق
nvidia-smi topo -mفي مجال الطوبولوجيا - ضبط نسب تقسيم الموتر
- تأكد من وجود منفذ PCIe x8+ لكل وحدة معالجة رسومات
- ضع في اعتبارك تقنية NVLink (RTX 3090)
- استخدم التوازي في خطوط الأنابيب بدلاً من الموتر
الخلاصة: اتخاذ القرار الصحيح
أصبح بناء نظام ذكاء اصطناعي محلي في عام 2026 أسهل من أي وقت مضى. إليكم ملخصًا:
توصيات سريعة:
| الميزانية | أفضل خيار | الفائدة الرئيسية |
|---|---|---|
| $ 500-800 | بطاقة رسومات RTX 3090 مستعملة | ذاكرة فيديو بسعة 24 جيجابايت، تدعم تقنية NVLink |
| $ 750-1000 | RTX 5070 Ti | جديد، سعة 16 جيجابايت، فعال |
| $ 1000-1500 | RTX 5080 | 16 جيجابايت، أسرع |
| $ 2000 + | RTX 5090 | 32 جيجابايت، الطراز الرائد |
| $ 4000 + | بطاقة رسومات مزدوجة RTX 5090 | طرازات 64 جيجابايت و70 جيجابايت |
القواعد الذهبية:
- ذاكرة الوصول العشوائي للفيديو (VRAM) أهم من كل شيء آخر — المزيد من الذاكرة = المزيد من خيارات النموذج
- التكميم هو صديقك — Q4_K_M هي النقطة المثالية
- تتناقص عوائد استخدام وحدات معالجة الرسومات المتعددة — بدون NVLink، توقع أداءً أسرع بنحو 1.6 مرة من وحدتي معالجة رسومية
- عرض نطاق الذاكرة أمر مهم — خاصة بالنسبة للنماذج الكبيرة
- ابدأ صغيرًا، ثم قم بالتوسع — اختبر أحمال العمل قبل الاستثمار
يشهد نظام الذكاء الاصطناعي مفتوح المصدر تطوراً سريعاً. فالنماذج التي كانت تتطلب أجهزة بقيمة 100 ألف دولار قبل عامين، تعمل الآن على أنظمة بقيمة 2 دولار فقط. وأي نظام تبنيه اليوم سيصبح أكثر كفاءة مع تطور النماذج.
أهلاً بكم في عصر الذكاء الاصطناعي الشخصي.
للحصول على توصيات بشأن الأجهزة ومدى توفرها، تفضل بزيارة موقع Kentino.com
الملحق: جداول مرجعية سريعة
متطلبات ذاكرة الوصول العشوائي للفيديو (Q4_K_M)
| الموديل | المعاملات | ذاكرة الوصول العشوائي للفيديو في الربع الرابع | الحد الأدنى لوحدة معالجة الرسومات |
|---|---|---|---|
| Qwen3-0.6B | 0.6B | ~ 0.5 جيجابايت | اي |
| Qwen3-4B | 4B | ~ 2.4 جيجابايت | GTX 1650 |
| Qwen3-8B | 8B | ~ 4.8 جيجابايت | RTX 3060 |
| Qwen3-14B | 14B | ~ 8.4 جيجابايت | RTX 4070 |
| Qwen3-32B | 32B | ~ 19 جيجابايت | RTX 4090 |
| Qwen3-235B-A22B | 235B (22B نشط) | ~ 28 جيجابايت | RTX 5090 |
| ديب سيك R1 70B | 70B | ~ 42 جيجابايت | 2 × RTX 5090 |
| اللاما 4 405 ب | 405B | ~ 243 جيجابايت | 8 × RTX 5090 |
مقارنة وحدات معالجة الرسومات (GPU) للذكاء الاصطناعي
| وحدة معالجة الرسوميات: | VRAM | عرض النطاق الترددي | قمم الذكاء الاصطناعي | TDP | MSRP |
|---|---|---|---|---|---|
| RTX 5090 | 32GB | 1,792 جيجابايت / ثانية | ~ 3,400 | 575W | $1,999 |
| RTX 5080 | 16GB | 960 جيجابايت / ثانية | ~ 1,801 | 360W | $999 |
| RTX 5070 Ti | 16GB | 896 جيجابايت / ثانية | ~ 1,406 | 300W | $749 |
| RTX 5070 | 12GB | 672 جيجابايت / ثانية | ~ 988 | 250W | $549 |
| RTX 4090 | 24GB | 1,008 جيجابايت / ثانية | ~ 1,300 | 450W | $1,599 |
| RTX 3090 | 24GB | 936 جيجابايت / ثانية | ~ 285 | 350W | حوالي 800 دولار مستعمل |
آخر تحديث: يناير 2026 مقال أعده الفريق التقني لشركة كينتينو