Kentino المحدودة
K-AI 768 TurinDual RTXPro6000MQ 16000TOPS — 8× RTX Pro 6000 Blackwell Max-Q AI Frontier Server (Dual Turin)
K-AI 768 TurinDual RTXPro6000MQ 16000TOPS — 8× RTX Pro 6000 Blackwell Max-Q AI Frontier Server (Dual Turin)
تعذر تحميل توفر الاستلام
K-AI 768 TurinDual RTXPro6000MQ 16000TOPS
768 جيجابايت ECC VRAM Frontier Flagship
8 بطاقات رسومات RTX Pro 6000 Max-Q | معالجين EPYC Turin | 16000 TOPS INT8
تم تحديد أسعار وحدة المعالجة المركزية عند الطلب - يتحرك سوق سلسلة Turin 9005 أسبوعيًا في الربع الثاني من عام 2026.
المراجع الخارجية المنشورة. لم يتم القياس على أجهزة كينتينو.
في قمة تشكيلة خوادم الذكاء الاصطناعي من كينتينو. منصة استدلال رائدة من الفئة المتقدمة، تُثبّت في رف 7U، مزودة بثماني بطاقات NVIDIA RTX Pro 6000 Blackwell Max-Q ذات مراوح توربينية، مُجمّعة في ذاكرة وصول عشوائي للفيديو ECC بسعة 768 جيجابايت، ومعالجين AMD EPYC Turin من سلسلة 9005 (Zen5c، SP5)، وذاكرة DDR5-4800 ECC بسعة 1.5 تيرابايت (جميع القنوات الـ 24 مُفعّلة)، ووحدة تخزين NVMe بسعة 4 تيرابايت للتشغيل، وخمس وحدات تزويد طاقة للخادم بقدرة 1200 واط. تدعم PCIe Gen5 بالكامل. تتضمن بطاقة DeepSeek V3 fp8 الأصلية (بسعة 670 جيجابايت تقريبًا). متوافقة مع Kimi-K2 Q4-Q5. أربعة نماذج من الفئة المتقدمة تعمل في وقت واحد.
أجهزة التبخير
| مكون | التفاصيل |
|---|---|
| وحدات معالجة الرسومات | 8x NVIDIA RTX Pro 6000 Blackwell Max-Q 96 GB ECC (turbofan, 600 W TDP spec, PCIe 5.0 x16, 2000 INT8 TOPS/card, fp8 native) |
| مجموعة ذاكرة الوصول العشوائي للفيديو | إجمالي 768 جيجابايت عبر 8 بطاقات (بدون NVLink - P2P عبر PCIe Gen5 بسرعة ~55-60 جيجابايت/ثانية داخل المقبس، وعبر المقابس من خلال وصلة وحدة المعالجة المركزية) |
| وحدة المعالجة المركزية: | معالجين AMD EPYC Turin 9005-series (Zen5c، SP5، PCIe 5.0) - السعر قيد الانتظار، وسيتم تأكيد رقم المنتج (SKU) عند الطلب. |
| اللوحة الأم | ASRock Rack TURIN2D24XGM/500W (منفذان SP5 Turin، PCIe 5.0، 24x DDR5، 2x 10 GbE، IPMI) |
| ذاكرة الوصول العشوائي للنظام | 1.5 تيرابايت DDR5-4800 ECC RDIMM (24 × 64 جيجابايت - جميع القنوات الـ 24 مشغولة، ~920 جيجابايت/ثانية إجمالية) |
| صندوق الأمتعة / التخزين | محرك أقراص NVMe M.2 بسعة 4 تيرابايت (PCIe 4.0 x4) - مصمم خصيصًا لنقاط التفتيش الحدودية |
| مزود الطاقة | مجموعة 5 وحدات تزويد طاقة للخوادم بقدرة 1200 واط (إجمالي 6 كيلو واط) |
| الهيكل | وحدة تثبيت على رف 7U تتسع لـ 8 وحدات معالجة رسومات، سعة 10 فتحات PCIe، رافعات Gen5 نشطة |
| تبريد | مبردان برجيان SP5 Turin + 8 مراوح هيكل Martech مقاس 120 مم. مراوح توربينية مستقلة لكل وحدة معالجة رسومات. |
| الانرنيت | منفذان مدمجان بسرعة 10 جيجابت إيثرنت (إنتل X550) |
مغلف الطاقة
- استهلاك الطاقة لوحدة معالجة الرسومات (حسب المواصفات): 8 × 600 واط = 3600 واط
- استهلاك وحدة المعالجة المركزية: 2 × 360 واط = 720 واط (تقدير متوسط المستوى في تورينو)
- إجمالي استهلاك الطاقة للنظام عند الحمل الكامل المحدد: ~4080 واط
- إجمالي طاقة وحدة التزويد بالطاقة: 6000 واط — هامش طاقة خام يبلغ حوالي 4.7% عند المواصفات
- في الواقع العملي: يحافظ Max-Q على استهلاك طاقة يتراوح بين 520 و550 واط أثناء الاستدلال، مما يرفع هامش الطاقة المستدام إلى حوالي 20% أو أكثر
- يتوفر حد أقصى للطاقة في البرامج الثابتة عند 520 واط لضمان هامش أمان كافٍ
طوبولوجيا المسار
توفر وحدة TURIN المزدوجة مسارين PCIe Gen5 بسعة 128 ميجابت في الثانية. تقوم وحدة TURIN2D24XGM/500W بتوجيه 8 فتحات لوحدات معالجة الرسومات (GPU) متصلة مباشرة بوحدات المعالجة المركزية (CPU) بسرعة Gen5 x16 عبر وصلات صاعدة نشطة - 4 فتحات لكل جذر وحدة معالجة مركزية. لا يوجد مفتاح PCIe في مسار وحدة معالجة الرسومات - بنية ثنائية الجذر نظيفة. يتطلب ضبط NUMA لتحقيق أفضل اتصال نظير إلى نظير بين المقابس. لا يوجد NVLink؛ سرعة P2P تتراوح بين 55 و60 جيجابايت/ثانية لكل اتجاه داخل المقبس.
ما يمكنك تشغيله
مع 768 جيجابايت من ذاكرة الوصول العشوائي ECC المجمعة - وهي أعلى حدود كينتينو - يعمل هذا الخادم بشكل مريح مع DeepSeek V3 fp8 الأصلي (~670 جيجابايت) على البطاقة، و Kimi-K2 Q4-Q5 (~630 جيجابايت)، وحالة الاستخدام المحددة: 4 نماذج من الفئة الرائدة مقيمة في وقت واحد لخدمة الإنتاج متعددة المستأجرين.
ماجستير في القانون - نص / استدلال / برمجة
الحدود الصينية في كميات الإنتاج
- كيمي-ك2 (الأساس / التعليمات / التفكير) في الربع الرابع / الربع الخامس (حوالي 630 جيجابايت) بشكل مريح (حوالي 15-25 توك/ثانية، مرجع منشور) - جهاز صيني رائد على جهاز واحد بكميات إنتاجية
- ديب سيك V3 / R1 / V3.1 / V3.2 بسرعة fp8 الأصلية (~670 جيجابايت) على البطاقة (~30-50 توك/ثانية، مرجع منشور) — تعمل نوى Blackwell fp8 tensor بهذه السرعة بشكل أصلي
- ديب سيك V3 في الربع الرابع (حوالي 404 جيجابايت) مع عدة مثيلات خدمة دفعات كبيرة متزامنة
- GLM-5 / GLM-5.1 (~745 مليار/44 مليار) في الربع الثالث - الربع الرابع (~420-560 جيجابايت) مريح على البطاقة
- متدرب - السنة الأولى - محترف (1 تيرابايت/22 بايت نشط، SAGE) في الربع الثالث - الربع الرابع (~440-580 جيجابايت) مريح
- Qwen3-Coder-480B-A35B في الربع الخامس - الربع السادس (حوالي 340-400 جيجابايت) مع 1 مليون ctx
- Qwen3-235B-A22B في bf16 (~470 جيجابايت) مع KV سخي للسياق الطويل
- ERNIE-4.5-424B-A47B في الربع السادس (~360 جيجابايت)؛ هونيوان-كبير في fp8 (~390 جيجابايت)
- MiniMax-Text-01 / M1 في الربع الخامس - الربع السادس (حوالي 325-390 جيجابايت)
الحدود الغربية في كميات الإنتاج
- ميسترال كبير 3 (675 بايت/41 بايت MoE، Apache 2.0) في الربع الثاني - الربع الثالث (~317-404 جيجابايت) مريح (~20-30 توكا/ثانية واحد، مرجع منشور)
- لاما 4 مافريك (400 مليار/17 مليار، 128 خبيرًا) في الربع الخامس - الربع السادس (~290-350 جيجابايت)
- لاما-3.1-نيموترون ألترا 253B في bf16 (~506 جيجابايت) على البطاقة
- ندفة الثلج في القطب الشمالي في الربع الخامس - الربع السادس (حوالي 350-420 جيجابايت)؛ جروك-1 في الربع الخامس - الربع السادس (حوالي 225-270 جيجابايت)
- تعليمات DBRX 132 بايت/36 بايت في bf16 (~264 جيجابايت) متعدد النسخ
نماذج الرؤية واللغة
Qwen3-VL-235B-A22B وحدة تخزين افتراضية رائدة ذات سياق طويل؛ InternVL3.5-241B-A28B في bf16 (~482 جيجابايت)؛ GLM-4.5V / 4.6V 106B bf16 متعدد النسخ؛ Llama 3.2 90B Vision bf16 متعدد النسخ؛ Pixtral Large 124B bf16؛ Molmo 72B bf16 متعدد النسخ.
توليد الصور
HunyuanImage-3.0 توجيه النسخ المتزامنة؛ FLUX.1 متعدد النسخ (~15-20 ثانية لكل صورة 1024x1024، مرجع منشور)؛ SD 3.5 كبير؛ SDXL؛ AuraFlow؛ OmniGen؛ HunyuanImage-2.1؛ Kolors 2.0 — مجموعة صور صينية + غربية كاملة متزامنة مقيمة.
توليد الفيديو
Wan 2.2 T2V-A14B / I2V-A14B — العديد من التدفقات المتزامنة؛ HunyuanVideo 13B bf16 تدفقات متزامنة متعددة؛ Open-Sora 2.0 (11B) متعدد النسخ؛ Mochi-1 (10B) متعدد النسخ؛ NVIDIA Cosmos Predict 2 حتى 14B.
الصوت / الكلام / تحويل النص إلى كلام
مجموعة كاملة مقيمة في الدفعة: Whisper v3 large، Parakeet-TDT، Canary 1B، Moshi 7B realtime، Qwen3-Omni، Step-Audio R1، CosyVoice 3.0، Kokoro، Stable Audio Open.
خدمة متعددة النماذج / متعددة المستأجرين (حالة الاستخدام الأساسية)
- إنتاج الحدود متعدد المستأجرين: أربعة نماذج من الفئة الرائدة مقيمة في وقت واحد - على سبيل المثال DeepSeek V3 fp8 + Kimi-K2 Q4 + Mistral Large 3 Q3 + Qwen3-Coder-480B Q5 - مع ذاكرة وصول عشوائي للفيديو مقسمة واتفاقيات مستوى الخدمة لكل مستأجر
- استدلال بلاكويل الأصلي المتزامن بتقنية fp8 (عائلة DeepSeek V3 / R1، Hunyuan fp8) + خدمة كمية على نطاقات PCIe منفصلة
- إجراء بحث A/B عبر 4-5 نماذج مفتوحة الوزن على مستوى الحدود في محللين كميين ذوي مستوى بحثي
- منصة وكلاء تضم قاعدة عملاء رئيسية تزيد قيمتها عن 400 مليار دولار، بالإضافة إلى العديد من المتخصصين الذين تتراوح قيمة حساباتهم بين 30 و70 مليار دولار.
أحمال العمل المستهدفة
- إنتاج متعدد المستأجرين في المناطق الحدودية ذات الوزن المفتوح - نماذج حدودية متعددة مقيمة في وقت واحد مع عزل كل مستأجر
- نشر الذكاء الاصطناعي السيادي الرائد - الوصول المحلي إلى DeepSeek V3 fp8 / Kimi-K2 / Mistral Large 3، وإقامة البيانات في الاتحاد الأوروبي
- مختبر أبحاث رائد يقدم تقييم A/B لأكثر من 4 نماذج مفتوحة الوزن رائدة على مستوى البحث الكمي
- منصة وكلاء مؤسسية حيث تدير وزارة التعليم أكثر من 400 مليار دولار من الأدوات بالإضافة إلى نماذج متخصصة متعددة
- استدلال الصناعة المنظمة المعزولة عن الهواء على نطاق الحدود باستخدام ECC + PCIe Gen5
المراجع المنشورة للأداء
مراجع خارجية | لم يتم القياس على أجهزة كينتينو
| مؤشر | نتيجة |
|---|---|
| RTX Pro 6000 لكل بطاقة INT8 TOPS | 4000 قمة |
| vLLM — DeepSeek V3 fp8 على 8x RTX Pro 6000 (مفردة) | ~30-50 توكوفيرول/ثانية |
| vLLM — DeepSeek V3 fp8 على 8x RTX Pro 6000 (الدفعة 32) | إجمالي 300-500 توكو/ثانية |
| Kimi-K2 Q4 يعمل على 8x RTX Pro 6000 (مفرد) | ~15-25 توكوفيرول/ثانية |
| FLUX.1 [dev] fp8 على بطاقة رسومات RTX Pro 6000 واحدة | حوالي 15-20 ثانية لكل صورة بحجم 1024×1024 |
تم تأكيد الأرقام الدقيقة في مرحلة إثبات المفهوم. ستنشر شركة كينتينو الأرقام الرسمية بعد إصدار النسخة التجريبية الأولى للعميل.
ليست مثالية لـ
- حلول اقتصادية - المنتج الرئيسي بسعر المنتج الرئيسي
- التدريب من الصفر على نماذج من الفئة الرائدة - لا يوجد NVLink، PCIe P2P فقط (للتدريب على هذا النطاق، تعتبر H100/H200 SXM أو GB200 NVLink fabric هي الأداة المناسبة)
- نشر سهل وسريع - تتطلب خدمة MoE متعددة المستأجرين في بيئة رائدة فريق MLOps ماهرًا
الضمان ومدة التسليم
تتضمن عملية التجميع، وتكوين BIOS، وتثبيت برامج التشغيل، واختبار الأداء، واختبار الذاكرة، والتحقق الوظيفي، وضبط NUMA، وإعداد بيئة LLM (vLLM / SGLang / llama.cpp / CUDA 13 stack مع نواة Blackwell fp8). يعتمد وقت التسليم على توفر المكونات، ويتم تأكيده عند الطلب.
الإضافات الموصى بها
- بطاقة الشبكة NVIDIA ConnectX-5 MCX555A-ECAT أو ConnectX-7 Gen5 100 GbE للتوسع الأفقي متعدد العقد
- Mellanox ConnectX-6 25 GbE SFP28 لبنية مركز البيانات
- وحدة تخزين ثانية بسعة 4 تيرابايت من نوع NVMe لمجموعة البيانات / مكتبة النماذج (نقاط التحقق الحدودية كبيرة - Kimi-K2 bf16 وحدها تبلغ حوالي 1 تيرابايت)
- خزانة رف كاملة بحجم 24U مع باب أمامي مثقب ووحدة توزيع طاقة مُدارة
- وحدة تزويد الطاقة غير المنقطعة عبر الإنترنت بقدرة 10 كيلو فولت أمبير (إيقاف تشغيل آمن عند انقطاع التيار الكهربائي)
مشاركة
