تخطي إلى معلومات المنتج
1 of 7

Kentino المحدودة

K-AI 96 Rome 4090 2644TOPS — 4× RTX 4090 خادم استدلال الذكاء الاصطناعي

K-AI 96 Rome 4090 2644TOPS — 4× RTX 4090 خادم استدلال الذكاء الاصطناعي

سعر عادي EUR € 18.491,00
سعر عادي سعر البيع EUR € 18.491,00
تخفيضات نفذت الكمية
شامل الضريبة الشحن يتم احتساب الشحن عند متابعة عملية الشراء.

K-AI 96 روما 4090 2644TOPS

خادم استدلال بذاكرة فيديو 96 جيجابايت
4x RTX 4090 | EPYC Rome | 2644 TOPS INT8

647
TFLOPS fp16
179
tok/s batch-32
96 جيجا بايت
مجموعة ذاكرة الوصول العشوائي للفيديو
24/7
جاهز للتركيب في الرف

تم القياس على جهاز كينتينو. لاما 3.3 70B AWQ INT4 عبر vLLM 0.19.0.

خادم استدلال يُثبّت في رفّ بحجم 4U، مزوّد بأربعة معالجات رسومات GeForce RTX 4090 مُجمّعة في ذاكرة وصول عشوائي للفيديو (VRAM) بسعة 96 جيجابايت، ومعالج AMD EPYC 7542 Rome (32 نواة/64 خيطًا)، وذاكرة DDR4 ECC بسعة 256 جيجابايت، ووحدة تخزين NVMe بسعة 2 تيرابايت للتشغيل، ووحدتي تزويد طاقة ATX متزامنتين بقدرة 2 كيلو واط. يشغل vLLM وSGLang وllama.cpp وComfyUI وجميع حزم الاستدلال الرئيسية مفتوحة المصدر مباشرةً.

أجهزة التبخير

مكون التفاصيل
وحدات معالجة الرسومات 4x NVIDIA GeForce RTX 4090 24 GB GDDR6X (450 واط، PCIe 4.0 x16)
مجموعة ذاكرة الوصول العشوائي للفيديو إجمالي 96 جيجابايت موزعة على 4 بطاقات
وحدة المعالجة المركزية‏: AMD EPYC 7542 Rome (32 نواة/64 خيط، 225 واط، 128 مسار PCIe 4.0)
اللوحة الأم ASRock Rack ROMED8-2T (SP3, 7x PCIe 4.0 x16, 8x DDR4 ECC, 2x 10 GbE, IPMI)
ذاكرة الوصول العشوائي للنظام 256 جيجابايت DDR4-2666 ECC RDIMM (4 × 64 جيجابايت)
التخزين 2 تيرابايت NVMe M.2 (PCIe 4.0 x4)
جامعة الأمير سلطان مضخم صوت مزدوج ATX بقدرة 2 كيلو واط مع كابل مزامنة
الهيكل وحدة تثبيت على رف 4U، تدفق هواء موجه من الأمام إلى الخلف
تبريد مبرد SP3 البرجي، 3 مراوح أمامية + مروحة خلفية واحدة صناعية مقاس 120 مم
الانرنيت منفذان مدمجان بسرعة 10 جيجابت إيثرنت (إنتل X550)

مغلف الطاقة

  • استهلاك وحدة معالجة الرسومات: 4 × 450 واط = 4600 واط
  • إجمالي استهلاك الطاقة للنظام: ~2125 واط
  • إجمالي قدرة وحدة تزويد الطاقة: 4000 واط (وحدتان بقدرة 2 كيلو واط لكل منهما) - هامش أمان بنسبة 46.9%
  • توزيع الطاقة المنفصل - تعطل وحدة تزويد الطاقة الواحدة = فقدان وحدتي معالجة رسومية أو وحدتي معالجة رسومية بالإضافة إلى اللوحة الأم

طوبولوجيا المسار

128 مسار PCIe Gen4 من معالج EPYC إلى سبعة فتحات x16؛ أربعة منها مخصصة لوحدات معالجة الرسومات Gen4 x16. لا يوجد محول PCIe. لا يوجد NVLink - اتصال مباشر بين الأجهزة بسرعة 19-22 جيجابايت/ثانية (حسب قياسات كينتينو).

ما يمكنك تشغيله

بفضل ذاكرة الوصول العشوائي للفيديو المجمعة بسعة 96 جيجابايت عبر 4 بطاقات، يتعامل هذا الخادم مع نماذج التعلم الآلي مفتوحة الوزن، ونماذج الرؤية، وتوليد الصور والفيديو، والذكاء الاصطناعي الكلامي، وخدمة المستأجرين المتعددين.

ماجستير في القانون - نص / استدلال / برمجة

الحدود الصينية

  • Qwen3 / Qwen3.5: Qwen3-72B Q4 (~15-20 tok/s)؛ Qwen3-32B Q6؛ Qwen3-30B-A3B MoE Q4-Q6؛ Qwen3-Coder-30B-A3B بسرعة 256 كيلوبت/ثانية؛ Qwen3.5-122B-A10B Q4؛ QwQ-32B
  • ديب سيك: DeepSeek-R2 32B الربع الرابع - الربع السادس (92.7% من متوسط ​​سعر الصرف المتوقع في السوق الأوروبية المشتركة لعام 2025)؛ DeepSeek-R1-Distill-Qwen-32B bf16؛ DeepSeek-V2-Lite 16B
  • GLM / Z.ai: GLM-4.5-Air 106B/12B Q4-Q5؛ GLM-4.6V-Flash؛ GLM-Zero 9B
  • هونيوان: Hunyuan-A13B Q4-Q6 (~48 جيجابايت) 256 كيلوبايت ctx ثنائي الوضع للاستدلال
  • أخرى: Seed-OSS-36B Q4 512k ctx; ERNIE-4.5-47B-A3B Q4; Yi-34B Q6; Baichuan-M2-32B; Step-3.5-Flash

الحدود الغربية

  • ميتا لاما: Llama 3.3 70B Q4_K_M (~20 tok/s llama.cpp، ~179 tok/s Batch-32 vLLM - تم قياس كنتينو)؛ اللاما 3.1 8B bf16 (~80-120 توك/ثانية)؛ اللاما 4 الكشفية Q4
  • ميسترال: صغير 3 24B bf16؛ كبير صغير 24B استدلال؛ مطور صغير 2 24B 256k ctx؛ مختلط 8x7B Q6
  • أوبن إيه آي: gpt-oss-20b MXFP4 (16 جيجابايت)؛ gpt-oss-120b MXFP4 (80 جيجابايت مضغوطة)
  • أخرى: جيما 3 27 ب س 6 128 ك؛ فاي-4 14B bf16؛ نيموترون سوبر 49B Q4؛ الجرانيت 4.0 ح-صغير؛ أولمو 2 32 ب؛ ريكا فلاش 3؛ الأمر R 35B

نماذج الرؤية واللغة

Qwen3-VL-8B/32B، Qwen3-VL-30B-A3B، Qwen3-أومني-30B-A3B؛ InternVL3 حتى 78B Q4؛ إنترنVL3.5-38B; ديب سيك-VL2؛ اللاما 3.2 11B الرؤية؛ بيكسترال 12ب؛ مولمو 7 ب؛ جيما 3 12ب/27ب؛ باليجيما 2؛ MiniCPM-V 2.6 / MiniCPM-o 2.6.

توليد الصور

FLUX.1 [dev]/[schnell] fp8 (~15-25 ثانية لكل 1024x1024)؛ FLUX.1 Kontext؛ أدوات FLUX؛ SD 3.5 Large؛ SDXL؛ HunyuanImage-2.1 bf16 (~34 جيجابايت) 2K أصلي؛ Kolors 2.0؛ AuraFlow؛ OmniGen v1.

توليد الفيديو

Wan 2.2 T2V-A14B/I2V-A14B MoE (~54 جيجابايت bf16)؛ وان 2.2 TI2V-5B 720p@24fps; HunyuanVideo 13B Q4-Q5; هونيوانفيديو 1.5; com.CogVideoX-5B; مفتوح سورا 2.0؛ موتشي-1؛ LTX-فيديو؛ سفد/SV3D/SV4D؛ نفيديا كوزموس التنبؤ 2.

الصوت / الكلام / تحويل النص إلى كلام

  • ASR: Whisper v3 turbo (~50x الوقت الحقيقي)؛ Parakeet-TDT 1.1B؛ Canary 1B؛ Qwen3-ASR؛ SenseVoice
  • تحويل النص إلى كلام: CosyVoice 3.0؛ Kokoro 82M؛ Stable Audio Open؛ Step-Audio-EditX
  • في الوقت الحالى: كيوتاي موشي (200 مللي ثانية، اتصال ثنائي الاتجاه)؛ ستيب-أوديو 2 ميني؛ كوين 2.5-أومني-7 بي
  • الموسيقى: MusicGen؛ AudioGen؛ Suno Bark؛ SeamlessM4T v2

خدمة متعددة النماذج

  • 4-8 مستخدمين متزامنين على 32-72 مليار وحدة معالجة خطية عبر vLLM / SGLang tensor-parallel
  • مزيج: Qwen3-32B + FLUX.1 + Whisper-turbo + Moshi مع ذاكرة فيديو مقسمة
  • ضبط دقيق لـ LoRA/QLoRA من 32 إلى 72 بايت؛ معلمات كاملة من 7 إلى 14 بايت
  • RAG مع Command R+ أو Qwen3 + BGE-M3/E5/Jina

أحمال العمل المستهدفة

  • بوابة استدلال لمنظمة تضم من 50 إلى 200 مقعد (70 مليار في الربع الرابع إلى الربع السادس، من 4 إلى 8 جلسات متزامنة)
  • خط أنابيب نشر الفيديو/البث الدفعي (SDXL + FLUX.1 + Wan 2.2 طوال الليل)
  • مختبر الضبط الدقيق لـ LoRA/QLoRA لتكييفات نطاق 7-34B
  • مساعد مستندات RAG (Qwen3-VL + BGE-M3 + Command R، 32k ctx)
  • جهاز واحد مختلط: دردشة + صورة + التعرف التلقائي على الكلام + صوت في الوقت الفعلي على ذاكرة فيديو مقسمة

الأداء المقاس

اختبار كينتينو | 10-04-2026 | 4x RTX 4090 + EPYC 7542 + ROMED8-2T

مؤشر نتيجة
حساب مستدام (fp16) 647.7 TFLOPS
vLLM Llama 3.3 70B AWQ INT4 (مفرد) 8.0 توك/ثانية
vLLM Llama 3.3 70B AWQ INT4 (الدفعة-32) إجمالي 179.3 توكو/ثانية
llama.cpp Llama 3.3 70B Q4_K_M (مفرد) 20.3 توك/ثانية
التقييم الفوري 1568 توكو/ثانية
عرض نطاق ذاكرة وحدة معالجة الرسومات 920 جيجابايت/ثانية لكل بطاقة
قراءة/كتابة NVMe 4589 / 4213 ميجابايت/ثانية
ذروة الحرارة (احتراق وحدة معالجة الرسومات + وحدة المعالجة المركزية) 73 درجة مئوية، انخفاض بنسبة 0.6%

يستخدم vLLM نواة awq - من الممكن أن يكون الأداء أسرع بمرتين أو ثلاث مرات مع awq_marlin.

ليست مثالية لـ

  • Frontier 100B+ كثيف في bf16 (DeepSeek V3/R1، GLM-4.5+، Kimi-K2، Mistral Large 3 - يتطلب 256+ جيجابايت من ذاكرة الوصول العشوائي للفيديو)
  • التدريب من الصفر (بطاقة RTX 4090 الاستهلاكية تفتقر إلى تقنية NVLink)

الضمان ومدة التسليم

2 سنة
ضمان قطع الغيار
عام واحد
ضمان العمل
10-28 أيام
المهلة

تشمل عملية التجميع، وتكوين نظام الإدخال والإخراج الأساسي (BIOS)، وتثبيت برامج التشغيل، واختبار التشغيل الأولي، والتحقق من الوظائف. يعتمد وقت التسليم على توافر المكونات، ويتم تأكيده عند الطلب.

الإضافات الموصى بها

  • قم بترقية ذاكرة الوصول العشوائي إلى 512 جيجابايت (أضف 4 × 64 جيجابايت DDR4 - أربعة فتحات DIMM متاحة)
  • محرك أقراص ثانوي NVMe بسعة 4 تيرابايت لتخزين مجموعات البيانات/النماذج
  • خزانة مفتوحة بحجم 24U لنشر خوادم متعددة
عرض التفاصيل الكاملة