توربو كوانت: قراءة ذاكرة التخزين المؤقت KV - اختراق في ضغط البيانات

وقت القراءة: 10 دقيقة | كيف تجعل تقنية ضغط جوجل ذات 3 بت نماذج التعلم طويلة المدى أرخص، وماذا تخبرنا بذلك عن الأشهر الـ 18 القادمة من استدلال الذكاء الاصطناعي

ضغط ذاكرة التخزين المؤقت KV - نظرة عامة على خط أنابيب TurboQuant ثنائي المراحل

توجد مشكلة خفية في كل محادثة طويلة مع نموذج لغوي ضخم، وهي السبب وراء ارتفاع تكلفة هذه المحادثات. تُعرف هذه المشكلة بذاكرة التخزين المؤقت للقيم والمفاتيح (KV cache)، وفي سياقات طويلة، قد تستهلك ذاكرة أكبر من النموذج نفسه. في 24 مارس، نشر فريق من قسم الأبحاث في جوجل بحثًا بعنوان: توربو كوانت، مما يؤدي إلى ضغط تلك الذاكرة المؤقتة إلى ثلاثة بتات لكل قيمة دون فقدان ملحوظ في الدقة ودون الحاجة إلى ضبط دقيق. ذاكرة أقل بست مرات. سرعة انتباه تصل إلى ثمانية أضعاف على جهاز H100. من الجدير فهم ذلك بشكل صحيح، لأن ضغط ذاكرة التخزين المؤقت KV هو أحد أكثر المشاكل تأثيرًا في الذكاء الاصطناعي المنشور حاليًا، و TurboQuant هو أوضح إشارة عامة حتى الآن على أن المجال قد تجاوز مرحلة حرجة.

أدير شركة كينتينو. يتضمن عملي قراءة أوراق بحثية كهذه بعناية، حتى لا يضطر عملاؤنا - من مُعدّني العملات الرقمية، والمطورين، والمهتمين بمجال الذكاء الاصطناعي والعملات الرقمية - إلى القيام بذلك. هذه المقالة هي محاولتي لشرح وظيفة برنامج TurboQuant، وموقعه ضمن موجة أبحاث ضغط ذاكرة التخزين المؤقت KV الأوسع نطاقًا في الفترة 2025-2026، وما يمكن توقعه خلال الأشهر الثمانية عشر القادمة.

مشكلة ذاكرة التخزين المؤقت KV، كما وردت بصراحة

عندما يُنشئ المُحوِّل نصًا، فإن كل رمز جديد يُعالج كل رمز سابق. ولتجنب إعادة حساب موترات المفاتيح والقيم لتلك الرموز السابقة في كل خطوة، يقوم النموذج بتخزينها. ويُسمى هذا المخزن بذاكرة التخزين المؤقت للمفاتيح والقيم.

يزداد حجم الذاكرة المؤقتة خطيًا مع طول السياق. ضاعف حجم المحادثة، وضاعف حجم الذاكرة المؤقتة. بالنسبة لنموذج متوسط ​​الحجم بسعة 8 بايتات يعمل بسياق يحتوي على 128 ألف رمز مميز، FP16يمكن أن تصل ذاكرة التخزين المؤقت KV بسهولة إلى عشرات الجيجابايت لجلسة واحدة. قد يصل عدد الأوزان إلى ستة عشر. ذاكرة التخزين المؤقت تفوقها حجماً بكثير.

تترتب على ذلك ثلاث نتائج عملية.

أولاً، يعتمد الاستدلال ذو السياق الطويل على الذاكرة قبل أن يعتمد على القدرة الحسابية. ستنفد ذاكرة الوصول العشوائي للفيديو (VRAM) قبل أن تنفد عمليات الفاصلة العائمة (FLOPs).

ثانيًا، تتزايد تكلفة الخدمة بشكل كبير مع زيادة حجم البيانات. يحتاج كل مستخدم متزامن إلى ذاكرة تخزين مؤقتة خاصة به. قد تتمكن وحدة معالجة الرسومات التي يمكنها معالجة خمسين محادثة قصيرة دفعة واحدة من معالجة خمس محادثات طويلة فقط.

ثالثًا، يظل الاستدلال على الجهاز وعلى الحافة بعيدًا عن متناول النماذج التي ستكون مفيدة بالفعل هناك، لأن ذاكرة التخزين المؤقت، وليس الأوزان، هي التي ترفض أن تتناسب.

لذا، فإن ضغط ذاكرة التخزين المؤقت للقيم والمفاتيح بكفاءة عالية - أي بشكل مكثف وبتكلفة منخفضة ودون التأثير على جودة المخرجات - ليس مجرد تحسين بسيط. فهو يُغير من جدوى أحمال العمل. وهذه هي المشكلة التي يعالجها برنامج TurboQuant.

ما يفعله برنامج TurboQuant فعليًا

TurboQuant خوارزمية ثنائية المراحل. كلا المرحلتين لا تتطلبان تدريبًا ولا تعتمدان على البيانات، ما يعني عدم الحاجة إلى ضبط دقيق، أو مجموعة بيانات معايرة، أو ضبط لكل نموذج على حدة. ما عليك سوى تطبيقها وستعمل. وهذا أهم من نسبة الضغط، لأنه ما يسمح بدمج هذه الطريقة بسلاسة في بنية الاستدلال الحالية.

المرحلة الأولى: بولار كوانت

المرحلة الأولى هي PolarQuant، وهي ورقة بحثية منفصلة لنفس المجموعة (زانديه، ميروكني وآخرون، AISTATS 2026). الفكرة هيكلية وليست إحصائية.

يُعدّ تكميم المتجهات عالية الأبعاد في الإحداثيات الديكارتية عمليةً معقدة. فالخطوة البديهية - وهي التطبيع إلى كرة الوحدة، ثم تكميم الاتجاه - تُصبح مكلفة، لأن حساب معيار كل متجه هو العائق الذي كنت تحاول تجاوزه. وقد تكبّدت الطرق السابقة هذا العبء، ومع ذلك فقدت دقتها عند استخدام عرض بتات منخفض.

يقوم PolarQuant بخطوتين لتجنب هذا المأزق. أولاً، يُطبّق دورانًا عشوائيًا، مما يجعل هندسة توزيع المتجهات أكثر قابلية للتنبؤ والتعامل، على عكس المتوقع. ثم يُحوّل البيانات إلى إحداثيات قطبية - نصف قطر للمقدار، وزاوية للاتجاه - ويُسقطها على شبكة دائرية يُمكن تكميمها دون الحاجة إلى خطوة التطبيع. والنتيجة هي تمثيل واضح ومنخفض الدقة لكل متجه، يحافظ على هندسته الأساسية.

ضغط ذاكرة التخزين المؤقت KV - دوران PolarQuant وشبكة الإحداثيات القطبية

المرحلة الثانية: كيو جيه إل

تترك خوارزمية PolarQuant وحدها خطأً متبقياً. أما المرحلة الثانية، وهي خوارزمية جونسون-ليندنستراوس الكمية (QJL)، فتقوم بإصلاحه بإضافة بت واحد لكل قيمة.

يُعدّ تحويل جونسون-ليندنستراوس نتيجةً كلاسيكية: إذ يُمكن إسقاط متجهات عالية الأبعاد في فضاء ذي أبعاد أقل بكثير باستخدام خريطة خطية عشوائية مع الحفاظ تقريبًا على المسافات بين كل زوج من المتجهات. ويُطوّر QJL هذا الأمر بالاحتفاظ فقط ببت الإشارة لكل إحداثية مُسقطة - زائد واحد، ناقص واحد، لا شيء آخر. ولا توجد أيّة تكلفة تخزين إضافية تتجاوز البت نفسه.

ما يقدمه QJL، من الناحية الرياضية، هو مُقدِّر غير متحيز لدرجات الانتباه. فهو يُصحِّح الخطأ المتبقي من PolarQuant دون إعادة إدخال التحيز الذي تعاني منه المخططات البسيطة ذات البتات المنخفضة. هذه هي الحيلة. بت واحد للإشارة، مُختار بعناية، يكفي لتصحيح خطأ المرحلة الأولى.

الأرقام

عند دمج المرحلتين، تصل القيمة إلى ثلاثة بتات لكل قيمة. أصغر بست مرات من FP16 في الأساس، على معالج NVIDIA H100، يعمل حساب لوجيت الانتباه بسرعة تصل إلى ثمانية أضعاف عند استخدام 4 بت مقارنةً بـ 32 بت. اختبرت جوجل خوارزميات Gemma وMistral وLlama-3.1-8B-Instruct عبر اختبارات LongBench وNeedle In A Haystack وZeroSCROLLS وRULER وL-Eval. وقد حافظت الخوارزمية على دقتها في جميع معايير الأداء الخمسة ذات السياق الطويل. كما أظهر اختبار جانبي للبحث المتجهي على GloVe-200 تفوقًا في معدل الاستدعاء 1@k مقارنةً بخوارزميتي PQ وRabbiQ الأساسيتين، مما يشير إلى أن هذه الطريقة قابلة للتعميم لتشمل ما هو أبعد من ذاكرة التخزين المؤقت KV تحديدًا.

مقاييس TurboQuant الرئيسية
متري بعد التخفيض
بتات لكل قيمة مخزنة مؤقتًا 3 بت
تقليل ذاكرة التخزين المؤقت KV 6 ×
تسريع الانتباه في H100 (4 بت مقابل 32 بت) حتى 8 ×
يلزم إجراء بعض التعديلات الدقيقة بدون سلوفان
بيانات المعايرة المطلوبة بدون سلوفان
فقدان الدقة المقاس صفر عبر LongBench، وNIAH، وZeroSCROLLS، وRULER، وL-Eval
النماذج التي تم اختبارها جيما، ميسترال، لاما-3.1-8ب-تعليمات

التقرير الكامل موجود على مدونة أبحاث جوجلسيتم عرض برنامج TurboQuant في مؤتمر ICLR 2026 في ريو دي جانيرو.

الموجة الأوسع

لا يُعدّ برنامج TurboQuant البرنامج الوحيد من نوعه. فهو أحدث وأبرز إضافة في مجال بحثي سريع التطور، وقراءته دون سياقه يُبالغ في تقدير حداثته. وهناك العديد من الطرق الأخرى التي طُرحت في أواخر عام 2025 وأوائل عام 2026، والتي تتناول نفس المشكلة من زوايا مختلفة.

طرق ضغط KV 2025-2026
الأسلوب مكان النهج النتيجة الرئيسية
توربو كوانت المؤتمر الدولي للبحوث الزراعية 2026 PolarQuant + QJL، الاستدلال عبر الإنترنت 3 بت, 6 × الذاكرة، حتى 8 × تسريع الانتباه، وعدم فقدان الدقة.
KVTC (إنفيديا) المؤتمر الدولي للبحوث الزراعية 2026 ترميز التحويل — تحليل المكونات الرئيسية + التكميم التكيفي + ترميز الإنتروبيا ضغط يصل إلى 20 ضعفًا لتخزين ذاكرة التخزين المؤقت وإعادة استخدامها دون اتصال بالإنترنت
ChunkKV أوبن ريفيو، سبتمبر 2025 وحدة ضغط الأجزاء الدلالية دقة تصل إلى +8.7% عند نفس نسبة الضغط
PM-KVQ 2025 الدقة المختلطة التدريجية لنماذج الاستدلال 2.73–5.18 ضعف الإنتاجية مقابل FP16زيادة بنسبة 8% في معايير الاستدلال
KVPress (إنفيديا) إطار عمل مفتوح أدوات قياس الأداء والتطبيق دعونا نختبر هذه الأساليب على نطاق واسع من قبل الممارسين

يستهدف كل منها مجالًا متخصصًا مختلفًا. يُستخدم KVTC لإعادة الاستخدام دون اتصال بالإنترنت - تخزين البيانات من محادثة وتحميلها في محادثة أخرى، حيث يُمكن تحمل جهد ترميز أكبر مقابل ضغط أعلى بكثير. أما ChunkKV فهو مُناسب للحالات التي تتطلب ضغطًا قويًا مع الحفاظ على المعنى الدلالي، وهو أمر بالغ الأهمية في المهام التي يكون فيها فقدان رمز واحد أكثر ضررًا من فقدان رقم واحد من الدقة. بينما صُمم PM-KVQ خصيصًا لأحمال العمل ذات سلاسل التفكير الطويلة التي تُنتجها نماذج الاستدلال. أما KVPress فهو البنية التحتية التي تُمكّننا من مقارنة جميع هذه التقنيات بموضوعية.

تكمن مساهمة TurboQuant المميزة في الجمع بين التشغيل بدون تدريب، وملاءمة الاستدلال الفوري، ومُقدِّر غير متحيز مثبت. وهو البرنامج الأوفر حظاً للانتشار في أطر الإنتاج أولاً، تحديداً لأنه لا يتطلب أي شيء من مُشغِّل النموذج.

ما الذي يتيحه هذا

بالابتعاد عن الورق والتفكير في إلى أين سيؤدي هذا: من الأسهل تسمية الآثار العملية من تحديد حجمها.

يصبح الاستدلال طويل المدى أقل تكلفة بشكل ملحوظ. فإذا كان حجم ذاكرة التخزين المؤقت للقيم والمفاتيح أصغر بست مرات، يمكنك معالجة عدد أكبر من المستخدمين على نفس وحدة معالجة الرسومات، أو تقديم سياقات أطول بنفس الميزانية، أو كليهما. أي شخص يدير خدمة استدلال سيلاحظ هذا التحسن في هوامش أرباحه خلال ربع سنة من التكامل.

يصبح النشر على الحافة خيارًا عمليًا لأنواع من النماذج التي كانت سابقًا بعيدة المنال. فعلى سبيل المثال، يتحول نموذج بحجم 8 بايتات مع سياق طويل على وحدة معالجة الرسومات في محطة عمل، أو نموذج بحجم 3 بايتات على حاسوب محمول، من كونه "ممكنًا بالكاد" إلى "روتيني" عند تقليص حجم ذاكرة التخزين المؤقت بهذا القدر. ويشهد النشر المحلي للشركات التي لا تستطيع إرسال البيانات إلى واجهات برمجة التطبيقات السحابية - مثل الشركات القانونية والطبية وشركات القياس عن بُعد الصناعية - تحسنًا مماثلًا.

تتضح أهمية جانب الأجهزة بشكل مباشر، وهنا يتوقف الأمر عن كونه مجرد فكرة نظرية. فتقنيات الضغط مثل TurboQuant لا تغير أنواع وحدات معالجة الرسومات الموجودة، بل تغير أنواع أحمال العمل. تناسب — وفي الوقت الحالي، فإن أحمال العمل التي يرغب الناس في تشغيلها محليًا هي نماذج الخوادم الصينية المفتوحة التي احتلت بهدوء مكانة SOTA حتى الربع الأول من عام 2026.

من الجدير ذكر التشكيلة الحالية بشكل صريح، لأن هذا ما يسألنا عنه العملاء. كيمي K2.5 من شركة مونشوت للذكاء الاصطناعي — 1T إجمالي المعلمات، 32ب نشطوزارة التربية والتعليم سياق 256Kرخصة MIT - صدرت في 27 يناير وتتصدر معايير البرمجة والرياضيات بين الأوزان المفتوحة. GLM-5 من Z.ai — 744 مليار إجمالي / 40ب نشط, سياق 204Kمرخصة من معهد ماساتشوستس للتكنولوجيا - وهي حاليًا في صدارة مؤشر الذكاء المفتوح الوزن ومعتمدة من SWE-bench. ميني ماكس M2.5 - 229 مليار إجمالي / 10ب نشط, سياق 200K — تم إصداره في 12 فبراير، بسعر تنافسي، و80%+ SWE-bench. Qwen3-Coder-Next من علي بابا — 80 مليار إجمالي / 3ب نشط, سياق 256K أصلي، قابل للتوسيع إلى 1M مع غزل — بالإضافة إلى عائلة Qwen3 الأوسع من dense 0.8ب–27ب من خلال 397ب-أ17ب وزارة البيئة. جميع الأوزان مفتوحة. جميعها قابلة للشحن اليوم.

نحن نبني الآلات في كنتينو خصيصاً لهذا النوع من العمل، لذا دعوني أكون واضحاً بشأن الحسابات. خادم الاستدلال الرئيسي لدينا هو 4 × نفيديا RTX 4090 يبني - 96 جيجا بايت من ذاكرة الوصول العشوائي للفيديو المجمعة، AMD EPYC 7542 على رف ASRock ROMED8-2T, 256 جيجا بايت of DDR4-2666 ECC RDIMM, 2 TB NVMeمزدوج وحدات تزويد الطاقة بقدرة 2 كيلو واط، في 24U رفوفوق ذلك نبني 4 × RTX 5090 و 8 × RTX 5090 التكوينات (128 جيجا بايت و 256 جيجا بايت ذاكرة الوصول العشوائي للفيديو المجمعة) ومستوى مراكز البيانات 4× L40 / L40S (192 جيجا بايت المجمعة ECC) من أجل أحمال مستدامة من فئة المؤسسات وخدمة إنتاج على مدار الساعة طوال أيام الأسبوع.

ما يُغيّره برنامج TurboQuant في هذه الصورة هو مصطلح ذاكرة التخزين المؤقت KV. تستخدم نماذج MoE الحديثة بالفعل الانتباه المضغوط (MLAالانتباه الكامن على نمط معين في فيلم كيمي، GQA في Qwen3)، لذا فإن ذاكرة التخزين المؤقت KV لكل رمز مميز أصغر من أرقام فئة Llama الأقدم في البداية. قم بتطبيق TurboQuant في الأعلى وستحصل على ~ أخرى6 ×والنتيجة العملية هي أن نافذة السياق التي يمكن أن يخدمها مربع معين فعلياً - بدلاً من مجرد الإعلان عنها - تقفز بشكل ذي معنى. الأوزان لم يتحرك. بل تحركت نقطة الاختناق.

خادم كنتينو × الموديل × TurboQuant
بناء خادم كينتينو ذاكرة الوصول العشوائي للفيديو المجمعة موديل يناسب بشكل مريح مع ضغط TurboQuant KV
4 × RTX 4090 (AMD EPYC 7542, 256 جيجا بايت ECC) 96 جيجا بايت Qwen3-Coder-Next 80 مليار إجمالي (FP8), Qwen3 كثيف 27B (FP16) Qwen3-Coder-Next @ سياق 256K مستخدم واحد أصلي، أو 80 بايت @ 128 كيلوبايت لـ 3-4 مستخدمين متزامنين تقريبًا
4 × RTX 5090 128 جيجا بايت Qwen3-Coder-Next مع مساحة رأسية، Qwen3 32B (FP16), وزارة التعليم فئة 100B (INT4) Qwen3-Coder-Next @ 1M السياق عبر غزلأو 80 بايت @ 256 كيلوبايت متزامنة
8 × RTX 5090 256 جيجا بايت ميني ماكس M2.5 (FP8, ~ شنومك غيغابايت), Qwen3 397ب-أ17ب (INT4), GLM-5 (INT4) MiniMax M2.5 @ كامل سياق 200K خدمة الإنتاج، أو Qwen3 397B @ 128K متزامن
4× L40 / L40S 192 جيجا بايت ECC MiniMax M2.5 (INT4إنتاج Qwen3-Coder-Next على مدار الساعة طوال أيام الأسبوع خدمة على مستوى المؤسسات مع ECC في سياق طويل الأمد، حمل مستدام

ملاحظتان صادقتان. أولاً، كيمي K2.5 و GLM-5 كليا FP8 (1T و 744 مليار إجمالي لا تزال الأوزان (على التوالي) تتجاوز ما تحتويه هذه الصناديق - بالنسبة لأولئك الذين ينظرون إلى مجموعة أو يقبلون العدوانية INT4 التكميم. ثانيًا، تعتمد حدود الرموز الدقيقة على حجم الدفعة، وتكوين الانتباه المحدد للنموذج، والإطار (vLLM, SGLang, TensorRT-LLM جميعها تُطبّق نظام المفتاح والقيمة ذي البتات المنخفضة بطرق مختلفة). لكن الاتجاه هو المهم: أ 4 × RTX 4090 الصندوق الذي كان منطقيًا قبل عام لنماذج 13 مليار كثيفة هو الآن الحل الصحيح لـ Qwen3-Coder-Next بكامل طاقتها سياق 256K. A 4 × RTX 5090 يتعامل مع 80ب نشطنموذج برمجة من فئة واحدة يوفر مساحة كافية للمستخدمين المتزامنين. 8 × RTX 5090 or 4× L40S يفتح ميني ماكس M2.5 والإصدارات الأكبر من Qwen3 MoE على نطاق الإنتاج. لم يزد حجم الأجهزة، بل انخفض حجم العمل.

وأي عبء عمل استدلالي يعمل باستمرار على بيانات القياس عن بُعد التشغيلية يستفيد بشكل متناسب. يُعد تحسين أسطول التعدين مثالًا حقيقيًا على ذلك: المشغلون مثل عمال المناجم تشغيل أنظمة الكفاءة المدعومة بالذكاء الاصطناعي عبر آلاف من الدوائر المتكاملة الخاصة بالتطبيقات (ASICs)، وتتناسب طبقة الاستدلال الموجودة أسفل هذه الأنظمة طرديًا مع كمية المعلومات السياقية التي يمكن لكل نموذج استيعابها بتكلفة منخفضة. لا يُحدث هذا النوع من الأبحاث تحولًا جذريًا في هذه الأحمال بين عشية وضحاها، ولكنه يُوسع نطاق ما هو متاح بتكلفة معقولة.

التوقعات الصادقة تتطور تدريجياً. 6 × إن تقليل استهلاك الذاكرة في أحد نقاط الاختناق لا يُحدث ثورةً في عالمنا، بل يُنتج نسخةً أقل تكلفةً، وأطول سياقًا، وأسهل استخدامًا من النسخة الحالية. ومع ذلك، يظل هذا توفيرًا كبيرًا في المال والجهد الهندسي، على مستوى القطاع بأكمله.

ما الذي يجب مشاهدته في عامي 2026-2027

بعض الأمور المحددة، مرتبة تقريبًا حسب احتمالية حدوثها.

مقارنة أساليب ضغط ذاكرة التخزين المؤقت KV عبر أبحاث 2025-2026

تكامل الإطار. vLLM, TensorRT-LLMو SGLang سيتعلمون أساليب مشابهة لـ TurboQuant في غضون أشهر، على الأرجح عبر KVPress باعتبارها طبقة قياس الأداء. إن تطبيق Triton مفتوح المصدر الذي نشره فريق جوجل يجعل هذه العملية آلية تقريبًا.

دعم على مستوى الأجهزة. أبدت NVIDIA اهتمامًا بتقنيات الانتباه منخفضة البتات من خلال كلٍ من KVTC وKVPress. ومن المتوقع أن تتعامل أدوات الجيل الجديد من Blackwell مع تنسيقات KV ذات 3-4 بتات كعناصر أساسية وليست تجريبية.

توحيد الأساليب. تُعالج المناهج الخمسة المذكورة أعلاه مشاكل متداخلة. ومن المرجح أن تكون النتيجة النهائية هي مجموعة متكاملة من الحلول، تشمل ضغطًا هندسيًا على غرار PolarQuant للانتباه الفوري، وتشفيرًا إنتروبيًا على غرار KVTC للتخزين غير المتصل بالإنترنت، وتجميعًا دلاليًا على غرار ChunkKV كواجهة أمامية. لم تصل أي ورقة بحثية منفردة إلى هذه النتيجة؛ بل تشكلت هذه المجموعة المتكاملة على مدار عام من العمل المتكامل.

تخفيضات حقيقية في تكاليف تقديم الطعام. بحلول أواخر عام 2026، من المتوقع أن تنخفض تكاليف خدمة الاستدلال طويل المدى بشكل ملحوظ عما هي عليه اليوم، حيث سيأتي معظم هذا التحسن من ضغط البيانات بدلاً من استخدام رقائق سيليكون جديدة. هذه هي الطريقة الأمثل للتنبؤ بنجاح هذا المجال من العمل.

اغلاق

يمثل TurboQuant تقدماً حقيقياً في معالجة معضلة حقيقية، وقد ظهر ضمن موجة بحثية تعمل على حل المشكلة من جوانب متعددة في آن واحد. الأرقام الرئيسية مثيرة للإعجاب بحد ذاتها - ثلاث بتات، ست مرات، ثماني مرات - لكن الأهم من ذلك أنه لا يتطلب أي شيء من مُشغّل النموذج. الأساليب التي لا تحتاج إلى تدريب، والتي لا تعتمد على البيانات، هي التي يتم تطبيقها.

إذا كنت تستخدم الاستدلال السياقي الطويل على أي نطاق، فمن المفيد تتبعه. وإن لم تكن تستخدمه، فإنه لا يزال من المفيد فهمه، لأن اقتصاديات النماذج التي ستستخدمها في نهاية المطاف تُحدد، بهدوء، من خلال أبحاث مثل هذه.

المصادر

G
مدونة أبحاث جوجلتقرير عن ورقة بحثية حول TurboQuant
N
إنفيديا كي في برسإطار عمل قياس أداء ضغط KV
B
مدونة كينتينوالمزيد من التحليلات وأدلة البناء
هذا المقال عبارة عن تحليل وتعليق فني. تستند بيانات المقارنة المذكورة إلى المنشورات المرجعية (TurboQuant، KVTC، ChunkKV، PM-KVQ، KVPress) ومدونة أبحاث جوجل. تصف تكوينات الأجهزة إصدارات خادم استدلال Kentino كما هي متاحة وقت كتابة هذا المقال؛ وقد تتغير المواصفات الدقيقة ومدى التوافر. تعكس أعداد معلمات النموذج، وأطوال السياق، وتواريخ الإصدار الأرقام المعلنة علنًا لعائلات نماذج الأوزان المفتوحة المعنية. 
ブ ロ グ に 戻 る