نشر باحثون من Offensive AI Lab ورقة بحثية تصف طريقة لاستعادة نص الرسائل التي تم اعتراضها المرسلة عبر روبوتات المحادثة المدعومة بالذكاء الاصطناعي. ونلقي اليوم نظرة على كيفية عمل هذا الهجوم، ومدى خطورته في الواقع.
ما المعلومات التي يمكن استخلاصها من الرسائل التي تم اعتراضها المرسلة عبر روبوتات المحادثة المدعومة بالذكاء الاصطناعي ؟
بطبيعة الحال، ترسل روبوتات المحادثة الرسائل في شكل مشفر. ومع ذلك ، فإن تنفيذ نماذج اللغات الكبيرة (LLMs) وروبوتات المحادثة المبنية عليها تتضمن عددًا من الميزات التي تُضعف التشفير بشكل خطير. وتتيح هذه الميزات مجتمعة إمكانية تنفيذ هجوم القناة الجانبية عند استعادة محتوى الرسالة من أجزاء من المعلومات المسربة.
لفهم ما يحدث أثناء هذا الهجوم، نحتاج إلى التعمق قليلاً في تفاصيل ميكانيكا نموذج اللغة الكبير (LLM) وربوت المحادثة. أول شيء يجب معرفته هو أن نموذج اللغة الكبير (LLM) لا يعمل على الأحرف الفردية أو الكلمات على هذا النحو، لكنه يعمل على الرموز المميزة، التي يمكن وصفها على أنها الوحدات الدلالية للنص. تقدم صفحة Tokenizer على موقع ويب OpenAI لمحة عن الإجراءات الداخلية.
سوف تعرف الميزة الثانية التي تسهل هذا الهجوم بالفعل إذا كنت قد تفاعلت مع روبوتات المحادثة المدعومة بالذكاء الاصطناعي بنفسك: فهي لا ترسل ردودًا في أجزاء كبيرة لكن بشكل تدريجي – تقريبًا كما لو كان شخص ما يكتبها. لكن على العكس من الشخص، تكتب نماذج اللغة الكبيرة باستخدام الرموز المميزة – وليس بالأحرف الفردية. وعلى هذا النحو، ترسل روبوتات المحادثة الرموز المميزة التي يتم إنشاؤها في الوقت الحقيقي، واحدًا تلو الآخر؛ أو بالأحرى، تفعل معظم روبوتات المحادثة ذلك: الاستثناء هو Google Gemini، مما يجعله غير معرض لهذا الهجوم.
الميزة الثالثة هي ما يلي: في وقت نشر الورقة البحثية، لم تستخدم غالبية روبوتات المحادثة الضغط أو الترميز أو الحشو (إلحاق بيانات غير مرغوب فيها بنص ذي معنى لتقليل إمكانية التنبؤ وزيادة قوة التشفير) قبل تشفير أي رسالة.
تستغل هجمات القنوات الجانبية كل هذه الخصائص الثلاث. وعلى الرغم من أنه لا يمكن فك تشفير رسائل روبوت المحادثة التي يتم اعتراضها، إلا أن المهاجمين يمكنهم استخراج بيانات مفيدة منها – على وجه التحديد، طول كل رمز مميز يتم إرساله بواسطة روبوت المحادثة. ولذا فإن النتيجة مشابهة للغز عجلة الحظ: لا يمكنك رؤية ما هو مشفر بالضبط، لكن يتم الكشف عن طول الرموز المميزة للكلمات الفردية.
استخدام المعلومات المستخرجة لاستعادة نص الرسالة
كل ما تبقى هو تخمين الكلمات التي تختبئ خلف الرموز المميزة. ولن تصدق أبدًا من يجيد تخمين الألعاب: هذا صحيح – نماذج اللغة الكبيرة. وفي الواقع، هذا هدفها الأساسي في الحياة: تخمين الكلمات الصحيحة في السياق المحدد. لذا، لاستعادة نص الرسالة الأصلية من التسلسل الناتج لأطوال الرمز المميز، لجأ الباحثون إلى نموذج لغة كبير…
على وجه الدقة، تم اللجوء إلى نموذجي لغة كبيرين، حيث لاحظ الباحثون أن التبادلات الافتتاحية في المحادثات مع روبوتات المحادثة تكون دائمًا ذات صيغة محددة، وبالتالي يمكن تخمينها بسهولة من خلال نموذج تم تدريبه خصيصًا على مجموعة من الرسائل التمهيدية الناتجة عن نماذج اللغة الشائعة. وبالتالي يتم استخدام النموذج الأول لاستعادة الرسائل التمهيدية وتمريرها إلى النموذج الثاني الذي يتولى بقية المحادثة.
ينتج عن ذلك نص تتوافق فيه أطوال الرمز المميز مع تلك الموجودة في الرسالة الأصلية. لكن يتم فرض كلمات محددة بدرجات متفاوتة من النجاح. ,لاحظ أن التطابق التام بين الرسالة المستعادة والرسالة الأصلية أمر نادر الحدوث – يحدث عادة أن يتم تخمين جزء من النص بشكل خاطئ. وفي بعض الأحيان تكون النتيجة مرضية:
لكن في حالة عدم النجاح، قد يتمتع النص المعاد بنائه بالقليل من القواسم المشتركة مع النص الأصلي، أو حتى لا توجد قواسم مشتركة على الإطلاق. على سبيل المثال ، قد تكون النتيجة هذا:
أو حتى هذا:
في المجمل، فحص الباحثون أكثر من عشرة روبوتات محادثة مدعومة بالذكاء الاصطناعي، ووجدوا أن معظمها عرضة لهذا الهجوم – الاستثناءات هي Google Gemini (الذي كان يسمى Bard) وGitHub Copilot (يجب عدم الخلط بينه وبين Microsoft Copilot).
هل يجب أن أقلق؟
تجدر الإشارة إلى أن هذا الهجوم يحدث بأثر رجعي. ولنفترض أن شخصًا تحمل عناء اعتراض محادثاتك وحفظها باستخدام ChatGPT (ليس بهذه السهولة، لكنه ممكن)، حيث كشف بعض الأسرار الفظيعة. في هذه الحالة، وباستخدام الطريقة الموضحة أعلاه، سيكون من الممكن نظريًا أن يتمكن أحد الأشخاص من قراءة الرسائل.
لحسن الحظ، فإن فرص المعترض ليست عالية جدًا: كما ذكر الباحثون، حتى الموضوع العام للمحادثة تم تحديده بنسبة 55% فقط من الوقت. أما بالنسبة لإعادة البناء الناجحة، فقد بلغت النسبة 29% فقط. ومن الجدير بالذكر أنه ينبغي استيفاء معايير الباحثين لإعادة البناء الناجحة بالكامل، على سبيل المثال، عن طريق ما يلي:
ما مدى أهمية هذه الفروق الدقيقة – قرر بنفسك. ومع ذلك، لاحظ أن هذه الطريقة لن تستخرج على الأرجح أي تفاصيل فعلية (الأسماء والقيم الرقمية والتواريخ والعناوين وتفاصيل الاتصال والمعلومات الحيوية الأخرى) بأي درجة من الموثوقية.
ينطوي الهجوم على قيد آخر فشل الباحثون في ذكره: يعتمد نجاح استعادة النص بشكل كبير على اللغة التي كتبت بها الرسائل التي تم اعتراضها: يختلف نجاح الترميز بشكل كبير من لغة إلى أخرى. وركزت هذه الورقة البحثية على اللغة الإنجليزية، التي تحتوي على رموز مميزة طويلة جدًا تعادل عمومًا كلمة كاملة. ومن ثم، يُظهر النص الإنجليزي المميز أنماطًا مميزة تجعل عملية إعادة البناء سهلة نسبيًا.
لا توجد لغة أخرى شبيهة. وحتى بالنسبة للغات في المجموعتين الجرمانية والرومانسية، التي تعتبر الأكثر تشابهًا مع اللغة الإنجليزية، فإن متوسط طول الرمز المميز أقصر بمقدار 1.5 إلى 2 مرة؛ وبالنسبة للغة الروسية، 2.5 مرة: يبلغ طول الرمز المميز الروسي النموذجي حرفين فقط، مما سيؤدي على الأرجح إلى تقليل فعالية هذا الهجوم إلى الصفر.
تفاعلت بالفعل شركتان على الأقل من شركات تطوير روبوتات المحادثة – Cloudflare وOpenAI – على الورقة البحثية عن طريق إضافة طريقة الحشو المذكورة أعلاه، التي تم تصميمها خصيصًا مع وضع هذا النوع من التهديد في الاعتبار. ومن المقرر أن يحذو مطورو روبوتات المحادثة الآخرون حذوهم، وسيتم حماية الاتصالات المستقبلية مع روبوتات المحادثة ضد هذا الهجوم.