: الذكاء الاصطناعي، الشبكات العصبية، التهديدات

كيف يسرب الذكاء الاصطناعي بياناتك؟

استخدام الشبكات العصبية لإنشاء الصور ينتشر بشكل واسع في الوقت الحالي. ومع ذلك، هناك مخاطر تتعلق بالخصوصية يجب أن نكون على دراية بها. ما هي هذه المخاطر؟

Enoch Root
مايو 26, 2023

أنظمة شبكات الذكاء الاصطناعي تسرب البيانات

نشر باحثون في جامعات في الولايات المتحدة وسويسرا، بالتعاون مع Google وDeepMind، ورقة توضح كيف يمكن أن تتسرب البيانات من أنظمة إنشاء الصور التي تستخدم خوارزميات التعلم الآلي DALL-E أو Imagen أو Stable Diffusion. وتعمل جميعها بالطريقة نفسها على جانب المستخدم: تكتبُ استعلامًا نصيًا محددًا – على سبيل المثال، “كرسي بذراعين على شكل أفوكادو” – وتحصل على صورة تم إنشاؤها في المقابل.

صورة تم إنشاؤها بواسطة الشبكة العصبية Dall-E. المصدر.

تم تدريب جميع هذه الأنظمة باستخدام عدد كبير جدًا من الصور التي تحمل وصفًا محددًا مسبقًا. فكرة هذه الشبكات العصبية تكمن في قدرتها على إنشاء صور جديدة وفريدة بعد معالجة كمية هائلة من بيانات التدريب. ومع ذلك، تظهر الدراسة الجديدة أن هذه الصور ليست دائمًا فريدة. في بعض الحالات، يمكن أن تقوم الشبكة العصبية بإعادة إنتاج صورة مطابقة تمامًا لصورة سابقة تم استخدامها في التدريب. وهذا يعني أن الشبكات العصبية قد تكشف عن المعلومات الخاصة دون قصد.

صورة تم إنشاؤها بواسطة الشبكة العصبية Stable Diffusion (على اليمين) والصورة الأصلية من مجموعة التدريب (على اليسار). المصدر.]

قم بتشويشها

رغم أن خوارزميات التعلم الآلي تبدو متشابهة للشخص الذي لا يعمل في المجال، إلا أنها في الواقع مختلفة. ويُولي الباحثون في ورقتهم اهتمامًا خاصًا لنماذج نشر التعلم الآلي. ويعملون على النحو التالي: يتم تشويه بيانات التدريب (وهي مرة أخرى صور الأشخاص والسيارات والمنازل وما إلى ذلك) عن طريق إضافة تشويش. وبعد ذلك، يتم تدريب الشبكة العصبية لاستعادة هذه الصور إلى حالتها الأصلية. وتتيح هذه الطريقة إمكانية إنشاء صور ذات جودة مقبولة، لكن العيب المحتمل (بالمقارنة مع الخوارزميات في الشبكات التنافسية التوليدية، على سبيل المثال) هو ميلها الأكبر لتسريب البيانات.

يمكن استخراج البيانات الأصلية منها بثلاث طرق مختلفة على الأقل: أولاً، يمكنك باستخدام استعلامات محددة إجبار الشبكة العصبية على إخراج صورة مصدر محدد، وليس شيئًا فريدًا تم إنشاؤه بناءً على آلاف الصور. ثانيًا، يمكن إعادة بناء الصورة الأصلية حتى لو توفر جزء منها فقط. ثالثًا، من الممكن ببساطة تحديد ما إذا كانت صورة معينة مُضمنة في بيانات التدريب أم لا.

في كثير من الأحيان، تكون الشبكات العصبية… كسولة، وبدلاً من إنتاج صورة جديدة، فإنها تنتج شيئًا من مجموعة التدريب إذا كان يحتوي على عدة نسخ مكررة من الصورة نفسها. وإلى جانب المثال المذكور أعلاه مع صورة آن غراهام لوتز، تعطي الدراسة بعض النتائج الأخرى المشابهة:

الصفوف الفردية: الصور الأصلية. الصفوف الزوجية: الصور التي تم إنشاؤها بواسطة Stable Diffusion v1.4. المصدر

إذا تكررت صورة في مجموعة التدريب أكثر من مائة مرة، فهناك فرصة كبيرة جدًا لتسريبها في شكلها شبه الأصلي. ومع ذلك، أظهر الباحثون طرقًا لاسترداد صور التدريب التي ظهرت مرة واحدة فقط في المجموعة الأصلية. وهذه الطريقة أقل كفاءة بكثير: من بين خمسمائة صورة تم اختبارها، أعادت الخوارزمية بشكل عشوائي إنشاء ثلاثة منها فقط. وتتضمن أكثر الطرق الفنية لمهاجمة شبكة عصبية إعادة إنشاء صورة مصدر باستخدام جزء منها فقط كمدخلات.

طلب الباحثون من الشبكة العصبية استكمال الصورة بعد حذف جزء منها. ويمكن استخدام ذلك لتحديد ما إذا كانت صورة معينة موجودة في مجموعة التدريب بدقة إلى حد ما. وإذا كان الأمر كذلك، فقد أنشأت خوارزمية التعلم الآلي نسخة مطابقة تقريبًا من الصورة الأصلية أو الرسم المصدر

في هذه المرحلة، لنحول انتباهنا إلى مسألة الشبكات العصبية وحقوق التأليف والنشر.

من سرق من؟

في يناير 2023، رفع ثلاثة فنانين دعوى قضائية ضد منشئي خدمات إنشاء الصور التي تستخدم خوارزميات التعلم الآلي. وزعموا (بشكل مبرر) أن مطوري الشبكات العصبية قد دربوها على صور تم جمعها من الإنترنت دون أي احترام لحقوق التأليف والنشر. وتستطيع الشبكة العصبية بالفعل نسخ أسلوب فنان معين، وبالتالي تحرمه من الدخل. وتشير الورقة البحثية إلى أنه في بعض الحالات، تستطيع الخوارزميات، لأسباب مختلفة، التورط في الانتحال الصريح، وتوليد رسومات وصور فوتوغرافية وصور أخرى تكاد تكون متطابقة مع أعمال الأشخاص الحقيقيين.

تقدم الدراسة توصيات لتعزيز خصوصية مجموعة التدريب الأصلية:

تخلص من التكرارات.
أعد معالجة صور التدريب، على سبيل المثال عن طريق إضافة تشويش أو تغيير السطوع؛ ويجعل هذا تسرب البيانات أقل احتمالاً.
اختبر الخوارزمية باستخدام صور تدريبية خاصة، ثم تأكد أنها لا تعيد إنتاجها بدقة دون قصد.

ما التالي؟

من المؤكد أن أخلاقيات وشرعية الفن التوليدي تشكل نقاشًا مثيرًا للاهتمام – نقاش يجب فيه البحث عن توازن بين الفنانين ومطوري التكنولوجيا. ومن ناحية، يجب احترام حقوق التأليف والنشر. ومن ناحية أخرى، هل فن الكمبيوتر مختلف جدًا عن فن الإنسان؟ في كلتا الحالتين، يستقي المبدعون الإلهام من أعمال الزملاء والمنافسين.

لكن دعونا نعود إلى الواقع ونتحدث عن الأمان. تقدم الورقة البحثية مجموعة محددة من الحقائق عن نموذج واحد فقط للتعلم الآلي. وبتوسيع المفهوم ليشمل جميع الخوارزميات المتشابهة، نصل إلى موقف مثير للاهتمام. ليس من الصعب تخيل سيناريو يُسلّم فيه مساعد ذكي لمشغل شبكة هاتف محمول معلومات الشركة الحساسة استجابة لاستعلام المستخدم: على كل حال، كانت موجودة في بيانات التدريب. أو، على سبيل المثال، استعلام ماكر يخدع شبكة عصبية عامة لإنشاء نسخة من جواز سفر شخص ما. ويؤكد الباحثون أن مثل هذه المشاكل لا تزال نظرية في الوقت الحاضر.

لكن هناك مشاكل أخرى معنا بالفعل. بينما نتحدث الآن، يتم استخدام الشبكة العصبية لتوليد النص ChatGPT لكتابة تعليمات برمجية ضارة حقيقية تعمل (في بعض الأحيان). ويساعد GitHub Copilot المبرمجين على كتابة التعليمات البرمجية باستخدام كمية هائلة من البرامج مفتوحة المصدر كمدخلات. ولا تحترم الأداة دائمًا حقوق التأليف والنشر وخصوصية المؤلفين الذين انتهى الأمر بوجود تعليماتهم البرمجية في مجموعة موسعة للغاية من بيانات التدريب. ومع تطور الشبكات العصبية، ستتطور الهجمات التي تتعرض لها أيضًا هذه الشبكات – مع عواقب لم يفهمها أحد حتى الآن.

إليك المسار الواجب اتخاذه للتعامل مع الذكاء الاصطناعي

يتضح بالفعل حاجة الذكاء الاصطناعي إلى تنظيم، ولكن كيف؟ في هذا الموضع يخبرنا Eugene Kaspersky برؤيته حول الذكاء الاصطناعي.

النصائح

نصائح الأمان في كأس العالم ٢٠١٨

كيف يمكنك حماية نفسك اذا كنت تخطط لحضور كأس العالم بروسيا او حتى مشاهدته عبر الانترنت!

برمجيات تنقيب مخفية بداخل جووجل بلاي ستور!

عندما يصبح جهازك بطىء، يلوم العديد من المستخدمين البرمجيات الخبيثة والفيروسات. ولكن عندما يصبح هاتفك الذكي بطيء عادة ما تلوم البطارية او نظام التشغيل وعندها تريد شراء هاتف جديد! وربما يكون سبب هذه المشكلة شيء اخر تماماً! برمجيات التنقيب المخفية!

أدوات مجانية

كيف يسرب الذكاء الاصطناعي بياناتك؟

أنظمة شبكات الذكاء الاصطناعي تسرب البيانات

المزيد من البيانات عن “للمختصين في البيانات”

قم بتشويشها

من سرق من؟

ما التالي؟

كسر الحماية عبر القوافي: كيف يطلق الشعر لسان الذكاء الاصطناعي

اكتشاف اختطاف مكتبات DLL

إليك المسار الواجب اتخاذه للتعامل مع الذكاء الاصطناعي

النصائح

نصائح الأمان في كأس العالم ٢٠١٨

برمجيات تنقيب مخفية بداخل جووجل بلاي ستور!

الحلول المنزلية

الشركات ما يصل إلى 50 موظفا

الشركات ما يصل إلى 999 موظفا

الشركات من 1000 موظف

Securelist

Nota Bene: Eugene Kaspersky’s Official Blog