لا تصدق أذنيك: التزييف العميق للصوت

يُستخدم التزييف العميق للصوت الذي يمكنه تقليد صوت أي شخص بالفعل في عمليات احتيال بملايين الدولارات. كيف يتم صنع التزييف العميق, وهل يمكنك حماية نفسك من الوقوع ضحية له؟

يُستخدم التزييف العميق للصوت الذي يمكنه تقليد صوت أي شخص بالفعل في عمليات احتيال بملايين الدولارات. كيف يتم صنع التزييف العميق, وهل يمكنك حماية نفسك من الوقوع ضحية له؟

هل تساءلت يومًا كيف نعرف من نتحدث إليه على الهاتف؟ من الواضح أنه أكثر من مجرد اسم معروض على الشاشة. وإذا سمعنا صوتًا غير مألوف عند الاتصال بنا من رقم محفوظ، فنحن نعلم على الفور أن يوجد شيء خطأ. وللتعرف على الشخص الذي نتحدث إليه حقًا، نلاحظ دون وعي طابع الصوت وطريقة ونبرة الكلام. لكن ما مدى موثوقية سمعنا في العصر الرقمي للذكاء الاصطناعي؟ كما تُظهر أحدث الأخبار، فإن ما نسمعه لا يستحق الثقة دائمًا، لأن الأصوات يمكن أن تكون مزيفة: التزييف العميق.

ساعدوني، أنا في مشكلة

في ربيع عام 2023، حاول المحتالون في ولاية أريزونا ابتزاز أموال من امرأة عبر الهاتف. وسمعت صوت ابنتها البالغة من العمر 15 عامًا وهي تتوسل للمساعدة قبل أن يمسك رجل مجهول الهاتف ويطالب بفدية، وكل ذلك بينما كان لا يزال من الممكن سماع صراخ ابنتها في الخلفية. كانت الأم متأكدة أن الصوت يخص ابنتها. ولحسن الحظ، اكتشفت بسرعة أن ابنتها بخير، مما دفعها إلى إدراك أنها كانت ضحية لمحتالين.

لا يمكن إثبات أن المهاجمين استخدموا التزييف العميق لتقليد صوت المراهقة بنسبة 100%. وربما كانت عملية الاحتيال ذات طبيعة أكثر تقليدية، وقد لعبت جودة المكالمة وعدم توقع الموقف والضغط وخيال الأم دورًا لجعلها تعتقد أنها سمعت شيئًا لم تسمعه في الواقع. لكن حتى لو لم تُستخدم تقنيات الشبكة العصبية في هذه الحالة، فمن الممكن أن يحدث التزييف العميق بالفعل، ومع استمرار تطور هذه التقنيات تصبح مقنعة بشكل متزايد وأكثر خطورة. ولمكافحة استغلال تقنية التزييف العميق بواسطة المجرمين، نحتاج إلى فهم كيفية عملها.

ما المقصود بالتزييف العميق؟

نما الذكاء الاصطناعي للتزييف التعميق ( “التعلم العميق” + »التزييف” ) بمعدل سريع على مدار السنوات القليلة الماضية. ويمكن استخدام التعلم الآلي لإنشاء صور أو مقاطع فيديو أو محتويات صوتية مزيفة مقنعة. على سبيل المثال، يمكن استخدام الشبكات العصبية في الصور ومقاطع الفيديو لاستبدال وجه شخص بآخر مع الحفاظ على تعابير الوجه والإضاءة. وبينما كانت هذه المنتجات المزيفة في البداية منخفضة الجودة ويسهل اكتشافها، أصبحت النتائج مقنعة للغاية مع تطوير الخوارزميات بحيث يصعب الآن تمييزها عن الواقع. وفي عام 2022، تم إصدار أول برنامج تلفزيوني بالتزييف العميق في العالم في روسيا، حيث لعب التزييف العميق لفنانين مثل جيسون ستاثام ومارغوت روبي وكيانو ريفز وروبرت باتينسون الشخصيات الرئيسية.

إصدارات التزييف العميق لنجوم هوليوود في المسلسل التلفزيوني الروسي PMJason.

إصدارات التزييف العميق لنجوم هوليوود في المسلسل التلفزيوني الروسي PMJason. (المصدر)

تحويل الصوت

لكن ينصب تركيزنا اليوم على التكنولوجيا المستخدمة لإنشاء التزييف العميق للصوت. ويُعرف هذا أيضًا باسم تحويل الصوت (أو “استنساخ الصوت” إذا كنت تنشئ نسخة رقمية كاملة منه). ويعتمد تحويل الصوت على برامج التشفير التلقائية – وهي نوع من الشبكات العصبية التي تقوم أولاً بضغط بيانات الإدخال (جزء من برنامج التشفير ) في تمثيل داخلي مضغوط، ثم تتعلم كيفية فك ضغطها مرة أخرى من هذا التمثيل (جزء من برنامج فك التشفير) لاستعادة البيانات الأصلية. وبهذه الطريقة يتعلم النموذج تقديم البيانات بتنسيق مضغوط مع إبراز المعلومات الأكثر أهمية.

 مخطط Autencoder.

مخطط Autencoder. (المصدر)

لإنشاء تزييف عميق للصوت، يتم إدخال تسجيلين صوتيين في النموذج، مع تحويل الصوت من التسجيل الثاني إلى الأول. ويُستخدم مشفر المحتوى لتحديد ما قيل من التسجيل الأول، ويُستخدم مشفر مكبر الصوت لاستخراج الخصائص الرئيسية للصوت من التسجيل الثاني – بمعنى كيف يتحدث الشخص الثاني. ويتم جمع التمثيلات المضغوطة لما يجب قوله وكيف يُقال، ويتم إنشاء النتيجة باستخدام برنامج فك التشفير. وبالتالي، فإن ما يُقال في التسجيل الأول يتم التعبير عنه بواسطة الشخص من التسجيل الثاني.

 عملية تكوين تزييف عميق للصوت.

عملية تكوين تزييف عميق للصوت. (المصدر)

توجد طرق أخرى تستخدم برامج التشفير التلقائية، على سبيل المثال تلك التي تستخدم الشبكات التنافسية التوليدية (GAN) أو نماذج الانتشار. ويتم دعم الأبحاث في كيفية صنع التزييف العميق على وجه الخصوص من قِبل صناعة السينما. فكر في الأمر: باستخدام التزييف العميق للصوت والفيديو، من الممكن استبدال وجوه الممثلين في الأفلام والبرامج التلفزيونية، ودبلجة الأفلام بتعبيرات الوجه المتزامنة في أي لغة.

كيف يحدث ذلك

أثناء إجراء أبحاثنا في تقنيات التزييف العميق، تساءلنا عن مدى صعوبة التزييف العميق لصوت شخص ما؟ اتضح أن هناك الكثير من الأدوات المجانية مفتوحة المصدر للعمل مع تحويل الصوت، لكن ليس من السهل جدًا الحصول على نتيجة عالية الجودة معها. ويتطلب الأمر خبرة في برمجة Python ومهارات معالجة جيدة، وحتى في هذه الحالة لا تكون الجودة مثالية. وبالإضافة إلى المصدر المفتوح، تتوافر أيضًا حلول خاصة ومدفوعة.

على سبيل المثال، في أوائل عام 2023، أعلنت مايكروسوفت عن خوارزمية يمكنها إعادة إنتاج صوت بشري بناءً على مثال صوتي مدته ثلاث ثوانٍ فقط! ويعمل هذا النموذج أيضًا مع لغات متعددة، حتى يمكنك سماع نفسك تتحدث لغة أجنبية. وكل هذا يبدو واعدًا، لكنه حتى الآن في مرحلة البحث فقط. لكن منصة ElevenLabs تتيح للمستخدمين إجراء تزييف عميق للصوت دون أي جهد: كل ما عليك تحميل تسجيل صوتي للصوت والكلمات التي سيتم نطقها، وهذا كل شيء. وبالطبع، بمجرد انتشار الخبر، بدأ الناس باللعب بهذه التكنولوجيا بشتى الطرق.

معركة هيرميون وبنك مفرط الثقة

بالتوافق التام مع قانون غودوين، تم إجبار إيما واتسون تقرأ كتاب Mein Kampf (كفاحي)، واستخدم مستخدم آخر تقنية ElevenLabs “لاختراق” حسابه البنكي الخاص. هل يبدو هذا مريبًا؟ إنه يبدو كذلك بالنسبة لنا – خاصة عندما تضف إلى المزيج قصص الرعب الشائعة عن المحتالين الذين يجمعون عينات من الأصوات عبر الهاتف من خلال جعل الناس يقولون “نعم” أو “تأكيد” لأنهم يتظاهرون بأنهم بنك أو وكالة حكومية أو خدمة استطلاع آراء، ومن ثم سرقة الأموال باستخدام الإذن الصوتي.

لكن في الواقع، الأمور ليست بهذا السوء. أولاً، يتطلب الأمر حوالي خمس دقائق من التسجيلات الصوتية لإنشاء صوت اصطناعي في ElevenLabs، لذا فإن “نعم” البسيطة ليست كافية. ثانيًا، تعرف البنوك أيضًا هذه الحيل، لذلك لا يمكن استخدام الصوت إلا لبدء عمليات معينة لا تتعلق بتحويل الأموال (على سبيل المثال، للتحقق من رصيد حسابك). لذلك لا يمكن سرقة الأموال بهذه الطريقة.

يرجع الفضل في ذلك إلى استجابة ElevenLabs للمشكلة بسرعة من خلال إعادة كتابة قواعد الخدمة، ومنع المستخدمين المجانيين (أي المجهولين) من إنشاء تزييف عميق بناءً على أصواتهم التي يتم تحميلها، وحظر الحسابات التي تتضمن شكاوى عن “المحتوى المسيء”.

على الرغم من أن هذه الإجراءات قد تكون مفيدة، إلا أنها لا تزال غير قادرة على حل مشكلة استخدام التزييف العميق للأصوات لأغراض مشبوهة.

كيف يتم استخدام التزييف العميق بطرق أخرى في عمليات الاحتيال

لا تعد تكنولوجيا التزييف العميق في حد ذاتها ضارة، لكنها في أيدي المحتالين قد تصبح أداة خطيرة مع الكثير من الفرص للخداع أو التشهير أو التضليل. ولحسن الحظ، لم تكن هناك أي حالات احتيال جماعية تتضمن تغيير الصوت، لكن كانت هناك العديد من الحالات البارزة التي تنطوي على التزييف العميق للصوت.

في عام 2019، استخدم المحتالون هذه التقنية للاحتيال على شركة طاقة مقرها المملكة المتحدة. وفي محادثة هاتفية، تظاهر المحتال بأنه الرئيس التنفيذي للشركة الألمانية الأم للشركة، وطلب تحويلاً عاجلاً قدره 220 ألف يورو (243 ألف دولار) إلى حساب شركة توريد معينة. وبعد إجراء عملية الدفع، اتصل المحتال مرتين أخريين – المرة الأولى لجعل موظفي مكتب المملكة المتحدة يشعرون بالراحة والإبلاغ عن أن الشركة الأم أرسلت بالفعل رد أموال، والمرة الثانية لطلب تحويل آخر. وكان الرئيس التنفيذي لفرع المملكة المتحدة واثقًا تمامًا في الثلاث المرات أنه كان يتحدث مع رئيسه لأنه تعرف على لهجته الألمانية ونبرته وطريقة حديثه. لم يتم إرسال التحويل الثاني فقط لأن المحتال أخطأ واتصل من رقم نمساوي بدلاً من رقم ألماني، مما جعل الرئيس التنفيذي لفرع المملكة المتحدة يشك فيه.

بعد عام، في عام 2020، استخدم المحتالون التزييف العميق لسرقة ما يصل إلى 35 مليون دولار من شركة يابانية لم تذكر اسمها (لم تُفصح التحقيقات عن اسم الشركة والمبلغ الإجمالي للبضائع المسروقة).

من غير المعروف أي الحلول (مفتوحة المصدر أو مدفوعة أو حتى الخاصة) التي استخدمها المحتالون لتزييف الأصوات، لكن في كلتا الحالتين المذكورتين أعلاه، عانت الشركات بوضوح – بشدة – من احتيال التزييف العميق.

ما التالي؟

تختلف الآراء بشأن مستقبل التزييف العميق. وفي الوقت الحالي، تمتلك الشركات الكبرى معظم هذه التكنولوجيا، ولا تتوفر سوى لجمهور محدود. لكن كما يظهر من تاريخ النماذج التوليدية الأكثر شيوعًا مثل DALL-E وMidjourney وStable Diffusion، وحتى مع نماذج اللغات الكبيرة (هل فكر أي شخص في ChatGPT؟)، قد تظهر تقنيات مماثلة في المجال العام في المستقبل المنظور. وقد تأكد ذلك من خلال التسريب الأخير لمراسلات Google الداخلية حيث يخشى ممثلو عملاق الإنترنت من خسارتهم لسباق الذكاء الاصطناعي لصالح الحلول المفتوحة. ومن الواضح أن هذا سيؤدي إلى زيادة في استخدام التزييف العميق للصوت – بما في ذلك لأغراض الاحتيال.

تعد الخطوة الواعدة في تطوير التزييف العميق هي التوليد في الوقت الحقيقي، الذي سيضمن النمو الهائل لحالات التزييف التزييف العميق (والاحتيال بناءً عليها). هل يمكنك تخيل مكالمة فيديو مع شخص تم تزييف وجهه وصوته تمامًا؟ مع ذلك، يتطلب هذا المستوى من معالجة البيانات موارد ضخمة لا تُتاح إلا للشركات الكبيرة، لذلك ستظل أفضل التقنيات خاصة ولن يتمكن المحتالون من مواكبة المحترفين. وسيساعد معيار الجودة العالية المستخدمين أيضًا على تعلم كيفية التعرف على حالات التزييف بسهولة.

كيفية حماية نفسك

الآن نرجع إلى سؤالنا الأول: هل يمكننا الوثوق بالأصوات التي نسمعها (أي، إذا لم تكن الأصوات المعروفة لنا)؟ حسنًا، من المحتمل أن يكون الأمر مبالغًا فيه إذا شعرنا بالذعر طوال الوقت وبدأنا في ابتكار كلمات مشفرة سرية لاستخدامها مع الأصدقاء والعائلة؛ ومع ذلك، فإن هذا الذعر قد يكون مناسبًا في المواقف الأكثر خطورة. إذا تطور كل شيء بناءً على السيناريو المتشائم، فقد تتحول تكنولوجيا التزييف العميق في أيدي المحتالين إلى سلاح هائل في المستقبل، لكن لا يزال هناك وقت للاستعداد وبناء طرق موثوقة للحماية من التزييف: هناك بالفعل الكثير من الأبحاث بشأن التزييف العميق، وتطور الشركات الكبيرة حلول أمان. وفي الواقع، تحدثنا بالفعل بالتفصيل عن طرق مكافحة التزييف العميق للفيديو هنا.

في الوقت الحالي، لا تزال الحماية ضد التزييف العميق باستخدام الذكاء الاصطناعي في بدايتها فحسب، لذا من المهم أن تضع في اعتبارك أن التزييف العميق مجرد نوع آخر من الهندسة الاجتماعية المتقدمة. وتعد مخاطر مواجهة هذا النوع من الاحتيال ضئيلة، لكنه لا يزال موجودًا ، لذا فمن الجدير أن نعرفه وأن نضعه في الاعتبار. وإذا تلقيت مكالمة غريبة، احرص على الانتباه إلى جودة الصوت. هل هو رتيب بشكل غير طبيعي، أو هل هو غير مفهوم، أو هل توجد ضوضاء غريبة؟ تحقق دائمًا من المعلومات من خلال قنوات أخرى، وتذكر أن المفاجأة والذعر هما أكثر ما يعتمد عليه المحتالون.

النصائح

برمجيات تنقيب مخفية بداخل جووجل بلاي ستور!

عندما يصبح جهازك بطىء، يلوم العديد من المستخدمين البرمجيات الخبيثة والفيروسات. ولكن عندما يصبح هاتفك الذكي بطيء عادة ما تلوم البطارية او نظام التشغيل وعندها تريد شراء هاتف جديد! وربما يكون سبب هذه المشكلة شيء اخر تماماً!  برمجيات التنقيب المخفية!