يصف مقال في مجلة Science نُشر في منتصف شهر يناير طريقة غير تافهة للتطفل على مستخدمي الهواتف الذكية من خلال مستشعر الإضاءة المحيطة. وتحتوي جميع الهواتف الذكية والأجهزة اللوحية على هذا المكون المدمج فيها، كما هو الحال في العديد من أجهزة الكمبيوتر المحمولة وأجهزة التلفزيون. وتتمثل مهمته الأساسية في استشعار مقدار الإضاءة المحيطة في البيئة التي يجد الجهاز نفسه فيها، وتغيير سطوع الشاشة وفقًا لذلك.
لكن يتعين علينا أولاً توضيح الأسباب التي تجعل طرف تهديد يستخدم أداة غير مناسبة لالتقاط اللقطات بدلاً من الكاميرا العادية للجهاز المستهدف. والسبب هو أن أجهزة الاستشعار “غير المناسبة” تفتقر عادة إلى الحماية على الإطلاق. ولنتخيل أن مهاجمًا خدع مستخدمًا لتثبيت برنامج ضار على هاتفه الذكي. سوف يكافح البرنامج الضارة للوصول إلى المكونات المستهدفة في كثير من الأحيان، مثل الميكروفون أو الكاميرا. لكن ماذا عن مستشعر الإضاءة؟ الأمر سهل للغاية.
لذلك، أثبت الباحثون أنه يمكن استخدام مستشعر الإضاءة المحيطة بدلاً من الكاميرا؛ على سبيل المثال، للحصول على لقطة ليد المستخدم وهي تدخل رقم التعريف الشخصي (PIN) على لوحة مفاتيح افتراضية. ومن الناحية النظرية، يمكن عن طريق تحليل هذه البيانات، إعادة بناء كلمة المرور نفسها. ويشرح هذا المنشور التفاصيل بلغة واضحة.
مستشعر الإضاءة قطعة تقنية بدائية. وهو خلية ضوئية حساسة للضوء لقياس سطوع الإضاءة المحيطة عدة مرات في الثانية. وتستخدم الكاميرات الرقمية مستشعرات إضاءة مشابهة جدًا (وإن كانت أصغر)، لكن هناك الملايين منها. وتُسقط العدسة صورة على مصفوفة الخلية الكهروضوئية، ويتم قياس سطوع كل عنصر، وتكون النتيجة صورة رقمية. وبالتالي، يمكنك وصف مستشعر الإضاءة بأنه الكاميرا الرقمية الأكثر بدائية على الإطلاق: دقة وضوحها بكسل واحد بالضبط. كيف يستطيع هذا الشيء التقاط ما يحدث حول الجهاز؟
استخدم الباحثون مبدأ المعاملة بالمثل لهيلمهولتز، الذي تمت صياغته في منتصف القرن التاسع عشر. ويُستخدم هذا المبدأ على نطاق واسع في رسومات الكمبيوتر، على سبيل المثال، حيث يُبسط العمليات الحسابية إلى حد كبير. وفي عام 2005، شكل المبدأ أساس طريقة التصوير المزدوج المقترحة. لنأخذ مثالاً توضيحيًا من هذه الورقة للمساعدة في التوضيح:
تخيل أنك تصور أشياء على طاولة. ويضيء مصباح على الأشياء، ويضرب الضوء المنعكس عدسة الكاميرا، وتكون النتيجة صورة فوتوغرافية. لا شيء خارج عن المألوف. وفي الرسم التوضيحي أعلاه، الصورة الموجودة على اليسار هي بالضبط تلك الصورة العادية. بعد ذلك، وبعبارات مبسطة إلى حد كبير، بدأ الباحثون في تغيير سطوع المصباح وتسجيل التغييرات في الإضاءة. ونتيجة لذلك، جمعوا معلومات كافية لإعادة بناء الصورة على اليمين، والتي تم التقاطها كما لو كانت من وجهة نظر المصباح. ولا توجد كاميرا في هذا الوضع ولم تكن موجودة أبدًا، لكن بناءً على القياسات، تمت إعادة بناء المشهد بنجاح.
الأمر الأكثر إثارة للاهتمام هو أن هذه الخدعة لا تتطلب حتى كاميرا. وسوف يؤدي مقاوم ضوئي بسيط المهمة المطلوبة… تمامًا مثل الموجود في مستشعر الإضاءة المحيطة. ويقيس المقاوم الضوئي (أو “الكاميرا أحادية البكسل”) التغيرات في الضوء المنعكس عن الأشياء، ويتم استخدام هذه البيانات لإنشاء صورة فوتوغرافية لها. وستكون جودة الصورة منخفضة، ويجب إجراء العديد من القياسات، التي يصل عددها إلى المئات أو الآلاف.
لنعد إلى الدراسة ومستشعر الإضاءة. استخدم كاتبو الورقة جهازًا لوحيًا من طراز Samsung Galaxy View كبيرًا إلى حد ما مزودًا بشاشة مقاس 17 بوصة. وتم عرض أنماط مختلفة من المستطيلات بالأبيض والأسود على شاشة الجهاز اللوحي. وتم وضع عارضة أزياء في مواجهة الشاشة في دور المستخدم الذي يدخل شيئًا على لوحة المفاتيح التي تظهر على الشاشة. والتقط مستشعر الإضاءة التغيرات في السطوع. وفي عدة مئات من القياسات مثل هذه، تم إنتاج صورة ليد عارضة الأزياء. أي أن المؤلفين طبقوا مبدأ المعاملة بالمثل لهيلمهولتز للحصول على صورة لليد، تم التقاطها كما لو كانت من وجهة نظر الشاشة. وحوّل الباحثون شاشة الجهاز اللوحي بشكل فعال إلى كاميرا ذات جودة منخفضة للغاية.
صحيح، ليست الصورة الأكثر وضوحًا. وتُظهر الصورة الموجودة أعلى اليسار ما يجب التقاطه: في إحدى الحالات، كف عارضة الأزياء المفتوحة؛ وفي الأخرى، كيف يبدو “المستخدم” وهو ينقر على شيء على الشاشة. وكانت الصور الموجودة في المنتصف عبارة عن “صورة” أعيد بناؤها بدقة 32 × 32 بكسل، ولا يظهر فيها أي شيء تقريبًا – الكثير من التشويش في البيانات. لكن بمساعدة خوارزميات التعلم الآلي، تمت تصفية التشويش لإنتاج الصور على اليمين، حيث يمكننا تمييز موضع يد واحدة عن الأخرى. ويقدم مؤلفو البحث أمثلة أخرى للإيماءات النموذجية التي يفعلها الأشخاص عند استخدام شاشة لمس الكمبيوتر اللوحي. أو بالأحرى أمثلة على كيفية تمكنهم من “تصويرهم فوتوغرافيًا”:
حسنًا، هل يمكننا تطبيق هذه الطريقة في الحياة العملية؟ هل من الممكن مراقبة كيفية تفاعل المستخدم مع شاشة اللمس للجهاز اللوحي أو الهاتف الذكي؟ كيف يُدخلون النص على لوحة المفاتيح التي تظهر على الشاشة؟ كيف يُدخلون تفاصيل بطاقة الائتمان؟ كيف يفتحون التطبيقات؟ لحسن الحظ، الأمر ليس بهذه البساطة. لاحظ التسميات التوضيحية أعلى “الصور الفوتوغرافية” في الرسم التوضيحي أعلاه. لقد أظهرت مدى بطء عمل هذه الطريقة. وفي أفضل السيناريوهات، تمكن الباحثون من إعادة بناء “صورة” لليد في ما يزيد قليلاً عن ثلاث دقائق. واستغرق التقاط الصورة في الرسم التوضيحي السابق 17 دقيقة. ومن غير الوارد المراقبة في الوقت الحقيقي بهذه السرعات. وأصبح من الواضح الآن أيضًا سبب ظهور يد عارضة أزياء في معظم التجارب: لا يستطيع الإنسان ببساطة أن يبقي يده بلا حراك لفترة طويلة.
لكن هذا لا يستبعد إمكانية تحسين الطريقة. ودعونا نفكر في السيناريو الأسوأ: إذا كان من الممكن الحصول على كل صورة يد ليس في ثلاث دقائق، لكن، على سبيل المثال، في نصف ثانية؛ إذا لم تكن المخرجات التي تظهر على الشاشة بعض الأشكال الغريبة بالأبيض والأسود، بل مقطع فيديو أو مجموعة من الصور أو الرسوم المتحركة التي تهم المستخدم؛ وإذا فعل المستخدم شيئًا يستحق التجسس عليه…، فسيكون الهجوم منطقيًا. لكن حتى ذلك الحين، لا معنى لهذا. ويتم تقويض جميع جهود الباحثين بسبب حقيقة أنه إذا تمكن أحد المهاجمين من إدخال برامج ضارة إلى جهاز الضحية، فهناك العديد من الطرق الأسهل لخداعهم لإدخال كلمة مرور أو رقم بطاقة الائتمان. وربما للمرة الأولى في تغطية هذه الأوراق (أمثلة: واحد، اثنان، ثلاثة، أربعة)، نكافح حتى لتخيل سيناريو من الحياة الواقعية لهجوم من هذا النوع.
كل ما يمكننا فعله هو أن نتعجب من جمال الطريقة المقترحة. ويعد هذا البحث بمثابة تذكير آخر بأن الأجهزة التي تبدو مألوفة وغير واضحة التي تحيط بنا يمكن أن تحتوي على وظائف غير عادية وأقل شهرة. ومع ذلك، بالنسبة لمن يشعرون بالقلق إزاء هذا الانتهاك المحتمل للخصوصية، فإن الحل بسيط. يرجع السبب في هذه الصور ذات الجودة المنخفضة إلى حقيقة أن مستشعر الإضاءة يأخذ قياسات بشكل غير متكرر: 10-20 مرة في الثانية. وتفتقر بيانات المخرجات كذلك إلى الدقة. ومع ذلك، هذا مهم فقط لتحويل المستشعر إلى كاميرا. وبالنسبة للمهمة الرئيسية – قياس الإضاءة المحيطة – فإن هذا المعدل مرتفع للغاية. ويمكننا أن “نقلل” البيانات بشكل أكبر، فننقلها، على سبيل المثال، خمس مرات في الثانية بدلاً من 20 مرة. ولمطابقة سطوع الشاشة مع مستوى الإضاءة المحيطة، يعد هذا أكثر من كافٍ. لكن التجسس من خلال المستشعرات، وهو أمر غير محتمل بالفعل، سيصبح مستحيلاً. ربما للأفضل.