يجرب العديد من الأشخاص بالفعل الشبكات العصبية التوليدية ويجدون استخدامًا منتظمًا لها، بما في ذلك داخل العمل. على سبيل المثال، يجري استخدام ChatGPT ونظائره بانتظام من قبل ما يقرب من 60% من الأمريكيين (وليس دائمًا بإذن من الإدارة). ومع ذلك، يتم تخزين جميع البيانات المتضمنة في مثل هذه العمليات – سواء مطالبات المستخدم أو استجابات النماذج – على خوادم OpenAI وGoogle، وغيرهما. وبالنسبة للمهام التي يكون فيها تسرب المعلومات غير مقبول، فلن تحتاج إلى التخلي عن الذكاء الاصطناعي تمامًا – تحتاج فقط إلى استثمار القليل من الجهد (وربما المال) لتشغيل الشبكة العصبية محليًا على الكمبيوتر الخاص بك – حتى لو جهاز كمبيوتر محمول.
التهديدات السحابية
يعمل مساعدو الذكاء الاصطناعي الأكثر شهرة على البنية التحتية السحابية للشركات الكبيرة. وتتسم هذه التطبيقات بالفعالية والسرعة، لكن بياناتك التي تخضع للمعالجة بواسطة النموذج قد تكون في متناول كل من مزود خدمة الذكاء الاصطناعي والأطراف غير ذات الصلة تمامًا، كما حدث في العام الماضي مع ChatGPT.
تشكل هذه الحوادث مستويات متفاوتة من التهديد اعتمادًا على الغرض من استخدام مساعدي الذكاء الاصطناعي. وإذا كنت تنشئ رسومًا توضيحية لطيفة لبعض القصص الخيالية التي كتبتها، أو تطلب من ChatGPT إنشاء مسار رحلة لقضاء عطلة نهاية الأسبوع القادمة في المدينة، فمن غير المرجح أن يؤدي التسرب إلى أضرار جسيمة. لكن، إذا كانت محادثتك مع برنامج الدردشة الآلي تحتوي على معلومات سرية – بيانات شخصية أو كلمات مرور أو أرقام بطاقة بنكية – فإن التسرب المحتمل إلى السحابة لم يعد مقبولاً. ولحسن الحظ، من السهل نسبيًا منع حدوث ذلك عن طريق التصفية المسبقة للبيانات، وقد كتبنا منشورًا منفصلاً حول ذلك.
ومع ذلك، في الحالات التي تكون فيها جميع المراسلات سرية (على سبيل المثال، معلومات طبية أو مالية)، أو تكون موثوقية التصفية المسبقة موضع شك (تحتاج إلى معالجة كميات كبيرة من البيانات التي لن يقوم أحد بمعاينتها وتصفيتها)، فهناك فقط حل واحد: نقل المعالجة من السحابة إلى جهاز كمبيوتر محلي. وبالطبع، من غير المرجح أن يكون تشغيل الإصدار الخاص بك من ChatGPT أو Midjourney دون اتصال بالإنترنت ناجحًا، لكن الشبكات العصبية الأخرى التي تعمل محليًا توفر جودة مماثلة مع حمل حسابي أقل.
ما الأجهزة التي تحتاجها لتشغيل شبكة عصبية؟
ربما سمعت أن العمل مع الشبكات العصبية يتطلب بطاقات رسومات فائقة القوة،ولكن في الواقع ليس هذا هو الحال دائمًا. وقد تتطلب نماذج الذكاء الاصطناعي المختلفة، اعتمادًا على تفاصيلها، متطلبات على مكونات الكمبيوتر مثل ذاكرة الوصول العشوائي (RAM) وذاكرة الفيديو ومحرك الأقراص ووحدة المعالجة المركزية (هنا، ليست سرعة المعالجة مهمة فحسب، بل أيضًا من المهم أن يدعم المعالج بعض تعليمات المتجهات). وتعتمد القدرة على تحميل النموذج على مقدار ذاكرة الوصول العشوائي (RAM)، ويعتمد حجم “نافذة السياق” – أي ذاكرة المحادثة السابقة – على حجم ذاكرة الفيديو. وفي العادة، في حالة ضعف بطاقة الرسومات ووحدة المعالجة المركزية، يحدث التوليد بوتيرة بطيئة (كلمة أو كلمتين في الثانية للنماذج النصية)، لذا فإن الكمبيوتر الذي يحتوي على مثل هذا الحد الأدنى من الإعداد يكون مناسبًا فقط للتعرف على نموذج معين وتقييم ملاءمته الأساسية. وللاستخدام اليومي الكامل، ستحتاج إلى زيادة ذاكرة الوصول العشوائي (RAM)، أو ترقية بطاقة الرسومات، أو اختيار نموذج ذكاء اصطناعي أسرع.
كنقطة بدء، يمكنك تجربة العمل مع أجهزة الكمبيوتر التي كانت تعتبر قوية نسبيًا في عام 2017: معالجات لا تقل عن Core i7 مع دعم لتعليمات AVX2، وذاكرة وصول عشوائي (RAM) سعة 16 جيجا بايت، وبطاقات رسوميات بذاكرة لا تقل عن 4 جيجا بايت. ولعشاق أجهزة Mac، فإن النماذج التي تعمل على شريحة Apple M1 وأحدث ستكون مناسبة، في حين أن متطلبات الذاكرة واحدة.
عند اختيار نموذج ذكاء اصطناعي، يجب عليك أولاً التعرف على متطلبات النظام الخاصة به. ,سيساعدك استعلام بحث مثل “متطلبات model_name” في تقييم ما إذا كان يستحق تنزيل هذا النموذج في ضوء الأجهزة المتوفرة لديك. وتتوفر دراسات تفصيلية متاحة عن تأثير حجم الذاكرة ووحدة المعالجة المركزية ووحدة معالجة الرسومات على أداء النماذج المختلفة؛ على سبيل المثال، هذا واحد.
توجد بشرى سارة لمن لا يستطيعون الوصول إلى أجهزة قوية – توجد نماذج مبسطة للذكاء الاصطناعي يمكنها أداء مهام عملية حتى على الأجهزة القديمة. وحتى لو كانت بطاقة الرسومات الخاصة بك أساسية وضعيفة للغاية، فمن الممكن تشغيل النماذج وتشغيل البيئات باستخدام وحدة المعالجة المركزية فقط. واعتمادًا على المهام التي تؤديها، يمكن أن تعمل هذه المهام بشكل جيد ومقبول.
اختيار نموذج الذكاء الاصطناعي وسحر التكميم
تتوفر اليوم مجموعة واسعة من النماذج اللغوية، لكن للعديد منها تطبيقات عملية محدودة. ومع ذلك، توجد أدوات ذكاء اصطناعي سهلة الاستخدام ومتاحة للعامة ومناسبة تمامًا لمهام محددة، سواء كانت إنشاء نص (على سبيل المثال، Mistral 7B)، أو إنشاء مقتطفات من التعليمات البرمجية (على سبيل المثال، Code Llama 13B). لذلك، عند اختيار نموذج، قم بتضييق نطاق الاختيار إلى عدد قليل من المرشحين المناسبين، ثم تأكد أن جهاز الكمبيوتر يمتلك الموارد اللازمة لتشغيلها.
في أي شبكة عصبية، يكون معظم إجهاد الذاكرة ناتجًا عن الأوزان، وهي معاملات رقمية تصف عمل كل خلية عصبية في الشبكة. وفي البداية، عند تدريب النموذج، يتم حساب الأوزان وتخزينها كأرقام كسرية عالية الدقة. ومع ذلك، اتضح أن تقريب الأوزان في النموذج المُدرب يسمح بتشغيل أداة الذكاء الاصطناعي على أجهزة الكمبيوتر العادية مع تقليل الأداء قليلاً فقط. وتُسمى عملية التقريب هذه بالتكميم، وبمساعدتها يمكن تقليل حجم النموذج بشكل كبير – فبدلاً من 16 بت، قد يستخدم كل وزن ثمانية أو أربعة بت أو حتى وحدتي بت.
وفقًا للبحث الحالي، فإن النموذج الأكبر الذي يحتوي على المزيد من المعلمات والتكميم يمكن أن يعطي أحيانًا نتائج أفضل من النموذج الذي يحتوي على تخزين دقيق للوزن لكن مع معلمات أقل.
متسلحًا بهذه المعرفة، أصبحت الآن جاهزًا لاستكشاف كنز نماذج اللغات مفتوحة المصدر، وبالتحديد لوحة المتصدرين في Open LLM. وفي هذه القائمة، يتم فرز أدوات الذكاء الاصطناعي حسب عدة مقاييس جودة للجيل، وتسهل المرشحات استبعاد النماذج الكبيرة جدًا أو الصغيرة جدًا أو الدقيقة جدًا.
بعد قراءة وصف النموذج والتأكد من ملاءمته لاحتياجاتك، اختبر الأداء الذي يقدمه في السحابة باستخدام خدمات Hugging Face أو Google Colab. وبهذه الطريقة، يمكنك تجنب تنزيل النماذج التي تنتج نتائج غير مرضية، مما يوفر لك الوقت. وبمجرد رضاك عن الاختبار الأولي للنموذج، يحين الوقت لمعرفة كيفية عمله محليًا!
البرامج المطلوبة
يتم نشر معظم النماذج مفتوحة المصدر على Hugging Face، لكن لا يكفي مجرد تنزيلها على الكمبيوتر الخاص بك. ولتشغيلها، يجب عليك تثبيت برنامج متخصص، مثل LLaMA.cpp، أو – حتى بشكل أسهل – برنامج الغلاف الخاص به، LM Studio. ويسمح لك هذا الأخير بتحديد النموذج الذي تريده مباشرة من التطبيق وتنزيله وتشغيله في مربع حوار.
يمثل GPT4All طريقة أخرى “جاهزة للاستخدام” لاستخدام روبوت محادثة. وهنا، يقتصر الاختيار على حوالي اثني عشر نموذجًا للغات، لكن معظمها سيتم تشغيله حتى على جهاز كمبيوتر مزود بذاكرة تبلغ سعتها 8 جيجا بايت فقط وبطاقة رسومات أساسية.
إذا كان التوليد بطيئًا جدًا، فقد تحتاج إلى نموذج ذو تكميم أكثر ضغطًا (وحدتا بت بدلاً من أربعة). وفي حالة مقاطعة عملية التوليد أو حدوث أخطاء في التنفيذ، فستكون المشكلة غالبًا ناجمة عن عدم كفاية الذاكرة – يجدر البحث عن نموذج يحتوي على معلمات أقل، أو مرة أخرى، مع تكميم أكثر ضغطًا.
تم بالفعل قياس كمية العديد من النماذج على Hugging Face بدرجات متفاوتة من الدقة، لكن إذا لم يقم أحد بقياس النموذج الذي تريده بالدقة المطلوبة، فيمكنك فعل ذلك بنفسك باستخدام GPTQ.
تم هذا الأسبوع إصدار أداة واعدة أخرى للإصدار التجريبي العام: Chat With RTX من NVIDIA. وأصدرت الشركة المصنعة لشرائح الذكاء الاصطناعي الأكثر رواجًا برنامج دردشة محليًا قادرًا على تلخيص محتوى مقاطع فيديو YouTube، ومعالجة مجموعات من المستندات، وغير ذلك الكثير – بشرط أن يكون لدى المستخدم جهاز كمبيوتر يعمل بنظام Windows مزود بذاكرة سعة 16 جيجا بايت وبطاقة NVIDIA RTX من السلسلة 30 أو 40 مع ذاكرة فيديو بسعة 8 جيجا بايت أو أكثر. و”تحت الغطاء” توجد الأنواع نفسها من Mistral وLlama 2 من Hugging Face. وبالطبع، تستطيع بطاقات الرسومات القوية تحسين أداء الجيل، لكن وفقًا لتعليقات المختبرين الأوائل، فإن النسخة التجريبية الحالية مرهقة للغاية (حوالي 40 جيجا بايت) ويصعب تثبيتها. ومع ذلك، يمكن أن يصبح Chat With RTX من NVIDIA مساعدًا محليًا مفيدًا جدًا للذكاء الاصطناعي في المستقبل.
تنفذ التطبيقات المذكورة أعلاه جميع العمليات الحسابية محليًا، ولا ترسل البيانات إلى الخوادم، ويمكن تشغيلها دون اتصال بالإنترنت حتى تتمكن من مشاركة المعلومات السرية معها بأمان. ومع ذلك، لحماية نفسك بشكل كامل من التسريبات، لا تحتاج إلى ضمان أمان نموذج اللغة فحسب، بل أيضًا أمان جهاز الكمبيوتر الخاص بك – وهنا يأتي حل الأمان الشامل الخاص بنا. ووفقًا لما تم التأكيد عليه في الاختبارات المستقلة، فليس لحل Kaspersky Premium أي تأثير عمليًا على أداء الكمبيوتر الخاص بك – وهي ميزة مهمة عند العمل مع نماذج الذكاء الاصطناعي المحلية.