تقنيات المعلومات

نماذج لغة الذكاء الاصطناعي تتعرض للخداع بواسطة القصائد

أحد البحوث المثيرة للإهتمام جاء بنتيجة مُفاجئة للباحثين في مختبر “إيكارو” (Icaro Lab) في إيطاليا؛ فقد شرعوا في فحص ما إذا كانت الأساليب اللغوية المُختلفة — وفي هذه الحالة الطلبات/الأوامر للذكاء الاصطناعي (prompts) المُصاغة في شكل قصائد — تؤثر على قُدرة نماذج الذكاء الاصطناعي على التعرف على المحتوى المحظور أو الضار، حيث كانت الإجابة، بنعم، تؤثر و بشكل قاطع.

باستخدام الشعر، تمكن الباحثون من التغلب على حواجز الحماية الأمنية — وليس من الواضح تماماً السبب وراء ذلك.

من أجل دراستهم التي تحمل عنوان “الشعر العدائي كآلية كسر حماية أحادية الدور وشاملة في نماذج اللغة الكبيرة”، أخذ الباحثون 1,200 طلب ضار مُحتمل من قاعدة بيانات تُستخدم عادةً لإختبار أمن نماذج لغة الذكاء الاصطناعي، وأعادوا كتابتها في شكل قصائد.

تُعرف هذه الطلبات باسم “الطلبات العدائية” (adversarial prompts) — وتُكتب عادةً بالنثر وليس بصيغة القافية — وهي إستفسارات تُصاغ عَمداً لجعل نماذج الذكاء الإصطناعي تُخرج مُحتوى ضاراً أو غير مرغوب فيه كانت ستحظره في الحالة العادية، مثل تعليمات محددة لعمل غير قانوني.

وقال فيديريكو بيروتشي، أحد مؤلفي الدراسة، لـ DW: إنه في الشكل الشعري، حققت المدخلات التلاعبية معدل نجاح مرتفع بشكل مفاجئ.

ومع ذلك، يضيف أن سبب فعالية الشعر كتقنية “كسر حماية” (jailbreak) — أي كوسيلة للالتفاف على آليات الحماية الخاصة بالذكاء الاصطناعي — لا يزال غير واضح ويخضع لمزيد من البحث.

الشعر كنقطة ضعف أمنية

ما دفع مختبر “إيكارو” للبحث هو ملاحظة أن نماذج الذكاء الاصطناعي تصاب بالارتباك عندما يتم إلحاق نص تلاعب محسوب رياضياً بالطلب — وهو ما يُعرف بـ “اللاحقة العدائية” (adversarial suffix)، وهي نوع من إشارات التداخل التي يمكن أن تتسبب في تجاوز الذكاء الاصطناعي لقواعده الأمنية الخاصة. يتم إنشاء هذه اللواحق باستخدام إجراءات رياضية معقدة، ويقوم مطورو الذكاء الاصطناعي الكبار بانتظام باختبار نماذجهم باستخدام هذه الأنواع من طرق الهجوم لتدريبها وحمايتها.

يقول فيديريكو بيروتشي:

“سألنا أنفسنا، ماذا يحدث إذا أعطينا الذكاء الاصطناعي نصاً أو طلباً تم التلاعب به عمداً، مثل اللاحقة العدائية؟، ولكن ليس بمساعدة الرياضيات المعقدة، بل ببساطة عبر الشِعر — لـ مفاجأة الذكاء الاصطناعي، فربما تكون اللاحقة العدائية تشبه إلى حد ما شعر الذكاء الاصطناعي؛ فهي تفاجئ الذكاء الاصطناعي بنفس الطريقة التي يفاجئنا بها الشعر — وخاصة الشعر التجريبي للغاية”.

صاغ الباحثون بأنفسهم أول 20 طلباً في شكل قصائد، كما يقول بيروتشي، الذي لديه أيضاً خلفية في الفلسفة، وأن هذه كانت الأكثر فعالية.

ثم كتبوا البقية بمساعدة الذكاء الاصطناعي، فكانت القصائد التي أنتجها الذكاء الاصطناعي ناجحة أيضاً في الالتفاف على حواجز الحماية الأمنية، ولكن ليس بقدر المجموعة الأولى.

يقول بيروتشي: إن البشر لا يزالون، على ما يبدو، أفضل في كتابة الشعر، ولم يكن لدينا كاتب مُتخصص (بالشعر) ليكتب الطلبات، وكنا نحن فقط — بقدراتنا الأدبية المَحدودة، و ربما كنا شعراء سيئين، ربما لو كنا شعراء بدرجة جيدة، لحققنا نجاحاً بنسبة 100% في كسر الحماية، التي سوف يحظرها مباشرة الذكاء الاصطناعي لو كتبت بشكل منسق طبيعي، بدلا من الشعر.

ولأسباب أمنية، لم تنشر الدراسة أمثلة محددة.

تكمن المفاجأة الكبرى الناتجة عن هذه الدراسة في أنها حددت نقطة ضعف غير معروفة حتى الآن في نماذج الذكاء الإصطناعي تسمح بعمليات كسر حماية مباشرة نسبياً، وكما أنها تثير تساؤلات تتطلب مزيداً من البحث: ما هو بالضبط في الشعر الذي يلتف على آليات الحماية التي يتبعها الذكاء الاصطناعي؟

لدى بيروتشي وزملائه نظريات مختلفة، لكن لا يمكنهم الجزم بعد، حيث يقول بأنه نحن نُجري هذا النوع من الدراسات العلمية الدقيقة جداً لمحاولة الفهم: هل البيت الشعري، أم القافية، أم الاستعارة هي التي تقوم بكل العمل الشاق في هذه العملية؟

مجال بحثي رئيسي: كيف تحدد نماذج الذكاء الاصطناعي المحتوى الذي تقدمه؟

يهدف الباحثون أيضاً إلى معرفة ما إذا كانت أشكال التعبير الأخرى ستؤدي إلى نتائج مماثلة، حيث يقول بيروتشي:

“لقد غطينا الآن نوعاً واحداً من التباين اللغوي — وهو التباين الشعري، والسؤال هو ما إذا كانت هناك أشكال أدبية أخرى، مثل الحكايات الخيالية، التي تنجح. ربما يمكن أيضاً تحويل الهجوم القائم على الحكايات الخيالية إلى نظام عملي”.

بشكل عام، فإن نطاق التعبير البشري متنوع ومبدع للغاية، مما قد يجعل تدريب استجابات الآلات أكثر صعوبة، حيث يقول الباحث:

“تأخذ نصاً وتعيد كتابته بطرق لا حصر لها، ولن تكون جميع النسخ المُعاد كتابتها مثيرة للقلق مثل الأصل، وهذا يعني أنه، من الناحية النظرية، يمكن للمرء إنشاء عدد لا يحصى من الاختلافات لطلبٍ ضار قد لا يُفعل آليات السلامة في نظام الذكاء الاصطناعي”.

القطاع الثقافي يشارك أيضاً في أبحاث الذكاء الاصطناعي

تسلط الدراسة الضوء أيضاً على حقيقة أن العديد من التخصصات تتعاون في البحث في الذكاء الاصطناعي — كما هو الحال في مختبر “إيكارو”، حيث تعمل الفرق جنباً إلى جنب مع أكاديميين من جامعة روما في موضوعات مثل أمن وسلوك أنظمة الذكاء الاصطناعي.

يجمع المشروع بين باحثين من مجالات الهندسة وعلوم الكمبيوتر واللغويات والفلسفة، و لم يكن الشعراء جزءاً من الفريق حتى الآن، ولكن من يعرف؟ ما الذي سيأتي به المستقبل!

فيديريكو بيروتشي حريص بالتأكيد على مواصلة بحثه، حيث يقول:

“ما أظهرناه، على الأقل في هذه الدراسة، هو أن هناك أشكالاً من التعبيرات الثقافية، وأشكالاً من التعبيرات البشرية، قوية بشكل لا يصدق، وقوية بشكل مفاجئ كتقنيات لكسر الحماية، وربما اكتشفنا واحدة منها فقط”.

بالمناسبة، اسم المختبر هو إشارة إلى قصة “إيكاروس”: وهو شخصية من الأساطير اليونانية يرتدي أجنحة مصنوعة من الشمع والريش، ورغم كل التحذيرات، يطير قريباً جداً من الشمس. عندما يذوب الشمع، يسقط إيكاروس في البحر ويغرق — وهو رمز للثقة المفرطة وتجاوز الحدود الطبيعية.

لذلك، يرى الباحثون أنفسهم كرسالة تحذير بأنه يجب علينا ممارسة المزيد من الحذر عندما يتعلق الأمر بمحاولة الفهم الكامل لمخاطر وحدود الذكاء الاصطناعي.


المقال الاصلي (English) بواسطة موقع DW

أقرأ المزيد

المقالات ذات صلة

زر الذهاب إلى الأعلى

عذراً، لايمكن نسخ المحتويات