هل ينتحل ChatGPT ما وراء “نسخ ولصق”؟

تثار مخاوف بشأن الانتحال عند نماذج اللغة ، بما في ذلك على الأرجح ChatGPT ، وإعادة صياغة المفاهيم وإعادة استخدامها من بيانات التدريب دون الاستشهاد بالمصدر الأصلي.

قبل الانتهاء من مهمتهم التالية باستخدام chatbot ، قد يرغب الطلاب في التفكير فيها. وفقًا لفريق بحثي بقيادة جامعة بنسلفانيا أجرى الدراسة الأولى للنظر على وجه التحديد في الموضوع ، فإن نماذج اللغة التي تولد نصًا استجابةً لمحتوى يحفز المستخدم على الانتحال بأكثر من طريقة.

قال دونغ وون لي ، أستاذ علوم وتكنولوجيا المعلومات في ولاية بنسلفانيا: “السرقة الأدبية تأتي في نكهات مختلفة”. “أردنا معرفة ما إذا كانت النماذج اللغوية لا تنسخ وتلصق فحسب ، بل تلجأ إلى أشكال أكثر تعقيدًا من الانتحال دون أن ندرك ذلك.”

ركز الباحثون على تحديد ثلاثة أشكال من السرقة الأدبية: حرفيًا ، أو نسخ المحتوى ولصقه مباشرة ؛ إعادة صياغة المحتوى أو إعادة صياغته وإعادة هيكلته دون الاستشهاد بالمصدر الأصلي ؛ والفكرة ، أو استخدام الفكرة الرئيسية من نص دون الإسناد المناسب. قاموا ببناء خط أنابيب للكشف الآلي عن الانتحال واختبروه مقابل GPT-2 الخاص بـ OpenAI لأن بيانات التدريب الخاصة بنموذج اللغة متاحة عبر الإنترنت ، مما يسمح للباحثين بمقارنة النصوص المُنشأة مع 8 ملايين مستند مستخدمة للتدريب المسبق لـ GPT-2.

استخدم العلماء 210.000 نص تم إنشاؤه لاختبار السرقة الأدبية في نماذج اللغة المدربة مسبقًا ونماذج اللغة الدقيقة ، أو النماذج التي تم تدريبها بشكل أكبر للتركيز على مجالات موضوعية محددة. في هذه الحالة ، صقل الفريق ثلاثة نماذج لغوية للتركيز على الوثائق العلمية والمقالات العلمية المتعلقة بـ COVID-19 ومطالبات براءات الاختراع. لقد استخدموا مصدرًا مفتوحًا لاسترداد أفضل 10 مستندات تدريب أكثر تشابهًا مع كل نص تم إنشاؤه وقاموا بتعديل خوارزمية محاذاة النص الحالية لاكتشاف حالات النص الحرفي وإعادة الصياغة وانتحال الأفكار بشكل أفضل.

وجد الفريق أن النماذج اللغوية ارتكبت جميع الأنواع الثلاثة من السرقة الأدبية وأنه كلما كانت مجموعة البيانات والمعلمات المستخدمة لتدريب النموذج أكبر ، كلما حدث الانتحال في كثير من الأحيان. كما لاحظوا أن النماذج اللغوية الدقيقة قللت من السرقة الأدبية ولكن زادت من حالات إعادة الصياغة وانتحال الأفكار. بالإضافة إلى ذلك ، حددوا أمثلة على نموذج اللغة الذي يفضح المعلومات الخاصة للأفراد من خلال الأشكال الثلاثة للانتحال. سيقدم الباحثون نتائجهم في مؤتمر الويب لعام 2023 ACM ، والذي سيعقد في الفترة من 30 أبريل إلى 4 مايو في أوستن ، تكساس.

قال المؤلف الرئيسي Jooyoung Lee ، طالب الدكتوراه في كلية علوم وتكنولوجيا المعلومات في ولاية بنسلفانيا: “يتابع الناس نماذج لغوية كبيرة لأنه كلما زاد حجم النموذج ، زادت قدرات الجيل”. “في الوقت نفسه ، يعرضون للخطر أصالة وإبداع المحتوى داخل مجموعة التدريب. هذه نتيجة مهمة.”

تسلط الدراسة الضوء على الحاجة إلى مزيد من البحث في مولدات النصوص والأسئلة الأخلاقية والفلسفية التي يطرحونها ، وفقًا للباحثين.

قال تاي لي ، الأستاذ المساعد وعلوم المعلومات في جامعة ميسيسيبي: “على الرغم من أن المخرجات قد تكون جذابة ، وقد تكون نماذج اللغة ممتعة في الاستخدام وتبدو منتجة لمهام معينة ، فإن هذا لا يعني أنها عملية”. العمل في المشروع كمرشح لنيل درجة الدكتوراه في ولاية بنسلفانيا. “في الممارسة العملية ، نحن بحاجة إلى الاهتمام بالقضايا الأخلاقية وحقوق التأليف والنشر التي يطرحها منشئو النصوص.”

على الرغم من أن نتائج الدراسة تنطبق فقط على GPT-2 ، إلا أن عملية الكشف التلقائي عن الانتحال التي أنشأها الباحثون يمكن تطبيقها على نماذج لغة أحدث مثل ChatGPT لتحديد ما إذا كانت هذه النماذج تنتحل المحتوى التدريبي وكم مرة. قال الباحثون إن اختبار الانتحال يعتمد على قيام المطورين بإتاحة بيانات التدريب للجمهور.

يمكن للدراسة الحالية أن تساعد الباحثين في مجال الذكاء الاصطناعي على بناء نماذج لغوية أكثر قوة وموثوقية ومسؤولية في المستقبل ، وفقًا للعلماء. في الوقت الحالي ، يحثون الأفراد على توخي الحذر عند استخدام مولدات النص.

قال جينغوي تشن ، الأستاذ المساعد لعلوم وتكنولوجيا المعلومات في ولاية بنسلفانيا: “يدرس الباحثون والعلماء في مجال الذكاء الاصطناعي جعل نماذج اللغة أفضل وأكثر قوة ، وفي الوقت نفسه ، يستخدم العديد من الأفراد نماذج لغوية في حياتهم اليومية لأداء مهام إنتاجية مختلفة”. “على الرغم من أن الاستفادة من نماذج اللغة كمحرك بحث أو تجاوز سعة مكدس لتصحيح الأخطاء البرمجية أمر جيد على الأرجح ، لأغراض أخرى ، نظرًا لأن نموذج اللغة قد ينتج محتوى مسروقًا ، فقد ينتج عنه عواقب سلبية على المستخدم.”

وأضاف دونغ وون لي أن نتيجة الانتحال ليست شيئًا غير متوقع.

وقال “كببغاء عشوائي ، علمنا نماذج لغوية لتقليد الكتابات البشرية دون تعليمهم كيفية عدم الانتحال بشكل صحيح”. “الآن ، حان الوقت لتعليمهم الكتابة بشكل صحيح ، وما زال أمامنا طريق طويل لنقطعه.” (العاني)