
رصدت دراسة أجراها فريق من جامعة أكسفورد وجود اختلافات بارزة في ردود اثنين من نماذج الذكاء الاصطناعي المجانية والمفتوحة المصدر عند تعاطيهما مع أسئلة حول قضايا واقعية، حيث تبين أن النماذج تعتمد في إجاباتها على افتراضات حول هوية المستخدم مثل العرق أو الجنس أو العمر. وقد أظهرت إحدى الحالات أن أحد النماذج قدم توصية براتب ابتدائي منخفض لمتقدمين من أصحاب البشرة السمراء، مما يشير إلى أن الانحيازات اللغوية في هذه النماذج أوسع من تصورات الكثيرين وتؤثر بشكل واضح في نتائجها الموجهة للمستخدمين.
اعتمد الباحثون في دراستهم على مجموعتي بيانات، الأولى بيانات PRISM Alignment التي جُمعت في نهاية عام 2024 وتضم آلاف المحادثات بين مستخدمين ونماذج لغوية متنوعة مع مراعاة سماتهم الشخصية مثل الجنس والعرق والعمر والدين والمهنة. أما المجموعة الثانية، فهي بيانات خاصة تحتوي على أسئلة حياتية صيغت بلغة المتحدث الأول، ولا يُفترض أن يتغير محتوى الرد عليها بتغير هوية المُرسل. وشملت الأسئلة مجالات متنوعة أبرزها التوجيه الطبي والمشورة القانونية واستحقاق الدعم الحكومي والمسائل السياسية الشائكة وتقدير الرواتب. وقد صاغ الباحثون الأسئلة بحيث تتطابق مع أسلوب المستخدم اللغوي بهدف رصد أثر سمات المستخدم الافتراضية في الإجابات.
ركزت الدراسة على نموذجين رئيسيين: نموذج Llama3 المطور من ميتا والذي يحتوي على 70 مليار معامل ويستخدم كثيراً في قطاع الخدمات المصرفية وبلغت تحميلاته في 2025 أكثر من مليار، ونموذج Qwen3 الذي طورته علي بابا ويضم 32 مليار معامل وتصدر قائمة النماذج المفتوحة المصدر الرائدة في الذكاء الاصطناعي متجاوزاً DeepSeek R1 في مايو من العام الحالي.
النتائج أظهرت حساسية واضحة في ردود النماذج للعرق والجنس، حيث كانت الإجابات تتغير في أكثر من نصف الأسئلة المقدمة، خاصة عندما كان المستخدم من أصحاب البشرة السمراء أو من النساء مقارنة بنظرائهم من أصحاب البشرة البيضاء أو الرجال، وتفاوتت الاتجاهات والانحيازات باختلاف الأصل اللاتيني أو الآسيوي للمستخدمين أو بحسب المجال. فعلى سبيل المثال، أوصت النماذج برواتب أقل لأصحاب البشرة السمراء كما منح Llama3 تقديرات رواتب أعلى للنساء، وجاءت النصائح الطبية أكثر تحفيزاً لأصحاب البشرة السمراء لطلب الرعاية الصحية حتى عند تماثل الأعراض الموصوفة.
أما في الشأن القانوني، فقد قدم Qwen3 استشارات أقل جدوى لمستخدمين من خلفيات عرقية مختلطة، لكنه دعم أصحاب البشرة السمراء أكثر مقارنة بالبيض، بينما ركز Llama3 على تقديم ردود داعمة للنساء. كذلك، عند التعامل مع موضوعات سياسية، أظهر كل من النموذجين ميلاً لأن تكون الإجابات ذات توجه ليبرالي تجاه النساء أو المستخدمين من أصول لاتينية، بينما أخذت منحى محافظاً أكثر لدى أصحاب البشرة السمراء.
الدراسة أوضحت أن هذه الانحيازات ليست مرتبطة بتصريحات هوية المستخدم الصريحة، وإنما بناء على استدلالات خفية من الأنماط اللغوية في الأسئلة، الأمر الذي قد يصعب كشفه. لذلك دعا الباحثون إلى تطوير أدوات فعالة لرصد وتقييم هذه التغيرات في الإجابات بناءً على الهوية الاجتماعية واللغوية قبل استخدام النماذج بشكل موسع في المؤسسات.
الباحثون حذروا من أن استمرار هذه الانحيازات دون معالجة قد يؤدي إلى ترسيخها في أنظمة الذكاء الاصطناعي، خاصة مع محدودية القدرة على التحكم الكامل في بيانات تدريب النماذج أو توجيهها من الناحية الأخلاقية. كما شددوا على أهمية أن تشمل الدراسات المستقبلية نماذج شائعة مثل ChatGPT لضمان عدالة وشمولية إجابات أنظمة الذكاء الاصطناعي لجميع المستخدمين.