
هلوسة الذكاء الاصطناعي 2026: كيف تكتشف أخطاء ChatGPT وClaude وGemini قبل أن تتورّط
Photo: Pavel Danilyuk
النقاط المغطاة في المقال
محامٍ في نيويورك دفع غرامة قدرها 5000 دولار لأنه استشهد بست قضايا مختلقة كتبها له ChatGPT في مذكرة قانونية رسمية أمام محكمة فيدرالية. القاضي وصف القضايا بـ"وهمية بالكامل". بعد ذلك الحادث عام 2023، رُصدت 1523 حالة موثقة لاستشهاد محامين بقرارات قضائية لم توجد أصلاً. لكن هلوسة الذكاء الاصطناعي ليست مشكلة المحامين وحدهم، بل تطال كل من يستخدم ChatGPT وClaude وGemini دون فحص ما يكتبه.
مشكلة هلوسة الذكاء الاصطناعي هي الفجوة الأخطر بين ما يبدو عليه الرد وما هو فعلاً. النموذج يكتب بثقة كاملة بأرقام دقيقة وأسماء مصادر تبدو حقيقية، لكنها مختلقة بالكامل. التقارير الصادرة في 2026 من Vectara وArtificial Analysis تكشف أن أحدث نماذج OpenAI وAnthropic وGoogle تهلوس بنسب تتراوح بين 1.8% و23% حسب المهمة. يشرح هذا الدليل كيفية اكتشاف الهلوسة قبل أن تستند إلى معلومة خاطئة في تقرير عمل أو امتحان جامعي أو نقاش عام.
ما هي هلوسة الذكاء الاصطناعي ولماذا تحدث
هلوسة الذكاء الاصطناعي ببساطة: النموذج يخترع معلومة لا وجود لها ويقدمها بنبرة واثقة كأنها حقيقة. ChatGPT أو Claude أو Gemini لا يبحثون في قاعدة بيانات تحقق من الأرقام، بل يتنبؤون بالكلمة التالية الأرجح إحصائياً بناءً على ما دُرّبوا عليه. حين تسأل عن قضية قانونية محددة لم يرها النموذج في تدريبه، يملأ الفراغ بنص يبدو شكلاً قانونياً سليماً مع اسم قاضٍ وتاريخ ورقم قضية، لكنه مولّد من العدم.
السبب الجذري هو أن نماذج اللغة الكبيرة (LLMs) صُممت لتوليد نص متماسك لا للتحقق من الحقائق. الفرق بين السرعة والدقة واضح: نموذج يجيب فوراً سيلجأ إلى التخمين بدلاً من الاعتراف بأنه لا يعرف. هذا ما يسميه باحثو Vectara "التناقض الفعلي" أي عدم تطابق المخرَج مع المصدر. وفقاً لدراسة Stanford HAI لعام 2025، تراوحت معدلات الهلوسة في النماذج الرائدة بين 3% و20% بحسب نوع المهمة، وقد تصل إلى 33% في البحث القانوني المعقد.
الفرق بين ثلاثة أنواع من الأخطاء
أولاً هلوسة الحقائق وهي اختلاق رقم أو اسم أو حدث لم يحصل. ثانياً هلوسة المصادر وهي ذكر دراسة أو كتاب أو موقع بعنوان مقنع لكنه غير موجود. ثالثاً هلوسة التفسير وهي تحريف ما قاله المصدر فعلاً وإضافة استنتاج لم يرد فيه. الثلاثة خطرة لكن الثانية والثالثة هما الأصعب اكتشافاً لأن القارئ يفترض أن المرجع موثوق.
لماذا تزيد الهلوسة مع "النماذج المفكِّرة"
اكتشاف مفاجئ من Vectara في 2026: نماذج التفكير العميق (reasoning models) مثل GPT-5 high وGrok-4 fast reasoning تهلوس أكثر من النسخ العادية. السبب أن التفكير المطوّل يدفع النموذج لإضافة استنتاجات وروابط لم ترد في المصدر، فيخرج بنتيجة "منطقية" لكنها مبنية على مقدمات ملفّقة. Grok-4 fast reasoning سجل 20.2% هلوسة مقابل 19.7% للنسخة الاعتيادية، وGPT-5 high بلغ 15.1%.
أمثلة عملية من تجارب مستخدمين عرب
المستخدم العربي يواجه أنواعاً إضافية من الهلوسة بسبب فقر النموذج في البيانات العربية. سؤال ChatGPT عن لائحة نظام العمل السعودي قد يخلط بين النظام القديم والمستجدات الأخيرة من وزارة الموارد البشرية والتنمية الاجتماعية. الأسئلة عن أنظمة قانونية وإدارية محلية تنتج إجابات أقل دقة مقارنة بالأسئلة العامة بالإنجليزية لأن النموذج لم يُدرَّب على قدرٍ كافٍ من النصوص الحكومية العربية. الحل: اطلب من النموذج تأكيد التاريخ الذي يستند إليه، وتحقق دائماً من المصدر الحكومي الرسمي مثل بوابة استشارات أو بوابة حكومة الإمارات الرسمية.
معدلات هلوسة الذكاء الاصطناعي الفعلية في 2026
قائمة هلوسة الذكاء الاصطناعي الأشهر هي Vectara HHEM Leaderboard، وهي تختبر النماذج بتلخيص وثائق حقيقية ثم تقيس كم مرة تخترع معلومة لا توجد في النص الأصلي. آخر تحديث في 11 مايو 2026 شمل أكثر من 100 نموذج. القائمة مفتوحة المصدر ومنشورة على GitHub، وتُعدّ المرجع الصناعي الأول لقياس الهلوسة في مهام الإيجاز الموجَّه.
المفاجأة الأولى: النماذج الصغيرة المخصصة تتفوّق على العمالقة في هذا الاختبار. finix_s1_32b من شركة Ant Group الصينية يتصدر بنسبة 1.8%، يليه GPT-5.4 nano من OpenAI بـ3.1%، ثم Gemini 2.5 Flash Lite من Google بـ3.3%. النسخ المتوسطة من Claude وOpus تأتي في المنتصف بنسب 10-12%. للمستخدم العربي الذي يدفع 20 دولاراً شهرياً، فهذا يعني أن النموذج الأغلى ثمناً ليس بالضرورة الأكثر دقة.
جدول مقارنة معدلات الهلوسة وفقاً لـ Vectara HHEM-2.3
| النموذج | الشركة | معدل الهلوسة | سعر الاشتراك الشهري |
|---|---|---|---|
| GPT-5.4 nano | OpenAI | 3.1% | عبر API فقط |
| Gemini 2.5 Flash Lite | 3.3% | مجاني محدود | |
| GPT-4.1 | OpenAI | 5.6% | 20 دولار (ChatGPT Plus) |
| Grok-3 | xAI | 5.8% | 30 دولار (Super Grok) |
| Gemini 2.5 Pro | 7.0% | 19.99 دولار (Google AI Pro) | |
| GPT-5.5 | OpenAI | 9.3% | 20 دولار (ChatGPT Plus) |
| Claude Haiku 4.5 | Anthropic | 9.8% | عبر API فقط |
| Claude Sonnet 4.6 | Anthropic | 10.6% | 20 دولار (Claude Pro) |
| Claude Opus 4.7 | Anthropic | 12.0% | 100 دولار (Claude Max 5x) |
| Gemini 3 Pro Preview | 13.6% | 200 دولار (AI Ultra) | |
| Grok-4 Fast Reasoning | xAI | 20.2% | 40 دولار (X Premium+) |
الأسعار من المواقع الرسمية بتاريخ مايو 2026. ChatGPT Plus في السعودية حوالي 99 ريالاً، وفي الإمارات حوالي 79 درهماً بعد التحويل الضريبي. للاطلاع على تفاصيل أوسع، راجع مقارنتنا الكاملة لأسعار ChatGPT وClaude وGemini في 2026.
قائمة AA-Omniscience: مقياس بديل أكثر صرامة
اختبار AA-Omniscience من Artificial Analysis يطرح 6000 سؤال موزعة على 42 موضوعاً اقتصادياً في القانون والصحة والأعمال. ما يميّزه: هذا الاختبار يعاقب التخمين ويكافئ الاعتراف بعدم المعرفة. النتيجة الصادمة أن معظم النماذج، باستثناء ثلاثة فقط، ترتكب أخطاءً أكثر مما تصيب في إجاباتها عند مواجهة أسئلة صعبة. ويُسجّل Command A+ من Cohere نسبة هلوسة 14.1% ليتصدر القائمة، ثم Qwen 3.7 Max بنسبة 22.9%.
المجالات الأكثر خطورة: قانون وطب ومال
ليست كل هلوسة تستحق القلق نفسه. حين تطلب من ChatGPT اقتراح وصفة عشاء فالخطأ يكلفك وجبة سيئة. لكن حين تستخدمه في تشخيص دواء أو صياغة عقد أو احتساب زكاة، الخطأ قد يكلفك المال أو الصحة أو السمعة. هذه المجالات الثلاثة سجلت أعلى معدلات الهلوسة في دراسات 2025-2026 ويجب التعامل معها بحذر استثنائي.
القانون: من 6% إلى 33% في أدوات بحث متخصصة
قضية Mata v. Avianca عام 2023 هي الأشهر لكنها ليست الأخيرة. قاعدة بيانات Damien Charlotin رصدت 1523 حالة استشهاد بقضايا وهمية ولّدها ذكاء اصطناعي في محاكم حول العالم. حتى أدوات قانونية متخصصة مثل Westlaw AI أظهرت هلوسة تصل إلى 33% في اختبارات Stanford رغم أنها مدعومة بـRAG (بينما سجّلت Lexis+ AI نحو 17%). الدرس: لا تثق باسم محكمة أو رقم قضية حتى تفتح موقع المحكمة بنفسك وتتأكد.
الطب: أرقام تتراوح بين 10% و53%
دراسة سريرية على GPT-4o سجلت 53% هلوسة قبل تطبيق ضوابط منهجية، انخفضت إلى 23% بعدها. النسخة الأحدث GPT-5 في وضع التفكير حققت 1.6% على اختبار HealthBench لكن هذا الرقم يخص أسئلة صحية عامة لا توصيات علاجية محددة. القاعدة: استخدم النموذج لشرح مفهوم طبي أو تبسيط نتيجة فحص، لا لاختيار دواء أو جرعة. الجمع بين هذه النماذج وإشراف طبيب حقيقي هو الفارق بين السلامة والكارثة. اقرأ أيضاً: كيف تحمي عائلتك من احتيال استنساخ الصوت، وهو خطر ذكاء اصطناعي آخر يطال جانبيك الصحي والمالي.
المال والاستثمار: لا توصيات ولا أسعار مباشرة
أسعار الأسهم والعملات تتغير كل ثانية والنموذج التقليدي لا يصلها فوراً. ChatGPT Plus بنموذج GPT-5 لا يعرف سعر سهم أرامكو اليوم، وما يقوله عن "تذبذب الريال" مبني على ما قرأه قبل أشهر. حتى مع تفعيل البحث في الويب، فإن أداة البحث الخاصة بـChatGPT سجلت 67% هلوسة في الاستشهادات، مقابل 37% لـPerplexity Sonar Pro. هذا يعني أن أكثر من نصف الروابط التي ينقلها لك قد تكون مغلوطة أو خارج السياق.
الدين والفقه: مجال لا يحتمل التخمين
الأسئلة الشرعية تمثل تحدياً خاصاً للنماذج لأن الإجابة تعتمد على مذهب فقهي وسياق ثقافي. تجارب على ChatGPT وGemini أظهرت اختلاق أحاديث بأسانيد وهمية ونسبتها لكتب صحيحة. الحل الوحيد المضمون: الإفتاء الرسمي عبر هيئة كبار العلماء أو دار الإفتاء المصرية أو الأوقاف الإماراتية. استخدم النموذج لتبسيط المفهوم بعد التأكد من المصدر، لا للاستفتاء المباشر.
7 طرق عملية لاكتشاف هلوسة الذكاء الاصطناعي قبل أن تتورّط
الفحص المنهجي يقلل خطر الهلوسة بنسبة 40-71% وفقاً لأبحاث Microsoft وتقنية RAG، ولا يحتاج إلى برامج متخصصة. سبع طرق عملية يستطيع أي مستخدم عربي تطبيقها فوراً، رتبتها من الأسهل إلى الأكثر تأكيداً:
1. اطلب المصدر صراحة في الطلب الأول
صياغة الطلب وحدها تخفض الهلوسة بشكل ملحوظ. بدل "اشرح لي قاعدة الزكاة على الذهب" قل "اشرح لي قاعدة الزكاة على الذهب مع ذكر اسم الحديث أو الفتوى ورقمها في المرجع، وإذا لم تتأكد فاكتب صراحة لا أعرف". هذه الصياغة تُسمى "القيد السلبي" وتجبر النموذج على الاعتراف بالجهل بدل التخمين.
2. اطلب درجة الثقة من النموذج نفسه
بعد كل رد، اكتب: "على مقياس من 1 إلى 10 ما درجة ثقتك في هذه المعلومة؟ وما الجزء الذي قد تكون غير متأكد منه؟". النماذج الحديثة مثل Claude Opus 4.7 مُدرَّبة على الإقرار بانخفاض ثقتها، وهذه الأداة تكشف لك الأجزاء غير المؤكدة من الرد.
3. افتح الرابط بنفسك
قاعدة لا تُكسر: لا تستشهد بأي رابط حتى تنقر عليه وتقرأ الصفحة. هذه القاعدة وحدها كانت ستنقذ المحامي في قضية Mata v. Avianca. إذا قال لك Perplexity إن مصدر الرقم هو تقرير McKinsey لعام 2025، افتح الرابط واقرأ التقرير. عدم تطابق محتوى الصفحة مع ادعاء النموذج هو إنذار فوري.
4. اسأل نموذجاً ثانياً بنفس السؤال
تقاطع الإجابات أداة قوية. اسأل ChatGPT ثم اسأل Claude بنفس الصياغة. إذا قدّم النموذجان أرقاماً متطابقة فالثقة ترتفع. إذا تباينا فأحدهما يهلوس على الأقل. تذكّر فقط أن النموذجَين قد يكونان متفقَين على نفس الخطأ، خصوصاً في المعلومات الجديدة جداً.
5. ابحث عن العبارة الحرفية في Google
اقتبس جملة محددة من الرد بين علامتي تنصيص وابحث عنها في Google. إذا كانت معلومة شائعة فستجد عشرات النتائج. إذا لم يظهر شيء، فعلى الأرجح النموذج اخترعها. هذه الطريقة فعّالة بشكل خاص مع الاقتباسات المنسوبة لشخصيات أو الأرقام الدقيقة.
6. استخدم نموذجاً بحثياً مدعوماً بـRAG
Perplexity وChatGPT Search وGemini مع وضع البحث تستخرج إجاباتها من نتائج بحث حية بدل ذاكرة التدريب. هذا يقلل الهلوسة لكنه لا يلغيها. Perplexity Sonar Pro هو الأقل خطأً حالياً بـ37% في الاستشهادات وفقاً لاختبار Columbia Journalism Review. لمزيد من التفاصيل اقرأ دليل محركات البحث بالذكاء الاصطناعي 2026.
7. قسّم السؤال إلى أجزاء صغيرة
السؤال المركّب يدفع النموذج إلى التخمين. بدلاً من "قارن لي ضرائب الأرباح الرأسمالية في السعودية والإمارات ومصر" قسّمها إلى ثلاثة أسئلة منفصلة. النموذج يُنتج هلوسة أقل حين يُسأل بمسألة واحدة محددة، ويسهل عليك التحقق من كل جواب منفرداً.
أيها أصدق فعلاً: ChatGPT وClaude وGemini وPerplexity
الإجابة المختصرة: لا يوجد نموذج هو "الأدق" على الإطلاق، بل لكل مهمة نموذجها الأمثل. اختبارات Vectara وAA-Omniscience وColumbia Journalism Review كشفت عن تخصصات مختلفة تماماً، وفهم هذا الفارق يختصر عليك المال والوقت ويحميك من الإحراج. وفيما يلي تقييمنا بعد قراءة نتائج 2026 الكاملة:
ChatGPT (GPT-5.5 وGPT-5.4): الأفضل في التلخيص العام
GPT-5.4 nano بهلوسة 3.1% يتصدر القائمة عملياً، لكنه متاح فقط عبر API. النسخة المتاحة للمستخدم العادي ضمن اشتراك ChatGPT Plus بـ20 دولاراً شهرياً (99 ريالاً سعودياً) هي GPT-5.5 بهلوسة 9.3%. مناسب لتلخيص مقال أو إعادة صياغة نص أو أفكار محتوى. لا يُنصح به للبحث القانوني الدقيق أو الأرقام الحساسة.
Claude (Sonnet 4.6 وOpus 4.7): الأفضل في الاعتراف بالجهل
سجّل Claude Sonnet 4.6 نسبة 10.6% في اختبار Vectara، غير أنه في AA-Omniscience تفوّق بفارق كبير لأنه مُدرَّب على الإقرار بحدوده بدلاً من التخمين. وهذا يعني أنه عند الأسئلة الحساسة قانونياً أو طبياً سيكون رده "لا أعرف هذا التفصيل بدقة" أكثر من المنافسين. يتيح اشتراك Claude Pro بـ20 دولاراً (نحو 75 درهماً إماراتياً) الوصول إلى Sonnet 4.6 وOpus 4.7. وللأبحاث الجادة، يبقى Claude الخيار الأوثق والأجدر بالثقة.
Gemini (2.5 Pro و3 Pro): الأفضل في البحث الفوري على الإنترنت
Gemini 2.5 Pro بنسبة 7% هلوسة يستفيد من تكامل البحث في Google. Gemini 3 Pro Preview سجل 13.6% أعلى لأنه نموذج تفكير عميق. خطة Google AI Pro بـ19.99 دولاراً شهرياً جيدة لمن يحتاج البحث المرجعي مع روابط حية. تجنب اعتماده على معلومات قانونية أو دينية متخصصة دون تحقق مستقل. تابع تفاصيل جيميني بعد Google I/O 2026 لمعرفة آخر تحديثات الإصدارات.
Perplexity Sonar Pro: الأقل أخطاءً في الاستشهادات
Perplexity ليست نموذجاً بل واجهة بحث مدعومة بنماذج متعددة. اشتراكها 20 دولاراً شهرياً يفتح Sonar Pro الذي حقق أدنى معدل هلوسة في الاستشهادات بنسبة 37% وفقاً لاختبار Columbia Journalism Review، مقابل 67% سجّله ChatGPT Search. وللأبحاث الأكاديمية والصحفية هي الخيار الأكثر دقة في الروابط، لكنها أبطأ في التوليد الإبداعي.
توصيتنا حسب نوع المستخدم
للطالب الجامعي العربي الذي يكتب أبحاثاً: Perplexity Sonar Pro للمصادر مع Claude للصياغة. للمحامي أو الطبيب: Claude Opus 4.7 لأنه يُقرّ بحدوده المعرفية، مع تحقُّقٍ يدوي إلزامي. للمسوّق وصانع المحتوى: ChatGPT Plus كافٍ لأن دقة المصادر أقل أهمية. للباحث المالي والإعلامي: Perplexity أساسي مع Gemini كتأكيد. للمزيد عن استخدام النماذج معاً، اطّلع على مقال: لماذا يُعدّ استخدامها معاً الأمثل في 2026.
خط عمل عملي للتحقق من أي رد ذكاء اصطناعي
المعلومة الصحيحة ليست هدف الذكاء الاصطناعي بل هدفك أنت. هذا البروتوكول البسيط يأخذ منك دقيقتين إضافيتين لكل رد مهم ويحميك من 80% من الأخطاء. صممته بناءً على أبحاث Microsoft Research وStanford HAI، وعدّلته للمستخدم العربي الذي يتعامل بمزيج لغوي وتقني.
قبل السؤال: حدد مستوى المخاطر
اسأل نفسك: ما الذي أخسره إذا كانت الإجابة خاطئة؟ إذا كانت الإجابة لا شيء (مثل قصة للتسلية فحسب) فاستخدم النموذج بحرية. أما إذا كانت سمعة أو مال أو قرار طبي أو قانوني، فطبّق البروتوكول الكامل. هذا التصنيف وحده يوفر ساعات من التحقق غير الضروري.
أثناء السؤال: ثلاث جمل سحرية
أضف هذه الجمل إلى طلبك الأول: أولاً "اذكر مصدر كل رقم وتاريخ مع الرابط إن أمكن". ثانياً "إذا كانت معلومة قد تغيرت بعد 2024 أخبرني بذلك صراحة". ثالثاً "إذا لم تكن واثقاً، اكتب لا أعرف بدلاً من التخمين". دراسات هندسة الأوامر (prompt engineering) أكدت أن صياغة الطلب بهذه التفاصيل تخفض الهلوسة بشكل ملموس مقارنة بالأسئلة المفتوحة.
بعد الرد: فحص النقاط الثلاث
أولاً افتح كل رابط بنفسك وتأكد أن الصفحة موجودة وأن محتواها يتطابق مع ادعاء النموذج. ثانياً اقتبس كل رقم محدد وابحث عنه في Google بين علامتي تنصيص. إذا لم يظهر فهو مشكوك فيه. ثالثاً للقرارات المهمة، سَلْ نموذجاً منافساً السؤالَ نفسه. التطابق يرفع الثقة، والتباين إنذار تحذيري. إذا فشل أي فحص من الثلاثة، اعتبر الرد غير موثوق ولا تستخدمه. كثير من مشاكل الذكاء الاصطناعي تشبه التزييف العميق في كونها تبدو صحيحة حتى تطبق الفحص.
للاستخدام الجاد: استثمر في أداة بحث RAG
إذا كنت تنتج محتوى أو تكتب أبحاثاً يومياً، اشتراك Perplexity Pro بـ20 دولاراً شهرياً أو NotebookLM المجاني من Google هما الأكثر دقة. كلاهما يقيد الإجابة بالمصادر المرفوعة أو نتائج البحث الحية، وهو ما يقلل اختلاق المعلومات بشكل ملموس. NotebookLM تحديداً قوي للطلاب لأنه يُجبر النموذج على البقاء داخل مستنداتك المرفوعة فقط (راجع دليلنا الكامل حول NotebookLM للطلاب العرب).
قائمة فحص يومية للاستخدام الذكي
للمستخدم العادي الذي يتعامل مع الذكاء الاصطناعي ساعات يومياً، نقترح قائمة الفحص هذه: قبل قبول أي رقم اقتبسه وابحث عنه في Google. قبل استخدام أي اسم شخصية أو منشأة افتح صفحتها الرسمية. قبل اعتماد أي معلومة تاريخية تأكد من مصدرين مستقلين. قبل إرسال نص لجهة عمل اقرأه كأنه كُتب من شخص لا تثق به ولا تعرفه. هذه العادات الأربع كفيلة بحماية سمعتك المهنية حتى لو سجل النموذج رقماً قياسياً في الهلوسة.
متى تتجاهل النموذج تماماً
هناك حالات لا يستحق فيها استخدام الذكاء الاصطناعي مهما كانت الإغراءات. القرارات الطبية الحرجة، المسائل الشرعية المتخصصة، التحقق من قضايا قانونية مفتوحة، والأرقام المالية الفورية: هذه الفئات تحتاج إنساناً متخصصاً لا نموذجاً يخمن. وفّر النموذج لتلخيص ما قرأته أو شرح مفهوم أو صياغة بريد إلكتروني. القاعدة البسيطة: إذا كان الجواب الخاطئ سيُحدث ضرراً لا يمكن التراجع عنه، فلا تسأل النموذج أصلاً.
المصادر
كل الأرقام والبيانات في هذا الدليل مأخوذة من مصادر مفتوحة وموثقة، رتبناها هنا لتفحصها بنفسك:
- Vectara Hallucination Leaderboard على GitHub (آخر تحديث 11 مايو 2026)
- AA-Omniscience Benchmark من Artificial Analysis
- Stanford HAI AI Index Report 2025
- تغطية Legal Dive لقضية Mata v. Avianca
- قاعدة بيانات Damien Charlotin لحالات الهلوسة في المحاكم
- Scientific American عن استمرار خطأ المحامين
- صفحة الأسعار الرسمية لـChatGPT من OpenAI
- صفحة الأسعار الرسمية لـClaude من Anthropic
- دراسة Chain-of-Thought وأثرها على كشف الهلوسة (arXiv)
- مدونة Vectara عن الجيل الجديد من القائمة


