
Claude Opus 4.7: المميزات الحقيقية والأسعار ونتائج الاختبارات بالأرقام
Photo: Google DeepMind
النقاط المغطاة في المقال
أطلقت Anthropic نموذج Claude Opus 4.7 في 16 أبريل 2026، وتصفه بأنه أقوى نماذجها المتاحة للعموم حتى الآن. الرقم الأبرز: قفزة 13% في اختبارات البرمجة مقارنة بسابقه Opus 4.6، مع دعم صور بدقة 3.75 ميغابكسل - أي ثلاثة أضعاف ما كان متاحًا سابقًا. لكن الصورة ليست مثالية: المُرمِّز الجديد (tokenizer) قد يرفع تكلفة الاستخدام الفعلية بنسبة تصل إلى 35%، رغم أن سعر التوكن لم يتغيّر رسميًا.
في هذا الدليل نفحص كل رقم وميزة جديدة في Claude Opus 4.7 بالتفصيل، ونقارنه مباشرة بـ Opus 4.6 وGPT-5.4 وGemini 3.1 Pro، ونجيب عن السؤال الذي يطرحه كل مطوّر ومستخدم عربي مهتم بالذكاء الاصطناعي: هل يستحق الترقية فعلًا؟ إن كنت تبحث عن مقارنة شاملة بين أدوات الذكاء الاصطناعي، فهذا المقال يركّز تحديدًا على ما يقدمه Opus 4.7 الجديد وما يعنيه لك.
ما الجديد في Claude Opus 4.7؟ أبرز التحسينات
يركّز Claude Opus 4.7 على ثلاثة محاور رئيسية: البرمجة المتقدمة، والرؤية عالية الدقة، والتحكم الدقيق في الأداء. أبرز ما يميّز هذا الإصدار أنه يتعامل مع المهام البرمجية المعقدة وطويلة المدة بثبات واضح، حيث أفاد مستخدمون أنهم أصبحوا يسندون إليه أصعب أعمالهم البرمجية التي كانت تحتاج إشرافًا مستمرًا. النموذج يتحقق من مخرجاته بنفسه قبل تسليم النتائج، وهذا تحسّن ملموس في الاعتمادية مقارنة بالإصدارات السابقة. كذلك تحسّن اتباع التعليمات بشكل جوهري - النموذج يلتزم بالتفاصيل الدقيقة في الأوامر بحرفية أكبر. لكن هذه الحرفية سلاح ذو حدّين: الأوامر المكتوبة لنماذج سابقة قد تُنتج نتائج مختلفة عما تتوقع، لذا راجع أوامرك المهمة بعد الترقية.
على صعيد الرؤية، قفزت دقة الصور المدعومة من 1.15 ميغابكسل إلى 3.75 ميغابكسل - أي أكثر من ثلاثة أضعاف. هذا يعني قدرة أفضل بكثير على قراءة المخططات الهندسية والتراكيب الكيميائية والمستندات الدقيقة. أضافت Anthropic أيضًا مستوى جهد جديدًا يُسمّى xhigh يقع بين high وmax، يمنح المطورين تحكمًا أدق في التوازن بين عمق التفكير وسرعة الاستجابة. كذلك دخلت ميزة "ميزانيات المهام" (Task Budgets) مرحلة البيتا العامة، وتتيح للمطورين تحديد سقف لاستهلاك التوكنات في المهام المستقلة لمنع التكاليف غير المتوقعة.
التحسينات في Claude Code
حصل Claude Code على تحديثات مهمة مع Opus 4.7. أصبح وضع Auto متاحًا لمشتركي خطة Max، وهو يتيح للنموذج اتخاذ قرارات نيابة عنك مع صلاحيات محددة. كما أُضيف أمر /ultrareview الجديد لجلسات مراجعة الكود المخصصة، ويحصل مشتركو Pro وMax على 3 جلسات مراجعة مجانية. أفادت شركة Box أن استخدام Opus 4.7 خفّض عدد استدعاءات النموذج بنسبة 56% واستدعاءات الأدوات بنسبة 50% مقارنة بـ Opus 4.6، وهذا يعني كفاءة أعلى وتكلفة أقل في بيئات الإنتاج.
نتائج اختبارات Claude Opus 4.7 بالأرقام
الأرقام هي الفيصل عند تقييم أي نموذج ذكاء اصطناعي. حقق Claude Opus 4.7 نتيجة 87.6% في اختبار SWE-bench Verified الذي يقيس القدرة على حل مشكلات برمجية حقيقية من مستودعات GitHub، بزيادة 6.8 نقطة مئوية عن Opus 4.6 الذي سجّل 80.8%. في اختبار SWE-bench Pro الأصعب، قفز من 53.4% إلى 64.3% بزيادة 10.9 نقطة - من أقوى القفزات في اختبارات البرمجة. أما في CursorBench الذي يختبر أداء البرمجة داخل بيئات التطوير الحقيقية، فسجّل 70% مقابل 58% لسابقه. وفي اختبار Rakuten-SWE-Bench الذي يستخدم مهام برمجية من بيئة إنتاج حقيقية، حلّ الإصدار الأحدث ثلاثة أضعاف المهام مقارنة بسابقه. هذه الأرقام ليست نظرية - إنها تعكس قدرة النموذج على التعامل مع كود حقيقي في مشاريع ضخمة.
في اختبارات المنطق والمعرفة، سجّل Opus 4.7 نتيجة 94.2% في GPQA Diamond المتخصص في الأسئلة العلمية الصعبة، مقارنة بـ 91.3% لـ Opus 4.6. وفي اختبار HLE بدون أدوات، قفز من 40% إلى 46.9%. أما MMLU فتحسّن تحسنًا طفيفًا من 91.1% إلى 91.5%. في مجال الوكلاء الذكية، حقق 77.3% في MCP-Atlas مقابل 62.7% لسابقه - قفزة 14.6 نقطة وهي الأكبر بين اختبارات النص. وسجّل 78% في OSWorld-Verified الذي يختبر التفاعل مع أنظمة التشغيل، و64.4% في Finance Agent محققًا أفضل نتيجة عالميًا (state-of-the-art) في هذا الاختبار المتخصص بالقرارات المالية المعقدة.
جدول مقارنة النتائج
| الاختبار | Opus 4.7 | Opus 4.6 | الفرق |
|---|---|---|---|
| SWE-bench Verified | 87.6% | 80.8% | +6.8 |
| SWE-bench Pro | 64.3% | 53.4% | +10.9 |
| CursorBench | 70% | 58% | +12 |
| GPQA Diamond | 94.2% | 91.3% | +2.9 |
| Terminal-Bench 2.0 | 69.4% | 65.4% | +4.0 |
| Finance Agent | 64.4% | 60.7% | +3.7 |
| MCP-Atlas | 77.3% | 62.7% | +14.6 |
| OSWorld-Verified | 78% | 72.7% | +5.3 |
| Visual Acuity | 98.5% | 54.5% | +44 |
الملاحظة المهمة: تراجع أداء Opus 4.7 في اختبارين. في BrowseComp انخفض من 84% إلى 79.3%، وفي CyberGym تراجع طفيفًا من 73.8% إلى 73.1%. هذا التراجع في CyberGym مقصود جزئيًا، حيث خفّضت Anthropic القدرات السيبرانية عمدًا مقارنة بنموذج Claude Mythos غير المتاح للعموم، مع إضافة حماية تكتشف وتحظر الطلبات عالية الخطورة تلقائيًا.
الرؤية عالية الدقة في Claude Opus 4.7: قفزة 3 أضعاف
من أبرز التحسينات في هذا الإصدار دعم الصور عالية الدقة. ارتفع الحد الأقصى لدقة الصور من 1,568 بكسل على الضلع الطويل (حوالي 1.15 ميغابكسل) إلى 2,576 بكسل (حوالي 3.75 ميغابكسل). هذه ليست زيادة هامشية - إنها أكثر من ثلاثة أضعاف عدد البكسلات التي يعالجها النموذج. والنتيجة ظهرت مباشرة في اختبار الدقة البصرية (visual acuity) حيث قفز من 54.5% إلى 98.5%، وفي اختبار CharXiv-R بدون أدوات ارتفع من 68.7% إلى 82.1%.
عمليًا، هذا يعني أن Opus 4.7 يقرأ النصوص الصغيرة في المخططات والرسوم البيانية بدقة شبه مثالية. المطورون الذين يعملون على واجهات المستخدم سيلاحظون تحسنًا كبيرًا في مهام computer use، حيث يدعم النموذج الآن تعيين إحداثيات البكسل بنسبة 1:1. كذلك تحسّن أداؤه في قراءة التراكيب الكيميائية والمخططات الهندسية المعقدة. هذا التحسن لا يتطلب أي تعديل في واجهة البرمجة - فقط أرسل صورًا بدقة أعلى والنموذج يتعامل معها تلقائيًا. الفرق واضح عند مقارنة النتائج: في اختبار CharXiv-R الذي يقيس فهم الرسوم البيانية العلمية، قفز الأداء بأدوات من 77.4% إلى 91%، وبدون أدوات من 68.7% إلى 82.1%. هذه الأرقام تعني أن النموذج أصبح قادرًا على استخراج البيانات من المخططات المعقدة بدقة تقارب أداء الإنسان.
حالات استخدام عملية للرؤية المحسّنة
أول استخدام واضح هو تحليل لقطات الشاشة عالية الدقة لتطبيقات الويب والموبايل، حيث يمكن للنموذج الآن قراءة كل عنصر بدقة دون الحاجة لتقسيم الصورة. ثاني استخدام هو قراءة المستندات الممسوحة ضوئيًا (scanned documents) بجودة أعلى بكثير من السابق. ثالث استخدام مهم للمنطقة العربية تحديدًا هو قراءة النصوص العربية في الصور، حيث تحتاج الحروف العربية المتصلة دقة أعلى للتمييز الصحيح بين الأحرف المتشابهة.
الاستخدام الرابع يخص المطورين الذين يبنون أدوات أتمتة واجهات المستخدم. دعم تعيين إحداثيات البكسل بنسبة 1:1 يعني أن النموذج يحدد موقع أي زر أو حقل إدخال بدقة متناهية على الشاشة. هذا يحوّل النموذج من أداة تحليل بصري إلى وكيل قادر على التفاعل مع التطبيقات كما يفعل المستخدم البشري. اختبار OSWorld-Verified الذي يقيس هذه القدرة تحديدًا أظهر تحسنًا من 72.7% إلى 78%، وهو فرق محسوس في تطبيقات الأتمتة الحقيقية.
مستوى الجهد xhigh وميزانيات المهام
أضاف الإصدار الجديد مستوى جهد جديدًا يُسمّى xhigh يقع بين high وmax. أصبح لدى المطورين الآن خمسة مستويات: low وmedium وhigh وxhigh وmax. توصي Anthropic باستخدام xhigh كإعداد افتراضي لمهام البرمجة والوكلاء الذكية، وهو المستوى الافتراضي في Claude Code عبر جميع الخطط. الفرق العملي بين high وxhigh أن النموذج يخصص توكنات أكثر للتفكير المعمّق، مما يعني إجابات أدق لكن أبطأ وأعلى تكلفة. السبب وراء إضافة هذا المستوى أن max كان مكلفًا جدًا للاستخدام اليومي، بينما high لم يكن كافيًا لبعض المهام البرمجية المعقدة. مستوى xhigh يسد هذه الفجوة تحديدًا ويمنحك جودة قريبة من max بتكلفة أقل.
أما ميزانيات المهام (Task Budgets) فدخلت مرحلة البيتا العامة على منصة Claude. تتيح هذه الميزة تحديد سقف استهلاك التوكنات للمهام المستقلة طويلة المدة. الحد الأدنى للميزانية 20,000 توكن، وهي استشارية وليست صارمة - أي أن النموذج يحاول الالتزام بها لكن قد يتجاوزها قليلًا إذا اقتضت المهمة. هذه الميزة حيوية لمن يشغّل وكلاء ذكية مستقلة، لأنها تمنع السيناريو المخيف: وكيل يعمل لساعات ويستهلك آلاف الدولارات من التوكنات دون رقابة. تخيّل على سبيل المثال وكيلًا برمجيًا يعمل على إصلاح مشكلة في مشروع كبير - بدون ميزانية محددة، قد يستمر في المحاولة والتجريب مستهلكًا مئات آلاف التوكنات. مع Task Budgets، تضع سقفًا وتتأكد أن النموذج يعطيك أفضل نتيجة ممكنة ضمن هذا الحد. النموذج ذكي بما يكفي ليوزّع الميزانية على مراحل المهمة بدلًا من إنفاقها كلها في الخطوة الأولى.
متى تستخدم كل مستوى؟
القاعدة البسيطة: استخدم low للمحادثات العادية والأسئلة البسيطة، وmedium للكتابة والتلخيص، وhigh للتحليل والبحث. أما xhigh فخصصه للبرمجة المعقدة والمهام التي تحتاج تفكيرًا عميقًا. واحتفظ بـ max للمهام الحرجة التي تريد فيها أقصى جودة بغض النظر عن التكلفة والوقت. تذكّر أن كل مستوى أعلى يستهلك توكنات أكثر، فاختر بحكمة حسب المهمة لتتحكم في التكاليف. مثال عملي: إذا كنت تستخدم النموذج لمراجعة كود pull request واحد، فـ xhigh مناسب. لكن إذا كنت تطلب منه إجراء محادثة عادية عن خيارات تصميم واجهة، فـ medium يكفي ويوفر عليك توكنات كثيرة. الفرق في التكلفة بين المستويات ملحوظ، ويختلف حسب طبيعة المهمة وحجم المخرجات.
أسعار Claude Opus 4.7: التكلفة الحقيقية بعد المُرمِّز الجديد
رسميًا، لم يتغير سعر التوكن: 5 دولارات لكل مليون توكن مدخل و25 دولارًا لكل مليون توكن مخرج - وهو ما يطابق أسعار Opus 4.6. لكن الحقيقة المهمة هي المُرمِّز الجديد (tokenizer). يحوّل النص الواحد إلى عدد أكبر من التوكنات بنسبة قد تصل إلى 35% حسب نوع المحتوى. النتيجة: مهمة كانت تكلفك 300 دولار شهريًا على Opus 4.6 قد تصل إلى 405 دولارات على Opus 4.7. ليس رفع سعر رسمي، لكن تكاليفك ستزيد فعليًا. تذكّر أن نسبة الزيادة تختلف حسب نوع المحتوى - النصوص البرمجية الإنجليزية تتأثر أقل من النصوص العربية الطويلة، لذا اختبر استهلاكك الفعلي قبل تقدير الميزانية الشهرية.
للتخفيف من هذا الأثر، توفر Anthropic خيارين: التخزين المؤقت للمدخلات (prompt caching) الذي يوفر حتى 90% على المدخلات المكررة بسعر 0.50 دولار لكل مليون توكن قراءة من الكاش، والمعالجة المجمعة (batch processing) بخصم 50% على المهام غير العاجلة بسعر 2.50 دولار مدخلات و12.50 دولار مخرجات لكل مليون توكن. أما الاشتراكات الشخصية، فتبدأ من خطة Pro بسعر 20 دولارًا شهريًا، وMax 5x بسعر 100 دولار شهريًا تمنح خمسة أضعاف حدود الاستخدام، وMax 20x بسعر 200 دولار شهريًا لعشرين ضعفًا.
مقارنة الأسعار مع المنافسين
| النموذج | المدخلات ($/مليون توكن) | المخرجات ($/مليون توكن) | الاستخدام الأمثل |
|---|---|---|---|
| Claude Opus 4.7 | 5 | 25 | البرمجة المتقدمة والوكلاء |
| Claude Sonnet 4.6 | 3 | 15 | الاستخدام العام |
| Claude Haiku 4.5 | 1 | 5 | المهام كبيرة الحجم |
النصيحة العملية: إذا كنت تستخدم Claude للمحادثات العادية أو الكتابة، فـ Sonnet 4.6 يكفيك بثلث التكلفة تقريبًا. خصّص الإصدار الأعلى للمهام التي تستحق فعلًا: البرمجة المعقدة، تحليل المستندات عالية الدقة، والوكلاء الذكية المستقلة. وللاطلاع على كيفية تقليل التكاليف باستخدام التخزين المؤقت والمعالجة المجمعة، راجع صفحة الأسعار الرسمية.
نقطة مهمة للمستخدمين في المنطقة العربية: لا توجد فروق في الأسعار بين المناطق الجغرافية عند استخدام واجهة البرمجة. لكن اشتراكات Pro وMax تُسعَّر بالدولار الأمريكي، وهذا يعني أن التكلفة الفعلية بالريال السعودي تتراوح بين 75 ريالًا شهريًا لخطة Pro و750 ريالًا لخطة Max 20x. قارن هذا مع اشتراكات ChatGPT Plus وGemini Advanced لتحديد الأنسب لميزانيتك.
Claude Opus 4.7 ضد GPT-5.4 وGemini 3.1 Pro
حسب Anthropic والدراسات المستقلة، يتفوق Opus 4.7 على GPT-5.4 وGemini 3.1 Pro في البرمجة الوكيلية (agentic coding) والتحكم بواجهات الحاسوب (computer use). نتيجة 87.6% في SWE-bench Verified تضعه في الصدارة بين النماذج المتاحة تجاريًا. لكن كل نموذج يتفوق في مجالات محددة. Gemini 3.1 Pro يتميّز بنافذة سياق أوسع وتكامل أعمق مع خدمات Google، بينما GPT-5.4 يحتفظ بقاعدة مستخدمين ضخمة ونظام بيئي أوسع. نافذة السياق متقاربة بين الثلاثة عند مليون توكن أو أكثر. لكن الفرق الجوهري في كيفية استغلال هذا السياق: النموذج الأحدث من Anthropic يتميّز بقدرة أفضل على الحفاظ على تماسك التعليمات عبر المحادثات الطويلة، وهذا ما يجعله مفضلًا في مهام الوكلاء الذكية التي تمتد لعشرات الخطوات.
النقطة الفارقة لصالح Opus 4.7 هي كفاءته في المهام الطويلة والمستقلة. تقرير Box عن خفض استدعاءات النموذج بنسبة 56% يعني أن النموذج ينجز المهمة بخطوات أقل، وهذا يوفر وقتًا وتكلفة. في المقابل، يبقى Opus 4.7 أغلى من منافسيه في سعر التوكن، خاصة مع تأثير المُرمِّز الجديد. لذلك القرار يعتمد على طبيعة استخدامك: إن كنت مطوّرًا يعتمد على الوكلاء الذكية والبرمجة المعقدة، فـ Opus 4.7 يستحق الاستثمار فيه. أما إن كنت تستخدم الذكاء الاصطناعي للكتابة والبحث، فالمنافسون يقدمون قيمة أفضل مقابل السعر. نقطة تستحق الذكر: اختبار Finance Agent الذي حقق فيه النموذج أفضل نتيجة عالمية (64.4%) يقيس القدرة على اتخاذ قرارات مالية معقدة باستخدام أدوات متعددة. هذا يعني أن الشركات في القطاع المالي بالخليج قد تجد في هذا النموذج أداة فعالة لأتمتة التحليلات المالية والتقارير، حيث يتفوق على كل المنافسين في هذا المجال تحديدًا.
ماذا عن Claude Mythos؟
تعترف Anthropic صراحة بأن Claude Mythos Preview يتفوق على Opus 4.7 في القدرات العامة، لكنها ترفض إطلاقه للعموم بسبب مخاوف أمنية - تحديدًا قدراته السيبرانية المتقدمة. Opus 4.7 يمثّل حلًا وسطًا: أداء أقوى من Opus 4.6 مع حواجز أمان تمنع الاستخدامات الخطرة. أطلقت Anthropic أيضًا "برنامج التحقق السيبراني" (Cyber Verification Program) يتيح لمتخصصي الأمن المعتمدين الوصول لقدرات إضافية بعد التحقق من هويتهم.
على صعيد الأمان، الإصدار الأحدث أفضل في مقاومة هجمات حقن الأوامر (prompt injection) ودقة إجاباته مقارنة بسابقه. التقييم الأمني وصفه بأنه موثوق نسبيًا وإن لم يكن مثاليًا بالكامل. نقطة الضعف الوحيدة المُوثقة هي ميل النموذج أحيانًا لتقديم إرشادات مُفصلة أكثر من اللازم حول المواد الخاضعة للرقابة، لكن هذا لا يؤثر على الاستخدامات التقنية والبرمجية. الخلاصة: إذا كنت تعتمد على تطبيقات الذكاء الاصطناعي في عملك اليومي، فالنموذج الجديد يقدّم أداءً أعلى مع مستوى أمان مماثل أو أفضل.
هل تستحق الترقية من Opus 4.6 إلى Opus 4.7؟
الجواب المختصر: نعم، إن كنت مطوّرًا أو تعتمد على الوكلاء الذكية. القفزة في SWE-bench Pro من 53.4% إلى 64.3% تعني أن المهام التي كانت تفشل في نصف الحالات أصبحت تنجح في ثلثيها. مستوى xhigh الجديد يوفر نقطة توازن ممتازة بين الجودة والتكلفة للمطورين. ودعم الصور عالية الدقة يفتح استخدامات جديدة كانت مستحيلة مع 1.15 ميغابكسل فقط. لكن انتبه لنقطة مهمة: إذا كتبت أوامرك (prompts) لتعمل مع Opus 4.6، فقد تحتاج لتعديلها. Opus 4.7 يفسّر التعليمات بحرفية أكبر، وقد تحصل على نتائج غير متوقعة مع الأوامر القديمة.
أما إن كنت مستخدمًا عاديًا على خطة Pro بـ 20 دولارًا شهريًا، فالترقية تحدث تلقائيًا ولن تلاحظ فرقًا كبيرًا في المحادثات اليومية. التحسن الأبرز ستلاحظه عند إرسال صور بدقة عالية أو طلب مهام برمجية معقدة. لا تحتاج لتغيير خطتك أو دفع مبلغ إضافي - النموذج الجديد يحلّ محل القديم تلقائيًا. أما إن كنت مهتمًا بالجانب البصري تحديدًا - كتحليل المستندات أو أتمتة واجهات المستخدم - فالقفزة في دقة الصور من 1.15 إلى 3.75 ميغابكسل تفتح إمكانيات كانت مستحيلة سابقًا. جرّب إرسال لقطة شاشة كاملة بدقة عالية وستلاحظ الفرق فورًا في دقة القراءة والتفاعل.
ملخص التوصيات حسب الاستخدام
للمطورين المحترفين الذين يعتمدون على الوكلاء والأتمتة: ترقية فورية - القفزة في البرمجة والرؤية تستحق بلا تردد. لمستخدمي Claude Code: فعّل مستوى xhigh واستفد من ميزانيات المهام لضبط التكاليف. للمستخدمين العاديين على خطة Pro أو المجانية: استمتع بالتحسينات التلقائية دون الحاجة لأي إجراء أو دفع إضافي من طرفك. للشركات والفرق: اختبر تأثير المُرمِّز الجديد على تكاليفك الشهرية قبل تحديث أنظمة الإنتاج. النموذج متاح الآن عبر claude.ai وواجهة البرمجة وAmazon Bedrock وGoogle Vertex AI وMicrosoft Foundry، بمعرّف النموذج claude-opus-4-7.
تنبيه عملي مهم: Anthropic تُصدر تحديثات Opus كل شهرين تقريبًا. الإصدار 4.6 صدر في فبراير 2026 و4.7 في أبريل. هذا يعني أن Opus 4.8 قد يصدر في يونيو. إذا كنت تخطط لبناء نظام إنتاج يعتمد على هذا النموذج، خطط لاختبارات التوافق مع كل إصدار جديد - خاصة أن Opus 4.7 يفسّر التعليمات بحرفية أكبر من سابقه وقد يتكرر هذا النمط. والخبر السار: معرّف النموذج الثابت claude-opus-4-7 يضمن استمرار نظامك على نفس الإصدار حتى تقرر الانتقال يدويًا، على عكس المعرّف المتحرك الذي ينتقل تلقائيًا لأحدث إصدار.
المصادر
- Introducing Claude Opus 4.7 - Anthropic
- Anthropic reveals new Opus 4.7 model - 9to5Mac
- Anthropic Releases Good but not Great Claude Opus 4.7 - AI Business
- Claude Opus 4.7 Pricing: The Real Cost Story - Finout
- Claude Opus 4.7: Benchmarks, Vision, xhigh Effort - LLM Stats
- Claude Opus 4.7: Features, Benchmarks, Pricing - Apidog
- Claude Opus 4.7 in Amazon Bedrock - AWS


