إعدادات تسجيل بودكاست مع ميكروفون ولاب توب لتحويل الصوت إلى نص بالعربية

ذكاء اصطناعي

تحويل الصوت إلى نص بالعربية 2026: مقارنة 8 أدوات بأسعار حقيقية ودقة موثقة

٢٧ مايو ٢٠٢٦13 دقائق قراءة

سحب يوليو 2026 يوم 31 يوليو

ارفع نشاطك هذا الشهر لتزيد فرصك. كل مستوى جديد يضاعف عدد فرصك في السحب.

النقاط المغطاة في المقال

معظم أدوات تحويل الصوت إلى نص التي تجدها في 2026 لا تفهم اللهجات العربية بشكل جيد، وبعضها يتجاهل العربية تمامًا. الفرق بين أن تكتب مقابلة لمدة ساعة يدويًا أو تنهيها في 5 دقائق هو اختيار الأداة الصحيحة، وليس قوة الذكاء الاصطناعي بمفردها.

هذا الشهر وحده أطلقت مايكروسوفت نموذج MAI-Transcribe-1 الذي تزعم الشركة أنه يتفوق على Whisper وGemini Flash في اختبار FLEURS، وأطلقت ElevenLabs النسخة الثانية من Scribe بسعر أقل بنسبة 40% مقارنةً بالإصدار السابق. تغيَّر السوق، والأداة التي كنت تستخدمها العام الماضي قد لا تعود الأفضل اليوم.

قمنا بمقارنة 8 أدوات تحويل الصوت إلى نص تدعم العربية فعليًا، بأسعار حقيقية وحدود مجانية واضحة ودقة موثقة على معايير قياسية. النتيجة: لا توجد أداة واحدة تناسب جميع الحالات، لكن هناك خيار واضح لكل سيناريو من العمل الصحفي إلى الاجتماعات الجامعية إلى مقاطع الفيديو على يوتيوب.

لماذا اختيار أداة تحويل الصوت إلى نص أصعب في 2026

قبل سنتين كان الخيار بسيطًا: إما Whisper المجاني من OpenAI أو Otter.ai للاجتماعات بالإنجليزية. اليوم الصورة مختلفة. مايكروسوفت أطلقت في 2 أبريل 2026 نموذج MAI-Transcribe-1 وقالت إنه يحقق أقل معدل خطأ على معيار FLEURS عبر 25 لغة، متفوقًا على Whisper-large-V3 وGPT-Transcribe وGemini 3.1 Flash-Lite. السعر الذي حدّدته مايكروسوفت 0.36 دولار لكل ساعة صوت، أي حوالي 1.35 ريال سعودي، وهو سعر تنافسي جدًا أمام الأسعار التقليدية.

في المقابل، أطلقت ElevenLabs النسخة الثانية من Scribe في 11 مارس 2026 بسعر أقل 40% من النسخة الأولى، ودعم 99 لغة، ومعدل خطأ 3.1% على FLEURS للعربية، وهو رقم لم يصل إليه أي نموذج مفتوح المصدر. أما Whisper نفسه فلا يزال الخيار المجاني الأول إذا كنت تشغّله محليًا، لكن دقته في اللهجات العربية تتراوح بين 50% و80% معدل خطأ حسب الدراسات الأكاديمية، وهو أداء ضعيف وفقًا للدراسات الأكاديمية بالمقارنة مع النماذج التجارية الجديدة.

المستخدم العربي يواجه تحديًا إضافيًا: معظم الأدوات تتفوّق في الفصحى الحديثة (MSA) لكنها تتعثّر في اللهجات الخليجية والمصرية والشامية. قد تعطيك أداة ما 95% دقة على خطاب فصيح، وتتراجع إلى 60% مع مقابلة مصرية عامية. هذا الفارق يجعل المقارنة بالأسعار وحدها غير كافية، يجب أن تعرف أيضًا كيف تتعامل كل أداة مع اللهجة التي تستخدمها يوميًا.

هناك أيضًا تحدّي ضوضاء الخلفية والصوت متعدد المتحدثين. مقابلة في مقهى مزدحم أو اجتماع عن بُعد مع 5 أشخاص يبدّلون الحديث بسرعة، يكشف الفرق الحقيقي بين الأدوات. النماذج الجديدة مثل MAI-Transcribe-1 من مايكروسوفت اختُبرت تحديدًا على هذه السيناريوهات (مقاهي، مكاتب، حفلات) وتفوّقت فيها، بينما Whisper الكلاسيكي يفقد كثيرًا من دقته في هذه الظروف. جيميني من جوجل فقد أضاف ميزة تحميل التسجيلات الصوتية مجانًا لكن بحد 10 دقائق فقط لكل دفعة، وهو ما يجعله مفيدًا للمذكرات الصوتية القصيرة لا للمحاضرات الكاملة.

مقارنة سريعة بين أفضل 8 أدوات تحويل الصوت إلى نص

قبل الدخول في التفاصيل، إليك جدول يقارن الأدوات الثمانية على السعر، وحدود الخطة المجانية، ودعم العربية، وأفضل استخدام لكل أداة. الأسعار بالدولار الأميركي ومقدّرة بالريال السعودي بسعر 3.75 ريال للدولار.

الأداة	السعر	الخطة المجانية	دعم العربية	أفضل لـ
MAI-Transcribe-1	0.36$/ساعة (~1.35 ريال)	عبر Playground	25 لغة (FLEURS)	المطورون والشركات
Whisper (محلي)	مجاني	غير محدود	99 لغة، دقة متفاوتة	المبرمجون والباحثون
Whisper API (gpt-4o-transcribe)	0.006$/دقيقة (~0.36$/ساعة)	عبر API	99 لغة	التطبيقات الجاهزة
ElevenLabs Scribe v2	~0.40$/ساعة (~1.50 ريال)	تجريبي محدود	99 لغة، 3.1% خطأ عربي	الصحفيون ومنتجو البودكاست
Sonix	10$/ساعة أو 22$/شهر + 5$/ساعة	30 دقيقة تجريبية	53+ لغة، لهجات خليجية ومصرية	المحترفون ومراكز الترجمة
Notta	13.99$/شهر (Pro)	120 دقيقة/شهر	58 لغة	الاجتماعات والطلاب
Google Cloud STT (Chirp)	0.016$/دقيقة (~0.96$/ساعة)	60 دقيقة/شهر	لهجات عربية متعددة	الشركات على Google Cloud
Gemini تطبيق المستخدم	مجاني	10 ملفات بمجموع 10 دقائق	عربي مع تلخيص	المذكرات الصوتية القصيرة

الخلاصة من الجدول: إن كنتَ تبحث عن الخيار المجاني فعلًا، فاللجوء إلى Whisper محليًا أو Gemini للمقاطع القصيرة هو الأنسب. وإن أردتَ الدقة الأعلى للعربية، فـElevenLabs Scribe v2 هو الأفضل أداءً حتى الآن. وإن كنت تعمل على Microsoft Foundry أو Azure، فMAI-Transcribe-1 هو الأنسب من ناحية السعر والسرعة.

لاحظ نقطة مهمة: الأسعار الواردة في الجدول للنماذج البرمجية فقط. إذا اخترت أداة سحابية كاملة مثل Sonix أو Notta، السعر يشمل واجهة استخدام جاهزة، تخزين سحابي للملفات، وميزات التحرير والمشاركة. أما MAI-Transcribe-1 وWhisper API فيمنحانك النموذج وحده وتحتاج إلى بناء الواجهة بنفسك أو استخدام أدوات خارجية. هذا الفارق يجعل المقارنة المباشرة بين 0.36 دولار للساعة من مايكروسوفت و10 دولارات للساعة من Sonix غير عادلة في الواقع.

Microsoft MAI-Transcribe-1: الوافد الجديد الأقوى في 2026

تصور ثلاثي الأبعاد لشبكة عصبية رقمية يمثّل نموذج تحويل الصوت إلى نص MAI-Transcribe-1

أطلقت مايكروسوفت MAI-Transcribe-1 في 2 أبريل 2026 باعتباره أول نموذج تفريغ صوتي طوّره فريق Microsoft AI Superintelligence. الادعاء الذي قدّمته الشركة قوي ومدعوم بأرقام: أقل معدل خطأ على معيار FLEURS عبر 25 لغة، متفوقًا على Scribe v2 من ElevenLabs وWhisper-large-V3 من OpenAI وGPT-Transcribe وGemini 3.1 Flash-Lite. لم تنشر مايكروسوفت أرقامًا تفصيلية لكل لغة على حدة لكنها تؤكد أن الأداء يبقى مرتفعًا عبر اللغات الـ25 جميعها بما فيها العربية.

السعر هو نقطة القوة الثانية: 0.36 دولار لكل ساعة صوت معالجة، وهو سعر يجعل تفريغ 10 ساعات اجتماعات شهريًا يكلف 3.60 دولار فقط (~13.50 ريال سعودي). بالمقارنة، يكلّفك Sonix 50 دولارًا للساعات العشر ذاتها على الخطة المرنة.

النموذج أسرع 2.5 مرة من خدمة Azure Fast الحالية في المعالجة الدفعية، ويدعم MP3 وWAV وFLAC، ويتعامل جيدًا مع الضوضاء الخلفية والصوت منخفض الجودة والكلام المتداخل وفق ما اختبرته مايكروسوفت في سيناريوهات المقاهي والمكاتب والحفلات.

القيد الوحيد حاليًا هو أن MAI-Transcribe-1 متاح فقط عبر Microsoft Foundry وAzure Speech في النسخة التجريبية العامة، مما يعني أنك تحتاج إلى حساب على Azure للوصول. لا يوجد تطبيق للمستخدم النهائي حاليًا، لكن مايكروسوفت بدأت إدماجه في وضع الصوت في Copilot وفي Microsoft Teams لتفريغ المحادثات.

حالات الاستخدام المثالية: المطورون الذين يبنون وكلاء صوتيين، وفرق تحليلات مراكز الاتصال، ومن يحتاج تفريغًا دفعيًا لأرشيف بودكاست أو فيديوهات. الشركات العربية التي تعمل على تحويل مكتبة محتوى صوتي ضخمة (إذاعة، خطب، مقابلات تاريخية) ستجد في MAI-Transcribe-1 خيارًا اقتصاديًا ممتازًا. مايكروسوفت أتاحت أيضًا تجربة النموذج مجانًا في Microsoft AI Playground للاختبار قبل الالتزام.

OpenAI Whisper: تحويل الصوت إلى نص مجانًا

Whisper من OpenAI هو نموذج التفريغ الصوتي مفتوح المصدر الذي أحدث نقلة نوعية في هذا المجال منذ إطلاقه. يدعم 99 لغة من بينها العربية، ويمكن تشغيله محليًا على جهازك دون اتصال بالإنترنت ودون اشتراك ودون قيود على الاستخدام. هذه القدرة وحدها تجعله الخيار الأول للباحثين والمبرمجين والمستخدمين الذين يتعاملون مع تسجيلات حساسة من ناحية الخصوصية.

الواقع مع العربية أكثر تعقيدًا. على معيار FLEURS، يحقق Whisper-large-v2 نتائج قريبة من المعدل البشري في الفصحى الحديثة، لكن أداءه على اللهجات يتراجع بشكل كبير. دراسة من 2024 على اللهجات العربية أظهرت أن Whisper متعدد اللغات في وضع التعلم الصفري يصل إلى 78.8% معدل خطأ في الكلمات على اللهجات، وهو رقم مرتفع جدًا. بعد الضبط على بيانات عربية محددة، تنخفض النتيجة إلى 51.6% على بيانات من خارج نطاق التدريب، وهو تحسن لكنه يبقى بعيدًا عن مستوى Sonix أو ElevenLabs Scribe v2.

إذا اخترت Whisper API بدلًا من التشغيل المحلي، فالسعر 0.006 دولار لكل دقيقة (~0.36$/ساعة) لـwhisper-1، أو 0.003 دولار لكل دقيقة لـgpt-4o-mini-transcribe، أو 0.006 دولار لـgpt-4o-transcribe، وهي أسعار منافسة لكن دقة العربية لا تتفوّق على Scribe v2 أو MAI-Transcribe-1.

الاستخدامات المثالية لـWhisper: محاضرات الفصحى، تفريغ كتب صوتية، مشاريع التعلم الآلي، أو إذا كنت تعمل على حاسوب محمول قوي وتريد حلًا مجانيًا تمامًا. يحتاج Whisper-large نحو 10 جيجابايت من ذاكرة بطاقة الرسومات للتشغيل بسرعة معقولة، أو يمكن تشغيله على المعالج العادي ببطء أكبر. للمبرمجين، توجد نسخ أخف مثل Whisper-small وWhisper-base تعمل على حاسوب محمول عادي بدقة أقل لكن بسرعة أعلى.

ElevenLabs Scribe v2: الأدق للعربية في 2026

ميكروفون استوديو احترافي يمثّل دقة ElevenLabs Scribe في تفريغ الصوت العربي

ElevenLabs أطلقت Scribe v2 في 11 مارس 2026 بسعر أقل 40% من النسخة الأولى، أي حوالي 0.40 دولار لكل ساعة صوت. النموذج يدعم 99 لغة، ويحقق نتائج أفضل من النسخة الأولى في تمييز المتحدثين بدقة 98% وفي توقيت الكلمات الفردية.

على معيار FLEURS، يحقق Scribe v2 معدل خطأ 3.1% للعربية، وهو من بين أدنى الأرقام المسجّلة في الصناعة. هذا الرقم يعني أن من كل 100 كلمة منطوقة، النموذج يكتب 97 صحيحة وحوالي 3 أخطاء. على مقابلة مدتها ساعة بمعدل 9000 كلمة، تحصل على نص شبه مثالي مع نحو 270 خطأ متوقع فقط، معظمها في الكلمات النادرة أو الأسماء الأجنبية.

النسخة الفورية Scribe v2 Realtime تأخرها 150 ميلي ثانية فقط مع دقة 93.5% عبر 30 لغة، وتتفوق على Gemini Flash 2.5 وGPT-4o Mini Transcribe وDeepgram Nova 3 على نفس المعيار. هذه السرعة تجعلها مناسبة للترجمة الفورية والبث المباشر والمكالمات الحية. الخدمة متاحة عبر واجهة API مع لوحة تحكم مبسطة، وتقدّم أيضًا تطبيق ويب يسمح برفع الملفات مباشرة.

القيود: لا توجد خطة مجانية حقيقية، فقط تجربة محدودة عبر بيئة التجربة في موقع ElevenLabs. السعر 0.40 دولار للساعة يعني أن تفريغ 10 ساعات شهريًا يكلف 4 دولارات (~15 ريال سعودي)، وهو معقول جدًا للصحفيين ومنتجي البودكاست وفرق الفيديو.

الاستخدامات المثالية: المقابلات الصحفية بلهجات متعددة، إنتاج البودكاست العربي مع ترجمة فورية، إنشاء ترجمات مرئية لمقاطع الفيديو على يوتيوب، وأي عمل يحتاج دقة عالية مع تمييز متحدثين متعددين. ElevenLabs تتميّز أيضًا بكتابة الكلمة الإنجليزية بحروف لاتينية داخل النص العربي بدل محاولة كتابتها بحروف عربية، وهي ميزة عملية للمحتوى التقني العربي الذي يستخدم مصطلحات إنجليزية كثيرة مثل API وSDK وCloud.

Sonix: المفضّل لدى المحترفين باللهجات العربية

مهندسون في استوديو صوتي يحللون موجات الصوت تشبه عمل أداة Sonix في تحويل الصوت إلى نص

Sonix شركة أمريكية تخصصت في التفريغ الصوتي الاحترافي وتدعم أكثر من 53 لغة من بينها العربية بمتغيراتها: الفصحى الحديثة، المصرية، الخليجية، الشامية، وغيرها. الميزة الأبرز هي الدقة على اللهجات: تعلن الشركة عن دقة بين 85% و99% للعربية حسب جودة الصوت، وتفرّغ الشركة ساعة من التسجيل العربي في 5-6 دقائق تقريبًا، أي بسرعة 10 أضعاف الوقت الفعلي.

السعر يأتي في خطّتين: الدفع حسب الاستخدام بـ10 دولارات لكل ساعة صوت، أو الاشتراك المميّز بـ22 دولارًا شهريًا لكل مستخدم (~82.5 ريال) مع تخفيض السعر إلى 5 دولارات لكل ساعة صوت. السعر السنوي 198 دولارًا للمستخدم الواحد.

لمن يفرّغ أكثر من 8 ساعات شهريًا، الخطة المميّزة أوفر. الميزات الإضافية تشمل تمييز المتحدثين، البحث داخل النصوص، التحرير المباشر للنص مع إعادة تشغيل الصوت، والتصدير لصيغ متعددة بما فيها SRT للفيديو وVTT للترجمات وDOCX للوثائق.

القيد الأساسي: السعر مرتفع مقارنة بـMAI-Transcribe-1 وElevenLabs Scribe. كما أن الواجهة بالإنجليزية فقط رغم دعمه تفريغَ المحتوى العربي. الاستخدامات المثالية: مكاتب الترجمة المعتمدة، شركات الإنتاج الإعلامي، المحامون الذين يفرّغون جلسات قضائية، والباحثون الذين يفرّغون مقابلات ميدانية بلهجات متعددة.

مَن يحتاج دقة على لهجة مصرية أو خليجية بشكل خاص سيجد Sonix من بين الأفضل. الشركة تقدّم أيضًا خدمة الترجمة الآلية إلى أكثر من 40 لغة بعد التفريغ، وهي ميزة قوية للوكالات الإعلامية التي تنشر محتوى عربيًا للجمهور العالمي. خاصية إنشاء مقاطع صوتية قصيرة من المقابلات الطويلة (Audiograms) متاحة أيضًا لمشاركة مقاطع مختارة على منصات التواصل.

Notta: الأفضل للاجتماعات والطلاب

اجتماع افتراضي عبر لاب توب يمثّل استخدام Notta لتفريغ الاجتماعات وتحويل الصوت إلى نص

Notta أداة تفريغ صوتية تركز على الاجتماعات والمحاضرات، وتدعم 58 لغة بما فيها العربية. الميزة الأبرز هي الخطة المجانية السخية نسبيًا: 120 دقيقة شهريًا مجانًا، مع تسجيل واحد بحد أقصى 3 دقائق لكل محادثة. الخطة Pro بسعر 13.99 دولار شهريًا (~52.5 ريال) ترفع الحد إلى 1800 دقيقة شهريًا، والخطة Business بـ27.99 دولار لكل مستخدم (~105 ريال) تضيف ميزات تعاون الفريق.

الميزة العملية الأقوى في Notta هي الانضمام التلقائي للاجتماعات على Zoom وGoogle Meet وMicrosoft Teams، مع تسجيل وتفريغ مباشر وتلخيص بعد انتهاء الاجتماع. للطلاب، تطبيقها على آيفون وأندرويد يسجّل المحاضرات ويفرّغها على الجهاز مباشرة، ويسمح بإضافة علامات زمنية للحظات المهمة. الدقة على الفصحى الحديثة جيدة لكنها متوسطة على اللهجات اليومية، خصوصًا إذا كان المتحدثون يتنقّلون بين العربية والإنجليزية مرارًا.

القيود: الخطة المجانية مقيّدة بـ3 دقائق لكل تسجيل، وهو ما لا يكفي لاجتماع عمل عادي. أيضًا الأداة مصممة بشكل أساسي للاجتماعات، فلا تتمتع بميزات الصحافة الميدانية مثل Sonix أو ElevenLabs.

الاستخدامات المثالية: الطلاب الجامعيون لتفريغ المحاضرات، المدراء الذين يحضرون اجتماعات Zoom متعددة يوميًا، وفرق المبيعات لمتابعة مكالمات العملاء. للاستخدام الشخصي البسيط، الخطة المجانية كافية لتفريغ المذكرات الصوتية أو الاجتماعات القصيرة. ومن الخيارات البديلة المشابهة Fireflies بسعر 10 دولارات شهريًا، لكنها أضعف في العربية من Notta وفق تجارب المستخدمين العرب.

Google Cloud STT وGemini: الخيار المجاني الذكي

جوجل تقدّم خيارين مختلفين: الأول للمطورين عبر Google Cloud Speech-to-Text باستخدام نموذج Chirp الذي يدعم أكثر من 100 لغة بما فيها لهجات عربية متعددة. السعر 0.016 دولار لكل دقيقة (~0.96 دولار للساعة) في النسخة V2 القياسية، وقد ينخفض إلى 0.004 دولار للدقيقة (~0.24 دولار للساعة) مع حجم استخدام كبير. العملاء الجدد يحصلون على 300 دولار رصيد مجاني عند التسجيل، و60 دقيقة تفريغ مجانية شهريًا للأبد. شات جي بي تي بالعربي يقدّم بدوره تفريغ مماثل لكن بسعر مختلف.

الخيار الثاني للمستخدم العادي هو تطبيق Gemini مباشرة، الذي أضاف ميزة رفع الملفات الصوتية مجانًا. يمكنك رفع حتى 10 ملفات في وقت واحد بشرط ألا يتجاوز المجموع 10 دقائق. الصيغ المدعومة MP3 وAAC وWAV. الميزة الإضافية: Gemini لا يفرّغ فقط بل يلخّص ويستخرج النقاط المهمة ويجيب على أسئلة عن محتوى الصوت. مفيد جدًا للمذكرات الصوتية القصيرة، أو المقاطع القصيرة، أو مقاطع البودكاست المختارة.

القيد الرئيسي على Gemini المجاني هو حد العشر دقائق لكل دفعة، مما يجعله غير عملي للمحاضرات الكاملة أو الاجتماعات الطويلة. أما Google Cloud STT فيحتاج إلى معرفة تقنية وحساب على Google Cloud Platform، وهو ليس للمستخدم العادي.

الاستخدامات المثالية: المذكرات الصوتية، المقاطع القصيرة من البودكاست، اقتباسات قصيرة من مقاطع يوتيوب، وأي تفريغ أقل من 10 دقائق. للشركات على بنية جوجل، Cloud STT خيار ممتاز بسعر منافس وتكامل سلس مع Google Workspace وGoogle Cloud Storage.

نصيحة عملية للمستخدم العربي: استخدم Gemini لتفريغ مقاطع YouTube العربية القصيرة، أو الرسائل الصوتية الواردة على واتساب، أو ملاحظاتك الصوتية. لا تتوقع منه أن يفرّغ محاضرة كاملة بساعة. للمحاضرات الطويلة ضمن منظومة Google، ارفع الملف إلى Google Drive وافتح Google Docs ثم استخدم ميزة الكتابة بالصوت كحل بديل.

كيف تختار أداة تحويل الصوت إلى نص الأنسب لك

شخص يدوّن الملاحظات أمام لاب توب لاختيار أفضل أداة لتحويل الصوت إلى نص

بعد مقارنة الأدوات الثمانية، هذه توصياتنا الواضحة بحسب الحالة. لا تختر الأداة الأشهر، اختر الأداة الأنسب لما تفعله فعلًا.

للصحفي ومنتج البودكاست العربي

الخيار الأول: ElevenLabs Scribe v2 بمعدل خطأ 3.1% على FLEURS العربية، تمييز متحدثين بدقة 98%، وسعر 0.40 دولار للساعة. مناسب للمقابلات والحلقات الطويلة بلهجات متعددة. الخيار البديل: Sonix إذا كنت تحتاج تحرير النص داخل المنصة مع إعادة تشغيل الصوت.

للطالب الجامعي

الخطة المجانية من Notta تكفي إذا كانت محاضراتك أقل من 3 دقائق لكل قسم (تشغّل التسجيل ثم توقف ثم تستأنف). إن أردتَ التسجيل المستمر، فاشتراك Pro بـ13.99 دولار شهريًا (~52.5 ريال) يعطيك 30 ساعة تفريغ. لمن يحضّر بحثًا عميقًا، يعمل Whisper محليًا على جهازك ومجاني تمامًا. تعلم البرمجة من الصفر يساعدك على تشغيل Whisper إن كنتَ تُحبّ التعلّم.

للمستخدم العادي والمذكرات الصوتية

تطبيق Gemini المجاني يكفي تمامًا للملفات أقل من 10 دقائق، مع ميزة إضافية مهمة وهي التلخيص والإجابة على أسئلة. للملفات الأطول، Notta المجاني يعطيك 120 دقيقة شهريًا. لا تدفع شيئًا قبل أن تجرّب هذه الخيارات.

للمطور والشركة

MAI-Transcribe-1 من مايكروسوفت بسعر 0.36 دولار للساعة هو الأفضل في معادلة السعر والأداء، خصوصًا إذا كنت تعمل على Azure أو Microsoft Foundry. البديل: Whisper API من OpenAI بسعر 0.006 دولار للدقيقة إذا كنت تفضّل بيئة OpenAI. لشركة كبيرة على Google Cloud، Chirp في Google STT منطقي.

إن كان لديك 10 دقائق فقط لتختار

افتح Gemini وارفع ملفك إن كان قصيرًا. وإن كان أطول من 10 دقائق، فاستخدم Notta في نسخته المجانية. وإن كنت تبحث عن الأفضل ولا تمانع الدفع، فـElevenLabs Scribe v2 هو المعيار الذهبي لتفريغ الصوت العربي في 2026. هذه الخيارات الثلاثة تغطّي 90% من الحالات دون تعقيد.

نصائح قبل أن تشتري اشتراكًا

قبل أن تدفع لأي خدمة، جرّب الخطة المجانية أو التجريبية أولًا برفع ملف عربي حقيقي من بيئة عملك. ملف صوتي من اجتماع Zoom فعلي بصوته وضوضائه أصدق من ملف اختبار نموذجي. قِس وقت التفريغ، عدد الأخطاء في الكلمات الخمسين الأولى، ومدى دقة تمييز المتحدثين.

ثانيًا، احسب الكلفة الشهرية الفعلية بناءً على حجم استخدامك المتوقع لا على السعر المعلن. اشتراك بـ22 دولارًا شهريًا يبدو رخيصًا حتى تكتشف أن الخطة المجانية من Notta كانت تكفيك. وبالعكس، الدفع بالساعة قد يصبح مكلفًا فجأة إذا زاد عملك. اختر النموذج الذي يلائم نمط استخدامك الحقيقي.

المصادر

كل الأرقام والمعايير الواردة في هذا الدليل لـتحويل الصوت إلى نص مأخوذة من مصادر رسمية أو دراسات أكاديمية. هذه قائمة كاملة بالمراجع:

أسئلة شائعة

هل يوجد تطبيق مجاني تمامًا لتحويل الصوت إلى نص بالعربية؟▾

نعم. Whisper من OpenAI مجاني تمامًا إذا شغّلته على جهازك دون اتصال بالإنترنت ويدعم 99 لغة. تطبيق Gemini من جوجل يقدّم رفع 10 ملفات بمجموع 10 دقائق مجانًا. Notta يعطيك 120 دقيقة تفريغ شهريًا مجانًا مع حد 3 دقائق لكل تسجيل. هذه الثلاثة كافية لمعظم الاستخدامات الشخصية دون أي تكلفة.

ما الفرق بين تحويل الصوت إلى نص في الوقت الفعلي وبشكل دفعي؟▾

تحويل الصوت إلى نص في الوقت الفعلي يحدث أثناء التحدّث مباشرة مع تأخير 150 ميلي ثانية في النماذج الحديثة مثل Scribe v2 Realtime، ويصلح للترجمة الفورية والبث المباشر. أما الدفعي فيعالج الملفات المسجّلة سابقًا ويعطي دقة أعلى لأنه يحلّل السياق بالكامل، وهو الأنسب للمقابلات والمحاضرات المسجّلة. اختر الفوري لتفاعل حي والدفعي للأرشيف.

هل أنا بحاجة إلى تركيب علامات الترقيم يدويًا بعد التفريغ؟▾

النماذج الحديثة مثل ElevenLabs Scribe v2 وMAI-Transcribe-1 وSonix تضيف علامات الترقيم تلقائيًا بدقة جيدة في العربية الفصحى. النماذج الأقدم مثل Whisper الأساسي قد تتجاهلها أو تضعها في مواقع خاطئة. للنص المهني (نشر، طبع كتاب) راجع علامات الترقيم يدويًا حتى مع أفضل الأدوات، خصوصًا في النصوص الطويلة.

أي أداة تتعامل بشكل أفضل مع اللهجة المصرية أو الخليجية؟▾

Sonix وElevenLabs Scribe v2 من الأفضل في التعامل مع اللهجات العربية المتنوعة. Sonix يصل إلى دقة 85-99% على اللهجات المصرية والخليجية والشامية، وScribe v2 يحقق 3.1% معدل خطأ على معيار FLEURS العربية. Whisper يتعثّر بشكل ملحوظ على اللهجات في الوضع الافتراضي ويصل إلى 78.8% معدل خطأ، فهو أفضل للفصحى الحديثة.

هل MAI-Transcribe-1 من مايكروسوفت متاح للمستخدم العادي؟▾

حاليًا لا. النموذج متاح فقط عبر Microsoft Foundry وAzure Speech في نسخة تجريبية عامة، ويتطلب حسابًا على Azure ومعرفة تقنية بسيطة. يمكن تجربته أيضًا في Microsoft AI Playground المجاني للاختبار. مايكروسوفت بدأت إدماجه في وضع الصوت بـCopilot وفي Microsoft Teams، لذا سيصل للمستخدم العادي خلال أشهر بشكل غير مباشر.

كم تكلفة تفريغ 10 ساعات صوت شهريًا بالعربية؟▾

تختلف التكلفة جدًا حسب الأداة. MAI-Transcribe-1: 3.60$ شهريًا (~13.50 ريال). ElevenLabs Scribe v2: 4$ شهريًا (~15 ريال). Whisper API: 3.60$ شهريًا. Google Cloud STT: 9.60$ شهريًا (~36 ريال). Sonix بالدفع حسب الاستخدام: 50$ شهريًا (~187 ريال)، وبالاشتراك المميّز: 72$ شهريًا. Notta Pro: 13.99$ شهريًا لكن بحد 30 ساعة كاملة.

هل Otter.ai يدعم العربية؟▾

لا. Otter.ai يدعم 4 لغات فقط وأبرزها الإنجليزية، ولا يدعم العربية. لذا لا ننصح به للمستخدم العربي رغم أنه ممتاز للاجتماعات بالإنجليزية. البديل الأقرب لتجربة Otter لكن بدعم عربي هو Notta الذي يدعم 58 لغة بما فيها العربية، أو Sonix الذي يقدّم خاصيات احترافية أكثر.

اختبار قراءة

سجّل الدخول وأكّد بريدك الإلكتروني للمشاركة وكسب النقاط.

لماذا اختيار أداة تحويل الصوت إلى نص أصعب في 2026

مقارنة سريعة بين أفضل 8 أدوات تحويل الصوت إلى نص

الأداة	السعر	الخطة المجانية	دعم العربية	أفضل لـ
MAI-Transcribe-1	0.36$/ساعة (~1.35 ريال)	عبر Playground	25 لغة (FLEURS)	المطورون والشركات
Whisper (محلي)	مجاني	غير محدود	99 لغة، دقة متفاوتة	المبرمجون والباحثون
Whisper API (gpt-4o-transcribe)	0.006$/دقيقة (~0.36$/ساعة)	عبر API	99 لغة	التطبيقات الجاهزة
ElevenLabs Scribe v2	~0.40$/ساعة (~1.50 ريال)	تجريبي محدود	99 لغة، 3.1% خطأ عربي	الصحفيون ومنتجو البودكاست
Sonix	10$/ساعة أو 22$/شهر + 5$/ساعة	30 دقيقة تجريبية	53+ لغة، لهجات خليجية ومصرية	المحترفون ومراكز الترجمة
Notta	13.99$/شهر (Pro)	120 دقيقة/شهر	58 لغة	الاجتماعات والطلاب
Google Cloud STT (Chirp)	0.016$/دقيقة (~0.96$/ساعة)	60 دقيقة/شهر	لهجات عربية متعددة	الشركات على Google Cloud
Gemini تطبيق المستخدم	مجاني	10 ملفات بمجموع 10 دقائق	عربي مع تلخيص	المذكرات الصوتية القصيرة

تحويل الصوت إلى نص بالعربية 2026: مقارنة 8 أدوات بأسعار حقيقية ودقة موثقة

لماذا اختيار أداة تحويل الصوت إلى نص أصعب في 2026

مقارنة سريعة بين أفضل 8 أدوات تحويل الصوت إلى نص

Microsoft MAI-Transcribe-1: الوافد الجديد الأقوى في 2026

OpenAI Whisper: تحويل الصوت إلى نص مجانًا

ElevenLabs Scribe v2: الأدق للعربية في 2026

Sonix: المفضّل لدى المحترفين باللهجات العربية

Notta: الأفضل للاجتماعات والطلاب

Google Cloud STT وGemini: الخيار المجاني الذكي

كيف تختار أداة تحويل الصوت إلى نص الأنسب لك

للصحفي ومنتج البودكاست العربي

للطالب الجامعي

للمستخدم العادي والمذكرات الصوتية

للمطور والشركة

إن كان لديك 10 دقائق فقط لتختار

نصائح قبل أن تشتري اشتراكًا

المصادر

أسئلة شائعة

اقرأ أيضاً

أفضل تطبيقات ذكاء اصطناعي لتوقع مباريات كأس العالم 2026: 7 أدوات اختبرناها

Gemini Omni: شرح كامل ومقارنة مع GPT-5.6 وClaude في 2026

كتابة السيرة الذاتية بالذكاء الاصطناعي: مقارنة 8 أدوات بأسعار حقيقية ودعم عربي موثق

التعليقات