“DALL-E 2” برنامج لتحويل الأوامر إلى صور باستخدام الذكاء الاصطناعي

"DALL-E 2" برنامج لتحويل الأوامر إلى صور باستخدام الذكاء الاصطناعي

AI بالعربي – خاص

تشمل مجموعة أبحاث الذكاء الاصطناعي إنشاء إصدار أحدث من DALL-E، وهو عبارة عن مشروع إنشاء صورة النص، ويتميز DALL-E 2 بإصدار عالي الدقة ومنخفض التأخير من النظام الأصلي الذي يقوم بإنشاء صور تصور الأوصاف التي كتبها المستخدم، ويتضمن أيضًا مهارات جديدة مثل تحرير صورة موجودة، كما هو الحال مع وظائف OpenAI السابقة، حيث لم يتم إصدار الأداة للجمهور مباشرة، لكن يمكن للباحثين معاينة النظام عبر الإنترنت ويأملون في إتاحة OpenAI لاحقًا للاستخدام في تطبيقات الطرف الثالث.

ويرجع الأصل في 2 DALL-E إلى مقدمة بورتماندو للفنان “سلفادور دالي” والروبوت “WALL-E”، في يناير 2021، وهو اختبار محدود ولكنه جذاب لقدرة الذكاء الاصطناعي على التمثيل البصري لأفكار تتراوح من التصوير المتواضع لعارضة أزياء ترتدي قميصًا من الفانيلا إلى “زرافة مصنوعة من سلحفاة” أو المشي مع كلب فجل، في ذلك الوقت، قالت شركة OpenAI إنها ستستمر في إنشائها على النظام أثناء استكشاف المخاطر المحتملة مثل التحيز أو التحريف في إنشاء الصور، يحاول حل هذه المشكلات باستخدام الأمان التقني وسياسة محتوى جديدة، مع تقليل حمل النظام في نفس الوقت ودفع القدرات الأساسية للنموذج.

وتعتبر إحدى ميزات DALL-E 2 الجديدة، حيث تستفيد Infinite بالكامل من إمكانات DALL-E لتحويل النص إلى صورة بمستوى أكثر دقة، ويمكن للمستخدمين البدء بصورة حالية وتحديد منطقة واطلب من النموذج تحريرها، ويمكنك حجب لوحة على حائط غرفة المعيشة واستبدالها بصورة أخرى مثلًا، أو إضافة مزهرية من الزهور إلى طاولة القهوة، عند حساب التفاصيل مثل اتجاهات الظلال في الغرفة، ويمكن للنموذج تعبئة (أو إزالة) الكائنات، وهناك ميزة أخرى هي أداة البحث عن الصور للتنويعات، الصور غير الموجودة، يمكن للمستخدمين تحميل صورة بدء التشغيل ثم إنشاء أشكال مختلفة مثلها، ويمكنهم مزج صورتين وإنشاء صور مع عناصر من كليهما، كما إن الصور التي تم إنشاؤها هي 1،024 × 1،024 بكسل، وهو أكبر 256 × 256 بكسل من النموذج الأصلي المقدم.

وتقوم DALL-E 2 ببناء CLIP، وهو نظام رؤية النظام الذي أعلنت عنه شركة OpenAI العام الماضي، “DALL-E 1 أخذ نهج GPT-3 الخاص بنا من اللغة واستخدمه لإنشاء صورة: لقد تعلمنا ضغط الصور بالتسلسل إلى كلمات والتنبؤ بما سيحدث بعد ذلك، ”كما يقول عالم الأبحاث في OpenAU، برافولا داريوال، نموذج GPT الذي تستخدمه العديد من تطبيقات الذكاء الاصطناعي النصية، لكن مطابقة الكلمات لم يكن عليها أن تلتقط الصفات التي اكتشفها البشر بشكل أكثر أهمية، وقد حدت العملية التنبؤية من حقيقة الصور، تم تصميم CLIP لعرض الصور وضغط محتوياتها مثل الإنسان، وأنشأت OpenAI عملية “unCLIP” النسخة العكسية التي تبدأ بالوصف وتتجه نحو الصورة، يصف DARL كيف يقوم DALL-E 2 بإنشاء صورة باستخدام عملية تسمى الانتشار، والتي تبدأ في “حقيبة من النقاط” ثم تملأ نموذجًا بتفاصيل أكبر وأكبر.

ومن المثير للاهتمام أن مسودة ورقة حول إلغاء حظر تطبيق القانون تجعلها إلى حد ما تأتي بنتائج عكسية أطرف نقاط ضعف CLIP: من خلال تسمية كائن (مثل Granny Smith Apple) بشيء آخر (مثل iPod)، ويمكن أن ينخدع الناس بقدرات تعريف النموذج، يقول المؤلفون إن أداة التباين CLIP “لا تزال تخلق صورًا لتفاح عالي الاحتمال” حتى عند استخدام صورة خاطئة لا يمكن تحديدها على أنها Granny Smith، على العكس من ذلك، “لا ينتج هذا النموذج صورًا لأجهزة iPod، على الرغم من الاحتمال المتوقع لوجود قريب كبير جدًا لهذا العنوان”.

ولم يتم إطلاق النموذج الكامل لـ DALL-E للجمهور، لكن مطورين آخرين طوروا أدواتهم الخاصة خلال العام الماضي والتي تتبع بعض وظائفها، أحد أشهر التطبيقات الرئيسية Wombo’s Dream هو تطبيق للهاتف المحمول، والتي تخلق صورًا تصف المستخدمين بأنماط فنية متنوعة، ولم تصدر OpenAI أي طرازات جديدة اليوم، ولكن يمكن للمطورين استخدام ابتكاراتها التكنولوجية لتحديث أعمالهم.

نفذت OpenAI بعض الأمان المدمج، وتم تدريب العينة على بيانات تحتوي على بعض المواد المرفوضة، مما يحد من القدرة على إنشاء محتوى مرفوض، هناك علامة مائية تحدد طبيعة العمل التي تم إنشاؤها بواسطة الذكاء الاصطناعي، على الرغم من إمكانية قصها نظريًا كإجراء وقائي ضد إساءة الاستخدام، لا يمكن للنموذج إنشاء وجوه يمكن التعرف على الوجوه، يبدو الأمر كذلك موناليزا سيعطي تباينًا واضحًا للوجه الحقيقي من اللوحة.

سيتم اختبار DALL-E 2 من قبل شركاء معتمدين مع بعض المحاذير، حيث يحظر على المستخدمين تحميل أو إنشاء صور “مصنفة على أساس G” وضارة، بما في ذلك الرموز البغيضة أو العري أو الإيماءات الفاحشة أو المؤامرات أو الأحداث الرئيسية المتعلقة بأحداث جيوسياسية كبرى، ويتعين عليهم أيضًا الكشف عن دور الذكاء الاصطناعي في إنشاء الصور، ولا يمكن مشاركة الصور التي ينشئونها مع الآخرين من خلال التطبيقات أو الويب، لذلك قد لا تكون أول من يرى إصدارًا مدعومًا من DALL-E لشيء مثل Dream، لكن OpenAI يأمل في إضافته لاحقًا إلى مجموعة أدوات API الخاصة بالمجموعة، والتي تسمح بتشغيل تطبيقات الطرف الثالث، يقول داريوال: “نأمل أن نستمر في الحصول على عملية موحدة هنا، لذا يمكن الحكم على كيفية إطلاق هذه التكنولوجيا بأمان من خلال التعليقات التي نحصل عليها”.

Related Posts

تحذير من داخل “الصين”: باحث في “ديب سيك” يتوقع تهديد الذكاء الاصطناعي للبشر خلال عقدين

AI بالعربي – متابعات في خطوة نادرة من داخل الصناعة الصينية، عبّر الباحث البارز في شركة الذكاء الاصطناعي الناشئة “ديب سيك” عن مخاوفه بشأن التأثير المستقبلي لتطور الذكاء الاصطناعي على…

“جوجل” تطلق تحديثًا ذكيًا يجعل “NotebookLM” أداة تعليمية تفاعلية بذكاء “Gemini”

AI بالعربي – متابعات كشفت شركة جوجل عن تحديث جديد لتطبيق NotebookLM المخصص لتدوين الملاحظات وتنظيم الدراسة والبحث، حيث أضافت إليه مزايا تعليمية تعتمد على الذكاء الاصطناعي لجعل تجربة التعلم…

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

مقالات

في زمن التنظيمات: هل تستطيع السعودية أن تكتب قواعد لعبة الذكاء الاصطناعي؟

  • نوفمبر 8, 2025
  • 51 views
في زمن التنظيمات: هل تستطيع السعودية أن تكتب قواعد لعبة الذكاء الاصطناعي؟

“تنانين الذكاء الاصطناعي” في الصين وغزو العالم

  • أكتوبر 30, 2025
  • 96 views
“تنانين الذكاء الاصطناعي” في الصين وغزو العالم

الذكاء الاصطناعي في الحياة المعاصرة.. ثورة علمية بين الأمل والمخاطر

  • أكتوبر 12, 2025
  • 245 views
الذكاء الاصطناعي في الحياة المعاصرة.. ثورة علمية بين الأمل والمخاطر

حول نظرية القانون المشتغل بالكود “الرمز” Code-driven law

  • أكتوبر 1, 2025
  • 337 views
حول نظرية القانون المشتغل بالكود “الرمز” Code-driven law

الإعلام.. و”حُثالة الذكاء الاصطناعي”

  • سبتمبر 29, 2025
  • 347 views
الإعلام.. و”حُثالة الذكاء الاصطناعي”

تطبيقات الذكاء الاصطناعي.. وتساؤلات البشر

  • سبتمبر 26, 2025
  • 300 views
تطبيقات الذكاء الاصطناعي.. وتساؤلات البشر