“DALL-E 2” برنامج لتحويل الأوامر إلى صور باستخدام الذكاء الاصطناعي

AI بالعربي – خاص

تشمل مجموعة أبحاث الذكاء الاصطناعي إنشاء إصدار أحدث من DALL-E، وهو عبارة عن مشروع إنشاء صورة النص، ويتميز DALL-E 2 بإصدار عالي الدقة ومنخفض التأخير من النظام الأصلي الذي يقوم بإنشاء صور تصور الأوصاف التي كتبها المستخدم، ويتضمن أيضًا مهارات جديدة مثل تحرير صورة موجودة، كما هو الحال مع وظائف OpenAI السابقة، حيث لم يتم إصدار الأداة للجمهور مباشرة، لكن يمكن للباحثين معاينة النظام عبر الإنترنت ويأملون في إتاحة OpenAI لاحقًا للاستخدام في تطبيقات الطرف الثالث.

ويرجع الأصل في 2 DALL-E إلى مقدمة بورتماندو للفنان “سلفادور دالي” والروبوت “WALL-E”، في يناير 2021، وهو اختبار محدود ولكنه جذاب لقدرة الذكاء الاصطناعي على التمثيل البصري لأفكار تتراوح من التصوير المتواضع لعارضة أزياء ترتدي قميصًا من الفانيلا إلى “زرافة مصنوعة من سلحفاة” أو المشي مع كلب فجل، في ذلك الوقت، قالت شركة OpenAI إنها ستستمر في إنشائها على النظام أثناء استكشاف المخاطر المحتملة مثل التحيز أو التحريف في إنشاء الصور، يحاول حل هذه المشكلات باستخدام الأمان التقني وسياسة محتوى جديدة، مع تقليل حمل النظام في نفس الوقت ودفع القدرات الأساسية للنموذج.

وتعتبر إحدى ميزات DALL-E 2 الجديدة، حيث تستفيد Infinite بالكامل من إمكانات DALL-E لتحويل النص إلى صورة بمستوى أكثر دقة، ويمكن للمستخدمين البدء بصورة حالية وتحديد منطقة واطلب من النموذج تحريرها، ويمكنك حجب لوحة على حائط غرفة المعيشة واستبدالها بصورة أخرى مثلًا، أو إضافة مزهرية من الزهور إلى طاولة القهوة، عند حساب التفاصيل مثل اتجاهات الظلال في الغرفة، ويمكن للنموذج تعبئة (أو إزالة) الكائنات، وهناك ميزة أخرى هي أداة البحث عن الصور للتنويعات، الصور غير الموجودة، يمكن للمستخدمين تحميل صورة بدء التشغيل ثم إنشاء أشكال مختلفة مثلها، ويمكنهم مزج صورتين وإنشاء صور مع عناصر من كليهما، كما إن الصور التي تم إنشاؤها هي 1،024 × 1،024 بكسل، وهو أكبر 256 × 256 بكسل من النموذج الأصلي المقدم.

وتقوم DALL-E 2 ببناء CLIP، وهو نظام رؤية النظام الذي أعلنت عنه شركة OpenAI العام الماضي، “DALL-E 1 أخذ نهج GPT-3 الخاص بنا من اللغة واستخدمه لإنشاء صورة: لقد تعلمنا ضغط الصور بالتسلسل إلى كلمات والتنبؤ بما سيحدث بعد ذلك، ”كما يقول عالم الأبحاث في OpenAU، برافولا داريوال، نموذج GPT الذي تستخدمه العديد من تطبيقات الذكاء الاصطناعي النصية، لكن مطابقة الكلمات لم يكن عليها أن تلتقط الصفات التي اكتشفها البشر بشكل أكثر أهمية، وقد حدت العملية التنبؤية من حقيقة الصور، تم تصميم CLIP لعرض الصور وضغط محتوياتها مثل الإنسان، وأنشأت OpenAI عملية “unCLIP” النسخة العكسية التي تبدأ بالوصف وتتجه نحو الصورة، يصف DARL كيف يقوم DALL-E 2 بإنشاء صورة باستخدام عملية تسمى الانتشار، والتي تبدأ في “حقيبة من النقاط” ثم تملأ نموذجًا بتفاصيل أكبر وأكبر.

ومن المثير للاهتمام أن مسودة ورقة حول إلغاء حظر تطبيق القانون تجعلها إلى حد ما تأتي بنتائج عكسية أطرف نقاط ضعف CLIP: من خلال تسمية كائن (مثل Granny Smith Apple) بشيء آخر (مثل iPod)، ويمكن أن ينخدع الناس بقدرات تعريف النموذج، يقول المؤلفون إن أداة التباين CLIP “لا تزال تخلق صورًا لتفاح عالي الاحتمال” حتى عند استخدام صورة خاطئة لا يمكن تحديدها على أنها Granny Smith، على العكس من ذلك، “لا ينتج هذا النموذج صورًا لأجهزة iPod، على الرغم من الاحتمال المتوقع لوجود قريب كبير جدًا لهذا العنوان”.

ولم يتم إطلاق النموذج الكامل لـ DALL-E للجمهور، لكن مطورين آخرين طوروا أدواتهم الخاصة خلال العام الماضي والتي تتبع بعض وظائفها، أحد أشهر التطبيقات الرئيسية Wombo’s Dream هو تطبيق للهاتف المحمول، والتي تخلق صورًا تصف المستخدمين بأنماط فنية متنوعة، ولم تصدر OpenAI أي طرازات جديدة اليوم، ولكن يمكن للمطورين استخدام ابتكاراتها التكنولوجية لتحديث أعمالهم.

نفذت OpenAI بعض الأمان المدمج، وتم تدريب العينة على بيانات تحتوي على بعض المواد المرفوضة، مما يحد من القدرة على إنشاء محتوى مرفوض، هناك علامة مائية تحدد طبيعة العمل التي تم إنشاؤها بواسطة الذكاء الاصطناعي، على الرغم من إمكانية قصها نظريًا كإجراء وقائي ضد إساءة الاستخدام، لا يمكن للنموذج إنشاء وجوه يمكن التعرف على الوجوه، يبدو الأمر كذلك موناليزا سيعطي تباينًا واضحًا للوجه الحقيقي من اللوحة.

سيتم اختبار DALL-E 2 من قبل شركاء معتمدين مع بعض المحاذير، حيث يحظر على المستخدمين تحميل أو إنشاء صور “مصنفة على أساس G” وضارة، بما في ذلك الرموز البغيضة أو العري أو الإيماءات الفاحشة أو المؤامرات أو الأحداث الرئيسية المتعلقة بأحداث جيوسياسية كبرى، ويتعين عليهم أيضًا الكشف عن دور الذكاء الاصطناعي في إنشاء الصور، ولا يمكن مشاركة الصور التي ينشئونها مع الآخرين من خلال التطبيقات أو الويب، لذلك قد لا تكون أول من يرى إصدارًا مدعومًا من DALL-E لشيء مثل Dream، لكن OpenAI يأمل في إضافته لاحقًا إلى مجموعة أدوات API الخاصة بالمجموعة، والتي تسمح بتشغيل تطبيقات الطرف الثالث، يقول داريوال: “نأمل أن نستمر في الحصول على عملية موحدة هنا، لذا يمكن الحكم على كيفية إطلاق هذه التكنولوجيا بأمان من خلال التعليقات التي نحصل عليها”.