Fashion

Google Veo، محاولة جادة لتوليد الفيديو بواسطة الذكاء الاصطناعي، تطلق في Google I/O 2024

أخبار فائقة السرعة Saturday, October 19 2024

Google تستهدف OpenAI's Sora بواسطة Veo، نموذج ذكاء اصطناعي يمكنه إنشاء مقاطع فيديو بدقة 1080 بكسل وبمدة دقيقة طويلة تقريبًا بناءً على استفسار نصي.

تم الكشف عن Veo يوم الثلاثاء في مؤتمر Google I/O 2024 للمطورين، حيث يمكن لـ Veo التقاط أنماط مختلفة من الرؤية والسينما، بما في ذلك لقطات من المناظر الطبيعية وعمليات زيادة السرعة الزمنية، وإجراء تحريرات وتعديلات على لقطات مولدة مسبقًا.

قال ديميس هاسابيس، رئيس مختبر البحث والتطوير الذكاء الاصطناعي لشركة Google DeepMind، خلال نقاش مستدير افتراضي: “نحن نستكشف ميزات مثل التخطيط المسبق وإنشاء مشاهد أطول لنرى ما يمكن Veo من فعله. لقد حققنا تقدمًا لا يُصدق في مجال الفيديو.”

يعتمد Veo على الأعمال التجارية الأولية لـ Google في توليد الفيديو، التي تمت معاينتها في أبريل، والتي استخدمت عائلة نماذج إنتاج الصور Imagen 2 للشركة لإنشاء مقاطع فيديو متكررة.

لكن على عكس الأداة المعتمدة على Imagen 2، التي لم تتمكن سوى من إنشاء مقاطع فيديو قصيرة منخفضة الدقة، يبدو أن Veo تنافسية مع نماذج إنتاج الفيديو الرئيسية حاليًا - ليس فقط Sora، ولكن أيضًا نماذج من الشركات الناشئة مثل Pika, Runway و Irreverent Labs.

خلال إحاطة صحفية، عرض دوغلاس إيك، الذي يقود جهود البحث في DeepMind في وسائل الإعلام الإنتاجية، بعض الأمثلة المعتنى بها عن ما يمكن Veo فعله. أحد هذه الأمثلة - عرض جوي لشاطئ مزدحم - أظهر نقاط قوة Veo على نماذج الفيديو المنافسة، وقال: \"كان من الصعب على نماذج إنتاج الصور والفيديو إظهار تفاصيل كل السباحين على الشاطئ - وجود كل هؤلاء الشخصيات المتحركة. إذا نظرت بعناية، سترى أن الأمواج تبدو جيدة للغاية. وتم التقاط روح كلمة الاستفسار 'مزدحم' بكل الناس - الواجهة الحية المليئة بالمستلقين تحت الشمس.\"

تم تدريب Veo على الكثير من اللقطات. هذا بشكل عام كيف تعمل النماذج الذكاء الاصطناعي التصنيعية: باستخدام أمثلة عديدة من أي نوع من البيانات، تلتقط النماذج الأنماط في البيانات التي تمكنهم من إنشاء بيانات جديدة - فيديوهات، في حالة Veo.

من أين جاءت اللقطات التي تدربت عليها Veo؟ لم يكن ليقول إيك على وجه التحديد، ولكنه اعترف أن بعضها قد تم الحصول عليه من YouTube التابعة لـ Google بنفسه.

\"النماذج من Google قد تم تدريبها على بعض محتوى YouTube، ولكن دائماً وفقًا لاتفاقيتنا مع منشئي YouTube،\" قال.

جزء \"الاتفاقية\" قد يكون صحيحًا من الناحية الفنية. ولكن من الواضح أنه، نظرًا لتأثيرات شبكة YouTube، ليس لدى القائمين بالمحتوى خيارات كبيرة سوى الالتزام بقواعد Google إذا أرادوا الوصول إلى أوسع جمهور ممكن.

في أبريل، كشفت تقارير من صحيفة New York Times عن أن Google قد قامت بتوسيع شروط الخدمة الخاصة بها العام الماضي جزئيًا للسماح للشركة باستخدام المزيد من البيانات في تدريب نماذجها الذكاء الاصطناعي. بموجب شروط الخدمة القديمة، لم يكن من الواضح ما إذا كان يمكن لـ Google استخدام بيانات YouTube لبناء منتجات خارج منصة الفيديو، ولكن ليست الأمور كذلك في الشروط الجديدة، التي تفتح الرقاب بشكل كبير.

نائلة بأن Google ليست الشركة التكنولوجية الوحيدة التي تستفيد من كميات هائلة من بيانات المستخدمين لتدريب النماذج الداخلية. (انظر: Meta.) ولكن ما من شك في أن بعض منشئي المحتوى سيكونون خيبة أمل من تأكيد إيك بأن Google تحدد المعايير \"الذهبية\" هنا من الناحية الأخلاقية.

\"سيكون حلاً لهذا التحدي [بيانات التدريب] مع الحصول على جميع أصحاب المصلحة معًا لمعرفة ما هي الخطوات التالية،\" قال. \"حتى نتخذ هذه الخطوات مع أصحاب المصلحة - نتحدث عن صناعة السينما وصناعة الموسيقى والفنانين أنفسهم - لن نتحرك بسرعة.\"

ومع ذلك، فقد قدمت Google Veo بالفعل لبعض منشئي المحتوى المختارين، بما في ذلك دونالد غلوفر (المعروف أيضًا باسم Childish Gambino) ووكالته الإبداعية Gilga. (مثل OpenAI مع Sora، تم تحديد Veo من Google كأداة للمبدعين.)

لاحظ إيك أن Google توفر أدواتًا للسماح لأصحاب المواقع بمنع الروبوتات الخاصة بالشركة من جمع البيانات التدريبية من مواقعهم. ولكن الإعدادات لا تنطبق على YouTube. وعلى عكس بعض منافسيها، لا تقدم Google آلية للسماح للمنشئين بإزالة أعمالهم من مجموعات البيانات التدريبية بعد الجمع.

سألت إيك عن \"الارتجاع\"، أيضا، والذي في سياق الذكاء الاصطناعي التصنيعي يشير إلى عندما يقوم النموذج بإنشاء نسخة مرآة من مثال تدريب. وقد تم اكتشاف أن أدوات مثل Midjourney تقوم بتوليد صور ثابتة تمامًا من أفلام مثل \"Dune\"، \"Avengers\" و \"Star Wars\" بتوقيت زمني - مما يضع ميدان قانوني محتمل للمستخدمين. يقال أن OpenAI ذهبت بعيدًا لحد منع العلامات التجارية وأسماء الخالقين في الاستفسارات لـ Sora لمحاولة تصدي القضايا حقوق النشر.

فما هي الخطوات التي اتخذتها Google للتخفيف من مخاطر الارتجاع مع Veo؟ لم يكن لدى إيك إجابة، ما عدا التأكيد على أن فريق البحث قام بتنفيذ مرشحات للمحتوى العنيف والصريح (بحيث لا يوجد إباحي) واستخدام تكنولوجيا DeepMind’s SynthID لوضع علامات على مقاطع الفيديو من Veo كما تم إنشاؤها بواسطة الذكاء الاصطناعي.

\"سنقوم بالتأكيد - بالنسبة لشيء بحجم نموذج Veo - بطرحه تدريجيًا لمجموعة صغيرة من أصحاب المصلحة التي يمكننا العمل معهم عن كثب لفهم الآثار الناتجة عن النموذج، وإذا تمت الفهم، فقمنا بتوجيهها إلى مجموعة أكبر\"، قال.

وكان لدى إيك المزيد ليشاركه حول التفاصيل التقنية للنموذج.

وصف إيك Veo بأنه \"قابل للتحكم إلى حد ما\" في الخلية أن النموذج يفهم حركات الكاميرا والتأثيرات البصرية إلى حد معقول من الاستفسارات (فكر في الوصفات مثل \"تجول\" و \"تكبير\" و \"انفجار\"). ومثل Sora، لدى Veo فهم إلى حد ما للفيزياء - أمور مثل ديناميكيات السوائل والجاذبية - التي تسهم في واقعية الفيديوهات التي تولدها.

كما تدعم Veo التحرير المقنع للتغييرات على مناطق محددة من الفيديو ويمكنه إنشاء مقاطع فيديو من صورة ثابتة، وكذلك نماذج تصنيعية مثل Stable Video من شركة Stability AI. وربما الأكثر إثارة للاهتمام، بتوجيه سلسلة من الاستفسارات التي تروي قصة معًا، يمكن لـ Veo إنشاء مقاطع فيديو طويلة - مقاطع فيديو تزيد عن دقيقة في الطول.

هذا ليس ليعني أن Veo مثالي. تعكس قوى آليات الذكاء الاصطناعي التصنيعي الحالية، أن الأشياء في مقاطع الفيديو Veo تختفي وتظهر من جديد بدون تفسير أو اتساق. وغالبًا ما يخطئ Veo في الفيزياء

أخبار فائقة السرعة