AI से लाइव वीडियो का जादू: Mirage की नई तकनीक

क्या आपने कभी सोचा है कि आपकी लाइव स्ट्रीम को एक झटके में एनीमे या साइबरपंक में कैसे बदला जा सकता है? एक नया आर्टिफिशियल इंटेलिजेंस टूल, Mirage, अब इसे संभव बना रहा है!
Israeli स्टार्टअप Decart द्वारा विकसित Mirage, इस तकनीक का दावा करता है कि यह "अनंत, वास्तविक समय का वीडियो जनरेशन" बिना किसी देरी के कर सकता है। यह MirageLSD, कंपनी का लाइव स्ट्रीम डिफ्यूजन AI वीडियो मॉडल, द्वारा संचालित है, जो 768×432 रेजोल्यूशन पर 20 फ्रेम प्रति सेकंड जनरेट करता है।
Decart टीम ने एक ब्लॉग पोस्ट में लिखा, "वास्तविक समय की पीढ़ी के लिए प्रत्येक फ्रेम को 40 मिलीसेकंड से कम में उत्पन्न करना आवश्यक है ताकि यह मानव आंख के लिए अलग न दिखे।" Mirage के वीडियो डेमो में Minecraft गेमप्ले को बर्फीले देश में बदलते हुए, Call of Duty खिलाड़ियों को गुलाबी पेड़ों के शांत बाग में immersing करते हुए, और One Direction के 'What Makes You Beautiful' को विभिन्न एनीमे शैलियों में फिर से कल्पना करते हुए दिखाया गया है।
इस टूल का उपयोग Discord या TikTok पर लाइव स्ट्रीमिंग, वीडियो कॉल करने और पूर्व-रिकॉर्डेड टीवी शो, फ़िल्मों और क्लिप्स के सामान्य प्लेबैक के लिए किया जा सकता है। Decart भविष्य में फुल HD और 4K का समर्थन जोड़ने की उम्मीद कर रहा है।
कैसे हासिल किया गया वास्तविक समय AI परिवर्तन
प्रतियोगी वीडियो-टू-वीडियो AI टूल्स लाइवस्ट्रीम के मामले में संघर्ष करते रहे हैं, खासकर उनके ऑटो-रेग्रेसन मॉडल के कारण। प्रत्येक नया फ्रेम पिछले फ्रेम्स से जानकारी का उपयोग करके उत्पन्न होता है, जिससे यह किसी भी त्रुटियों को अपनाता है। 30 सेकंड के फुटेज के बाद, ये जमा हुई त्रुटियाँ वीडियो गुणवत्ता को गंभीरता से degrade कर देती हैं।
Mirage इस समस्या का समाधान दो नवाचारों के साथ करता है। पहला, diffusion forcing मॉडल को बिना पूर्ण संदर्भ के शोर वाले फ्रेम को साफ करने के लिए प्रशिक्षित करता है, जिससे सटीक फ्रेम-बाय-फ्रेम जनरेशन संभव होता है। दूसरा, इतिहास संवर्धन इसे अपनी पिछली आउटपुट से त्रुटियों को पहचानने और ठीक करने के लिए सिखाता है, ताकि यह पीढ़ी के दौरान वही करने के लिए सीख सके और समय के साथ गुणवत्ता में गिरावट को रोक सके।
आम AI वीडियो-टू-वीडियो टूल्स अक्सर धीमे होते हैं, कुछ मिनटों के लिए केवल कुछ क्षणों का आउटपुट देने के लिए। Mirage के साथ, इनपुट और आउटपुट के बीच केवल 100 मिलीसेकंड का विलंब होता है, जिसमें प्रोसेसिंग समय और अन्य सिस्टम ओवरहेड शामिल हैं।
Decart ने प्रत्येक फ्रेम को उत्पन्न करने के लिए आवश्यक चरणों को कम करके और मॉडल को अधिक कुशलता से चलाने के लिए ट्रिम करके यह हासिल किया है। यह प्रणाली विशेष रूप से NVIDIA Hopper चिप्स के लिए कस्टम लो-लेवल GPU कोड का उपयोग करके ट्यून की गई है, जो गति में सुधार करती है और विलंबता को कम करती है।
Mirage का उपयोग करने वाले स्ट्रीमर्स को चिंता करने की आवश्यकता नहीं है; प्लेटफार्म का कहना है कि AI सामग्री ठीक है जब तक कि वह "अप्राकृतिक" न हो।