डाल·ई 2 क्या है? उदाहरण के साथ शुरुआती के लिए स्पष्टीकरण

Cto Takoe Dall E 2 Ob Asnenie Dla Nacinausih S Primerami



डाल·ई 2 क्या है?

DALL·E 2 एक आर्टिफिशियल इंटेलिजेंस प्रोग्राम है, जो पाठ्य विवरणों से छवियां बनाता है, जिसका खुलासा एक शोध कंपनी OpenAI ने गुरुवार को किया।





यह प्राकृतिक भाषा इनपुट की व्याख्या करने और संबंधित छवियों को उत्पन्न करने के लिए GPT-3 ट्रांसफार्मर मॉडल के 12-बिलियन पैरामीटर प्रशिक्षण संस्करण का उपयोग करता है। उदाहरण के लिए, जब वाक्य के साथ 'एक छोटे कुत्ते की एक श्वेत-श्याम तस्वीर' प्रदान की जाती है, तो यह चिहुआहुआ की सही-सही ब्लैक-एंड-व्हाइट छवि प्रस्तुत करता है।





सिस्टम सही नहीं है - यह कभी-कभी ऐसी छवियां उत्पन्न करता है जिनकी व्याख्या करना कठिन होता है, या पूरी तरह से गलत होता है। उदाहरण के लिए, जब 'ज्वालामुखी के ऊपर कसौटी पर साइकिल चलाते हुए एक व्यक्ति' की छवि उत्पन्न करने के लिए कहा गया, तो इसने अग्रभूमि में एक छोटी सी आकृति के साथ पानी के ऊपर सूर्यास्त की एक (सुंदर, मेरी राय में) लेकिन पूरी तरह से असंबंधित छवि उत्पन्न की। .





फिर भी, परिणाम प्रभावशाली हैं, और OpenAI का कहना है कि DALL·E 2 'ऐसा पहला AI मॉडल है जो पाठ्य विवरण से छवियां उत्पन्न करता है जो पेशेवर मानव कलाकारों की गुणवत्ता को टक्कर दे सकता है।'



सिस्टम को टेक्स्ट-इमेज जोड़े के डेटासेट पर प्रशिक्षित किया गया था, जिसमें इंटरनेट से लगभग 1.3 मिलियन इमेज और कैप्शन शामिल थे, जिन्हें OpenAI द्वारा स्क्रैप और क्यूरेट किया गया था। प्रशिक्षण डेटा का उपयोग तब GPT-3 मॉडल को फाइन-ट्यून करने के लिए किया गया था ताकि यह पाठ्य विवरण से छवियां उत्पन्न कर सके।

OpenAI का कहना है कि सिस्टम पाठ्य विवरणों की एक विस्तृत श्रृंखला से 'उच्च-गुणवत्ता' वाली छवियां उत्पन्न कर सकता है, जिनमें अमूर्त, ठोस या यहां तक ​​कि काव्यात्मक भी शामिल हैं।

चिहुआहुआ उदाहरण के अलावा, DALL·E 2 द्वारा निर्मित छवियों के अन्य उदाहरणों में एडॉल्फ हिटलर का एक सही ढंग से प्रस्तुत चित्र, सब्जियों से बने ड्रैगन की एक छवि और टोस्ट से बनी मोना लिसा की एक छवि शामिल है।



सिस्टम उन चीजों की छवियां भी उत्पन्न करने में सक्षम है जो मौजूद नहीं हैं, जैसे कि 'फ्लोफ' (एक बना-बनाया जानवर) या 'टुल्पा' (एक विचार रूप)।

कुल मिलाकर, परिणाम प्रभावशाली हैं, और OpenAI का कहना है कि प्रणाली 'पाठ्य विवरण से चित्र बनाने के लिए नई संभावनाएं खोलती है।'

ई 2 से यह क्लिप-प्रणाली पाठ्य सूचना को दृश्य सूचना में परिवर्तित करता है। यह एक एनकोडर-डिकोडर प्रतिमान है, जिसका अर्थ है कि जब इनपुट टेक्स्ट प्रदान किया जाता है, तो इसे पहले मशीन इनपुट में परिवर्तित किया जाता है, फिर सिस्टम द्वारा संसाधित किया जाता है, और अंत में डिकोडर को पास किया जाता है, जो एन्कोडेड डेटा को इमेज में परिवर्तित करता है।

डीएएल ई 2 क्या है

डाल·ई 2 क्या है?

यह DALL·E की नवीनतम पीढ़ी है, एक जनरेटिव भाषा मॉडल जो पूरी तरह से नए दृश्य प्रभाव बनाने के लिए वाक्यांशों का उपयोग करता है। DALL E 2 एक विशाल 3.5V मॉडल है, हालांकि GPT-3 जितना विशाल नहीं है। दिलचस्प बात यह है कि यह अपने पूर्ववर्ती (12B) से भी हल्का है। विवरण संरेखण और फोटोरियलिज्म के संदर्भ में, DALL·E 2 अपने बड़े आकार के बावजूद DALL·E 2 से 70% बेहतर है।

DALL.E 2- शुरुआती लोगों के लिए उदाहरण के साथ स्पष्टीकरण

विशेष रूप से, DALL·E 2 एक पदानुक्रमित सशर्त पाठ छवि संश्लेषण मॉडल है जो छवि निर्माण के लिए कंप्यूटर दृष्टि के साथ प्राकृतिक भाषा प्रसंस्करण के लिए गहन शिक्षा को जोड़ता है। इसका लक्ष्य दो मॉडलों को प्रशिक्षित करना है, और प्रशिक्षण सेट में युग्मित चित्र और विवरण शामिल हैं। पहला एक प्राथमिकता है, जिसे एक लिखित शीर्षक दिया गया है, जिसे CLIP छवि एम्बेड करने के लिए प्रशिक्षित किया जा सकता है। तब हमारे पास एक डिकोडर होता है, जो एक CLIP छवि एम्बेड करते समय (और कैप्शन, यदि मौजूद हो), एक प्रशिक्षित छवि उत्पन्न कर सकता है।

DALLE 2 को इंटरनेट से कैप्शन के साथ करोड़ों तस्वीरों का उपयोग करके प्रशिक्षित किया जाता है, और उनमें से कुछ छवियों को हटा दिया जाता है और मॉडल जो सीखता है उसे बदलने के लिए फेरबदल किया जाता है। यह कई छवि विकल्पों को पुनः प्राप्त करता है क्लिप संलग्नक और फिर इसका इस्तेमाल करें कूटवाचक उनमें से प्रत्येक के माध्यम से जाओ। यह तब उपयोगकर्ता के इनपुट के अनुसार सभी सूचनाओं का एक दिलचस्प मिश्रण बनाता है।

उदाहरण डीएएल आईएस 2

आइए DALL·E को समझने के लिए एक छोटा सा खेल खेलते हैं। आइए इसे अगले तीन चरणों में तोड़ दें।

  1. नीले आकाश में उड़ने वाले इंद्रधनुष, बादलों और यूनिकॉर्न की कल्पना करें। कल्पना कीजिए कि आपकी कल्पना में एक चित्र कैसा हो सकता है। लोग एक छवि एम्बेड के सही एनालॉग के सबसे करीब हैं, और जो चित्र अभी-अभी आपके दिमाग में आया है, वह इसका एक आदर्श उदाहरण है। आप केवल अंतिम उत्पाद के बारे में अनुमान लगा सकते हैं, लेकिन आपको इस बात का अच्छा अंदाजा है कि इसमें क्या शामिल होना चाहिए। एक प्राथमिक मॉडल पाठक को वाक्यांश के शब्दों से उसकी कल्पना में एक दृश्य तक ले जाता है।
  2. अब आप ड्राइंग शुरू कर सकते हैं। अनक्लिप जो करता है वह आपकी मानसिक तस्वीर को वास्तविक रेखाचित्र में बदल देता है। अब आप समान मूल आंकड़ों के साथ, लेकिन पूरी तरह से नई विज़ुअल शैली के साथ, उसी विवरण से किसी अन्य वर्ण को सटीक रूप से फिर से बना सकते हैं। DALL·E 2 इस तरह से एम्बेड की गई मौजूदा छवि से अनूठी छवियां भी उत्पन्न कर सकता है।
  3. आपके द्वारा बनाए गए स्केच पर ध्यान दें। ऐसा तब होता है जब आप 'बादलों के बीच में एक गेंडा, और आकाश के खिलाफ एक इंद्रधनुष उगता है' का वर्णन करते हैं। अब यह निर्धारित करने के लिए छवि और पाठ की जांच करें कि कौन सा अन्य (सूर्य, घर, पेड़, आदि) को सबसे अच्छा दिखाता है और कौन सा विषय वस्तु, शैली, रंग आदि को सबसे अच्छा दिखाता है। CLIP जो करता है वह विशेषताओं को कूटबद्ध करता है। पाठ और चित्र।

अब जब हम जान गए हैं कि DALL-E क्या है, तो चलिए अगले भाग पर चलते हैं और इसकी विशेषताओं को समझते हैं।

बख्शीश: डीएएल-ई-2 एआई सेवा के साथ यथार्थवादी छवियां कैसे बनाएं

विशेषताएं डीएएल ई 2

नीचे DALL·E 2 के विनिर्देश दिए गए हैं।

  1. बदलाव
  2. रंग
  3. पाठ अंतर

आइए उनके बारे में विस्तार से बात करते हैं।

कैसे शब्द 2010 में व्यापार कार्ड बनाने के लिए

1] बदलाव

DALL·E 2 केवल एक वाक्य को एक छवि में अनुवाद करने से आगे जाता है। OpenAI जनरेटिव प्रक्रिया के साथ प्रयोग कर सकता है, मजबूत CLIP एम्बेडिंग के लिए दिए गए हस्ताक्षर के लिए अलग-अलग परिणाम दे सकता है। CLIP अपने 'दिमाग' में जो देखता है वह इनपुट से महत्वपूर्ण मानता है (सभी छवियों के लिए समान रहता है) और क्या बदला जा सकता है (जो विभिन्न छवियों के लिए बदलता है)। जब भी संभव हो, DALL·E 2 'अर्थपूर्ण जानकारी...और सौंदर्य संबंधी पहलुओं' दोनों को बनाए रखेगा।

2] रंग

DALL·E 2 स्वचालित भरण के साथ मौजूदा फ़ोटो को संशोधित कर सकता है। निम्नलिखित उदाहरण में, बाईं छवि मूल छवि है, और केंद्र और दाईं तस्वीरों में तत्व अलग-अलग स्थानों पर खींचे गए हैं। DALL·E 2 चित्र शैली में एक अतिरिक्त तत्व से मेल खाता है। यह नए तत्व को दर्शाने के लिए बनावट और प्रतिबिंबों को भी अपडेट करता है।

पढ़ना : आप चैटजीपीटी के साथ क्या कर सकते हैं

3] टेक्स्ट अंतर

DALL·E 2 पाठ अंतरों का उपयोग करके छवियों को परिवर्तित करता है। DALL·E 2 में उन्नत इंटरपोलेशन क्षमताएं भी हैं जो आपको वस्तुओं को संशोधित करने की अनुमति देती हैं। एक ट्विटर यूजर अपने आईफोन को 'अनमॉर्डेनाइज' करने में सक्षम था। चहचहाना.com इसे जांचने के लिए।

यदि आप इन सुविधाओं को पसंद करते हैं, तो आपको बस इतना करना है कि जाना है openai.com और फिर रजिस्टर करें। साइन अप करने के लिए आप एक नया खाता बना सकते हैं या अपने मौजूदा Microsoft या Google खातों का उपयोग कर सकते हैं। एक बार जब आप ऐसा कर लेते हैं, तो आपको कुछ मुफ्त क्रेडिट मिलेंगे, यदि आप और अधिक चाहते हैं, तो आपको इसके लिए भुगतान करना होगा।

ये DALL·E 2 की कुछ विशेषताएं हैं, इसमें कई बेहतरीन उपयोग के मामले हैं, हालांकि यह हमेशा सलाह दी जाती है कि एआई उपकरणों पर बहुत अधिक भरोसा न करें। आखिरकार, वे और कुछ नहीं बल्कि काम पूरा करने के लिए इस्तेमाल किए जाने वाले उपकरण हैं, वे कभी भी किसी व्यक्ति की भावनात्मक बुद्धिमत्ता की जगह नहीं ले सकते।

यह भी पढ़ें: सर्वश्रेष्ठ डीपफेक ऐप्स, सॉफ्टवेयर और वेबसाइटें।

डीएएल ई 2 क्या है
लोकप्रिय पोस्ट