תמונה שיצרה DALL-E 2 על פי ההנחיה: "תמונה של יד רובוטית מציירת, אמנות דיגיטלית" ("A photo of a robot hand drawing, digital art") | |
מפתח | OpenAI |
---|---|
מחזור חיים | 5 בינואר 2021 – הווה |
labs |
DALL-E (מסוגנן כ-DALL·E; הלחם בסיסים של דאלי ושל וול-E)[1][2] היא תוכנת בינה מלאכותית שיוצרת תמונות מתיאורים טקסטואליים.
התוכנה משתמשת בכ-12 מיליארד פרמטרים[2] בגרסה של מודל ה-GPT-3 כדי לפרש קלט טקסטואלי משפה טבעית (כמו "ארנק עור ירוק בצורת מחומש" או "תצוגה איזומטרית של קפיבארה מצויה עצובה") וליצור תמונות בהתאם.[1] היא יכולה ליצור דימויים של חפצים ריאליסטיים ("חלון ויטראז' עם תמונה של תות כחול") וגם של חפצים שאינם קיימים במציאות ("קובייה במרקם של דורבן").[3][4][5]
משנות ה-2000 ואילך רשתות עצביות מלאכותיות רבות הצליחו ליצור תמונות מציאותיות.[1] ייחודה של DALL-E בכך שהיא מסוגלת לייצר אותן על בסיס הנחיות בשפה טבעית, שאותן היא מיישמת לרוב ורק לעיתים נדירות נכשלת, וגם זאת לא באופן משמעותי.[1]
OpenAI לא פרסמה קוד מקור לאף אחד מהדגמים, אף על פי ש"בקר" של DALL-E זמין באתר האינטרנט של OpenAI, שבו ניתן לראות פלט ממבחר מוגבל של הנחיות לדוגמה.[2] חלופות קוד פתוח, שהוכשרו על כמויות קטנות יותר של נתונים, כמו DALL-E Mini, שוחררו על ידי אחרים.[6]
לפי "MIT Technology Review", אחת המטרות של OpenAI הייתה "לתת למודלי שפות תפיסה טובה יותר של המושגים היומיומיים שבני אדם משתמשים בהם כדי להבין דברים".[7]
ב-5 בינואר 2021 נחשף DALL-E על ידי OpenAI, חברה אמריקאית למחקר בינה מלאכותית.[7]
באפריל 2022, OpenAI הכריזה על DALL-E 2, בטענה שהיא יכולה להפיק תמונות פוטו-ריאליסטיות מתיאורים טקסטואליים, יחד עם עורך המאפשר שינויים פשוטים בפלט. נכון לזמן ההכרזה, נאמר שהתוכנה עדיין נמצאת בשלב המחקר, כשהגישה מוגבלת למשתמשי בטא שנבחרו מראש. המודל עדיין יכול לעשות טעויות חמורות, כולל טעויות שאף אדם לא יעשה.[8] DALL-E 2 תואר כדגם ש"יכול ליצור תמונות ואמנות מקוריות וריאליסטיות מתיאור טקסט. היא יכולה לשלב מושגים, תכונות וסגנונות."[9]
בספטמבר 2023, OpenAI השיקה את DALL·E 3 עם יכולות הבנה והפקת תוצרים גבוהים יותר ובאוקטובר הוא הוטמע בצורה אינטגרלית בתוך ChatGPT[10]. הצ׳אטבוט יכול כעת ליצור תמונות ייחודיות משיחה פשוטה - והתכונה החדשה הזו זמינה בשלב זה למשתמשי Plus ו-Enterprise. מיקרוסופט הטמיעה את המודל בכלי Image Creator של Bing ובכלים נוספים כגון Copilot.
באפריל 2024 נוספה אפשרות לעריכה באמצעות טקסט וסימון איזור בתמונה שנוצרה על ידי DALL•E בתוך ממשק ChatGPT. [11]
DALL-E פותח והוכרז לציבור בשיתוף עם CLIP (הדרכה מקדימה של שפה-תמונה נגדית).[7] CLIP הוא מודל נפרד שתפקידו "להבין ולדרג" את התפוקה של DALL-E.[1] התמונות ש-DALL-E מייצר נשמרות ומדורגות על ידי CLIP, שמציגה את התמונות האיכותיות ביותר עבור כל הנחיה נתונה.[7]
המודל Generative Pre-trained Transformer (GPT) פותח לראשונה על ידי OpenAI בשנת 2018,[12] תוך שימוש בארכיטקטורת Transformer. האיטרציה הראשונה, GPT, הוגדלה כדי לייצר את GPT-2 ב-2019;[13] בשנת 2020 הוא הוגדל שוב לייצור GPT-3, עם 175 מיליארד פרמטרים.[2]
המודל של DALL-E הוא מימוש מולטי-מודאלי של PT-3 עם 12 מיליארד פרמטרים[2] אשר "מחליף טקסט לפיקסלים", מאומן על צמדי טקסט-תמונה מהאינטרנט.[7] הוא משתמש בלמידת אפס-שוט (zero-shot learning) כדי ליצור פלט מתיאור ורמז ללא הכשרה נוספת.[14]
DALL-E יוצר מספר תמונות בתגובה להנחיות. מודל CLIP[1] שהוכשרו בו למעלה מ-400 מיליון זוגות של תמונות וטקסטים מבין ומדרג תמונות אלו.[2][15] במקום מערך נתונים של תמונות עם כותרת (כמו ImageNet)[7] CLIP משייך תמונות לכיתובים שלמים.[7] CLIP הוכשר לחזות איזה כיתוב (מתוך "בחירה אקראית" של 32,768 כיתובים אפשריים) היה המתאים ביותר לתמונה, מה שמאפשר לה לזהות לאחר מכן אובייקטים בתמונות מחוץ לסט האימונים שלה.[7]
DALL-E מסוגלת ליצור דימויים במגוון סגנונות, מתמונות פוטוריאליסטיות[2] ועד לציורים ואמוג'י. היא מסוגלת לבצע מניפולציות ולסדר מחדש אובייקטים בתמונות.[2] אחת היכולות שצוינו על ידי יוצריה הייתה המיקום הנכון של אלמנטים עיצוביים ללא הוראה מפורשת: לדוגמה, כאשר מתבקש לצייר צנון-דייקון מקנח את אפו, לוגם לאטה או רוכב על חד אופן, DALL·E מצייר לעיתים קרובות את המטפחת, הידיים והרגליים במקומות סבירים.[16]
בעוד ש-DALL-E הציג מגוון רחב של מיומנויות ויכולות, עם הוצאתה של ההדגמה הציבורית שלו, רוב הסיקור התמקד בתת-קבוצה קטנה של תמונות פלט "סוריאליסטיות"[7] או "מוזרות".[17] באופן ספציפי, הפלט של DALL-E עבור "איור של צנון דייקון תינוק בחצאית טוטו מטייל עם כלב" הוזכר ב-Nature[18], NBC[19] ופרסומים אחרים.[2][20][21] הפלט שלו ל"כורסה בצורת אבוקדו" צוין באופן דומה.[7][22] לעומת זאת, נצפה פיתוח לא מכוון של DALL-E של מיומנויות חשיבה חזותית המספיקות לפתור את המטריצות של רייבן (Raven's Progressive Matrices), מבחנים חזותיים המבוצעים לעיתים קרובות לבני אדם כדי למדוד אינטליגנציה.[23]
למרות זאת, DALL-E תואר כ"חזק להפליא לשינויים כאלה" ואמין בהפקת תמונות עבור מגוון רחב של תיאורים שרירותיים.[1] סם שד,מ-CNBC, כינה את התמונות שלו "מוזרות" וציטט את ניל לורנס, פרופסור ללמידת מכונה באוניברסיטת קיימברידג', שתיאר זאת כ"הדגמה מעוררת השראה של היכולת של מודלים אלה לאחסן מידע על העולם שלנו ולעשות הכללות בדרכים שעבור בני אדם הן טבעיות מאוד". שד גם ציטט את מארק רידל, פרופסור חבר בבית הספר למחשוב אינטראקטיבי של ג'ורג'יה טק, שאמר שתוצאות ההדגמה של DALL-E הראו שהיא מסוגל "למזג מושגים באופן קוהרנטי", מרכיב מפתח ביצירתיות אנושית, וכי התוכנה מדגימה באופן יוצא דופן הפקת איורים שהם הרבה יותר קוהרנטיים ממערכות Text2Image אחרות מהשנים האחרונות.[17] רידל גם צוטט על ידי ה-BBC שהוא "התרשם ממה שהמערכת יכולה לעשות".[22]
צוינה לטובה גם היכולת של DALL-E "להשלים את החסר" ולהסיק מפרטים . ExtremeTech ציין כי הנחיה לצייר פינגווין שלובש סוודר חג המולד יצרה לא רק תמונות של פינגווינים לובשים סוודרים, אלא גם כובעי סנטה הקשורים לנושא,[24] ו-Engadget ציין כי צללים ממוקמים כראוי הופיעו בפלט עבור ההנחיה "ציור של שועל יושב בשדה בחורף".[14] יתר על כן, DALL-E מציג הבנה רחבה של מגמות חזותיות ועיצוביות; ExtremeTech אמר כי "אתה יכול לבקש מ-DALL-E תמונה של טלפון או שואב אבק מתקופת זמן מוגדרת, והוא מבין איך החפצים האלה השתנו".[24] Engadget גם ציין את יכולתה יוצאת הדופן "להבין כיצד טלפונים וחפצים אחרים משתנים עם הזמן".[14] DALL-E תואר, יחד עם "AI צר" אחר כמו AlphaGo, AlphaFold ו-GPT-3 כיוצר עניין בשאלה האם וכיצד ניתן להשיג בינה כללית מלאכותית.[25]
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite journal))
: (עזרה); Cite journal requires |journal=
(עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
((cite web))
: (עזרה)
OpenAI | ||
---|---|---|
מוצרים | ChatGPT • DALL-E • GitHub Copilot • OpenAI Five (אנ') • טריטון (אנ') • Sora | |
מודלים | GPT (GPT-3, GPT-4, GPT-4o) • OpenAI Codex | |
אנשים | סם אלטמן • איליה סוצקבר • גרג ברוקמן • וויצ'ך זרמבה • מירה מוראטי | |
מוצרים קשורים | בינג • Auto-GPT |