YUV.AI - בינה מלאכותית בעברית
2.43K subscribers
655 photos
409 videos
37 files
438 links
YUV.AI - בינה מלאכותית בעברית
👉 https://yuv.ai 👈
Download Telegram
Media is too big
VIEW IN TELEGRAM
קבלו את הסטודיו החדש שפיתחתי עם קלוד קוד שמאפשר לקחת תמונה אחת בלבד ולייצר דמויות בכל צורה שתדמיינו, לקחתי את חכם חנוכה לסיבוב ואתם חייבים לראות איך יצא!
🔥41
לא משנה שכבר שלוש שנים אני לא מפסיק להפוך כל אבן ב-AI. אני עדיין לא מעכל שמתמונת רפרנס אחת בלבד אפשר לקבל תוצאות כאלה. השוויתי הרבה בין פלאקס קונטקסט לבין אידאוגרם קרקטר החדש. אידאוגרם לוקח בענק.
5
חידוד חשוב לגבי הסטודיו שפיתחתי. הרבה הגיבו שהפיצ'ר כבר קיים באסטריה, אבל! מה שאני עשיתי פה זה יכולת ליצור תמונה עם אנשים שונים *מתמונת רפרנס אחת בלבד ומבלי לאמן אף לורה!*

ז"א, מעלים תמונה אחת טובה של כל דמות, ומאותו הרגע אפשר לכתוב פרומפט שמשלב את הדמויות איך שבא לכם. וזהו! בלי לורות. בלי שטיקים. בלי טריקים!
Media is too big
VIEW IN TELEGRAM
קלוד קוד אחד ביום: השתמשתי בו כדי לתאר תמונות באופן אוטומטי כשלב מקדים לאימון מודל לאבובו! 🤯

כשרוצים לאמן מודל LoRA, על דמות או סגנון, צריך לאסוף תמונות. לאחר מכן, צריך ליצור קובץ טקסט שזהה לשם התמונה ומכיל תיאור של אותה תמונה. זה סיוט שאין לתאר. כדי לבצע זאת אוטומטית, ומבלי להשתמש בקומפיכס UI, ביקשתי מקלוד קוד להשתמש במודל פלורנס-2 של מייקרוסופט, מודל ויז'ן שיודע לתאר תמונות ולרוץ לוקאלית על המחשב. תוך מספר בודד של פרומפטינג, הסקריפט היה מוכן, רץ בהצלחה, וקיבלתי את כל הקבצים וחסכתי המון זמן על העבודה הנוראית הזו.

החלטתי לעשות מעשה ולפרסם לכולם את הקוד ובחינם, אז תוכלו למצוא אותו בגיטהאב שלי, שם המשתמש שלי בגיטהאב הוא hoodini ושם הפרויקט הוא AutoCap מלשון Auto Image Captioning. תהנו ותזכרו: קלוד קוד אחד ביום - הוא חבר שהוא חלום!! 🤯
7🔥1
אימנתי כבר כמות אדירה של מודלים ועדיין נשימתי נעתקת כשאני רואה איך ה-AI "מבין" לאט לאט איך המודל שלנו נראה. כמו המוח האנושי, להבדיל. בהתחלה לא מבינים מה רואים. אחרי זה יש חזרתיות שגורמת לרשת הנוירונים שלנו במוח להתעצב בצורה מסוימת עד שהמוח כבר מבין מה אנחנו רואים.

להבדיל, ה-AI בהתחלה לא מבין מה הוא רואה. ואז מתבצעת חזרתיות שוב ושוב, יחד עם תיאור טקסטואלי של מה הוא רואה, והוא עובר על הדאטה שוב ושוב, עד שהוא מבין ומייצר הכל כמו שצריך.

אתם רואים פה תוצאות של שני פרומפטים זהים, הראשון: בובת לבובו חובשת כובע עם קפה לצידה ומחזיקה שלט עם כיתוב. השני: בובת לבובו בסגנון וולברין בלונדון.

תראו איך בהתחלה ה-AI הבין שיש פה בובה, אז יצר על בסיס הידע הקיים שלו. וככל שהאימון התקדם והוא הבין מה זה לבובו - הוא כבר התחיל לדייק. וכאן זה רק אמצע האימון. התמונות הראשון הן של צעד 200, התמונות היותר מדויקות הן של צעד 3000 באימון. מטורף!
👏1
איך אפשר לאמן מודל על אנשים או סגנונות אופנה (כמו האשליה בתמונה המצורפת) - בא נעשה סדר בבלאגן המונחים בעולם אימון מודלים לתמונות של אנשים (כמו מה שרואים את ביבי עם טראמפ וכדומה) או מותגים (כמו קוטג׳ של תנובה או ביסלי של אוסם וכדומה):

יצירת תמונות עם AI זה לא דבר חדש. לאמן מודלים שעוזרים לקבל דיוק זה גם לא דבר חדש. זה היה זמין עוד ב-Stable Diffusion בצורה מייגעת מאוד. עד שהגיעו Flux וטרפו את הקלפים.

חברת Black Forest Lab פרסמה בחינם המון מודלים מדהימים. הבולטים הם Flux Dev וגם Flux Kontext. את שניהם אפשר לקחת ועל בסיסם לאמן מודל קטן, LoRA, על דאטה סט יחסית קטן של תמונות ואז לג׳נרט תמונות עם המודל שיצרנו.

מתי מאמנים לורה?

כאשר אנחנו רוצים לייצר תמונות, ומה שהמודל מכיר לא מספיק טוב, או שהוא לא מכיר בכלל. למשל, אם אני רוצה אותי, והוא לא מכיר אותי, או שאני רוצה לוגו של מותג, או פרזנטור, והוא לא מכיר.

מה עושים במצב כזה?

גורמים לו להכיר. איך? לוקחים אוסף של תמונות. מוסיפים תיאור של כל תמונה. משתמשים בתוכנה שטוענת את קובץ הבסיס של המודל שלא מכיר אותנו, ואז אנחנו מתחילים לאמן מודל קטן שלוקח את התמונות שלנו, ובהתבסס על המודל הגדול, יודע ליצור מודל שמייצג את המידע החדש שהוא לא מכיר.

ואז מה?

מייצרים תמונות כאשר משתמשים בקובץ הבסיס ומצרפים את קובץ הלורה, שהוא המודל החדש שיצרנו. כך נוכל להשתמש במודל הבסיס המשובח ולצרף אליו את המידע על מה או מי שאימנו ונקבל את התוצרים שלנו.

איך אפשר לאמן מודל לורה?

או באתרי אינטרנט שונים כמו Fal, אסטריה וכדומה. או מקומית על מחשב חזק (כרטיס מסך של Nvidia 3090 מינימום) באמצעות תוכנות חינמיות כמו Flux Gym או ai-toolkit (זה מה שאני משתמש).

כל זה טוב ויפה לעולמות אימון המודלים, וכך זה עבד כבר מזמן עם Flux Dev. אז מה החידוש ב-Flux Kontext?

הוא מודל אחר שיודע לקחת תמונה כאינפוט, לשמור על כל המאפיינים של הדמות שרואים בתמונה, ועל בסיסה לייצר תמונה חדשה לגמרי עם תיקוני עריכה. למשל, אם יש תמונה שלי, אוכל לבקש לקבל את עצמי אבל עם לבוש אחר. או את הבית שלי - עם ריהוט אחר. וכך הלאה. וכל זה מבלי לאמן מודל על עצמי כי הוא מקבל בקלט תמונות.

אז למה לאמן מודל בכלל על Flux Kontext?

כי הוא מודל עריכה. אם אנחנו רוצים לערוך תמונות, להחליף שיער, בגדים, תספורות, אפילו לראות איך יוצאים אחרי בוטוקס, או להפוך לבובות לבובו וכדומה. או אם אנחנו רוצים עקביות ואחידות של דמויות ברמת הלבוש של הדמות (כי מודל יצירת תמונות מייצר כל פעם בגד אחר ולא אחיד). במקרים כאלה, לא יעזור להשתמש סתם ב-Flux Dev עם לורה. אפשר להשתמש ב-Flux Kontext. והחידוש הגדול הוא שגם אם אנחנו משתמשים בו אבל לא מרוצים מתוצרי העריכה, נוכל לאמן מודל קונטקסט בעצמנו ואז לטעון תמונה כלשהי כקלט, למשל אני בלבוש מסוים, להשתמש במודל שאימנתי על עריכה מסוימת, למשל בובות לבובו, ואז אקבל את עצמי בתור לבובו, אבל לא סתם כתוצר רנדומלי כלשהו, אלא ברמה מאוד גבוהה. ומדויקת.

ומה העתיד של אימון מודלים לתמונות אם ראינו מקרים שמספיקה תמונה אחת?

זו שאלה גדולה. Flux Kontext באמת עובד יפה מתמונה אחת. גם Ideogram Character וגם Higgsfield או Midjourney. אבל נראה שבשביל ליצור עקביות אמיתית בדמות, אין מנוס מלשלב בין שימוש במודל הבסיס של Flux Kontext (שיתן לי את הלבוש שלי במדויק) יחד עם LoRA שלי כדי לקבל את המראה שלי במדויק מבחינת תווי פנים, ואפילו עם Kontext LoRA כדי להשפיע גם על סגנון העריכה הסופי. זה למי שרוצה דיוק מקסימלי.

למי שמספיק דיוק בתווי הפנים - Ideogram Character מספיק, ומי שרוצה דיוק בלבוש וקצת פחות בתווי הפנים - Flux Kontext שזמין אפילו בניסיונות חינמיים ב-Playground של Black Forest Lab לגמרי יכול לבצע את העבודה טוב. אל תשאלו מה הקישור, תחפשו, כי לא יכול להדביק בפוסט אז לא להתעצל 😬

וחזרה למה שהתחלנו איתו - אם אאמן מודל לורה בדרך ״הישנה״ על הבגד הזה, אוכל לשלב אותו ביצירת התמונות וזה יתן אחידות כי תמיד הדמות תלבש את החולצה הזו. מנגד, אם אשתמש ב-Flux Kontext, גם בלי לאמן מודל - הוא ישמור על הבגד הזה. אבל אם אני רוצה לשלב דמות שתלבש את הבגד הזה - אצטרך לרשום בפרומפט את הדמות, ואם מודל הבסיס לא מכיר אותה - אז לאמן לורה על הדמות ולשלב אותה בתהליך יצירת התמונה. לחילופין, אפשר גם פוטושופ קלאסי, או inpaint וכדומה, אבל אם רוצים ״פשטות״ (יחסית): אז Flux Kontext + Flux Dev LoRA. ולבסוף, אם היינו רוצים סגנון מסוים, אפשר לאמן גם מודל על Flux Kontext.

הדוגמא הכי טובה זה ספר שיש לו קטלוג תספורות או קוסמטיקאית שמורחת לק בסגנון מסוים. אם נאמן מודל Kontext על תספורות או סגנונות הלק, נוכל לטעון תמונה של דמות ב-Flux Kontext ולקבל אותו עם התספורת / לק (או כאמור אפילו בוטוקס)!
2👏1
וזהו להיום. מסקנות ששוות זהב והן תולדה של פיתוח הסטודיו שאני עובד עליו. יהיה ממש מגניב.
האימון של המודל שלי הסתיים והמוח שלי נטרף וזה בדרך לסטודיו החדש שלי!
🔥4
הצלחתי לפצח את זה בסטודיו שלי!!!! מעלה תמונת רפרנס *אחת!*, *בלי לאמן מודל!*, מזין פרומפט, בוחר בסוכן ה-AI שיצרתי שמבצע כמה דברים מאוד מעניינים - *ומקבל תוצר עם דיוק של כ-99% בתווי הפנים ובלבוש*!!!!!!!

אין רגע מרגש כזה! קבלו למשל את הרבי מניח תפילין, מצאתי תמונה מאוד קטנה באיכות לא משהו (בצילום המסך עשיתי זום בכוונה), הזנתי פרומפט שאני רוצה את הרבי בניו יורק, וסוכן ה-AI שלי יצר הכל לבד! ז"א, אני רק יצרתי דמות של הרבי מתמונת רפרנס אחת, ועכשיו אני יכול לקבל אותו במדויק בפנים ובלבוש איך שאני רוצה!

כנ"ל, להבדיל, לגבי "חכם חנוכה". מתמונה אחת לא משהו, עכשיו אני מקבל אותו במדויק, לרבות הלבוש!!!!! כמה שזה מרגש. סוכן AI שמייצר תמונות ברמת דיוק של 99%!! בע"ה מקווה שבקרוב אוכל להשיק את הסטודיו. סופר מרגש!

מבחינה טכנית: יש פה אפליקציית Full Stack שפיתחתי עם קלוד קוד לפי הטכניקות שאני מראה בקורס שלי, שיש עליו הנחה ומחיר השקה עד סוף החודש בלבד. יש כאן טכניקות, חיבורי מודלים, בסיסי נתונים ועוד. אפילו השמיים הם לא הגבול. טירוף!
🔥84