YUV.AI - בינה מלאכותית בעברית
2.43K subscribers
657 photos
410 videos
37 files
439 links
YUV.AI - בינה מלאכותית בעברית
👉 https://yuv.ai 👈
Download Telegram
זה מהפכני! OCR (חילוץ טקסט מתמונה) - עובד בעברית עם המודל החדש GPT-4o!

גילתה זאת דנה אקרמן ושיתפה בקהילה שלנו, ניסיתי לצלם מוצרים בחנות של מקס, וזה פשוט הדהים אותי! נסו ועדכנו איך עבד לכם!!

שבת שלום ותודה לדנה!
יובל
🔥8👍2😁1
אמ:לק - דווין מבצע כעת את הפרויקט הכי מורכב שנתתי לו: ליצור מודל בעברית על בסיס שירים של עידן רייכל ולבנות אתר שמאפשר לתשאל את המודל הזה.

לא. לא אפסיק לחפור על דווין. במסגרת תחרות שיש לסוקרים הטכניים, אחת המשימות היא לגרום לדווין להצליח לבצע Fine Tune למודל שפה. זה משהו שממש רוצים שנצליח לגרום לדווין לבצע. אז זוכרים את הפוסט הקודם-קודם-קודם שלי על זה? הפעם יצאתי איתו לדרך.

הפרומפט מאוד פשוט כמו שאתם רואים: תוריד את מודל השפה החדש של דיקטה, תוריד את כל המילים של השירים של עידן רייכל מאתר שירונט, צור מודל חדש בעברית שהתאמן על השירים של עידן רייכל, בנה אתר שמאפשר להתכתב עם המודל החדש ותן לי קישור לאתר.

מה שיפה זה לראות את תהליך העבודה קורה מול העיניים. שפת התכנות החדשה, אנגלית, מחליפה את שפת התכנות הקלאסית. מהפכה של ממש לנגד עינינו. אעדכן בתוצאה כמובן. עד אז הנה הסבר של מה שאתם רואים פה:

בירוק: הפרומפט שכתבתי לו. ככה פשוט. ככה קל.

בצהוב: מתקין לעצמו במחשב שלו את החבילות הנדרשות לביצוע את המשימה. מעניין מאוד שהוא הבין שהוא צריך להוריד מודל אז הוא כתב לעצמו סקריפט (קטע קוד) שמבצע את הורדת המודל, ואז הריץ אותו והוריד את המודל בפועל. לאחר מכן הוא גם התקין חבילת קוד שמסוגלת לחלץ תוכן מאתרי אינטרנט.

בכחול: כותב לעצמו את הקוד שצריך כדי לבצע את המשימה, ממש יוצר פונקציות לכל תת משימה.

באדום: גולש אוטומטית בדפדפן ומחלץ תוכן מאתר שירונט.

אין מילים למה שקורה כאן, ואם זה באמת יעבוד (עזבו רגע את העיצוב של האתר שכנראה לא יהיה וואו) - זו תהיה מהפכה קיימת ברמה שקשה להסביר!! והשוס - כל זה קורה בדפדפן!!!! לא צריך להתקין כלום, רק נכנסים לאתר ומתחילים. זהו!

יאללה שתהיה שבת שלום ואעדכן בתוצרים!!! ושמח מאוד לעדכן שככל הנראה בסוף מאי תתקיים ההרצאה שלי על כלי AI פרקטיים באמת שיכולים לשמש כל אחד. החל מהקמת סוכנים ללא קוד בכלל, והטמעה שלהם באתר שלכם, דרך הקמת אתר ללא קוד בקלות, הקמת סוכן AI טלפוני ללא קוד - ובקלות, וכלה בסקירת על מה זה API ולמה אתם מוכרחים להכיר את זה גם אם אין לכם רקע טכני. זה יעזור לכם להיות מובילים במהפכה שאנו עדים לה. ואני רוצה לתת את הידע הכי פרקטי שצברתי עד כה, כדי שעוד באותו ערב תצאו כשאתם יכולים להתחיל לעבוד, למכור ללקוחות, ליצור לעצמכם, אבל תצאו עם ידע פרקטי אמיתי.

כל הישועות!
יובל.
👍91
שבוע טוב עם חידוד שחמק מתחת לרדאר: ביקשתי מדווין לחלץ את כל השירים של עידן רייכל משירונט. הוא נחסם בחשד להיותו בוט. אבל הוא הבין את זה אז הוא עדכן את הקוד שלו בעצמו והצליח לשטות בקאפצ׳ה ולעקוף את החסימה ולהוריד את המילים של כל 106 השירים של עידן רייכל בלי בעיה.

לא רק מתכנת, גם האקר. סייבר ו-AI, זה בחור כלבבי!!

הסבר טכני:
דווין נחסם ע״י הגנה מסוג BlockShield, אז הוא הוסיף לעצמו קוד שמשנה בצורה דינאמית בכל בקשה את ה-Header בבקשות ה-HTTP שאחראי על סוג המכשיר ממנו גולשים (User-Agent). גאון!

שבוע טוב,
יובל.
😱19🤯3🔥1🕊1
שימו לב: נעלתי את כל קבוצות הוואצאפ מלבד קבוצת הדיונים. נעילה משמעותה שהקבוצה כבר לא פעילה ולא רלוונטית ולא אעדכן בה יותר וניתן לצאת ממנה.

יש מאות אנשים בקבוצות השונות, וכ-1500 בערוץ העדכונים השקט (יש 2 קבוצות שקטות), אני שב ומדגיש שכל העדכונים השקטים יפורסמו רק בערוץ (כרגע יש 500 בלבד, שימו לב שאתם מצטרפים ועוקבים אחרת לא תקבלו את העדכונים!): https://whatsapp.com/channel/0029Vaf1TtmLikg7KtQOrI27

הערוץ נמצא בתחתית המסך, ב״עדכונים״ ולא בטאב ההודעות. הסיבה היא שבערוץ אין מגבלת מקום, בקבוצות יש, וזה לא יעיל לנהל את זה ככה.

לגבי דיונים - אך ורק בקבוצת הוואצאפ הראשית, משתמשים שלא היו פעילים בתגובות או לייקים במשך 90 הימים האחרונים, אאלץ להסיר אז שימו לב. מצרף קישור לקבוצת הדיונים הראשית (היא מלאה, לפעמים ניתן לשלוח בקשות לרשימת המתנה): https://chat.whatsapp.com/LlOuboS57Lj3lvyyznE9kj

מזכיר שיש גם את הקהילות שלי ב:
טלגרם עדכונים שקטים - https://t.me/hackit770
טלגרם דיונים - https://t.me/yavidani
דיסקורד - https://discord.gg/5bDJnQzV
פייסבוק - https://www.facebook.com/share/Ny5dySJgLQaiAUg2/?mibextid=K35XfP

כל שאר הקהילות והתכנים שלי פה: https://linktr.ee/yuvai

תודה ומצפה לכם בערוץ! 🙏
יובל אבידני
👍4
נכון אומרים שמאחורי כל כוכב גדול יש מישהו שעובד קשה מאוד והוא לא נמצא באור הזרקורים ולא מקבל את התהילה? אז זה בדיוק הטוקיינזר במודלים גדולים של שפה.

באירוויזיון או בהופעות תמיד מסתכלים על הכוכבים. אבל דווקא הרקדנים שמלווים נותנים עוצמה להופעה. אנחנו התרגלנו שמודל גדול של שפה כמו GPT או Cohere או Claude הם כוכבים נוצצים, עד שיש להם פאדיחה כלשהי. בין אם זה עברית לא מספיק טובה, יכולות קוד לא משהו, בעיות בחישוב וכו וכו. אז אנחנו מנסים, מתעצבנים ולפעמים מתייאשים. אבל האמת היא שמי שאחראי להצלחה ו/או לכישלון - הוא בכלל חבר אחר, הטוקיינזר.

המודלים שאנחנו מכירים מבוססים על תשתית שנקראת Transformers, שלמעשה כוללת שכבה שמזהה לאילו מילים צריך לתת תשומת לב. זה נקרא Attention. כשאנחנו מתכתבים עם מודלים גדולים של שפה, אנחנו בעצם מזינים טקסט, שנשלח למודל שאומן מראש, ועל בסיס האימון שלו מנסה לחזות איך להשיב לנו על השאלה / להשלים לנו את המשפט. זה מתאפשר כיוון שבתהליך האימון של המודל, הוא למד איזה רצפים מגיעים אחרי אילו מילים.

אבל! לפני האימון, יש שלב חשוב מאין כמותו, והוא השלב שמלכתחילה לוקחים את המידע שעליו אנו רוצים לאמן מודל, והופכים אותו למידע שיכול להיות מוזן לתוך רשת נוירונים. זה בעצם תהליך שמסתכל על כל הטקסט שיש לנו, חותך אותו לחתיכות, וכל חתיכה מקודדת לערך מספרי שנקרא אסימון. ככל שחתיכה מסוימת תחזור יותר ויותר בטקסט, היא תקבל אסימון משלה, טוקן משלה. מנגד, חתיכות שלא יחזרו הרבה מדי גם יקבלו טוקן משלהם, מה שהופך את התהליך לבזבזני יותר כיוון שבמקום ש״יובל״ יקבל טוקן אחד, ״יובל״ יקבל 4 טוקנים, מה שיפגע בחלון ההקשר של המודל.

לא רק זה, אלא יש שיטות כמו Byte Pair Encoding שלמעשה דוחסות את כמות הטוקנים כדי לחסוך טוקנים, אך גם מגדילה את גודל המילון של הטוקיינזר. זאת אומרת, מצד אחד כל הדאטה שעליה אנו מאמנים מודל הופכת לטוקנים, אך מצד שני, קיימת גם הגדרה של ״מילון״ שזה בעצם כמה ״חלקיקים״ / ״אטומים״ יש לנו בדאטה, אבני יסוד שמהם מורכבים המילים, הטוקנים.

אז בעצם החידוד שלי פה הוא שכאשר אנחנו מדברים על אימון של מודל גדול של שפה, כדאי שנזכור שאנחנו לא מדברים רק על אימון מודל. אלא לפני הכל, אנחנו מאמנים טוקיינזר, מודל שאחראי על הדרך שבה הטקסט יהפוך לטוקנים. אחרי שיש לנו טוקיינזר, נשתמש בו כדי להכין את הדאטה לאימון של מודל השפה עצמו.

כך למשל, ל-GPT-4 יש טוקיינזר ששופר מ-3.5 בכך שהוא הצליח להבין בקוד שמספר רווחים זה טוקן אחד ולא כמה, מה ששיפר את הביצועים של מודל השפה באיכות הקוד שכתב. מנגד, הטוקיינזר של המודל החדש GPT-4o שופר אף יותר, אומן על שפות רבות יותר לפי איך שזה נראה, כפי שאמר אברהם יצחק מאיר , שהחיסכון בטוקנים בעברית הוא 50%! הוא אפילו עקף את הטוקיינזר המדהים של Cohere שהיה הטופ בעברית! ואגב, גם הטוקיינזר Gemma של גוגל היה מעולה בעברית, חבל שג׳ימיני עצמו פחות אבל לפחות הטוקיינזר מדהים.

אז מעתה אל תגידו רק מודל שפה, אלא בכל פעם שאתם שוקלים לאמן, לבצע Fine Tune למודל שפה על הדאטה שלכם, תזכרו שלא פחות חשוב גם לבחור טוקיינזר שמתאים לכם. טוקיינזר, ומודל שפה. כמו רקדנים והזמר/ת המרכזי/ת.

שיהיה ערב טוב ובשורות טובות.
יובל
🔥3👍1
ב-5.6 אני מעביר הרצאה, לצד מרצים/ת נוספים/ות וטובים/ות, אצל בני פרבר בערב ״על הבר״ שהוא מארגן בהרצליה.

אדבר על Copilot בצלילה לעומק. מה זה, מה הוא מאפשר, לאילו משימות הוא מאוד מועיל וכל זה תוך סדר בבלאגן והשוואה לאפליקציה החדשה של ChatGPT.

כל הפרטים פה: https://bit.ly/MeetUpAI5
אני לא יודע אם לצחוק או לבכות. אני מנסה לתת לג’ימיני הזדמנות אובייקטיבית. נכנסתי לסטודיו שלהם, ביקשתי ליצור תמונה של וולברין והומר סימפסון שותים בירה - יצר סביר. נתתי פרומפט נוסף, רשם לי שאין יכולת ליצור דמויות וזה יחזור בקרוב (מה?! הרגע יצרת!)

אז רשמתי לו היכולת סופסוף חזרה, נסה שוב בבקשה. במקום ליצור לי את וולברין, יצר לי נשר ופתוח. מה הקשר? בירה נשר. אין פזמון. עד מתי ג’ימיניכס יאכזב?

ואם היה לכם ספק שאידאוגרם ניצח - אז שלא יהיה לכם.

הפרומפט שלי: Realistic image of Wolverine from X-men wearing his yellow suite, looking at a cloudy sky over the swiss alps, the clouds forms the text "YUV.AI SECRET LECTURE"
👍2😁2😢1🤣1