Все ж таки випустили модель Gemini 2.5 Deep Think 😉
Це та сама модель, яка виграла золоту медаль на IMO. За метриками:
- Майже 35% на Humanity's Last Exam проти 21.6 у Gemini 2.5 Pro і 20.3 у o3
- 87.6% на LiveCodeBench проти 72 у o3
- 99.2% (майже абсолют!) на AIME 2025 проти 89 у o3
По ризонінгу, що виділяється, це, звісно, не ті потужності, з якими модель виграла золото (конкретно цю версію видали поки що тільки невеликій групі математиків), але навіть у цій конфігурації вона нарішує IMO на бронзу. Теж непогано.
Працює Deep Think завдяки "паралельному мисленню". Тобто запускається кілька потоків ризонінгу, в яких пробуються різні гіпотези, а потім найкращі результати комбінуються в кінцеву відповідь. Google пишуть, що щоб навчити модель такої паралельності, вони розробили "нові методи навчання з підкріпленням".
Єдиний нюанс, щоб отримати доступ до модельки, заплатити доведеться 250 доларів😝. Її, на жаль, завезли тільки в підписку Google AI Ultra.
👏3
Google Research випустили MLE‑STAR агент для ML-інжинірингу 🤖
Google представив MLE‑STAR — агент на основі LLM, який автоматизує ML-завдання різних типів і досягає висот у порівнянні з попередніми підходами.
Що нового:
- Використовує веб-пошук для пошуку сучасних моделей і прикладів коду
- Робить абляційний аналіз (ablation study), щоб визначити найбільш впливовий компонент в ML-пайплайні, і ітеративно доопрацьовує його
- Розвиває ансамблювання - генерує кілька рішень і збирає їх в одне покращене
- Включає модулі контролю: дебагер, перевірку витоків даних і контроль використання всіх джерел даних. Результати цікаві MLE‑STAR виграє медалі в 63–64 % з бенчмарку MLE‑Bench‑Lite, випереджаючи найкращі існуючі методи (~25–26 %).
Покроковій степ
- Пошук потрібних моделей через веб
- Генерація і злиття кращих кандидатів
- Абляційний аналіз → вибір блоку → уточнення цього блоку
- Ітеративне поліпшення і об'єднання ансамблів
- Контрольні модулі: дебаг, витоки, використання даних
🔥2
OpenAI нарешті випустили свою опенсорс-модель 😍
Точніше, навіть дві, це два ризонери на 20 і 120B. Кожна з моделей може працювати в трьох режимах: низький бюджет ризонінгу, середній і високий.
За метриками як бачите та, що побільше вона, запускається на одній H100, за основними бенчмарками наближається до o3. Та, що поменше вона добре підходить для локального запуску, більше схожа на o4-mini.
P.S Біжемо завантажувати ваги і починаємо тестити✌️
Точніше, навіть дві, це два ризонери на 20 і 120B. Кожна з моделей може працювати в трьох режимах: низький бюджет ризонінгу, середній і високий.
За метриками як бачите та, що побільше вона, запускається на одній H100, за основними бенчмарками наближається до o3. Та, що поменше вона добре підходить для локального запуску, більше схожа на o4-mini.
P.S Біжемо завантажувати ваги і починаємо тестити✌️
🔥8
Поки всі говорять про GPT-5, краще подивимось що за новий метод розмітки даних для файнтюнінгу представиви Google 😌
Саме цікаве, цей метод дозволяє зменшити кількість необхідних для навчання прикладів буквально в тисячі разів без втрати якості.
Зараз пояснимо, як це працює на прикладі завдання модерації реклами. Замість того, щоб відразу передавати дані на анотацію розмітникам, відбувається ось такий цикл:
— Вихідна мовна модель отримує завдання і сама розмічає дані як «клікбейт» або «звичайна реклама».
— Далі ці дві групи окремо кластеризуються на основі звичайних ембеддінгів.
— В ході кластеризації з'являються, перекриваються кластери різних груп. І ось саме ці «спірні» пари передаються на ручну розмітку.
Витончено та красиво ☺️. У підсумку точність моделей після файнтюнінгу така ж, а даних потрібно розмічати в тисячі разів менше. Уявіть, яка економія.
🔥8
Тут одна добра душа, поділилась детальним гайдом зі співбесіди в OpenAI☺️
Скарб одним словом😌. Більш детально можна глянути тут.
Інженер, який щойно вийшов на роботу в OpenAI, написав величезний блог-пост про процес відбору в стартап. І виглядає це як ультимативний гайд про те, як прокачатися в проходженні співбесід на будь-яку ML-роль.
1 етап – Recruiter intro (15–30 хв).
Це просто базовий скрин: вам розповідають про команду, етапи, терміни, правила проходження інтерв'ю тощо. Ви розповідаєте про себе. Обов'язково потрібно підготуватися, порепетирувати з друзями, бути лаконічним, задати питання і все записати.
2 етап – Hiring Manager chat. Питання на кшталт чому ви підходите цій команді і т.д. На цьому етапі вже важливо розуміти цілі компанії, показати предметний інтерес і дотримуватися балансу скромності та впевненості.
3 етап – Кодинг.
Починається найцікавіше. Ось що можуть запитати, наприклад:
– дебаггінг трансформера (помилка може бути в механізмі уваги, наприклад, або в формі тензорів)
– реалізація KV-cache, BPE або зворотного поширення з нуля
– класика алгоритмів: Дейкстра, купи, сортування, бінарний пошук
Автор пише, що тут важливіше робити швидко, ніж ідеально якісно. Краще залишати #todo і assert, ніж плутатися і гальмувати. Ну а з підготовкою все просто: 100+ годин на LeetCode і стільки ж на читання та імплементацію статей.
4 етап – ML.
Перевіряють фундамент + якісь актуальні знання. Наприклад, можуть запитати: supervised vs unsupervised, математика лінійної регресії, як навчити модель з контекстом 10М токенів, GRPO vs PPO, методи інтерпретованості. Тут знову ж таки: читаємо багато статей і базові книги.
5 етап – Поведінкове інтерв'ю.
Перевіряють, як ви дієте в складних ситуаціях. До цього інтерв'ю теж не забуваємо готуватися і відповідаємо завжди за методом STAR(I): Situation, Task, Action, Result, Insight. Окремо готуємося до питань про провал і конфлікти, вони будуть обов'язково.
Скарб одним словом😌. Більш детально можна глянути тут.
❤6🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
MetaAI релізнули DINOv3 — нова модель комп'ютерного зору 😌
Модель навчена на зображеннях без використання розміток даних. Це зробило навчання швидшим, дешевшим та без втрати якості генерації моделей. Особливістю є те, що одна «
Також компанія випустила менші версії (такі як
Сама модель навченна на обсязі близько 1 млд нерозмічених зображень 😳
Модель навчена на зображеннях без використання розміток даних. Це зробило навчання швидшим, дешевшим та без втрати якості генерації моделей. Особливістю є те, що одна «
frozen» основа (без тонкого налаштування) перевершує багато спеціалізованих моделей у складних завданнях, по типу виявлення об'єктів і семантична сегментація.DINOv3 використовує набір функцій з високою роздільною здатністю для класифікації зображень, сегментації або відстеження відео.Також компанія випустила менші версії (такі як
ViT-B/L і ConvNeXt), які на рівні або краще з інішими моделей на основі архітектури CLIP. Сама модель навченна на обсязі близько 1 млд нерозмічених зображень 😳
🔥7👍1
Розбираємось, чому стаття «
P.S Авторам вдалося створити модельку всього на 27 мільйонів параметрів, яка обійшла o3-mini на ARC-AGI-1. Що що, а це база👌
Повна стаття
Hierarchical Reasoning Model» наводить стільки шуму😳Давайте розбиратися. Отже, вся архітектура складається з двох рекуррентних модулів: швидкого низькорівневого і повільного високорівневого. Перший відповідає за швидкі локальні обчислення і вирішення приватних завдань, а мета другого – абстрактно керувати процесом і ставити завдання першому.
Сенс в тому, що вони оновлюються з різною частотою. Початкове завдання розбивається на кілька циклів міркувань. У кожному з них верхній модуль оновлюється тільки один раз і дає новий контекст нижньому модулю, який у свою чергу робить багато дрібних кроків і шукає локальне рішення.
Скільки буде таких ітерацій, модель вирішує сама. Зупинятися або не зупинятися в правильний момент її спеціально вчили за допомогоюRL. Так що «думати» вона може і пару секунд, і пару годин.
НавчаєтьсяHRMне зовсім звично для рекуррентної моделі: тут, замість того щоб зберігати всі внутрішні стани, автори вирішили оновлювати градієнти тільки по фінальному статусу. Дивно, але факт – це працює.
Вся конструкція і принцип навчання дуже схожі на те, як працює наш мозок. Деякі області відповідають за абстракцію, інші – за конкретні миттєві дії, а спілкуються вони за допомогою зворотних зв'язків. Тут ті ж принципи ієрархії, звідси і назва. До рнчі, мозок теж не зберігає проміжні траєкторії і до збіжності приходить через схожі хвильові цикли.
Що ми маємо у підсумку?
Модель для свого розміру дуже гарна на рішеннях всяких головоломок типу судоку, лабіринтів і індуктивних завдань. Загалом, саме в тих областях, де звичніLLMзазвичай дають збій.
P.S Авторам вдалося створити модельку всього на 27 мільйонів параметрів, яка обійшла o3-mini на ARC-AGI-1. Що що, а це база👌
Повна стаття
🔥10❤1
Google знайшли фундаментальний баг в RAG 😳
P.S Повна стаття
Виявилося, що всіма улюблений і звичний пошук на ембеддінгах може не все і має серйозну фундаментальну межу. При фіксованій розмірності вектора таким підходом просто неможливо знаходити всі релевантні документи з бази. У своїй роботі Google довели це і теоретично, і експериментально.
Сучасний пошук і RAG часто спираються на single-vector ембеддінги: у кожного запиту і документа – по одному вектору, схожість вимірюємо скалярним добутком/косинусом, далі беремо топ-k найближчих.
І тут виникає питання, а взагалі чи можливо при фіксованій розмірності векторів побудувати такий пошук, який завжди буде повертати правильні топ-k документів для будь-яких запитів? Відповідь – ні. І збій відбувається вже на дуже простих прикладах.
Чим більша база знань, тим більше різноманітних комбінацій запитів і релевантних документів нам потрібно підтримувати. Але простір пошуку завжди обмежений розмірністю ембеддінгів. Так ось, починаючи з якогось числа документів, розташувати точки в цьому просторі так, щоб для кожного запиту ми знаходили правильні доки, просто неможливо.
Розглянемо приклад, уявімо матрицю A, де рядки – це запити, а стовпці – документи, і на перетині стоїть 1, якщо документ релевантний, і 0 – якщо ні. Ми хочемо, щоб пошук на ембеддінгах відтворював саме таку матрицю «хто кому підходить». Тоді оцінки схожості будуть матрицею B = UᵀV, де U і V – це вектори запитів і документів у просторі фіксованої розмірності d. Але sign-rank матриці (2A−1) може виявитися більшим за d, а це означає, що жодні d-вимірні ембеддінги не зможуть побудувати B з правильними значеннями. Формально: якщо sign-rank(A) > d, то коректний поділ релевантних і нерелевантних пар в такому просторі просто неможливий, яким би мегарозумним не був ваш ембеддер.
Наприклад, якщо у вас ембеддінги розмірності 512, то ваш RAG буде працювати нормально, поки документів у вашій базі менше 500 тисяч (а це досить небагато). При розмірності 1024 – до ~4 млн. При 4096 – приблизно до 250 млн. Далі система почне сипатися.
І ці розрахунки Google підвели в ідеальних умовах, коли вектори оптимізовані під завдання. На практиці, коли ви не донавчаєте ембеддінги, межі ще нижчі.
Щоб показати це на практиці, автори придумали спеціальний бенчмарк LIMIT. Він побудований так, що для кожного запиту релевантні рівно два документи, але комбінацій цих пар дуже багато. У підсумку навіть найкращі сучасні ембеддери (GritLM, Qwen3, Gemini та ін.) показують на LIMIT катастрофічно низький recall – близько 20% (причому навіть на маленькій версії датасету з 46 документами, караул!).
Для порівняння, класичний BM25 або multi-vector моделі на кшталт ColBERT вибивають майже 100%. Фішка в тому, що тут ми вже не обмежені одним вектором на документ і запит. Наприклад, у ColBERT стоїть багато векторів на документ.
Ну коротше, мораль така: пошук на одному векторі – це зручно і швидко, але у нього є жорстка фундаментальна межа. Тому для серйозних систем RAG все-таки потрібні гібридні підходи: розріджений пошук, multi-vector та інше.
P.S Повна стаття
🔥9😱2
👀 Group Relative Policy Optimization (GRPO)
Посилання
Цікава стаття на тему тренування моделей з обмеженим бюджетом. Що ж, ідея доволі проста, гарні метрики досягаються, якщо навчати модель саме на найскладніших завданнях.
Як це працює? Оцінюємо складність завдання за допомогою "pass rate", тобто скільки відповідей базової моделі проходять з декількох семплів. Далі ранжуюємо питанн налегкі, середні та складні.GRPOнавчається тільки на hard-зрізі завдань. Навчання відбувається за рахунок декількох rollout, тобто нагорода видається тільки тим, хто перевищив середній рівень групи. На легких завданнях сигнал швидко зникає, на складних залишається варіативність і корисні градієнти на виході.
📊 Результати:
- GSM8K, Tracking Shuffled Objects → найскладніші 10% завжди кращі за інші
- AIME-2025 → тільки hard-навчена модель перевершила base, з ~20% приростом
Що з цього маємо?
Беремо тільки ті завдання, які базова модель рідко вирішує, але іноді вгадує правильно. Саме вони приносять максимальну віддачу.
Посилання
🔥4🤔1
Attention Sinks: Allowing Attention Not To Pay Attention 🙅♂️
Нещодавно читав гарний пост про архітектуру GPT-OSS. Більшість змін порівняно з GPT2 були вже знайомі з таких відкритих архітектур як LLaMa, Qwen, або Gemma, але є одна цікава ідея, про яку раніше не чув — attention sinks.
Recap: Attention Patterns ✍️
Пригадаємо, що у механізмі уваги для кожного токену формується так званий attention pattern — ваги, з якими він “зверне увагу” на попередні токени з контексту (включно з ним самим).
Для кожної голови цей pattern буде різним: іноді увага звертається на попередній токен, іноді — на останнє згадане імʼя, іноді — на надані few-shot examples, тощо.
What’s the problem? 🤔
Через те, що attention pattern формується через softmax, сума його коефіцієнтів завжди дорівнює одиниці. Тобто кожний токен в будь-якому разі “змушений” звернути на щось увагу. Але справа в тому, що не існує текстів, для яких кожна з attention heads має зробити щось корисне — зазвичай більшість з них не є активними.
Тому часто голови уваги вивчають наступну поведінку: якщо жодна з ознак, яку вони очікують, не зустрічається у контексті, то вся увага просто йде на перші кілька токенів (саме вони й називаються attention sinks у оригінальній роботі, де це було виявлено). Тобто перші токени стають таким собі буфером, який не несе в собі корисного сенсу, і в який заглядають просто якщо в тексті не відбувається нічого надзвичайного.
Цей “хак” призводить до таких проблем як ускладнена інтерпретованість моделі, або погіршення якості при роботі з великими послідовностями, коли ці самі перші токени випадають з KV cache.
What’s the solution? ✅
Для уникнення цього є кілька способів (тик, тик), але реалізація від OpenAI здається найбільш елегантною.
Для кожної голови створюється додатковий параметр (sink), який конкатенується до рядків QK scores, і … це все 🙂 Ми отримуємо новий ”фейковий” елемент у softmax, який може перейняти увагу на себе, якщо жодного патерну не було виявлено. Так як голов зазвичай не багато, це не створює великого overhead, а зазначені раніше проблеми зникають.
Висновок: Цікавий приклад того, як інтерпретація дозволяє виявляти і вирішувати реальні проблеми в моделях, які важко було б ідентифікувати, сприймаючи їх як чорний ящик.
Нещодавно читав гарний пост про архітектуру GPT-OSS. Більшість змін порівняно з GPT2 були вже знайомі з таких відкритих архітектур як LLaMa, Qwen, або Gemma, але є одна цікава ідея, про яку раніше не чув — attention sinks.
Recap: Attention Patterns ✍️
Пригадаємо, що у механізмі уваги для кожного токену формується так званий attention pattern — ваги, з якими він “зверне увагу” на попередні токени з контексту (включно з ним самим).
Для кожної голови цей pattern буде різним: іноді увага звертається на попередній токен, іноді — на останнє згадане імʼя, іноді — на надані few-shot examples, тощо.
What’s the problem? 🤔
Через те, що attention pattern формується через softmax, сума його коефіцієнтів завжди дорівнює одиниці. Тобто кожний токен в будь-якому разі “змушений” звернути на щось увагу. Але справа в тому, що не існує текстів, для яких кожна з attention heads має зробити щось корисне — зазвичай більшість з них не є активними.
Тому часто голови уваги вивчають наступну поведінку: якщо жодна з ознак, яку вони очікують, не зустрічається у контексті, то вся увага просто йде на перші кілька токенів (саме вони й називаються attention sinks у оригінальній роботі, де це було виявлено). Тобто перші токени стають таким собі буфером, який не несе в собі корисного сенсу, і в який заглядають просто якщо в тексті не відбувається нічого надзвичайного.
Цей “хак” призводить до таких проблем як ускладнена інтерпретованість моделі, або погіршення якості при роботі з великими послідовностями, коли ці самі перші токени випадають з KV cache.
What’s the solution? ✅
Для уникнення цього є кілька способів (тик, тик), але реалізація від OpenAI здається найбільш елегантною.
Для кожної голови створюється додатковий параметр (sink), який конкатенується до рядків QK scores, і … це все 🙂 Ми отримуємо новий ”фейковий” елемент у softmax, який може перейняти увагу на себе, якщо жодного патерну не було виявлено. Так як голов зазвичай не багато, це не створює великого overhead, а зазначені раніше проблеми зникають.
Висновок: Цікавий приклад того, як інтерпретація дозволяє виявляти і вирішувати реальні проблеми в моделях, які важко було б ідентифікувати, сприймаючи їх як чорний ящик.
Sebastian Raschka, PhD
From GPT-2 to gpt-oss: Analyzing the Architectural Advances
And How They Stack Up Against Qwen3
❤8
⏰ Your kindly reminder: До Data Science UA Meetup менше тижня – встигни забронювати місце!
Залишилося всього 25 квитків. Тож якщо ти плануєш піти – саме час діяти, бо через декілька днів їх може вже не бути 😌
Чому варто доєднатися до нашого івенту? 👇🏻
👉🏻 Олексій Шалденко та Костянтин Здор – Co-founders компанії Wantent – розкажуть про:
🔹AI-підходи до аналізу відеоконтенту
🔹те, як агенти можуть симулювати поведінку та реакції глядачів, надаючи швидкі й масштабовані інсайти
🔹створення та використання синтетичних аудиторій
🔹глибокий аналіз атрибутів контенту (темп, кольорова гама, емоційність сцен та контекст), що дозволяє точніше прогнозувати залученість і сприйняття контенту
👉🏻 Максим Кметь – Senior AI Engineer в MacPaw – поділиться практичним досвідом про те:
🔹як мовні моделі генерують наступний токен
🔹як стратегії декодування – top-k, top-p та температура – впливають на результат
🔹як формулювати якісні запити
🔹як оцінювати відповіді за допомогою класичних метрик і підходу "LLM як суддя"
🔹як підвищувати якість генерації завдяки автоматичній оптимізації промптів
👋🏻 Чекаємо на тебе 23 вересня о 18:00 за київським часом у Києві, у БЦ Gulliver, Creative Quarter, вежа Б, 12-й поверх.
А якщо графік занадто щільний, обирай опцію перегляду в записі 😉
Залишилося всього 25 квитків. Тож якщо ти плануєш піти – саме час діяти, бо через декілька днів їх може вже не бути 😌
Чому варто доєднатися до нашого івенту? 👇🏻
👉🏻 Олексій Шалденко та Костянтин Здор – Co-founders компанії Wantent – розкажуть про:
🔹AI-підходи до аналізу відеоконтенту
🔹те, як агенти можуть симулювати поведінку та реакції глядачів, надаючи швидкі й масштабовані інсайти
🔹створення та використання синтетичних аудиторій
🔹глибокий аналіз атрибутів контенту (темп, кольорова гама, емоційність сцен та контекст), що дозволяє точніше прогнозувати залученість і сприйняття контенту
👉🏻 Максим Кметь – Senior AI Engineer в MacPaw – поділиться практичним досвідом про те:
🔹як мовні моделі генерують наступний токен
🔹як стратегії декодування – top-k, top-p та температура – впливають на результат
🔹як формулювати якісні запити
🔹як оцінювати відповіді за допомогою класичних метрик і підходу "LLM як суддя"
🔹як підвищувати якість генерації завдяки автоматичній оптимізації промптів
👋🏻 Чекаємо на тебе 23 вересня о 18:00 за київським часом у Києві, у БЦ Gulliver, Creative Quarter, вежа Б, 12-й поверх.
А якщо графік занадто щільний, обирай опцію перегляду в записі 😉
eventmate.app
Від промптів до LLM та синтетичних аудиторій: як працює AI сьогодні
23 вересня ми збираємо AI-комʼюніті на офлайн-мітап Data Science UA – такий собі back-to-school, але у найліпшому форматі 😉
У програмі – робота з LLM, оптимізація промптів і нові підходи до аналізу відеоконтенту за допомогою AI-агентів.
Цього разу запросили…
У програмі – робота з LLM, оптимізація промптів і нові підходи до аналізу відеоконтенту за допомогою AI-агентів.
Цього разу запросили…
❤7
Робимо огляд на новий метод Semantic Relative Preference Optimization для дифузійних моделей
Що таке SRPO?🔹
SRPO це відносно новий фреймворк навчання з підкріпленням для моделей text-image, створений як більш ефективна альтернатива GRPO підходам. Він робить генерацію стабільнішою, швидшою і дешевшою.
Розглянемо степ бай степ👇:
1. Виконується оптимізація за допомогою Direct-Align для економії та оптимізації пам'яті.
2. Promptable Rewards: Отримуємо Promptable Rewards яка перетворюються на умовні сигнали додаючі ключові слова до промпта на основі цього підходу модель відразу підсилює реалізм без додаткового навчання.
3. На виході отримуємо reward model, яка усуває перенасичення зображень та reward hacking.
У заключенні маємо👍:
– Ефективність зростання продуктивності, результати за 10 хвилин на 32 GPU метрики випереджає DanceGRPO підхід\.
– Підвищений рівень реалізму та естетики для FLUX.1-dev без додавання нових даних.
– Відсутність reward hacking, робота з готовими reward-моделями та усунення перенасичення зображень.
🔥3🤔1
Google релізнули Learn Your Way
Це персоналізований репетитор, який допоможе засвоїти будь-яку тему😌. Тулза поки працює в режимі експерименту, але спробувати вже можна.
Система зчитує ваші захоплення, а потім будь-яку тему пояснює так, щоб вам було зрозуміло і цікаво. Наприклад, якщо ви любите баскетбол і повинні вивчити закони Ньютона, то всі приклади починають будуватися навколо кидків і дриблінгу. Якщо ви художник і вивчаєте економіку, то все зведеться до галерейних аукціонів і арт-ринків👌.
Всередині працює мультиагентна система LearnLM на базі Gemini 2.5 Pro. Навіть є спеціальний агент для малювання навчальних ілюстрацій.
Що по тулзам під капотом Learn Your Way?
– Створеннятмайндмепи, якщо вам зручніше сприймати інформацію візуально
– Генерування аудіоуроків, якщо хочете слухати, а не читати
– Малювання за допомогою інтерактивних тулзів наприклад, часові шкали, по яких можна тикати
– Задавати питання і робити тести, які змінюються в залежності від того, що ви робите неправильно
Модель пройшла етап тестування 📈 на 60 чиказьких студентах віком від 15 до 18 років. Їм дали 40 хвилин на те, щоб вивчити незнайому їм тему: одна група просто читала PDF-файли, інша працювала з LYW.
📉 Як підсумок через 5 днів ті, хто працював з PDF, запам'ятали матеріал на 67%, а ті, хто навчався з Learn Your Way – на 78%. Крім того, 100% студентів, які працювали з ШІ, відчували себе більш комфортно і зацікавлено під час виконання завдання.
👍6❤1🔥1🥰1
Forwarded from Ооо нейромережеве🐱
Кохана, прокидайся, у нас перша українська мультимодальна LLM ☕️
Вийшла MamayLM v1.0 — модель на базі Gemma 3, натренована на датасеті Kobza (писав про нього туточки). Gemma обрали, бо базова модель і так добре знає українську, тож якщо трохи допилити, то взагалі буде бомба💣
Модель краще за будь-яку іншу знає нашу історію та культуру, а також файно вирішує українське ЗНО — на бенчмарку, який нещодавно вірусився, MamayLM упевнено обходить майже всі опенсорсні моделі, навіть з більшою кількістю параметрів. Що правда, коли справа доходить до чогось більшого, ніж просто текст (а ще й зображення/формули) Qwen все ще вище😞
Є дві версії: 4b та 12b. Квантизована версія 12b на диво шустра — на MacBook Pro з M3 з 16 ГБ RAM видає ~11 токенів на секунду.
Ви певно спитаєте мене: котику, ну й що робити з цією моделькою?😱 😱 😱
🪙 Ідеальний перекладач у парі англійська-українська і назад. Особливо враховуючи підтримку документів у LMStudio;
🪙 Якщо ви працюєте з текстом (о, це я): на наборі з 500 питань MamayLM перевершує Claude 3.7 і генерує десь на рівні з GPT-5-mini в плані лінгвістичної якості тексту. До речі, оцінював Gemini. ГЕМІНЬ!
🪙 Враховуючи, що модель мультимодальна, можна перетворювати зображення в текст (OCR) чи розшифровувати рукописи;
🪙 Ваш власний ШІ-бро, раджу оцей системний промт;
🪙 Якщо ваше прізвище починається на «Ф», а закінчується на «едоров» — то це файна заміна Gemini 2.0 Flash у чат-боті Дії, щоб не платити Google за API;
🪙 Ну і якщо ви просто фанат open source LLM, то це та ж Gemma 3, але трохи краще.
Ледь не забув посилання на моделі, у LMStudio просто вбийте☕️
ооо донат на збір (лишилося 60 498.25)
Вийшла MamayLM v1.0 — модель на базі Gemma 3, натренована на датасеті Kobza (писав про нього туточки). Gemma обрали, бо базова модель і так добре знає українську, тож якщо трохи допилити, то взагалі буде бомба
Модель краще за будь-яку іншу знає нашу історію та культуру, а також файно вирішує українське ЗНО — на бенчмарку, який нещодавно вірусився, MamayLM упевнено обходить майже всі опенсорсні моделі, навіть з більшою кількістю параметрів. Що правда, коли справа доходить до чогось більшого, ніж просто текст (а ще й зображення/формули) Qwen все ще вище
Є дві версії: 4b та 12b. Квантизована версія 12b на диво шустра — на MacBook Pro з M3 з 16 ГБ RAM видає ~11 токенів на секунду.
Ви певно спитаєте мене: котику, ну й що робити з цією моделькою?
Ледь не забув посилання на моделі, у LMStudio просто вбийте
MamayLM-Gemma-3 ооо донат на збір (лишилося 60 498.25)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15