ML || DL
1.07K subscribers
506 photos
32 videos
21 files
391 links
Код, нотатки, цікаві статті на тему машинного та глибокого навчання.
---
З приводу питань звертатися до:
@MagnumGrizzly
Download Telegram
Розбираємось, чому стаття «Hierarchical Reasoning Model» наводить стільки шуму😳

Давайте розбиратися. Отже, вся архітектура складається з двох рекуррентних модулів: швидкого низькорівневого і повільного високорівневого. Перший відповідає за швидкі локальні обчислення і вирішення приватних завдань, а мета другого – абстрактно керувати процесом і ставити завдання першому.

Сенс в тому, що вони оновлюються з різною частотою. Початкове завдання розбивається на кілька циклів міркувань. У кожному з них верхній модуль оновлюється тільки один раз і дає новий контекст нижньому модулю, який у свою чергу робить багато дрібних кроків і шукає локальне рішення.

Скільки буде таких ітерацій, модель вирішує сама. Зупинятися або не зупинятися в правильний момент її спеціально вчили за допомогою RL. Так що «думати» вона може і пару секунд, і пару годин.

Навчається HRM не зовсім звично для рекуррентної моделі: тут, замість того щоб зберігати всі внутрішні стани, автори вирішили оновлювати градієнти тільки по фінальному статусу. Дивно, але факт – це працює.

Вся конструкція і принцип навчання дуже схожі на те, як працює наш мозок. Деякі області відповідають за абстракцію, інші – за конкретні миттєві дії, а спілкуються вони за допомогою зворотних зв'язків. Тут ті ж принципи ієрархії, звідси і назва. До рнчі, мозок теж не зберігає проміжні траєкторії і до збіжності приходить через схожі хвильові цикли.

Що ми маємо у підсумку?

Модель для свого розміру дуже гарна на рішеннях всяких головоломок типу судоку, лабіринтів і індуктивних завдань. Загалом, саме в тих областях, де звичні LLM зазвичай дають збій.


P.S Авторам вдалося створити модельку всього на 27 мільйонів параметрів, яка обійшла o3-mini на ARC-AGI-1. Що що, а це база👌

Повна стаття
🔥101
Google знайшли фундаментальний баг в RAG 😳

Виявилося, що всіма улюблений і звичний пошук на ембеддінгах може не все і має серйозну фундаментальну межу. При фіксованій розмірності вектора таким підходом просто неможливо знаходити всі релевантні документи з бази. У своїй роботі Google довели це і теоретично, і експериментально.

Сучасний пошук і RAG часто спираються на single-vector ембеддінги: у кожного запиту і документа – по одному вектору, схожість вимірюємо скалярним добутком/косинусом, далі беремо топ-k найближчих.

І тут виникає питання, а взагалі чи можливо при фіксованій розмірності векторів побудувати такий пошук, який завжди буде повертати правильні топ-k документів для будь-яких запитів? Відповідь – ні. І збій відбувається вже на дуже простих прикладах.

Чим більша база знань, тим більше різноманітних комбінацій запитів і релевантних документів нам потрібно підтримувати. Але простір пошуку завжди обмежений розмірністю ембеддінгів. Так ось, починаючи з якогось числа документів, розташувати точки в цьому просторі так, щоб для кожного запиту ми знаходили правильні доки, просто неможливо.

Розглянемо приклад, уявімо матрицю A, де рядки – це запити, а стовпці – документи, і на перетині стоїть 1, якщо документ релевантний, і 0 – якщо ні. Ми хочемо, щоб пошук на ембеддінгах відтворював саме таку матрицю «хто кому підходить». Тоді оцінки схожості будуть матрицею B = UᵀV, де U і V – це вектори запитів і документів у просторі фіксованої розмірності d. Але sign-rank матриці (2A−1) може виявитися більшим за d, а це означає, що жодні d-вимірні ембеддінги не зможуть побудувати B з правильними значеннями. Формально: якщо sign-rank(A) > d, то коректний поділ релевантних і нерелевантних пар в такому просторі просто неможливий, яким би мегарозумним не був ваш ембеддер.

Наприклад, якщо у вас ембеддінги розмірності 512, то ваш RAG буде працювати нормально, поки документів у вашій базі менше 500 тисяч (а це досить небагато). При розмірності 1024 – до ~4 млн. При 4096 – приблизно до 250 млн. Далі система почне сипатися.

І ці розрахунки Google підвели в ідеальних умовах, коли вектори оптимізовані під завдання. На практиці, коли ви не донавчаєте ембеддінги, межі ще нижчі.

Щоб показати це на практиці, автори придумали спеціальний бенчмарк LIMIT. Він побудований так, що для кожного запиту релевантні рівно два документи, але комбінацій цих пар дуже багато. У підсумку навіть найкращі сучасні ембеддери (GritLM, Qwen3, Gemini та ін.) показують на LIMIT катастрофічно низький recall – близько 20% (причому навіть на маленькій версії датасету з 46 документами, караул!).

Для порівняння, класичний BM25 або multi-vector моделі на кшталт ColBERT вибивають майже 100%. Фішка в тому, що тут ми вже не обмежені одним вектором на документ і запит. Наприклад, у ColBERT стоїть багато векторів на документ.

Ну коротше, мораль така: пошук на одному векторі – це зручно і швидко, але у нього є жорстка фундаментальна межа. Тому для серйозних систем RAG все-таки потрібні гібридні підходи: розріджений пошук, multi-vector та інше.


P.S Повна стаття
🔥9😱2
👀 Group Relative Policy Optimization (GRPO)

Цікава стаття на тему тренування моделей з обмеженим бюджетом. Що ж, ідея доволі проста, гарні метрики досягаються, якщо навчати модель саме на найскладніших завданнях.

Як це працює? Оцінюємо складність завдання за допомогою "pass rate", тобто скільки відповідей базової моделі проходять з декількох семплів. Далі ранжуюємо питанн на легкі, середні та складні. GRPO навчається тільки на hard-зрізі завдань. Навчання відбувається за рахунок декількох rollout, тобто нагорода видається тільки тим, хто перевищив середній рівень групи. На легких завданнях сигнал швидко зникає, на складних залишається варіативність і корисні градієнти на виході.

📊 Результати:
- GSM8K, Tracking Shuffled Objects → найскладніші 10% завжди кращі за інші
- AIME-2025 → тільки hard-навчена модель перевершила base, з ~20% приростом

Що з цього маємо?
Беремо тільки ті завдання, які базова модель рідко вирішує, але іноді вгадує правильно. Саме вони приносять максимальну віддачу.

Посилання
🔥4🤔1
Attention Sinks: Allowing Attention Not To Pay Attention 🙅‍♂️

Нещодавно читав гарний пост про архітектуру GPT-OSS. Більшість змін порівняно з GPT2 були вже знайомі з таких відкритих архітектур як LLaMa, Qwen, або Gemma, але є одна цікава ідея, про яку раніше не чув — attention sinks.

Recap: Attention Patterns ✍️

Пригадаємо, що у механізмі уваги для кожного токену формується так званий attention pattern — ваги, з якими він “зверне увагу” на попередні токени з контексту (включно з ним самим).

Для кожної голови цей pattern буде різним: іноді увага звертається на попередній токен, іноді — на останнє згадане імʼя, іноді — на надані few-shot examples, тощо.

What’s the problem? 🤔

Через те, що attention pattern формується через softmax, сума його коефіцієнтів завжди дорівнює одиниці. Тобто кожний токен в будь-якому разі “змушений” звернути на щось увагу. Але справа в тому, що не існує текстів, для яких кожна з attention heads має зробити щось корисне — зазвичай більшість з них не є активними.

Тому часто голови уваги вивчають наступну поведінку: якщо жодна з ознак, яку вони очікують, не зустрічається у контексті, то вся увага просто йде на перші кілька токенів (саме вони й називаються attention sinks у оригінальній роботі, де це було виявлено). Тобто перші токени стають таким собі буфером, який не несе в собі корисного сенсу, і в який заглядають просто якщо в тексті не відбувається нічого надзвичайного.

Цей “хак” призводить до таких проблем як ускладнена інтерпретованість моделі, або погіршення якості при роботі з великими послідовностями, коли ці самі перші токени випадають з KV cache.

What’s the solution?

Для уникнення цього є кілька способів (тик, тик), але реалізація від OpenAI здається найбільш елегантною.

Для кожної голови створюється додатковий параметр (sink), який конкатенується до рядків QK scores, і … це все 🙂 Ми отримуємо новий ”фейковий” елемент у softmax, який може перейняти увагу на себе, якщо жодного патерну не було виявлено. Так як голов зазвичай не багато, це не створює великого overhead, а зазначені раніше проблеми зникають.

Висновок: Цікавий приклад того, як інтерпретація дозволяє виявляти і вирішувати реальні проблеми в моделях, які важко було б ідентифікувати, сприймаючи їх як чорний ящик.
8
Your kindly reminder: До Data Science UA Meetup менше тижня – встигни забронювати місце!

Залишилося всього 25 квитків. Тож якщо ти плануєш піти – саме час діяти, бо через декілька днів їх може вже не бути 😌

Чому варто доєднатися до нашого івенту? 👇🏻

👉🏻 Олексій Шалденко та Костянтин Здор – Co-founders компанії Wantent – розкажуть про:

🔹AI-підходи до аналізу відеоконтенту
🔹те, як агенти можуть симулювати поведінку та реакції глядачів, надаючи швидкі й масштабовані інсайти
🔹створення та використання синтетичних аудиторій
🔹глибокий аналіз атрибутів контенту (темп, кольорова гама, емоційність сцен та контекст), що дозволяє точніше прогнозувати залученість і сприйняття контенту

👉🏻 Максим Кметь – Senior AI Engineer в MacPaw – поділиться практичним досвідом про те:

🔹як мовні моделі генерують наступний токен
🔹як стратегії декодування – top-k, top-p та температура – впливають на результат
🔹як формулювати якісні запити
🔹як оцінювати відповіді за допомогою класичних метрик і підходу "LLM як суддя"
🔹як підвищувати якість генерації завдяки автоматичній оптимізації промптів

👋🏻 Чекаємо на тебе 23 вересня о 18:00 за київським часом у Києві, у БЦ Gulliver, Creative Quarter, вежа Б, 12-й поверх.

А якщо графік занадто щільний, обирай опцію перегляду в записі 😉
7
Робимо огляд на новий метод Semantic Relative Preference Optimization для дифузійних моделей

Що таке SRPO?🔹

SRPO це відносно новий фреймворк навчання з підкріпленням для моделей text-image, створений як більш ефективна альтернатива GRPO підходам. Він робить генерацію стабільнішою, швидшою і дешевшою.

Розглянемо степ бай степ👇:

1. Виконується оптимізація за допомогою Direct-Align для економії та оптимізації пам'яті.

2. Promptable Rewards: Отримуємо Promptable Rewards яка перетворюються на умовні сигнали додаючі ключові слова до промпта на основі цього підходу модель відразу підсилює реалізм без додаткового навчання.

3. На виході отримуємо reward model, яка усуває перенасичення зображень та reward hacking.

У заключенні маємо👍:

– Ефективність зростання продуктивності, результати за 10 хвилин на 32 GPU метрики випереджає DanceGRPO підхід\.
– Підвищений рівень реалізму та естетики для FLUX.1-dev без додавання нових даних.
– Відсутність reward hacking, робота з готовими reward-моделями та усунення перенасичення зображень.
🔥3🤔1
Google релізнули Learn Your Way

Це персоналізований репетитор, який допоможе засвоїти будь-яку тему😌. Тулза поки працює в режимі експерименту, але спробувати вже можна.

Система зчитує ваші захоплення, а потім будь-яку тему пояснює так, щоб вам було зрозуміло і цікаво. Наприклад, якщо ви любите баскетбол і повинні вивчити закони Ньютона, то всі приклади починають будуватися навколо кидків і дриблінгу. Якщо ви художник і вивчаєте економіку, то все зведеться до галерейних аукціонів і арт-ринків👌.

Всередині працює мультиагентна система LearnLM на базі Gemini 2.5 Pro. Навіть є спеціальний агент для малювання навчальних ілюстрацій.

Що по тулзам під капотом Learn Your Way?

– Створеннятмайндмепи, якщо вам зручніше сприймати інформацію візуально
– Генерування аудіоуроків, якщо хочете слухати, а не читати
– Малювання за допомогою інтерактивних тулзів наприклад, часові шкали, по яких можна тикати
– Задавати питання і робити тести, які змінюються в залежності від того, що ви робите неправильно

Модель пройшла етап тестування 📈 на 60 чиказьких студентах віком від 15 до 18 років. Їм дали 40 хвилин на те, щоб вивчити незнайому їм тему: одна група просто читала PDF-файли, інша працювала з LYW.

📉 Як підсумок через 5 днів ті, хто працював з PDF, запам'ятали матеріал на 67%, а ті, хто навчався з Learn Your Way – на 78%. Крім того, 100% студентів, які працювали з ШІ, відчували себе більш комфортно і зацікавлено під час виконання завдання.
👍61🔥1🥰1
Кохана, прокидайся, у нас перша українська мультимодальна LLM ☕️

Вийшла MamayLM v1.0 — модель на базі Gemma 3, натренована на датасеті Kobza (писав про нього туточки). Gemma обрали, бо базова модель і так добре знає українську, тож якщо трохи допилити, то взагалі буде бомба 💣

Модель краще за будь-яку іншу знає нашу історію та культуру, а також файно вирішує українське ЗНО — на бенчмарку, який нещодавно вірусився, MamayLM упевнено обходить майже всі опенсорсні моделі, навіть з більшою кількістю параметрів. Що правда, коли справа доходить до чогось більшого, ніж просто текст (а ще й зображення/формули) Qwen все ще вище 😞

Є дві версії: 4b та 12b. Квантизована версія 12b на диво шустра — на MacBook Pro з M3 з 16 ГБ RAM видає ~11 токенів на секунду.

Ви певно спитаєте мене: котику, ну й що робити з цією моделькою? 😱😱😱

🪙 Ідеальний перекладач у парі англійська-українська і назад. Особливо враховуючи підтримку документів у LMStudio;

🪙 Якщо ви працюєте з текстом (о, це я): на наборі з 500 питань MamayLM перевершує Claude 3.7 і генерує десь на рівні з GPT-5-mini в плані лінгвістичної якості тексту. До речі, оцінював Gemini. ГЕМІНЬ!

🪙 Враховуючи, що модель мультимодальна, можна перетворювати зображення в текст (OCR) чи розшифровувати рукописи;

🪙 Ваш власний ШІ-бро, раджу оцей системний промт;

🪙 Якщо ваше прізвище починається на «Ф», а закінчується на «едоров» — то це файна заміна Gemini 2.0 Flash у чат-боті Дії, щоб не платити Google за API;

🪙 Ну і якщо ви просто фанат open source LLM, то це та ж Gemma 3, але трохи краще.

Ледь не забув посилання на моделі, у LMStudio просто вбийте MamayLM-Gemma-3 ☕️

ооо донат на збір (лишилося 60 498.25)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15
Прилетіло оновлення для Claude Sonnet 4.5 та Claude Code😌

Claude Sonnet 4.5🫶
Тепер у Anthropic знову SOTA модель для кодування. Модель впевнено обганяє GPT-5 на всіх бенчмарках з програмування, на інших йдуть майже нарівні.

Claude Code✌️
– Додали нове розширення для VS Code
– Оновили інтерфейс терміналу
– Додали команду для швидкого повернення до попереднього чекпоїнту, або на кілька кроків назад і команду для швидкого переходу до розширеного ризонінгу
– Тепер агент прямо в терміналі зможе створювати файли, таблиці та діаграми на основі ваших даних.
🔥3👍1
Відійдемо трохи від новин стосовно OpenAI Devday та розглянемо нобелівку з фізики 😜

Цього року присудили за відкриття в галузі квантових обчислень. Нагороду щойно отримали Джон Кларк, Мішель Деворет і Джон Мартініс. У 80-х вони вперше довели, що явища квантової механіки, які зазвичай спостерігаються тільки на мікроскопічному рівні, можуть проявлятися в повнорозмірних системах.

Вони встановили, що так зване квантово-механічне тунелювання можливе на макрорівні. У їхніх експериментах використовувався надпровідний електричний ланцюг, і вчені змогли довести, що він здатний перейти зі стану без напруги в стан з напругою, проходячи через бар'єр, що в принципі неможливо для класичних об'єктів у фізичному світі.

Це і є квантовий перехід тобто вся система поводиться як єдина квантова частинка, хоча містить величезну кількість електронів.

Саме з цього відкриття почався весь розвиток квантових комп'ютерів, квантових криптографічних систем тощо.
😍8
Розбиремо найгучнішу статтю останніх днів Less is More: Recursive Reasoning with Tiny Networks від Samsung

Головне питання, як це взагалі можливо, щоб модель в 10 000 разів менша була настільки розумнішою?) – Рекурсія😋. МодельTRM багаторазово обмірковує свою відповідь, переглядає її і виправляє, перш ніж видати остаточне рішення.

Процес виглядає приблизно так

○ Модель отримує умови завдання і відразу генерує якийсь грубий приклад рішення. Це не обов'язково повинна бути правильна відповідь, достатньо просто швидке припущення.

○ Далі система створює scratchpad. Туди вона записує все, що думає про завдання і свою чернетку, де помилки, що можна поліпшити, як перевірити гіпотезу. При цьому важливо розуміти, що scratchpad – це не потік токенів, як у звичайному ризонінгу. Це внутрішній прихований стан, тобто матриця або вектор, який поступово оновлюється. Іншими словами, TRM вміє думати мовчки.

○ Модель в кілька еткапів оновлює цей внутрішній стан, кожен раз звіряючись з завданням - А і вихідним прикладом - Б. Вона ніби думає, чи узгоджується поточна чернетка з умовою, де суперечності, що краще поліпшити. Після N-ої кількості ітерацій модель переписує вихідний чернеток, спираючись на свій сформований scratchpad. Але це не все. Цей процес спочатку подумай → потім виправ, повторюється кілька разів. І ось тільки після цього ми отримуємо остаточну відповідь.

Кінцеві результати, звичайно, вражають:

Метрики:
– ARC-AGI-1 / ARC-AGI-2 – 44,6% / 7,8%. Для порівняння, у o3-mini-high – 34,5% / 3,0%.
– Також модель відмінно вирішує судоку і лабіринти.

Тут треба відмітити, що це не мовна модель, вона призначена тільки для алгоритмів і текстом відповідати не вміє. Проте, ідея класна. Багато разів пройтися однією і тією ж крихітною сіткою по scratchpad – це буквально як емулювати глибину великої моделі без великої моделі.
👍3🔥2
👏4👍1
Anthropic тихо випустили Claude Haiku 4.5

Anthropic тихо і без зайового шуму презентували міні-версію Claude нового покоління. Модель одразу додали в Claude Code, Claude для Chrome, в чаті та API.

На SWE-bench модель набирає 73,3%. Це більше, ніж у Claude Sonnet 4 (72,7%). Адже цю модель випустили всього півроку тому, і вона довго вважалася SOTA для кодування. Тепер таку ж якість можна отримати втричі дешевше і вдвічі швидше.

Модель перевершує Sonnet 4 в метриках на Computer Use. Загалом, це повноцінна заміна не тільки попереднього малюка Haiku 3.5, але і Sonnet 4 яка, імовірно, в кілька разів більша за кількістю параметрів.
🔥7👍2
Розбираємо цікаву статтю LLMs Can Get Brain Rot 😌

Стаття про те, що моделі теж деградують від думскролінгу. Дослідники з Техасу опублікували дуже цікаву роботу, яка викликала хвилю обговорень. Вони показали, що якщо LLM почати донавчати на низькоякісних даних із соцмереж коротких, популярних, клікабельних постах, то вона починає втрачати свої когнітивні здібності. Приблизно так само, як людина втрачає увагу і пам'ять, коли занадто багато думсерфіть.

Чому так:

Фактично, експеримент був наступним. Взяли Llama 3 8B Instruct і почали донавчати на коротких і дуже популярних постах, у яких багато лайків, ретвітів і реплаїв; і на контенті з низькою смисловою цінністю: клікбейт, конспірологія, все таке. Після цього заміряли метрики і порівняли з результатами до донавчання.

Що маємо?

– Якість ризонінгу впала з 74,9 до 57,2
– Розуміння довгого контексту – з 84,4 до 52,3
– На елаймент-тестах з'ясувалося, що у моделі розвинулися нарцисизм, макіавеллізм і психопатія

Навіть після додаткового тюнінгу на чистих даних деградація не зникла повністю. Але справа в тому, що ніякого глобального відкриття тут немає. Пояснюється все це простим зсувом розподілу. При донавчанні на коротких, популярних, емоційно забарвлених твітах модель бачить зовсім інший статистичний ландшафт, ніж під час вихідного претрейну на книжках, статтях тощо.

Це зміщує розподіл у просторі ембеддінгів і змінює attention-патерни. Модель постійно бачить короткі тексти без логічного ланцюжка, і, природно, маски уваги починають більше фокусуватися на останніх декількох токенах і втрачати довгострокові залежності, які раніше і забезпечували якісний CoT.

Градієнтна динаміка тут теж грає проти нас. Втрати просто мінімізуються за рахунок поверхневих кореляцій, а параметри, що відповідають за довгі причинно-наслідкові зв'язки, майже не отримують оновлень. Ось і виходить, що моделька втрачає здатність довго міркувати. Автори називають цей феномен thought-skipping.
🔥5
Дослідники зі Стенфорда і Цінхуа представили агента, який думає і діє одночасно 🧐

Підхід базується на основі прийняття рішень у реальному часі. У таких середовищах кожна дія має свій дедлайн: не встиг виконуєш безпечний хід за замовчуванням.

Головна ідея🙃
Поєднати миттєву реакцію і паралельне планування. Коли навколишне середовище постійно змінюється, чисто реактивні агенти діють швидко, але не зовсім логічно, а довгі планувальники більш йрозумні, але занадто повільно і часто спізнюються. Комбінація працює краще за обидва варіанти.

Новий метод називається AgileThinker🧐. Він запускає два потоки:
- швидкий — ґрунтується на часткових планах і свіжому спостереженні
- плануючий — постійно оновлює стратегію і доповнює план

Час вимірюється не секундами, а токенами, що майже ідеально корелює з реальним часом виконання.

Автори зібрали тестовий набір: Freeway, Snake і Overcooked.
Результати прості: під навантаженням і жорсткими таймінгами AgileThinker стабільно обганяє обидва базові підходи — і швидкий, і «довго думаючий».

Підсумок🙂
Це крок до агентів, які зберігають інтелект, не втрачаючи швидкість, і можуть діяти в динамічних середовищах, де зволікання дорівнює помилці.
🤔51
Ось і під'їхала технічна карта Gemini 3.0 з бенчмарками😋

Чекаємо на офіційний реліз, має бути цікаво, а зараз деякі метрики з тех.карти:

– На багатьох бенчмарках істотно обходить GPT-5.1 і Sonnet 4.5. Особливо виділяється Humanity's Last Exam і ARC-AGI 2.

– Круті результати на бенчмарках, пов'язаних з усілякими агентськими здібностями, розумінням зображень, відео та інтерфейсів. Це багатообіцяюче.

– У кодуванні як Sonnet 4.5, щодо Gemini 2.5 Pro приріст гарний, але в цілому рівень Sonnet 4.5.
🔥41👍1
9