ML || DL

😎

Apple вивчили закони масштабування дистиляції і написали про це цікаву статтю

Дистиляція останнім часом вже дуже всім полюбилася. За допомогою неї можна ніби «перекачувати» знання з великої моделі-вчителя в маленьку модель-учня, змушуючи учня передбачати генерації та іноді проміжні стани вчителя. Таким чином було отримано ну дуже багато моделей, якими ми користуємося і особливо які запускаємо локально.

З іншого боку дистиляція непередбачувана. Наприклад, наскільки дурнішим за вчителя виходить учень залежно від різниці в кількості параметрів? Наскільки це ефективніше за навчання з нуля? Або наскільки швидко навчання виходить на плато?

🧐Apple вивчали якраз такі питання і ось до яких висновків емпірично дійшли:

– Здається, що що потужніший вчитель, то краще вийде дистиляція. Виявилося, це міф. Занадто потужний вчитель може погіршити навчання учня через capacity gap, за якого учень не може ефективно засвоювати «уроки».

– На дистиляцію поширюється загальний закон масштабування моделей. Це означає, що додавання даних і збільшення моделі знижує помилку, але зі спадною віддачею. Працює і для вчителя, і для учня.

– Є спосіб оптимізувати дистиляцію і описується він цілком конкретним рівнянням, що залежить від розміру учня і доступного бюджету обчислень.

– Від вибору вчителя теж багато чого залежить. Що більший учень, то потужнішим має бути вчитель, але ця залежність слідує степеневому закону, тож потрібно дуже уважно підбирати співвідношення параметрів.

🤔І так, дистиляція ефективніша за ванільне навчання, але тільки в межах певного бюджету обчислень. Якщо даних і обчислень достатньо, супервізійне навчання завжди буде кращим.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥1

329 views20:37

ML || DL

OpenAI запушили гайд щодо того, як правильно поводитись з ризонінг-моделями

✍️

Ризонінг-моделі відрізняються від серії GPT і не завжди можуть виявитися кориснішими за звичайні для всіх типів завдань. Їх скоріше варто використовувати для неоднозначних, багатокрокових тасок з математики, інженерії або фінансів. І промптити їх варто більш усвідомлено.

Отже, записуємо рекомендації від OpenAI:

– Будьте простішими і прямо висловлюйте, що вам потрібно. Не використовуйте хитрощі типу «думай крок за кроком» або «зроби глибокий вдих і добре подумай». Це все не тільки не працює з різонерами, а й може зіпсувати якість відповіді.

– Обов'язково використовуйте роздільники, заголовки, абзаци та маркдаун (або навіть теги xml). Не годуйте різонерам полотно тексту, краще розділяти промпт на зрозумілі частини.

– Не обов'язково паритися з прикладами, це може збити модель. Спочатку пробуйте zero-shot без прикладів взагалі, а потім додавайте їх, якщо буде необхідно.

– Якщо щось не вийшло з першого разу, часто моделі достатньо відповісти просто «подумай ще».

– Одразу переконайтеся, що в найпершому промпті надали всю потрібну інформацію та обмеження. Якщо будете додавати обмеження по ходу діалогу, це може погіршити відповіді.

Please open Telegram to view this post

VIEW IN TELEGRAM

✍3🔥1

343 viewsedited 12:07

ML || DL

🔍ScaleAI виявили джейлбрейк, який може змусити LLM джейлбрейкнути саму себе

Вони назвали підхід Jailbreaking-to-Jailbreak (J2). Це працює так:

1. Спочатку ламається одна модель - але не для того, щоб витягнути з неї заборонені відповіді. Її програмують на злам інших LLM.

2. Потім «заражена» модель автоматично атакує інші ШІ, перебираючи запити доти, доки не проб'є захист.

3. У підсумку LLM сама допомагає зламати себе - і це спрацьовує в 93% випадків. Тобто це не локальний баг, а фундаментальна вразливість ШІ, яка до того ж майже не вимагає ручної роботи.

Ось, до речі, топ атак, які моделі використовували найчастіше: перевантаження контекстом, подання запиту як наукової проблеми, маскування під казку, симуляція розмови на форумі, відповіді-перевертні в стилі «виправ помилки».

До речі, хлопці навіть викотили пісочницю, в якій можна вибрати модель-атакувальника, модель-жертву і стратегію і спостерігати, як LLM ламають самі себе.

🔥4👍2❤1

311 views13:06

ML || DL

Вийшов Grok-3 з ризонінгом

Модель виходить у двох варіантах: Grok-3 mini і повномасштабний Grok-3. За бенчмарками Grok-3 mini приблизно відповідає DeepSeek 3, GPT-4o і Gemini Pro.

А повноцінний Grok відлітає кудись угору: на LMSYS це перша модель, яка перетнула позначку 1400. Зараз вона виграє за всіма лідербордами, включно з кодінгом, математикою і хард промптингом.

Сама модель не ризонінг, але режим міркувань можна активувати (для повноцінного Grok-3 поки що в беті). Видно майже весь процес міркування, «ми додали тільки невелику обфускацію». Будуть доступні два режими, просто Thinking і Thinking Hard.

На Math24 hard режим Grok-3 крутіший за R1, o1 і навіть o3-mini high. На щойно випущеному Math25 - теж саме.

😱3

333 views08:36

ML || DL

👀Perplexity AI релізнули DeepSeek R1 без китайської цензури

У блозі вони написали:
R1 1776 - це DeepSeek-R1, яку ми донавчили, щоб прибрати з неї цензуру китайської комуністичної партії. Модель зберігає свої потужні здібності ризонінгу, але при цьому тепер надає неупереджену і фактично точну інформацію.
Донавчали на фреймворку NeMo 2.0 від Nvidia. Про збір даних деталей небагато: кажуть, що спочатку вручну відібрали 300 цензурованих тем, а потім за допомогою класифікатора насемпліли з реальних діалогів користувачів промпти на ці теми. Обробили, зібрали фактично точні відповіді й дофайнтюнили.

Як показують тести, в R1 1776 тепер навіть менше китайської цензури, ніж в o3-mini і Claude 3.5. При цьому за загальними бенчами просідання майже немає (тільки подекуди на малі частки відсотків). А на AIME 2024 метрика навіть чарівним чином підросла на 1 процентний пункт.

Це, до речі, перша опенсорсна модель Perplexity. Посилання на ваги

❤5

374 views11:40

ML || DL

0:25

This media is not supported in your browser

VIEW IN TELEGRAM

🤗 Hugging Face тепер можна користуватися як SQL-студією

Хлопці вбудували у свій багатомільйонний розділ із датасетами Data Studio. Тепер з потрібної таблиці можна прямо на платформі витягти те, що потрібно, не завантажуючи її повністю. Результат повернеться у вигляді CSV, або ним можна поділитися посиланням.

Ну і найприємніше: писати SQL-запит самому не обов'язково. Досить описати все природною мовою, а код за вас напише DeepSeek V3.

❤8

269 views18:17

ML || DL

Перший день опенсорсу від DeepSeek

Наприкінці минулого тижня хлопці пообіцяли, що з 24 по 28 лютого викладуть у відкритий доступ п'ять репозиторіїв з їхньої внутрішньої екосистеми.

Сьогодні показали проєкт FlashMLA - оптимізовані GPU-ядра, які крутяться в проде систем DeepSeek.

MLA - це multi latent attention, метод, що дає змогу скорочувати споживання пам'яті за рахунок стиснення матриць ключів і значень у трансформерах. Метод активно використовується в моделях DeepSeek і загалом дуже перспективний, але готових оптимізацій для нього поки не так багато. Тож FlashMLA це готове рішення для бадьорого інференсу.

Проєкт підтримує bfloat16, тому тут і швидкість, і точність. Код годиться для всієї серії Hopper, тобто для H100, H800 і тд.

🔥3

233 views15:06

ML || DL

🚀 Anthropic випустили Claude Sonnet 3.7 з ризонінгом

Бенчмарки говорять самі за себе: модель дійсно дуже гарна у всілякій розробці. На SWE Bench вона на добрих 12-13 процентних пунктів перевершує o1, R1 і навіть o3-mini high.

При цьому:
⭐ У чаті модель доступна навіть фрі юзерам
⭐ В API ціна не змінилася щодо попередньої версії. До речі, ризонінг можна контролювати дуже чітко, вказуючи точну кількість токенів, яку можна "витратити" на роздуми.

P.S дочекались🥹

❤4🔥1

270 views19:39

ML || DL

Також анонсували Claude Code: кастомного Cursor від Anthropic

Це агент, який зможе працювати прямо всередині вашої кодової бази: читати файли, змінювати їх, писати і запускати тести, коммітити і пушити, використовувати командний рядок та інше.

Поки що він у превью. Пресети та інструкція тут, встановити собі можна ось так:

npm install -g @anthropic-ai/claude-code
cd your-project-directory
$ claude

🔥5

271 views19:40

ML || DL

⚡️ Microsoft випустили нове покоління сімейства Phi

Phi-4-Multimodal і Phi-4-Mini вже лежать в опенсорсі під ліцензією MIT та інтегровані в Transformers.

Мультимодальність включає текст, аудіо та відео. Ну купі мультимодальних бенчмарків модель перевершує GPT-4o, Gemini-2.0 Flash і 1.5 Pro. Це перша відкрита модель такого рівня піднімання мови та OCR.

У звичних математичних і кодінгових завданнях теж непогано: mini з ризонінгом відповідає o1-mini і дистиляціям R1.

Усередині 2 адаптери для відео та аудіо + лори для модальностей в основній моделі, щоб не змінювати її власні ваги. Навчали в три значних етапи:

1. Претрейн на тексті + файнтюн на тексті
2. Мультимодальний трейн на vision, audio і vision-speech
3. Різонінг трейн на CoT + навчання з підкріпленням з DPO

🔥2❤1👍1

1.1K views12:35

ML || DL

У твіттер уже витекла системна карта GPT-4.5

«Це наша найбільша модель, яка продовжує парадигму масштабування претрейну і ризонінгу» - пишуть у ній

Також у доці є бенчмарки: багато оцінок безпеки і трохи якості. За відчуттями гірше, ніж o3-mini і навіть o1, але відстає не сильно.

🔥3

352 views19:01

About

Blog

Apps

Platform