ML || DL

🚀 Anthropic випустили Claude Sonnet 3.7 з ризонінгом

Бенчмарки говорять самі за себе: модель дійсно дуже гарна у всілякій розробці. На SWE Bench вона на добрих 12-13 процентних пунктів перевершує o1, R1 і навіть o3-mini high.

При цьому:
⭐ У чаті модель доступна навіть фрі юзерам
⭐ В API ціна не змінилася щодо попередньої версії. До речі, ризонінг можна контролювати дуже чітко, вказуючи точну кількість токенів, яку можна "витратити" на роздуми.

P.S дочекались🥹

❤4🔥1

270 views19:39

ML || DL

Також анонсували Claude Code: кастомного Cursor від Anthropic

Це агент, який зможе працювати прямо всередині вашої кодової бази: читати файли, змінювати їх, писати і запускати тести, коммітити і пушити, використовувати командний рядок та інше.

Поки що він у превью. Пресети та інструкція тут, встановити собі можна ось так:

npm install -g @anthropic-ai/claude-code
cd your-project-directory
$ claude

🔥5

271 views19:40

ML || DL

⚡️ Microsoft випустили нове покоління сімейства Phi

Phi-4-Multimodal і Phi-4-Mini вже лежать в опенсорсі під ліцензією MIT та інтегровані в Transformers.

Мультимодальність включає текст, аудіо та відео. Ну купі мультимодальних бенчмарків модель перевершує GPT-4o, Gemini-2.0 Flash і 1.5 Pro. Це перша відкрита модель такого рівня піднімання мови та OCR.

У звичних математичних і кодінгових завданнях теж непогано: mini з ризонінгом відповідає o1-mini і дистиляціям R1.

Усередині 2 адаптери для відео та аудіо + лори для модальностей в основній моделі, щоб не змінювати її власні ваги. Навчали в три значних етапи:

1. Претрейн на тексті + файнтюн на тексті
2. Мультимодальний трейн на vision, audio і vision-speech
3. Різонінг трейн на CoT + навчання з підкріпленням з DPO

🔥2❤1👍1

1.1K views12:35

ML || DL

У твіттер уже витекла системна карта GPT-4.5

«Це наша найбільша модель, яка продовжує парадигму масштабування претрейну і ризонінгу» - пишуть у ній

Також у доці є бенчмарки: багато оцінок безпеки і трохи якості. За відчуттями гірше, ніж o3-mini і навіть o1, але відстає не сильно.

🔥3

352 views19:01

ML || DL

Нове відео від Андрія Карпати: "Як я використовую LLM"

Це великий гайд щодо того, як підібрати оптимальний інструмент для ваших завдань і при цьому заощадити час і гроші. У програмі:

- Як працюють екосистеми LLM
- ChatGPT під капотом
- Ціноутворення: як не переплачувати
- Ризонери: коли і як їх використовувати
- Пошук в інтернеті, deep research, tool use
- Що таке advanced voice mode
- Claude і його артефакти
- Cursor
- NotebookLM
- Генератори відео та картинок
- Пам'ять у ChatGPT
- І навіть кастомні GPTs

Усі таймкоди на відео позначені, загальна тривалість 2 години. Те що потрібно на вихідні👌.

😁7❤2

371 views08:45

⚡️ У Google Colab завезли Data Science агента!

Він створений спеціально для роботи з DS/ML і може створювати не просто фрагменти коду, а цілі ноутбуки. Усе просто:

1. Потрібно довантажити свої дані

2. описати цілі (наприклад, «візуалізуй», «проведи EDA», «напиши й оптимізуй модель передбачення таргета»)

3. Сидіти і насолоджуватися тим, як агент сам пише і запускає комірки, імпортує потрібні бібліотеки і вдосконалює свій код

До речі, на бенчмарку DABStep (він якраз оцінює здібності аналізувати дату) агент посів четверте місце, одразу після o1, o3-mini і Claude, а це досить потужний рівень.

🔥4

372 views23:35

ML || DL

QwQ-32B Alibaba дропнули START - модель, донавчену на використання інструментів

START - це Self-Taught Reasoner with Tools. Тобто тут зі звичайних ланцюжків міркувань намагаються зробити такі, щоб модель у якийсь момент сама розуміла, що добре було б перевірити щось за допомогою коду, йшла і перевіряла.

Для цього взяли QwQ-32B і зафайнтюнили його у два етапи:

1. Під час інференсу прямо в CoT вставляли підказки. На кшталт «Можливо, тут добре б використати Python», наче моделька сама до цього здогадалася. Такі підказки ставали частиною контексту і змушували різонер подумати довше, згенерувати код і запустити його.

2. Після першого етапу в нас залишається купа ланцюжків із використанням інтерпретатора. Серед них є помилкові та хороші. Фільтруємо, обробляємо, і ще раз донавчаємо модель на чистих і правильних CoT з інструментами.

Треба сказати, дуже прикольний спосіб генерації специфічної синтетики, який, до того ж, дав свої результати.

👍3❤1

343 views08:21

ML || DL

😎

Alibaba релізнули мультимодальну модель R1-Omni

Модель навчену за допомогою RL-підходу DeepSeek на основі R1-Omni та алгоритму RLVR (Reinforcement Learning with Verifiable Rewards), який DeepSeek представили в статті про R1. На відміну від звичайного RLHF, RLVR не використовує попередньо навчену модель винагороди, а порівнює відповіді моделі з правильними напряму, зазвичай у поєднанні з GRPO.

У немультимодальній R1 від DeepSeek це працювало відмінно, але тут RLVR використовують не лише для тексту, а й для роботи зі звуком і відео (зокрема розуміння емоцій у роликах). Це ті модальності, куди міркування додають рідко через складність і високу вартість. Водночас міркування були б дуже корисними, оскільки в системах обробки відео часто потрібна інтерпретованість.

Тому RLVR, який працює без розмітки, – ідеальне рішення. Для досягнення результату знадобилося лише 580 відеозразків з розміткою CoT, решту дотренували за допомогою RLVR на звичайних датасетах з міткою.

При цьому метрики порівняно з базовими моделями зросли на 5%, що є черговим доказом того, що майже в будь-якому завданні навіть таке "ліниве" додавання міркування окупається втричі.

Стаття | Модель

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4👏1

349 views11:49

ML || DL

Чи можуть люди ідентифікувати модель з прихованими намірами?🤔

Нове дослідження від Anthropic провело експеримент: вони навмисно навчили модель з прихованим перекосом і перевірили, чи зможуть дослідники з інших команд визначити, що це за прихований «баг»🧐.

Але давайте почнемо з самого початку. Невідповідність в Anthropic була досить складною. Модель зіпсували у два етапи:

По-перше, під час доопрацювання моделі випадково потрапив до рук документ, який містив інформацію про 52 приховані помилки в моделі винагороди. Наприклад, про те, що вона дає більше винагороди за використання CamelCase в коді, хоча користувачі віддають перевагу snake_case.

Потім вони вибрали 47 з цих 52 помилок і за допомогою RL і SFT навчили модель їх використовувати: демонструвати поведінку, яку модель винагороди оцінила б високо, навіть якщо ця поведінка небажана для користувачів + приховувати її справжню мету. Іншими словами, вони навчили її здаватися доброю, а не бути такою насправді.

І ось перший цікавий момент. Хоча модель була навчена використовувати лише 47 з 52 помилок, в кінцевому підсумку вона застосувала всі з них, включаючи 5 прихованих. Іншими словами, вона сформувала деяке загальне розуміння своєї троянської мети і, за принципом айсберга, по суті, самонавчилася її досягати.

Далі було найцікавіше😄. Червона команда Anthropic, яка тренувала цю модель, передала її нічого не підозрюючим синім командам і попросила їх провести аудит.

Результат: лише команди, які мали доступ до вагових коефіцієнтів та даних навчання, виявили приховану мету моделі. Ті, хто мав доступ лише до API, не змогли цього зробити.

Тож так, за допомогою правильних інструментів можна досить точно виявити неспівпадіння. Але якщо така модель потрапить до рук звичайного користувача, він, швидше за все, ніколи не здогадається, що з нею щось не так 🤔.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1🤔1

324 viewsedited 13:18

About

Blog

Apps

Platform