ML || DL

⚡️ У Google Colab завезли Data Science агента!

Він створений спеціально для роботи з DS/ML і може створювати не просто фрагменти коду, а цілі ноутбуки. Усе просто:

1. Потрібно довантажити свої дані

2. описати цілі (наприклад, «візуалізуй», «проведи EDA», «напиши й оптимізуй модель передбачення таргета»)

3. Сидіти і насолоджуватися тим, як агент сам пише і запускає комірки, імпортує потрібні бібліотеки і вдосконалює свій код

До речі, на бенчмарку DABStep (він якраз оцінює здібності аналізувати дату) агент посів четверте місце, одразу після o1, o3-mini і Claude, а це досить потужний рівень.

🔥4

372 views23:35

ML || DL

QwQ-32B Alibaba дропнули START - модель, донавчену на використання інструментів

START - це Self-Taught Reasoner with Tools. Тобто тут зі звичайних ланцюжків міркувань намагаються зробити такі, щоб модель у якийсь момент сама розуміла, що добре було б перевірити щось за допомогою коду, йшла і перевіряла.

Для цього взяли QwQ-32B і зафайнтюнили його у два етапи:

1. Під час інференсу прямо в CoT вставляли підказки. На кшталт «Можливо, тут добре б використати Python», наче моделька сама до цього здогадалася. Такі підказки ставали частиною контексту і змушували різонер подумати довше, згенерувати код і запустити його.

2. Після першого етапу в нас залишається купа ланцюжків із використанням інтерпретатора. Серед них є помилкові та хороші. Фільтруємо, обробляємо, і ще раз донавчаємо модель на чистих і правильних CoT з інструментами.

Треба сказати, дуже прикольний спосіб генерації специфічної синтетики, який, до того ж, дав свої результати.

👍3❤1

343 views08:21

ML || DL

😎

Alibaba релізнули мультимодальну модель R1-Omni

Модель навчену за допомогою RL-підходу DeepSeek на основі R1-Omni та алгоритму RLVR (Reinforcement Learning with Verifiable Rewards), який DeepSeek представили в статті про R1. На відміну від звичайного RLHF, RLVR не використовує попередньо навчену модель винагороди, а порівнює відповіді моделі з правильними напряму, зазвичай у поєднанні з GRPO.

У немультимодальній R1 від DeepSeek це працювало відмінно, але тут RLVR використовують не лише для тексту, а й для роботи зі звуком і відео (зокрема розуміння емоцій у роликах). Це ті модальності, куди міркування додають рідко через складність і високу вартість. Водночас міркування були б дуже корисними, оскільки в системах обробки відео часто потрібна інтерпретованість.

Тому RLVR, який працює без розмітки, – ідеальне рішення. Для досягнення результату знадобилося лише 580 відеозразків з розміткою CoT, решту дотренували за допомогою RLVR на звичайних датасетах з міткою.

При цьому метрики порівняно з базовими моделями зросли на 5%, що є черговим доказом того, що майже в будь-якому завданні навіть таке "ліниве" додавання міркування окупається втричі.

Стаття | Модель

Please open Telegram to view this post