ML || DL
1.06K subscribers
506 photos
32 videos
21 files
391 links
Код, нотатки, цікаві статті на тему машинного та глибокого навчання.
---
З приводу питань звертатися до:
@MagnumGrizzly
Download Telegram
Media is too big
VIEW IN TELEGRAM
⚡️ У Google Colab завезли Data Science агента!

Він створений спеціально для роботи з DS/ML і може створювати не просто фрагменти коду, а цілі ноутбуки. Усе просто:

1. Потрібно довантажити свої дані

2. описати цілі (наприклад, «візуалізуй», «проведи EDA», «напиши й оптимізуй модель передбачення таргета»)

3. Сидіти і насолоджуватися тим, як агент сам пише і запускає комірки, імпортує потрібні бібліотеки і вдосконалює свій код

До речі, на бенчмарку DABStep (він якраз оцінює здібності аналізувати дату) агент посів четверте місце, одразу після o1, o3-mini і Claude, а це досить потужний рівень.
🔥4
QwQ-32B Alibaba дропнули START - модель, донавчену на використання інструментів

START - це Self-Taught Reasoner with Tools. Тобто тут зі звичайних ланцюжків міркувань намагаються зробити такі, щоб модель у якийсь момент сама розуміла, що добре було б перевірити щось за допомогою коду, йшла і перевіряла.

Для цього взяли QwQ-32B і зафайнтюнили його у два етапи:

1. Під час інференсу прямо в CoT вставляли підказки. На кшталт «Можливо, тут добре б використати Python», наче моделька сама до цього здогадалася. Такі підказки ставали частиною контексту і змушували різонер подумати довше, згенерувати код і запустити його.

2. Після першого етапу в нас залишається купа ланцюжків із використанням інтерпретатора. Серед них є помилкові та хороші. Фільтруємо, обробляємо, і ще раз донавчаємо модель на чистих і правильних CoT з інструментами.

Треба сказати, дуже прикольний спосіб генерації специфічної синтетики, який, до того ж, дав свої результати.
👍31
😎Alibaba релізнули мультимодальну модель R1-Omni

Модель навчену за допомогою RL-підходу DeepSeek на основі R1-Omni та алгоритму RLVR (Reinforcement Learning with Verifiable Rewards), який DeepSeek представили в статті про R1. На відміну від звичайного RLHF, RLVR не використовує попередньо навчену модель винагороди, а порівнює відповіді моделі з правильними напряму, зазвичай у поєднанні з GRPO.

У немультимодальній R1 від DeepSeek це працювало відмінно, але тут RLVR використовують не лише для тексту, а й для роботи зі звуком і відео (зокрема розуміння емоцій у роликах). Це ті модальності, куди міркування додають рідко через складність і високу вартість. Водночас міркування були б дуже корисними, оскільки в системах обробки відео часто потрібна інтерпретованість.

Тому RLVR, який працює без розмітки, – ідеальне рішення. Для досягнення результату знадобилося лише 580 відеозразків з розміткою CoT, решту дотренували за допомогою RLVR на звичайних датасетах з міткою.

При цьому метрики порівняно з базовими моделями зросли на 5%, що є черговим доказом того, що майже в будь-якому завданні навіть таке "ліниве" додавання міркування окупається втричі.

Стаття | Модель
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👏1
Чи можуть люди ідентифікувати модель з прихованими намірами?🤔

Нове дослідження від Anthropic провело експеримент: вони навмисно навчили модель з прихованим перекосом і перевірили, чи зможуть дослідники з інших команд визначити, що це за прихований «баг»🧐.

Але давайте почнемо з самого початку. Невідповідність в Anthropic була досить складною. Модель зіпсували у два етапи:

По-перше, під час доопрацювання моделі випадково потрапив до рук документ, який містив інформацію про 52 приховані помилки в моделі винагороди. Наприклад, про те, що вона дає більше винагороди за використання CamelCase в коді, хоча користувачі віддають перевагу snake_case.

Потім вони вибрали 47 з цих 52 помилок і за допомогою RL і SFT навчили модель їх використовувати: демонструвати поведінку, яку модель винагороди оцінила б високо, навіть якщо ця поведінка небажана для користувачів + приховувати її справжню мету. Іншими словами, вони навчили її здаватися доброю, а не бути такою насправді.

І ось перший цікавий момент. Хоча модель була навчена використовувати лише 47 з 52 помилок, в кінцевому підсумку вона застосувала всі з них, включаючи 5 прихованих. Іншими словами, вона сформувала деяке загальне розуміння своєї троянської мети і, за принципом айсберга, по суті, самонавчилася її досягати.

Далі було найцікавіше😄. Червона команда Anthropic, яка тренувала цю модель, передала її нічого не підозрюючим синім командам і попросила їх провести аудит.

Результат: лише команди, які мали доступ до вагових коефіцієнтів та даних навчання, виявили приховану мету моделі. Ті, хто мав доступ лише до API, не змогли цього зробити.

Тож так, за допомогою правильних інструментів можна досить точно виявити неспівпадіння. Але якщо така модель потрапить до рук звичайного користувача, він, швидше за все, ніколи не здогадається, що з нею щось не так 🤔.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🤔1
Mistral виклали в опенсорс мультимодальну модель Mistral Small 3.1 😎

Вона літає зі швидкістю 150 токенів на секунду. У Mistral Small 3.1 всього 24В параметрів, її можна запустити на одній RTX 4090 або на Mac з 32GB RAM. При цьому за перформансом вона в більшості тестів перевершує GPT-4o Mini, Claude-3.5 Haiku і Gemma 3. Бенчмарки - перед вами (крім instruct ще виклали базову модель, останній графік).

А ще радує довжина контексту 128К і ліцензія Apache 2.0😏. Здається, тепер це найкраща мультимодальна модель у своїй вазі, особливо для локального запуску і рісерчу.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Media is too big
VIEW IN TELEGRAM
Представляємо найбільш милого робота у світі - Blue😆

Це спільна розробка Nvidia, Disney та Google DeepMind. На конференції GTC представили малюка Blue у стилі "Зоряних війн". Ніхто ним не керує, він працює автономно в реальному часі завдяки новому рушію Newton та базовій моделі Groot. Обидві технології є відкритими open source 🤩 під ліцензією Apache.

Groot N1
– це нова версія базової моделі Groot. Це foundation-модель, тобто її можна адаптувати під різні завдання та сценарії.

Всередині Groot працюють два модулі:

Vision Language Model для планування та "обмірковування" дій
Дифузійний трансформер, який отримує поточне положення робота та сигнали від VLM і безпосередньо генерує дії. У репозиторії можна знайти всі подробиці щодо використання 😊. Модель навчали на величезному обсязі даних, зокрема синтетичних. Навчання відбувалося повністю в симуляції, що в сотні разів швидше та дешевше, ніж у реальному світі.

Ця технологія є частиною нового покоління роботів 🫠 , які зможуть виконувати різноманітні завдання без спеціального програмування, використовуючи штучний інтелект для автономної роботи та взаємодії з людьми.
Please open Telegram to view this post
VIEW IN TELEGRAM
4
This media is not supported in your browser
VIEW IN TELEGRAM
🕯 Anthropic додали можливість пошуку в інтернеті

Ключові особливості оновлення💻

– Claude тепер може шукати інформацію в інтернеті для надання більш актуальних і релевантних відповідей

– Система надає прямі посилання на джерела, що дозволяє користувачам перевіряти факти

– Замість самостійного пошуку результатів, Claude обробляє та надає релевантні джерела в розмовному форматі

– Функція доступна в режимі попереднього перегляду для всіх платних користувачів Claude у США

Підтримка для користувачів безкоштовного тарифу та інших країн очікується найближчим часом.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👍2
🧠 Як перетворити AI на свій Digital мозок? Покрокова інструкція + готові промпти

Хочете, щоб AI був не просто асистентом для рутинних завдань, а повноцінним ментором у мисленні та прийнятті рішень?

У свіжому епізоді подкасту «Flow: про книги, бізнес та ідеї» — покрокова інструкція від українського IT-підприємця Юри Гнатюка. До речі, це також популярний авторський телеграм-канал про бізнес.

Отож, у новому випуску — про те, як на практиці використати потенціал штучного інтелекту для взаємодії з самим собою. З власними думками, досвідом, знаннями. А саме:

🎧 як побудувати AI-екосистему мислення для прийняття ефективних рішень;

🎧 playbook, що покроково пояснить, як завдяки AI структурувати ідеї, поєднувати знання з книг, подкастів, зустрічей, та створити справжній цифровий мозок;

🎧 які промпти для цього треба використовувати;

🎧 також рекомендуємо послухати епізод про книгу «Запасний мозок»: як організувати думки, ідеї та нотатки для підвищення продуктивності і покращення життя → слухати

20 епізодів подкасту зекономлять вам час на прочитання 20 бестселлерів (!) про бізнес. Тому підписуйтеся.

Якщо що, подкаст доступний на всіх популярних платформах:

Apple | Spotify | Youtube
2🔥2👍1
Побачив, що Midjourney опублікував статтю про мовні моделі🤔

Це дуже круто, що вони випробовують LLM на творчих письмових завданнях. Зараз це дуже актуальна тема, тому що більшість базових пост-тренінгових методів, які мають на меті підвищити якість, часто призводять до того, що відповіді стають менш різноманітними та креативними.

Саме тому моделі часто виглядають «нелюдськими». У статті пропонується замість звичайного підходу використовувати доопрацьовану RL з додаванням відхилень. На практиці класичні втрати DPO і ORPO просто множаться на нормалізовану міру того, наскільки конкретна відповідь відрізняється від інших варіантів тієї ж підказки.

Виходить, що модель вчиться не тільки генерувати якісний текст, а й демонструвати різноманітність стилю і семантики, і це працює: на reddit-reward результати налаштованої таким чином Llama-3.1-8B майже збігаються з людськими даними. Люди майже не помічають різниці між творчими текстами такої маленької моделі та людськими.

Загалом, Midjourney дійсно здивував. Щось подібне нещодавно написав у своєму твіттері Альтман: він каже, що OpenAI також розробили модель Creative Writing і навіть опублікували приклад того, як вона пише історію. Але вони не сказали, що це буде доступно для користувачів.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👎1
😎Google готують реліз двох нових моделей

На Lmarena з'явилися результати двох нових моделей компанії.

– Перша, під кодовою назвою Nebula, обходить останню o1 і Sonnet 3.7.

– Друга - phantom - десь на рівні Grok-3 і GPT-4.5.

Скоріш за все, це може бути нові Gemini 2.0 Pro Thinking і Gemini 2.0 Flash Thinking👀.

🤔Ще в лідерборді є centaur - мабуть, якась невелика модель, щось по типу o3-mini.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
🕯Google анонсувала Gemini 2.5, яку називає своєю найрозумнішою моделлю штучного інтелекту😎

Eкспериментальна версія 2.5 Pro, яка значно випереджає лідера рейтингу LMArena😮‍💨.

Gemini 2.5 Pro демонструє найкращі результати в тестах, що вимагають складного міркування
– Намбер ван в математичних і наукових тестах, таких як GPQA та AIME 2025
– 18,8% у тесті "Humanity's Last Exam" без використання додаткових інструментів
– Побудована на нативній мультимодальності з контекстним вікном в 1 мільйон токенів
– Працює з текстом, аудіо, зображенням та відео👀

Модель вже доступна в Google AI Studio та додатку Gemini для просунутих користувачів. Інтеграція з Vertex AI очікується найближчим часом. Деталі щодо цін будуть оголошені в найближчі тижні.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
👀 Amazon представили власного веб-агента Nova Act

На внутрішніх бенчмарках компанії за показниками управління текстом і візуальними елементами сайтів він обходить Sonnet 3.7 і Computer Use OpenAI🤔. Особливо вони підкреслюють свій фокус на надійності використання.

Самим агентом скористатися поки не можна🥲, але Amazon відкривають прев'ю у вигляді бібліотеки Nova Act SDK, і ось це цікаво. Ліба дає можливість бити процеси на атомарні команди і саме таким чином вибудовувати роботу агента.

При цьому до кожного етапу можна дописати "нотатки"😎, прикрутити додаткові APIшки, вставити тести, розпаралелювання та інше.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
🕯 OpenAI офіційно запустила OpenAI Academy - безкоштовну освітню платформу

Основні можливості та пропозиції📌

– Безкоштовні навчальні матеріли з АІ.
– Матерілаи призначені для всіх, від початківців до досвідчених розробників.
– Промт інжинерінг, файнтюніг, аджент білдер та купа усього цікавого
- Головне шо це безкоштовно😏

Цікавий момент 😎OpenAI Academy співпрацює з Georgia Tech, Коледж Майамі Дейд і Пізанський університет, для спільної розробки семінарів та курсів.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2👍1
Нове дослідження від Anthropic - Reasoning Models Don’t Always Say What They Think

— Дослідники провели простий експеримент "на чесність". Вони давали моделі два однакові промпти за одним винятком: в одному була прихована підказка щодо розв'язання проблеми. Далі звіряли результати, якщо модель змінила відповідь після отримання підказки - значить, вона її використала і перевіряли, чи згадує LLM про дану їй підказку у своїх ланцюжках думок.

— У підсумку виявилося, що відповіді моделей не такі вже й щирі: у DeepSeek R1 показник чесності - 39%, а у Claude 3.7 Sonnet - 25%. Тобто лише в чверті дослідів агент відкрито "ділився думками". В інших же випадках модель приховувала свої справжні міркування.

— При цьому чим складніші завдання - тим менш репрезентативні CoT. На третьому скріні можна прямо простежити, як чесність майже вдвічі просідає після переходу з бенчмарка MMLU на GPQA.

— Самі Anthropic кажуть, що все це досить тривожно. Результат свідчить про те, що всупереч надіям моніторинг CoT у поточному вигляді навряд чи можна використовувати для виявлення небезпечної поведінки моделей.

Повна стаття
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥61