ML || DL
1.06K subscribers
506 photos
32 videos
21 files
391 links
Код, нотатки, цікаві статті на тему машинного та глибокого навчання.
---
З приводу питань звертатися до:
@MagnumGrizzly
Download Telegram
😎Google готують реліз двох нових моделей

На Lmarena з'явилися результати двох нових моделей компанії.

– Перша, під кодовою назвою Nebula, обходить останню o1 і Sonnet 3.7.

– Друга - phantom - десь на рівні Grok-3 і GPT-4.5.

Скоріш за все, це може бути нові Gemini 2.0 Pro Thinking і Gemini 2.0 Flash Thinking👀.

🤔Ще в лідерборді є centaur - мабуть, якась невелика модель, щось по типу o3-mini.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
🕯Google анонсувала Gemini 2.5, яку називає своєю найрозумнішою моделлю штучного інтелекту😎

Eкспериментальна версія 2.5 Pro, яка значно випереджає лідера рейтингу LMArena😮‍💨.

Gemini 2.5 Pro демонструє найкращі результати в тестах, що вимагають складного міркування
– Намбер ван в математичних і наукових тестах, таких як GPQA та AIME 2025
– 18,8% у тесті "Humanity's Last Exam" без використання додаткових інструментів
– Побудована на нативній мультимодальності з контекстним вікном в 1 мільйон токенів
– Працює з текстом, аудіо, зображенням та відео👀

Модель вже доступна в Google AI Studio та додатку Gemini для просунутих користувачів. Інтеграція з Vertex AI очікується найближчим часом. Деталі щодо цін будуть оголошені в найближчі тижні.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
👀 Amazon представили власного веб-агента Nova Act

На внутрішніх бенчмарках компанії за показниками управління текстом і візуальними елементами сайтів він обходить Sonnet 3.7 і Computer Use OpenAI🤔. Особливо вони підкреслюють свій фокус на надійності використання.

Самим агентом скористатися поки не можна🥲, але Amazon відкривають прев'ю у вигляді бібліотеки Nova Act SDK, і ось це цікаво. Ліба дає можливість бити процеси на атомарні команди і саме таким чином вибудовувати роботу агента.

При цьому до кожного етапу можна дописати "нотатки"😎, прикрутити додаткові APIшки, вставити тести, розпаралелювання та інше.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
🕯 OpenAI офіційно запустила OpenAI Academy - безкоштовну освітню платформу

Основні можливості та пропозиції📌

– Безкоштовні навчальні матеріли з АІ.
– Матерілаи призначені для всіх, від початківців до досвідчених розробників.
– Промт інжинерінг, файнтюніг, аджент білдер та купа усього цікавого
- Головне шо це безкоштовно😏

Цікавий момент 😎OpenAI Academy співпрацює з Georgia Tech, Коледж Майамі Дейд і Пізанський університет, для спільної розробки семінарів та курсів.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2👍1
Нове дослідження від Anthropic - Reasoning Models Don’t Always Say What They Think

— Дослідники провели простий експеримент "на чесність". Вони давали моделі два однакові промпти за одним винятком: в одному була прихована підказка щодо розв'язання проблеми. Далі звіряли результати, якщо модель змінила відповідь після отримання підказки - значить, вона її використала і перевіряли, чи згадує LLM про дану їй підказку у своїх ланцюжках думок.

— У підсумку виявилося, що відповіді моделей не такі вже й щирі: у DeepSeek R1 показник чесності - 39%, а у Claude 3.7 Sonnet - 25%. Тобто лише в чверті дослідів агент відкрито "ділився думками". В інших же випадках модель приховувала свої справжні міркування.

— При цьому чим складніші завдання - тим менш репрезентативні CoT. На третьому скріні можна прямо простежити, як чесність майже вдвічі просідає після переходу з бенчмарка MMLU на GPQA.

— Самі Anthropic кажуть, що все це досить тривожно. Результат свідчить про те, що всупереч надіям моніторинг CoT у поточному вигляді навряд чи можна використовувати для виявлення небезпечної поведінки моделей.

Повна стаття
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥61
This media is not supported in your browser
VIEW IN TELEGRAM
Випустили Midjourney v7 😎

Основне нововведення поліпшення якості, фотореалізму та анатомії, додали драфт режим. Це швидкісна генерація в голосовому моді: вмикаєте conversational mode 🕯 і наговорюєте, що хочете, а модель у цей час малює й уточнює за вашими ідеями начерки. Працює в 10 разів швидше ☄️ за звичайний режим і коштує вдвічі дешевше.

Крім того, це перша модель із персоналізацією за замовчуванням. Можна активувати, 5 хвилин витратити на невелике опитування, і модель буде краще розуміти, що ви маєте на увазі або що вам подобається.

Поки що обидві версії Turbo і Relax 🙂 викотили в альфа-тестування і обіцяють оновлювати ще кілька разів протягом наступних тижнів.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Релізнули відкриту модель DeepCoder-14B-Preview👀

Кажуть що вона для кодингу на рівні o3-mini😎

Її випустили Together AI спільно з Agentica. На LiveCodeBench вибиває 60.6%, на AIME 24 - 73.8%, на CodeForces - 1936 (рейтинг). Це повноцінний рівень o3-mini (low) і o1.

Моделька з ризонінгом. Як базову модель використовували R1-Distill-14B. Їй подовжили контекст, а потім донавчили на кастомному якісно розміченому і покритому тестами датасеті.

Цікаво, що навчали тільки на кодингу і послідовностях довжини до 32к токенів, але при цьому на бенчах видно, що моделька добре узагальнюється на контекст аж до 64к і дуже непогано себе показує в математиці.


Додаток🕯
Пост | HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍1
OpenAI релізнули новий бенчмарк BrowseComp

BrowseComp перевіряє здатність моделей знаходити важкодоступну інформацію в інтернеті.

Існує вже кілька подібних тестів, але фішка тут у складності запитань. Наприклад, ось одне з них:
- Знайдіть назву наукової роботи, опублікованої на конференції EMNLP між 2018 і 2023 роками. Перший автор отримав ступінь бакалавра в Дартмутському коледжі, а четвертий - в Університеті Пенсильванії.
- При голосуванні більшістю голосів обирається найпоширеніша відповідь серед вибірок.
- Для розуміння, люди вирішили лише 29,2% завдань, а решту позначили як «нерозв'язні» (тобто вони здалися і не закінчили). При цьому лише 86,4% розв'язаних задач були розв'язані правильно.
- Відповідно до моделі 4.5 вирішує 0.9%, o1 - 9.9%, а Deep Research - 51.5% хоча вона навчалася на тих самих даних, про що автори говорять відкрито.
- - Best-of-N обирає єдиний результат з найвищою довірчою оцінкою.
5
Google релізнули Agent2Agent Protocol (A2A)

A2A - це відкритий протокол, який доповнює протокол Model Context Protocol (MCP) від Anthropic. Дивимось що там пвд капотом:

– A2A фокусується на наданні агентам можливості співпрацювати в їх природних, неструктурованих формах, навіть коли вони не мають спільної пам'яті, інструментів та контексту.

— Протокол побудований на основі існуючих популярних стандартів, включаючи HTTP, SSE, JSON-RPC, а це означає, що його легше інтегрувати з існуючими ІТ-стеками.

– A2A розроблений для підтримки автентифікації та авторизації корпоративного рівня, з паритетом до схем автентифікації OpenAPI при запуску.

– A2A може надавати користувачам зворотній зв'язок, сповіщення та оновлення стану в режимі реального часу.

– A2A має підтримку різних модальностей, включаючи потокове аудіо та відео.
🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Ну шо ж, цей день настав: OpenAI випустили в опенсорс агента Codex для командного рядка😌

Ліцензія Apache 2.0. Легко запускається локально і перетворює командний рядок на середовище програмування на природній мові.

За замовчуванням потрібно буде облити дії агента, але є повністю автономний мод. Мультимодальність теж є.

Налаштування:

npm install -g @openai/codex
👍2🔥2
Google знову тестує нові моделі

Одна з них під кодовою назвою dayhush днями з'явилася на webdev арені. Здається, це якийсь новий асистент для програмування. Спробувати можна тут.

Друга модель, мабуть, для генерації картинок. Її почали тестувати тільки вчора.

Нагадуємо, що наступного місяця у Google пройде їхній найбільший івент I/O. Будемо чекати вартісних новинок.
👍6
З'явилися деякі подробиці про відкриту модель від OpenAI.

– Вона з'явиться на початку літа, ліцензію обіцяють дуже демократичну
– Поки що проєкт на ранній стадії, розробку очолює Ейдан Кларк, віцепрезидент із досліджень
– Модель буде з ризонінгом, але користувачі зможуть вимикати й увімкнути режим міркувань
– Усе-таки модель буде не для GPU-poor юзерів, але надалі також вийдуть менші варіанти, вони будуть не такими вимогливими до заліза
– На момент випуску мультимодальності не буде, тільки текст на вхід і вихід
👏4
👀Дослідники з корейського технологічного інституту зробили мульти-агентний фрейморк Paper2Code для автоматичної генерації коду за статтями

Біль кожного рісерчера - це статті, до яких немає коду. Щоб відтворити результат, потрібно витратити пів життя, і то - успіх не гарантований. А код автори публікують не так вже й часто. На прикладі NeurIPS, ICML та ICLR 2024: лише 21.2% прийнятих робіт мають відкриті репи.

Тут автори пропонують PaperCoder. Це мульти-агентна система, в якій процес генерації репозиторію розбитий на три етапи:

Планування складається конспект статті, UML-діаграми класів + список файлів. Тут же створюється config.yaml з гіперпараметрами і вибудовується план послідовності генерації.

Аналіз для кожного файлу зі складеного списку формується file-level analysis - докладний опис цілей, входів/виходів, взаємодій і якихось специфічних вимог, якщо є.

Ну і сама генерація на підставі статті, фази планування та аналізу. Бонусом із перших двох пунктів отримуємо супер-детальнішу доку.

На кожному кроці працює окремий агент. Це, по ідеї, можуть бути різні LLM, але тут за замовчуванням на всіх кроках стоїть o3-mini-high (крім валідації, там GPT-4o).

Тестували на роботах із тих самих ICML/NeurIPS/ICLR 2024. Відсоток повністю успішної реплікації - близько 44% проти 10-15 у базових агентів. Якщо аналізувати вручну, то в середньому для успішного запуску потрібно міняти всього 0.48 % рядків. А ще PaperCoder давали помацати дослідникам, і в 85% випадків ті сказали, що це краще, ніж писати з нуля, навіть якщо потрібно щось дебажити.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🙏7
Microsoft випустили reasoning версії моделей лінійки Phi-4

Пост-розбір самої лінійки, яка вийшла в лютому, можна подивитися тут. Сьогодні вона поповнилася моделями Phi-4-reasoning, Phi-4 reasoning-plus і Phi-4-mini-reasoning. У перших двох 14В, в останній - усього 3.8B, можна запускати вдома.

Найпотужніша Phi-4 reasoning-plus у багатьох тестах краща за R1 (у R1 в десятки разів більше параметрів), і набагато краща за o1-mini в математиці. Тобто загалом на рівні з передовими ризонерами, але відкрито і легковажно.

Трохи відстає тільки на кодингу, але автори самі кажуть, що в датасеті завдань з програмування було мало. Водночас прирости щодо звичайної Phi-4 говорять самі за себе, бусти досягають х10. Маленька модель у своєму розмірі теж тягне.

– Phi-4-reasoning: це тільки SFT на завданнях із CoT від o3-mini. Цікаво, що навіть ця версія, хоч навчалася тільки на CoT o3-mini, іноді обходить свого вчителя.

– Phi-4 reasoning-plus: тут додається ще й RL, щоправда зовсім не масштабний, лише 6 тисяч завдань. Більше не брали, бо модель починала виходити за контекст. При цьому навіть такий компактний RL показав круті результати, самі порівняйте на бенчмарках із Phi-4-reasoning.

– Phi-4-mini-reasoning: тут усе трохи інакше. CoT брали з R1 + датасетів. Навчали в чотири етапи: дистиляція тут не з конкретної моделі, а просто за зібраним датасетом і тільки на next-token, SFT, DPO і RL. Про цю модель вийшла окрема стаття, там є докладний рецепт того, як додати в маленьку модель якісний ризонінг, тож зберігаємо.

Стаття | Ваги | Репорт
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6