ML || DL

✨

Microsoft випустили reasoning версії моделей лінійки Phi-4

Пост-розбір самої лінійки, яка вийшла в лютому, можна подивитися тут. Сьогодні вона поповнилася моделями Phi-4-reasoning, Phi-4 reasoning-plus і Phi-4-mini-reasoning. У перших двох 14В, в останній - усього 3.8B, можна запускати вдома.

Найпотужніша Phi-4 reasoning-plus у багатьох тестах краща за R1 (у R1 в десятки разів більше параметрів), і набагато краща за o1-mini в математиці. Тобто загалом на рівні з передовими ризонерами, але відкрито і легковажно.

Трохи відстає тільки на кодингу, але автори самі кажуть, що в датасеті завдань з програмування було мало. Водночас прирости щодо звичайної Phi-4 говорять самі за себе, бусти досягають х10. Маленька модель у своєму розмірі теж тягне.

– Phi-4-reasoning: це тільки SFT на завданнях із CoT від o3-mini. Цікаво, що навіть ця версія, хоч навчалася тільки на CoT o3-mini, іноді обходить свого вчителя.

– Phi-4 reasoning-plus: тут додається ще й RL, щоправда зовсім не масштабний, лише 6 тисяч завдань. Більше не брали, бо модель починала виходити за контекст. При цьому навіть такий компактний RL показав круті результати, самі порівняйте на бенчмарках із Phi-4-reasoning.

– Phi-4-mini-reasoning: тут усе трохи інакше. CoT брали з R1 + датасетів. Навчали в чотири етапи: дистиляція тут не з конкретної моделі, а просто за зібраним датасетом і тільки на next-token, SFT, DPO і RL. Про цю модель вийшла окрема стаття, там є докладний рецепт того, як додати в маленьку модель якісний ризонінг, тож зберігаємо.

Стаття | Ваги | Репорт

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6

349 views12:30

ML || DL

0:37

This media is not supported in your browser

VIEW IN TELEGRAM

👀

Anthropic анонсували Інтеграції: тепер до Claude можна приєднати будь-яке джерело даних

Приєднуєте якийсь свій застосунок (ну, наприклад, базу знань Confluence), і відтепер під час пошуку бот буде шукати не тільки в Інтернеті, а й за вашою інтеграцією.

Водночас, звісно, можна попросити пошукати тільки в базі знань, поставити щодо неї будь-яке запитання, вивантажити звідти код і попрацювати з ним та інше та інше та інше, будь-які дії з цим контекстом.

По суті це верифіковані MCP всередині чат-бота. Зараз у партнерах уже Atlassian, GitLab, Asana, PayPal, CloudFlare і ще з десяток сервісів. Їх можна під'єднати в кілька кліків. Якщо потрібного вам сервісу серед них немає, то можна і свій додати, але знадобиться трохи більше часу та сил.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6👎1

421 viewsedited 08:22

ML || DL

😎

ByteDance представила Seed-Coder-8B – компактну модель для програмування, яка за продуктивністю перевищує Sonnet 3.7 та o1-mini

Модель доступна у трьох варіантах: Base, Instruct та Reasoning. Версія Instruct за якістю випереджає майже всі open-source аналоги аналогічного розміру, а версія Reasoning демонструє кращі результати за R1, o1-mini і Claude Sonnet 3.7 на змаганнях IOI 2024. Максимальна довжина контексту складає 32 тисячі токенів. Особливо цікавою є реалізація процесу збору даних. Підхід дуже подібний до методу, використаного DeepSeek, але з максимальною автоматизацією. Для очищення необроблених даних (репозиторії, коміти, код з відкритих джерел) майже всі ручні фільтри були замінені на єдиний LLM-фільтр.

Спеціально натренували невелику модель, яка оцінювала код за такими критеріями, як читабельність, модульність, ясність і можливість повторного використання. Ця модель проходилася по всьому датасету та відкидала найменш якісні файли. Таким чином, вдалося позбутися приблизно 10% даних, фактично видаливши велику кількість "сміття".
На жаль, сам датасет у відкритий доступ не виклали. Проте всі моделі доступні у відкритому доступі.

Репозиторій | Блогпост | Ваги

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

432 views15:31

ML || DL

Google представили нового кодинг-асистента AlphaEvolve, створеного спеціально для розроблення складних алгоритмічних рішень

За словами розробників, під час тестувань системі вдалося:

Відкрити кілька принципово нових алгоритмів для швидкого множення матриць. Один із цих алгоритмів навіть перевершив за ефективністю класичний алгоритм Штрассена (який був розроблений ще 1969 року).

У 75% випадків знайти найкращі з відомих на сьогодні рішень відкритих математичних задач світового рівня, а у 20% випадків удосконалити наявні рішення, запропонувавши нові методи.

Це ще не все. Всередині екосистеми Google AlphaEvolve вже близько року застосовується для оптимізації роботи дата-центрів, тренування та інференсу моделей машинного навчання, а також навіть у розробці апаратних засобів.

Процес роботи виглядає так: аналіз контексту -> створення нових ідей та рішень -> оцінювання та ранжування отриманих результатів -> інтеграція кращих результатів назад у контекст для подальших поліпшень -> повторення циклу.

Наразі доступ до інструмента широкій аудиторії закритий, тому залишається лише чекати.

🔥6

446 viewsedited 09:32

ML || DL

Багато цікавого з презентації Google I/O😎

— Нова Veo-3. SOTA-моделька для генерації, яка може генерувати відео зі звуками і голосами

— Gemini 2.5 Flash з поліпшеним ризонінгом. Модель уже стрибнула з п'ятої сходинки арени на другу і вибиває дуже хороші метрики на кодингу та математиці. З огляду на ціни це просто чудові результати

— Переклад мови в Google Meet у реальному часі зі збереженням інтонацій і голосу співрозмовника. Поки доступно тільки з англійської на іспанську, але обіцяють розкачати на більше мов

— Gemini Ultra теж вийшла, але є нюанс. Це не модель, а підписка. Коштує 250 доларів на місяць, до неї входить розширений доступ до всіх моделей гугла, Veo-3, NotebookLM та інші плюшки типу сховища і преміум ютуба. Загалом, усі підписки Google в одній

— У Gemini 2.5 Pro додали більш глибокий режим міркувань

— Анонсували хмарного агента Jules для програмування. Підключається до GitHub, робить ПР, рев'ює, відповідає на запитання і тд. Аналог Codex, але дешевше.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4

398 viewsedited 19:04

ML || DL

👀

Anthropic представила Claude 4 Opus і Sonnet 4

Opus 4 Anthropic називає найкращою моделлю для кодингу, вона справляється з багатокроковими завданнями, працюючи годинами без втрати ефективності - наприклад, зберігає контекст гри в Pokémon, записуючи ключові дані в локальні файли.

Sonnet 4, доступна навіть безкоштовним користувачам, стала серйозним апгрейдом попередньої версії: точніше виконує інструкції і скоротила помилки в навігації по коду з 20% до нуля.

Обидві моделі підтримують розширене мислення: чергують аналіз і використання інструментів веб-пошуку, а також виконують завдання паралельно.

Для розробників з'явилася інтеграція з VS Code, JetBrains і GitHub Actions - правки від Claude тепер відображаються прямо в редакторі. У бета-режимі можна підключати SDK для створення власних агентів.

За словами партнерів: GitHub і Replit, Opus 4 розуміє складні кодбази, а Sonnet 4 ідеальний для повсякденних завдань. Наприклад, у GitHub Copilot його вже тестують як основу для нового агента.

У тарифні плани Pro, Max, Team і Enterprise Claude включені обидві моделі і розширене мислення, а Sonnet 4 також доступний для безкоштовних користувачів.

Обидві моделі доступні в Anthropic API, Amazon Bedrock і Google Cloud's Vertex AI. Ціноутворення залишається незмінним у порівнянні з попередніми моделями Opus і Sonnet: Opus 4 - $15/$75 за мільйон токенів (введення/виведення), Sonnet 4 - $3/$15.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6

460 viewsedited 19:56

ML || DL

🙂 Google випустив додаток для локального запуску моделей на телефоні

Він безкоштовний та з відкритим вихідним кодом і підтримує навіть мультимодальні моделі. Інструкції з запуску:

1) Заходьте в репозиторій Google AI Edge Gallery, переходьте в Releases та завантажуйте файл .apk. Це для Android, для iPhone буде пізніше.

2) Заходимо в додаток, завантажуємо одну з моделей звідти або додаємо свою.

3) Done, тепер можна використовувати і ранити цю модель локально і тільки на власному CPU та GPU смарфтону.

Мда, о це так реліз, I/O 2025 ще продовжується😎

🔥9

700 viewsedited 16:17

ML || DL

✨

Google представили нову архітектуру пам'яті ATLAS для LLM

Google продовжують працювати над збільшенням ємності пам'яті моделей. Не так давно вони показували архітектуру Titan, а тепер пишуть про Atlas - новий підхід, у якому пам'ять навчається прямо під час інференсу.

Трохи про проблему контексту. Звичайним трансформерам важко масштабуватися на довгі послідовності: зі зростанням кількості токенів споживання пам'яті збільшується квадратично, тому що всю інформацію доводиться зберігати одночасно в KV-кеші.

Рекурентні сітки ж від проблем масштабування не страждають, тому що пам'ять у них фіксованого розміру. Водночас через цю фіксованість вони просто-напросто постійно нічого не пам'ятають.

Google зробили ось взяли за основу трансформер, але взагалі відмовилися від self-attention і зберігання ключів і значень. Замість цього всі обчислення зав'язані на оновлювану пам'ять (це ідея з RNN). Тобто:

На вході ми все ще отримуємо токени контексту, для яких розраховуємо запити, ключі та значення

Але замість того, щоб зберігати кожну пару (k, v) у кеш, ми прямо під час інференсу навчаємо наш модуль пам'яті вивчати взаємозв'язки між ними. Модуль пам'яті тут - це повнозв'язкова MLP, і вона звичайним градієнтним спуском навчається відображати ключі в значення, тобто MLP(k_i) ≈ v_i.

На виході виходить, що у нас немає KV-кеша, але є нейро-модуль пам'яті, який на льоту вивчив усі взаємозв'язки в поточному контексті.

Чи працює це? Так, краще ніж у трансформерах і Titan. На бечмарку BABILong ATLAS досягає 80%+ точності на довжинах до 10 мільйонів токенів. Трансформери на такій довжині вже давно остаточно захлинулися - дивіться графік 2. При цьому перплексія і точність теж залишаються гарними.

Повний текст статті

🔗

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7

686 viewsedited 18:54

ML || DL

🤔

Нове дослідження "Скільки запам'ятовують мовні моделі?" від Meta FAIR, Google DeepMind і NVIDIA

Скільки даних може запам'ятати модель з певною кількістю параметрів? А скільки конкретно інформації може вивчити один параметр? А скільки інформації він може узагальнити?

Здається, що порахувати це дуже складно або навіть неможливо, але ось вченим з цієї статті це вдалося: кожен параметр мовної моделі здатний запам'ятати приблизно 3,6 біта інформації. Про те, як це порахували – нижче.

Відразу дисклеймер: до цього були й інші статті на цю тему, але там запам'ятовування визначалося просто тим, чи може модель відтворити певний фрагмент трену. Насправді все складніше, і в цій роботі підхід не такий наївний.

Автори спираються на поняття з теорії інформації Колмогорова і Шеннона, і чітко розділяють запам'ятовування і узагальнення. Якщо модель відтворила що-небудь – це не означає, що вона це запам'ятала, а не узагальнила. У зворотному напрямку – те ж саме.

Кількість інформації, яку модель саме запам'ятала, рахують так. Беруть дві моделі однакової архітектури і розміру: одна – референсна – навчена на величезній кількості даних, друга – випробовувана – на обмеженому датасеті.

Обидві моделі пропускають один і той же тренувальний фрагмент через процедуру передбачення і обчислюють ймовірності кожного токена. Якщо друга модель дає більш високі ймовірності (тобто «витрачає» на їх декодування менше бітів, ніж референтна), вона економить відносно референтної моделі певну кількість бітів. Сума зекономлених бітів по всіх фрагментах і є загальний обсяг вивченої інформації.

Ось так і вийшло число 3,6 біт/параметр.

Найважливіше, що цей показник дає можливість чітко визначити момент переходу запам'ятовування в узагальнення: він відбувається, коли обсяг даних в бітах приблизно дорівнює загальній ємності моделі. І так, експериментально це сходиться: саме на цьому обсязі даних тестовий лосс починає різко падати. Це, до речі, часто називають грокінгом.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🤔3

644 viewsedited 12:13

ML || DL

Підвезли оновлення gemini-2.5-pro

На арені нова версія підскочила аж на 24 бали Elo в порівнянні з минулою, і тепер лідирує за всіма категоріями, випереджаючи o3 і Claude Opus 4. Спробувати вже можна в AI Studio

👍4

425 viewsedited 21:05

ML || DL

Самоудосконалення великих мовних моделей (LLM) за допомогою підкріплювального навчання

💭

У статті досліджується стратегія самоудосконалення великих мовних моделей (LLM) за допомогою саморефлексії в поєднанні з підкріплювальним навчанням. Мета дослідження — підвищити ефективність моделі при виконанні складних завдань, де доступна лише бінарний зворотний зв'язок, навіть якщо генерація синтетичних навчальних даних є неможливою.

Автори пропонують двоступеневу структуру. На першому етапі, коли модель не виконує завдання, вона генерує саморефлексійний коментар, в якому визначає та аналізує свою помилку. На другому етапі модель повторно виконує завдання, використовуючи свою рефлексію як контекст. Якщо наступна спроба є успішною, підкріплювальне навчання, зокрема групова відносна оптимізація політики (GRPO), використовується для винагородження токенів, створених під час етапу рефлексії, тим самим сприяючи більш ефективній саморефлексії в майбутніх спробах.

Експериментальні результати демонструють суттєві поліпшення до 34,7% при написанні математичних рівнянь і 18,1% при виконанні завдань виклику функцій. Цікаво, що менші налагоджені моделі (від 1,5 до 7 мільярдів параметрів) іноді перевершують більші моделі з тієї ж родини — до десяти разів більші — що підкреслює ефективність запропонованого механізму саморефлексії.

Автори роблять висновок, що ця парадигма значно покращує здатність LLM вирішувати завдання без необхідності використання зовнішніх даних, специфічних для завдання. Вони пропонують у майбутніх роботах далі досліджувати оптимізацію підказок для саморефлексії та стратегій підкріплювального навчання, щоб розширити застосування цього підходу до більш широкого кола завдань.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3🎉3👍1

654 views17:43

ML || DL

🦶Стежками Gemini Diffusion — LLaDA ✨

На нещодавному Google I/O було анонсовано нову модель — Gemini Diffusion. Наразі, ми знаємо про неї мало, але очевидно, що ця модель використовує дифузію замість звичної авто-регресії, завдяки чому інференс суттєво прискорюється.

Я вирішив пошукати релевантні роботи на цю тему, і однією з тих, що привернула мою увагу, була Large Language Diffusion Models (LLaDa). Не факт, що це схоже на підхід, який використали Google, але робота досить проста і водночас цікава, тож давайте її обговоримо.

Дифузія проти авто-регресії 🥊

- Авто-регресія: текст генерується токен-за-токеном, доки не буде згенеровано спеціальний <EOS> (end of sequence) токен. Швидкість відповіді лінійно залежить від її довжини (якщо не враховувати різні оптимізації накшталт speculative decoding).
- Дифузія: створюється “полотно” беззмістовного тексту, яке поступово перетворюється в осмислену відповідь на запит. Швидкість відповіді залежить від розміру полотна (але не лінійно, бо його токени обробляються паралельно), а також кількості кроків дифузії.

Архітектура і навчання: Привіт BERT 👋

Автори беруть за основу архітектуру сучасних LLM, але прибирають маскування наступних токенів, адже для дифузійного підходу це не є необхідним. Тобто це більше схоже на encoder класичного трансформера, ніж на decoder.

На першому етапі модель навчається виконувати masked language modelling, коли певний відсоток токенів замінюється на спеціальний <MASK> токен, і мережа має навчитися їх відновлювати. Особливість в тому, що цей відсоток токенів є не фіксованим (BERT в середньому маскував 15%), а випадковим у проміжку від 0 до 1. Тобто іноді модель навчається відновлювати майже повністю замасковану послідовність, адже саме з цим вона працюватиме на початку дифузійного процесу.

На другому етапі відбувається все те саме, але навчаємось вже на парах (prompt, response), і маскуються лише токени з response, в той час як prompt залишається незмінним. Так модель вчиться звертати більше уваги саме на інструкції в процесі генерації відповіді.

Генерація 👀

Для генерації подаємо моделі наш prompt і повністю замаскований response максимальної довжини, яку хочемо отримати. Модель передбачатиме відповідь для кожного токену, але ми не будемо одразу демаскувати всі з них. Замість цього, візьмемо лише 10% (якщо хочемо зробити 10 кроків генерації), в яких вона найбільш впевнена, а інші 90% залишуться замаскованими. Ця нова послідовність йде до моделі в наступній ітерації, і так далі. Авторам вдається отримати гарні результати зі 128 кроків.

Але тут виникає головна проблема підходу — модель не дуже добре вміє закінчувати свої відповіді. Іноді вона може з високою впевненістю сказати, що десятий токен повинен бути <EOS>, в той час як наступні токени є корисними для вдалої відповіді. Тому автори використовують так званий semi-autoregressive remasking, коли ми знешумлення дозволяється не для всієї послідовності, а лише для блоку з 32 токенів, який поступово зміщується через ковзне вікно. Це, звісно, виглядає як хак, якого не повинно бути в ідеальній дифузійній моделі.

Переваги 🔥

- Швидкість генерації при схожій якості (порівнюють свою 8B архітектуру з аналогічною LLaMa 3).
- При порівнянні з LLaMa 3 Instruct, модель поступається лише незначно, хоча вона взагалі не проходила через RL alignment.
- Двонаправленість механізму уваги, що дозволяє моделі виправляти помилки з минулого та краще вирішувати деякі задачі.
- Потенційно, якість може бути кращою. Авто-регресійні архітектури існують вже давно, і напевно гіперпараметри для них підібрані більш ретельно, ніж для нових підходів (та сама причина, чому певний час дифузія програвала GAN-ам в зображеннях).
- Великий простір для покращення через впровадження дифузійних оптимізацій, які вже активно використовуються у генерації зображень та відео.

Цікаво, чи цей підхід набере масової популярності, адже, з одного боку, він має низку переваг, але, з іншого, під авто-регресію вже зроблено стільки оптимізацій, що для переходу на щось нове компанії мають побачити суттєві аргументи.

🔥5

718 viewsedited 12:13

ML || DL

👍6

719 views12:13

ML || DL

Проблеми класифікації актуальних питань для підвищення надійності QA за допомогою LLM 🤔

✏️ У цій статті розглядається проблема галюцинацій у великих мовних моделях (LLM) під час відповіді на питання (QA) шляхом дослідження того, як часові характеристики питань — чи є вони вічно актуальними (стабільними в часі) чи мінливими (змінюються) — впливають на продуктивність моделі. Метою авторів є підвищення надійності систем QA шляхом явного включення часових характеристик питань в оцінку та навчання.

⚙️ Для цього вони представляють EverGreenQA, перший багатомовний, курований людьми набір даних QA з анотаціями вічно актуальних міток, а також призначений розподіл на навчання та тестування. Вони проводять порівняльний аналіз 12 сучасних LLM, щоб оцінити, чи кодують ці моделі часові знання явно (через прямі вербальні судження) або неявно (через сигнали невизначеності). Крім того, вони розробляють EG-E5, легкий багатомовний класифікатор, який досягає найсучаснішої продуктивності в ідентифікації вічно актуальних та мінливих питань.

📈 Основні результати показують, що розпізнавання часового виміру питань є вирішальним для поліпшення оцінки самознання LLM та зменшення галюцинацій. Більше того, дослідження демонструє, що класифікація вічно актуальних питань має практичні переваги, такі як фільтрування наборів даних QA та пояснення поведінки моделей, таких як GPT-4, під час пошуку.

🙂 Автори роблять висновок, що інтеграція часової обізнаності в системи QA є перспективним напрямком для підвищення надійності та інтерпретованості. Вони рекомендують подальші дослідження в галузі глибшого часового моделювання та розширення застосування класифікації evergreen в рамках генерації з розширеним пошуком.

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔4

409 viewsedited 14:01

ML || DL

Зробимо невеликий огляд RPT (Reinforcement Pre-Training)

🕯

🤔 Розглянемо приклад нової парадигми, яка інтегрує навчання з підкріпленням (RL) у попереднє навчання мовних моделей шляхом переформулювання прогнозування наступного токена як завдання міркування. Метою дослідження є підвищення масштабованості та точності великих мовних моделей шляхом надання їм можливості використовувати великі обсяги неанотованих веб-текстових даних з перевіреними винагородами, тим самим долаючи обмеження традиційних підходів RL, які часто покладаються на дорогі, специфічні для певної галузі анотації.

👀 Підхід авторів полягає у стимулюванні мовної моделі до міркування та правильного прогнозування наступного токена шляхом отримання винагород, які безпосередньо походять від правильності її прогнозу відносно істинного значення. Цей метод перетворює стандартну самоконтрольовану мету навчання на універсальну структуру RL, яка може ефективно масштабуватися із збільшенням обчислювальних потужностей для навчання. Експериментальні криві масштабування демонструють, що більша обчислювальна потужність послідовно покращує точність прогнозування наступного токена.

Основні результати показують, що RPT не тільки значно покращує точність прогнозування наступного токена, але й створює міцну попередньо навчену основу для подальшого, специфічного для завдання, тонкого налаштування RL. У висновку автори стверджують, що RPT є ефективною і перспективною парадигмою масштабування для попереднього навчання мовних моделей. Вони пропонують, щоб майбутні дослідження були спрямовані на вивчення додаткових методів тонкого налаштування на основі підкріплення та додаткових стратегій об'єднання самоконтрольованого навчання з RL, що може призвести до створення більш потужних і узгоджених великих мовних моделей.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3👍1

591 viewsedited 16:55

ML || DL

🙂

Точне налаштування мовних моделей за допомогою методу Few-Shot RL

🔗 Основною метою методу Few-Shot RL є ефективне узгодження великих мовних моделей (LLM) із рядом завдань, усунувши залежність від дорогих людських анотацій та зовнішніх моделей винагороди. Автори пропонують нову структуру під назвою «Reinforcement Learning via Self-Confidence» (RLSC). Цей підхід використовує впевненість моделі у своїх результатах як сигнал винагороди під час післятренувального періоду, тим самим обходячи необхідність у мітках, моделях переваг або ручному інжинірингу винагороди.

👀 Методологічно RLSC використовує процес тонкої налаштуванн підкріплювального навчання з кількома спробами. В експериментах з використанням моделі Qwen2.5-Math-7B автори проводять навчання з лише 16 зразками на питання протягом короткого періоду навчання (10 або 20 кроків) на наборі даних AIME2024. Ця легка конфігурація покладається виключно на самогенеровані показники впевненості з попередньо навченої моделі для керівництва вдосконаленнями.

🕯 Основні результати демонструють значне підвищення продуктивності за кількома тестами на міркування: +13,4% на AIME2024, +21,2% на MATH500, +21,7% на Minerva Math, +20,8% на Olympiadbench і +9,7% на AMC23. Автори роблять висновок, що RLSC є масштабованим та ефективним методом післянавчання, який ефективно підвищує точність та узагальнення моделі. Вони пропонують, щоб майбутні дослідження були спрямовані на подальше вдосконалення винагород на основі впевненості та поширення цього підходу на інші проблемні області.

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔5

684 viewsedited 14:27

ML || DL

LLM мають труднощі з повним врахуванням зовнішнього зворотного зв'язку

🧐

У статті досліджується, чи можуть великі мовні моделі (LLM) повністю врахувати високоякісний зовнішній зворотний зв'язок для виправлення своїх відповідей і досягнення максимального потенціалу та визначити, чи можуть LLM ефективно самостійно виправляти свої помилки в майже ідеальних умовах з майже досконалим і повним зворотним зв'язком.

Розглядається експериментальна структура, в якій початкова модель-розв'язувач генерує відповідь, а потім генератор зворотного зв'язку, що має доступ до правдивих відповідей, надає цільовий коригувальний зворотний зв'язок. Потім розв'язувач знову намагається вирішити проблему. Цей підхід було застосовано до різних завдань, включаючи математичне міркування, наукове міркування та багатодоменні оцінки, з використанням найсучасніших моделей, таких як Claude 3.7 (з розширеним мисленням і без нього).

Ключові результати показують, що, незважаючи на отримання високоякісного зворотного зв'язку, моделі вирішувачів постійно не досягають своєї теоретичної цільової точності. Це постійне обмеження, яке називається «тертя зворотного зв'язку», в першу чергу пов'язане з внутрішньою стійкістю моделей до повної інтеграції зовнішніх виправлень. Додаткові експерименти — з використанням таких стратегій, як поступове підвищення температури та явне відхилення попередніх неправильних відповідей — дали незначні поліпшення, а потенційні причини, такі як надмірна впевненість моделі та знайомість даних, були виключені.

Сучасні LLM стикаються із значними проблемами в самоудосконаленні за допомогою зовнішнього зворотного зв'язку, окреслюючи важливу область для майбутніх досліджень, спрямованих на подолання цього тертя зворотного зв'язку та підвищення здатності моделей ефективно враховувати корекційну інформацію.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5

372 views11:54

ML || DL

⚡️Java-мітап від Levi9: Java x AI — майбутнє твого коду

Як Java-інженеру вписатися в нову реальність, де AI змінює правила розробки?

Ми покажемо на живих прикладах, як інтегрувати AI у продакшн-код, розповімо про AI-агентів, інструменти та типові помилки.

Спікери:

Себастьян Дашнер — Java Champion, автор книги «Architecting Modern Java EE Applications», tech-евангеліст.
👉 AI Tools and Agents That Make You a More Efficient Developer (англійською, з live demo)

Поліна Сергієнко — Senior Java Engineer в Levi9, лідерка команди на проєкті.
👉 Як будувати AI-фічі в Java: кейс, інтеграція, граблі

Буде цікаво Java-розробникам, архітекторам, тімлідам і всім, хто хоче тримати руку пульсі розвитку AI.

🗓 25 червня, онлайн
🔗 Реєстрація вже відкрита: https://meetup.levi9.com.ua/java-event — до зустрічі!

🔥2

422 views17:20

ML || DL

1:08

This media is not supported in your browser

VIEW IN TELEGRAM

👀

Google показали приклад генеративної операційної системи

Це той самий концепт, про який так багато говорить Карпати. Суть в тому, що в системі насправді немає ніяких готових додатків, ніякого попередньо встановленого інтерфейсу, нічого.

Кожен раз, коли ви натискаєте на щось, наступний екран повністю генерується моделлю в режимі онлайн. Так, якщо ви заходите в додаток – він теж генерується з нуля в момент. Замість оперативки – контекстне вікно: файли не зберігаються, а теж генеруються кожен раз заново на основі ваших попередніх дій.

У Google це називається Gemini Computer. Треба сказати, що це не окремий реліз, а просто демонстрація можливостей нової Gemini 2.5 Flash Light.

Яку виклали на офіційний ютуб канал. Мовляв, подивіться, нова модель настільки жвава, що з нею можна навіть ось таке провернути 460 токенів в секунду – дійсно хороший результат.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8

504 views13:42

About

Blog

Apps

Platform