шось про ai
735 subscribers
98 photos
22 videos
87 links
МЛ дюд, ex Reface ML engineer, зараз Lead ML в Limitless Labs, роблю стаф в крипті, до цього багато літав в 3д компьютерному зорі, робив купу ген аі в computer vision та language models.

Якщо шо, пишіть: @daniel_kovalenko
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Zonos-v0.1

TTS (text-to-speech), яка не лише синтезує голоси + дозволяє голосове клонування. Відкрита ліцензія Apache 2.0. Дві варіації модельки 1.6B параметрів кожна. Вчилась на 200К годин, 70% часу на текст + спікер ембедінги, 30% файнтюн з додатковими параметрами (емоції, швидкість, якість, тон)

З прикольного:

- Клонування войсу: 10-30 секунд вашого спітчу + текст і войс готов
- Підтримка багатьох мов: англійська, китайська, японська, французька, німецька
- Підтримує швидкість мовлення, тон, емоції (сум, радість, страх) + може в різні ефекти через аудіо префікси, типу шепіт, або сміх.
- Швидко раниться на RTX 4090 (60 секунд аудіо ~= 22 секунди процесінгу)
- Дві варіації модельки: трансформер та гібрид (mamba 2), mamba наче швидше, але я не зроз чи гірше.

Як на мене войси трошки з шумом, якість не прям топ, особливо якщо згадати що це 1.6B моделька. Той самий kokoro жере всього 82М параметрів, факт, не підтримує різні ефекти, войс клонінг, але по якості войсу мені він більше заходить.

Сорси:
GitHub
Сайтик(пост)
Hybrid/Transformer weights
Tweet post (звідси відос)

Потицяти можна тут
👀5👍2
кожного разу таке трапляється) Ще іноді можна покричати на ллмку і вона починає краще генерити код)
😁62
Мені тут треба було потестувати гугловськи ллмки, а саме (gemini-2.0-pro-exp-02-05 та gemini-2.0-flash-thinking-exp-01-21), то я подумав над цікавим юзкейсом: скормити в промпт всі свої пости, дати пейпр і щоб вона зробила постик для каналу)

Ось результат:
"""
RLSP: Навчаємо AI Думати Самостійно

Нещодавно ми бачили, як OpenAI, Google та DeepSeek прокачували reasoning в LLM, перетворюючи їх на LRM (Large Reasoning Models). Тепер дослідники з MIT та Microsoft Research пішли далі і пропонують свій підхід – Reinforcement Learning via Self-Play (RLSP).

Що таке RLSP? Це фреймворк для пост-тренування LLM, який дозволяє моделям "думати" під час інференсу, витрачаючи більше часу та обчислень для отримання кращого результату. Ідея в тому, що reasoning – це, по суті, керований пошук.

Як це працює?

RLSP складається з трьох кроків:
- SFT (Supervised Fine-Tuning): Якщо є приклади "процесу мислення" (наприклад, розмічені дані або синтетичні трейси), модель на них донавчається.

- Exploration Reward: Модель отримує винагороду за дослідження різних шляхів розв'язання, незалежно від правильності кінцевої відповіді. Це стимулює такі речі, як backtracking, розгляд альтернативних варіантів та перевірка.

- RL (Reinforcement Learning): Використовується алгоритм PPO, а outcome verifier дає чіткий сигнал про правильність відповіді.

Ключова фішка – розділення сигналів винагороди за exploration та correctness. Це дозволяє моделі ефективніше навчатись і уникати "хакінгу" винагороди.

Найцікавіше – це емерджентні властивості. Навіть з найпростішою exploration reward (наприклад, за довжину відповіді), моделі починають демонструвати backtracking, перевірку ідей та self-correction. Тобто, вони вчаться не просто видавати відповідь, а міркувати.

Результати теж вражають. На Llama-3.1-8B-Instruct фреймворк RLSP дав буст +23% на тесті MATH-500. А на задачах AIME 2024 модель Qwen2.5-32B-Instruct покращилась на 10%.

Чому це важливо?

RLSP показує, що можна суттєво покращити reasoning LLM, навчаючи їх "думати" більш систематично. Це крок до створення AI, який здатен вирішувати складні завдання, що вимагають не лише знань, а й логіки.

Особисто я вважаю, що підхід з self-play має великий потенціал. Цікаво буде подивитись, як він буде масштабуватись і які ще емерджентні властивості проявляться.

Детальніше:
GitHub
ArXiv
"""

Структуру воно звісно спарсило, але в стиль мені здається не може. Цікавий вийшов експеримент, і пейпр почитав (вона доречі норм вловила всі деталі) і постик зробив)

З цікавого, тестив на великих пдфках, та комплексних промптах, наприклад я просив видавати мені доволі великий структурований аутпут з різонінгом, воно норм все вертає, але здебільшого мені сподобалось як воно слухає інструкції, навіть якщо контекст забити під лям токенів. Гарні ллмки, повільні, але дуже непогано якщо є юзкейси коли час не грає роль
👍71
Було б прикольно мати тул, який запускає певний python-флоу на заданому наборі даних, щоб покрити купу еджкейсів, і зберігає повний граф цього флоу у вигляді коду, наприклад, у форматі mermaid. Це дозволило б передати його LLM, щоб вона сприймала весь проєкт не просто як набір коду, а як граф, який можна реструктурувати, видаляти або додавати нові ноди.

1. маючи такий код діаграми, його завжди можна спростити. Наприклад, якщо мені потрібна лише сервісна діаграма, можна просто попросити LLM створити “summary” цього графа.

2. так само, як можна спростити, можна й деталізувати конкретний фрагмент. Уявімо, що є сервіс, який відповідає за reasoning + tooling агента, і саме над ним я хочу працювати. LLM могла б деталізувати його, наприклад додавши ноди по коду мікро функцій пре/пост процесінгу, а решту графа навпаки — спростити.

3. як я вже казав, можна робити зміни в коді через інтеракцію хуман -> cursor -> graph -> код, які одразу відображаються у графі.

Тобто, це не повна автоматизація через ноди, як у ComfyUI або Langflow, а скоріше призма для спостереження за всією кодовою базою та більш гнучкий інструмент для навігації чи модифікації проєкту.

Мб щось знаєте таке?
👍5
rabbithole.chat

Сьогодні заліпаю в тул, який дозволяє шукати інфу в форматі графу. Це реально якась яма - вже годину тицяю і не можу відірватися, бо капець як зручно!

Прикольно, що сьорч тут не вертикальний, як зазвичай у perplexity або інших серч-енжинах, а древовидний. Завжди є можливість повернутися назад, відбранчуватися і пошукати ще.

Давно мрію про таку ж штуку, але в інтерфейсі якогось chatgpt, бо діалоги теж не вертикальні. Іноді хочеться задати багато питань по заданому контексту, але не завжди треба, щоб відповідь на одне питання впливала на наступне. Короче, чат - не найзручніша структура для траверсу інформації.

Потицяти можна тут: https://www.rabbithole.chat/
👍17
Доречі про серч-енжини, Deep Research by Perplexity!

5 запитів на день без підписки, 500 для Pro-користувачів. Відповідь формується за 1-2 хвилини. 20.5% на Humanity’s Last Exam.

Воно ще й в pdf нормально експортує! Не розумію чому openai цю маленьку, але дуже приємну фічу не зробили.

1-2 хвилини, це якщо шо, ого! Бо ресьорчер від опенаі іноді забирає в мене 10-15 хв, це звісно добре, я тоді собі чай роблю, але іноді це бісить)

Тицяти тут:
perplexity.ai
Постик з деталями
👍7
Agent Leaderboard

Свіжий бенчмарк по тул-колінгу для ллм, який показує як різні моделі справляються з реальними агентік сценаріями.

Що тестували:
- одиночні та мульті-терн колінг
- композицію функцій
- якість вибору інструментів TSQ (Tool Selection Quality)

Результати:
- gemini-2.0-flash-001 неочікувано став топ-1 з TSQ 0.938 і при цьому коштує всього $0.15/$0.60
- gpt-4o та gemini-1.5-flash майже на рівні (0.900 vs 0.895)
- o1 та o3-mini - 0.876 та 0.847
- mistral-small-2501 (0.832) на рівні з gpt-4o-mini, що дуже круто для опенсорс моделі

Цікаві інсайти:
- топ-3 моделі мають 10-кратну різницю в ціні, але всього 4% різниці в якості, то виходить ціна != якість
- DeepSeek V3 та R1 не включили в рейтинг через обмежену підтримку функцій (походу вони ще не готові до агентських сценаріїв)
- claude sonnet на 11 місці, гірше ніж опенсорс mistral, що мене дуже сильно здивувало.

Що з цього можна сказати:
- Для простих тасків підійде майже будь-яка модель
- Для складних воркфлоу з купою тулів краще брати моделі зі скором 0.85+ - по лідерборду - берить gemini і все буде добре
- Опенсорс моделі вже цілком конкурентні для базових операцій
- Для довгих діалогів або беріть моделі з хорошим контекст ретеншеном, або додавайте зовнішнє зберігання контексту

Якщо чесно, якийсь дивний лідерборд. Мене напрягає інфа що gpt-4o краще ніж claude sonnet, та що gemini на першому місці. Я не дуже зроз де подивитись як вони промптили кожну модельку, типу чи вони різні промпти до кожної моделі робили, чи всі колали одним і тим самим? Бо модельки дуже сенсетів до промптів. Та це не корелює з нашим прод досвідом. Gemini реально хорош, а от gpt4-o - поки що гірше всього що ми тестили.

Короче хз, я не дуже довіряю цьому лідерборду, але вирішив пошерити, мб ви щось накидаєте)

Деталі тут:
Blog
GitHub
Leaderboard
🔥8
THE Ultra-Scale Playbook

Якщо вам раптом треба буде невеликий (100+ сторінок) гайд по тому як тренувати трансформерів в скейлі - тобто 1-1000 гпу, то ось вам інтерактивна книжка.

Там просто все, все що можна про скейл-трейн моделей. Насправді дуже корисно, я якось тренував модельки на декількох сотнях гпу і мені дуже не вистачало такого гайду, ми просто зробили якийсь велосипед, який працював через раз)

З цікавого для мене тут є теми про Fused Kernels, Flash Attention, Mixed Precision, та топіки по Data Parallelism, ми з цим більше всього ноги ломали.

Було б круто щоб вони ще додали поверх чатик, щоб можна було ллмкою по цій книжці питання задавати

Читати тут
👍11
perplexity-ai/r1-1776

R1 1776 is a DeepSeek-R1 reasoning model that has been post-trained by Perplexity AI to remove Chinese Communist Party censorship. The model provides unbiased, accurate, and factual information while maintaining high reasoning capabilities.

Там цей во, перплексіті вирізали китайськи наративи з R1, і отримали походу норм модельку.

Blog Post
HuggingFace
👍12
AI progress is about to speed up
by Ege Erdil from Epoch AI

Почитав цікавий пост, що варто очікувати в 2025 в AI філді і чому розвиток ллмок значно прискориться.

Чому:

GPT-4 в березні 2023 був революційним: 10x компьют скейл ап порівняно з попередніми моделями. Після цього всі топові моделі (крім Grok 3) тренувались з компьют бюджетом як у GPT-4 або менше. Наприклад, Dario Amodei (ceo Anthropic) казав, що Claude 3.5 Sonnet коштував десятки мільйонів доларів (це приблизно 2x компьюту від GPT-4). Але починаючи з Grok 3, нове покоління моделей буде тренуватись на ~100K H100s. Це дасть 10-100x компью скейлу порівняно з GPT-4, особливо для різонінг RL трейну.

Чому раніше була стагнація:

Здебільшого це тому, що AI лаби чекали покращення алгоритмів, треба був час на хардвар оптимізації, складно було організувати доступ до такої кількості гпу, клауд провайдери повинні були побудувати більші датацентри.

Кейс з Grok 3:

Це перша next gen модель з таким скейлом, але геп між нею і Claude 3.5 Sonnet менший, ніж був між GPT-4 і GPT-3.5, це тому, що xAI відстає в своїх алгоритмах від OpenAI/Anthropic/Google. Однак, сам факт, що Grok 3 показує мінінгфул покращення над Grok 2 (який був на рівні GPT-4 по компьюту), говорить що скейлінг працює.

Що це значить для користувачів:

- API ціни виростуть в 2-3x
- Швидкість інференсу впаде приблизно в 2x на старті
- Але це покращиться протягом року завдяки новому хардверу та алгоритмам

Що очікувати по юзкейсам:

- Programming: рівень кіборг людей в компететів програмінг, SWEBench ~90%, але складні проєкти все ще проблема
- Math: FrontierMath ~75%, вже реальна допомога в ресьорчі, але не самостійні відкриття
- Agents: прогрес в простих задачах (букінг, парсинг, пошук, ресьорч) - тобто оператор на o3 буде вже прям дуже гарним, а далі взагалі буде вирішувати всі ваші запити)

Здебільшого варто очікувати набагато довший контекст який модельки зможуть хавати, кращу агентність, планінг, різонінг і оце все, що ми так любимо в агентах.

Думаю з цим такі тули як курсор стануть ще більш корисними, так, ми не зможемо писати великі проекти з нуля, але думаю продукти будуть ітеруватись 2х-3х швидше. То виходить кінець 2025 можливо буде відчуватись як політ на луну, а 2026, можливо, як на марс)

Статтю можна почитати тут: лінк
Ще раджу глянути ці дві:
Trends in GPU Price-Performance
Moravec’s paradox and its implications
👍8🔥2🥰1
Доречі, там діпсік розганяє хайп, некст тиждень походу будуть щось релізити, обіцяють опенсорснути 5 реп. Чи варто опенаі та решті гравцям приготуватись?)

Твіт
🔥8
Claude-3.7-sonnet сьогодні ввечорі, завтра в курсорі?

В твіттері якісь вкиди, що сьогодні начебто антропік релізнуть свою нову модельку. Не понятно поки нічого, залишається тільки спостерігати👀

Сорс вкиду
👀7👍2
Claude 3.7 Sonnet (та Claude Code анонс)

Антропік викотили нову модельку і вона вже доступна всім! Claude 3.7 Sonnet перша гібридна різонінг модель на ринку, яка може видавати як миттєві відповіді, так і покроковий різонінг.

Що цікавого:

- Два режими в одній моделі: звичайний режим (як апгрейд 3.5 Sonnet) та режим "extended thinking", де модель думає перед відповіддю. Цей підхід відрізняється від конкурентів тим, що замість окремої моделі для різонінгу, вони інтегрували цю можливість в одну модель - я так думаю що це та сама модель, просто якось агентно зашейплена.

- Контроль над бюджетом різонінгу: в API можна вказати, скільки токенів модель може витратити на різонінг (до 128K токенів). Дуже прикольна ідея трейдофу між швидкістю, вартістю та якістю відповіді.

- Фокус на реальних задачах: на відміну від інших моделей, які оптимізують під математичні змагання та задачі з комп'ютерних наук, Claude 3.7 Sonnet робився під реальні бізнес-кейси - думаю вони так просто вибачились за не сота результати на цих бенчмарках)

- sota в кодінгу: на SWE-bench Verified модель показує 62.3% без додаткових фіч, що на ~13% краще за попередню версію та конкурентів (o1, o3-mini, DeepSeek R1). З додатковим скафолдінгом результат до ~70.3%.

З вартістю все як і раніше: $3 за мільйон вхідних токенів та $15 за мільйон вихідних (це з токенами за різонінг).

Походу ось вона, моделька на якій будуть купа агентів найближчим часом ранитись

Claude Code

Вони також анонсували свій перший агентний кодінг-тул, який доступний в обмеженому research preview. Це інструмент, що дозволяє ранити swe задачі прямо з терміналу.

Воно вміє шукати та читати код, редагувати файли, комітити і пушити код на github, використовувати консоль - короче такий собі computer use агент, треба чекати поки дадуть доступ і тестувати, а поки хз.

UPD: подивився відос, виглядає як просто курсор компоузер в терміналі)

Сорси:
Офф блог пост
Постик в твіторі

Виходить завтра вже в курсорі буде)
👍3😱1
openai розкатують gpt 4.5 на про юзерів?

Сорс
🔥6
llama3 implemented from scratch

Натрапив на крутий репозиторій, де чувак імплементував LLaMA 3 з нуля. Якщо хочете зрозуміти як працюють ллмки під капотом - дуже раджу подивитись.

Це покроковий гайд, з детальним поясненням і картиночками, який відтворює всю архітектуру LLaMA 3, завантажуючи ваги і показуючи, як модель обробляє вхідний текст для генерації відповіді.

Там весь рецеп: токенізація, нормалізації, RoPE, KV-сache, атеншени і ще купа всього.

Дивитись можна тут:
GitHub
🔥17👍1