шось про ai
735 subscribers
98 photos
22 videos
87 links
МЛ дюд, ex Reface ML engineer, зараз Lead ML в Limitless Labs, роблю стаф в крипті, до цього багато літав в 3д компьютерному зорі, робив купу ген аі в computer vision та language models.

Якщо шо, пишіть: @daniel_kovalenko
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Open Operator by BrowserBase

Нещодавно писав про веб-серф агента для створення мемів, і ось від цих же авторів — open operator.

Я не став запускати демку локально, але потикав їх сайт. З простими задачами, типу дізнатися поточну ціну акцій Nvidia, воно справляється. А от з важчими, наприклад, пошук інформації на gov сайтах про законопроєкти падає.

Виглядає як хороша реклама їхніх ліб для веб-серфінгу на фоні релізу опенаі. Але є нюанси:

- потрібна підписка на BrowserBase API.
- швидкість роботи дуже низька. Навіть стокову ціну воно шукало хвилину-дві.
- все написано на next.js, тож на змеюці не попишеш.

Це по факту POC (вони самі так стейтят в репі), тому не засуджуємо за якість. З корисного, звідти можна взяти концепти і допілити цю історію до норм виду. Але хоч якісь метрички могли б додати, простіше було б оцінювати.

Потицяти можна тут:
GitHub
Demo
👍7
Open R1

Hugging Face вирішили повторити повний цикл DeepSeek — від збору даних до навчання моделі.

Нашо?
Бо китайці релізнули лише ваги та флоу для інференсу. Процес тренування залишився за кадром. Це не просто відтворення — це крок до доступного і простого створення моделей рівня o1.

Думки:
Я бачу це як дуже крутий крок в опенсорс. Є сенс очікувати появи великої кількості маленьких моделей, які за якістю будуть не гірші за gpt-4o, а їх тренування буде доступне для більшості компаній, бо це дешево.

Наприклад, ось ця стаття. Не вникаючи в деталі, основна суть у тому, що вони взяли всього 8K трейн семплів, Qwen2.5-Math-7B як базову модель, і отримали 1.5x приріст якості, зрівнявшись з Eurus-2-7B-PRIME, яка краще за gpt-4o на мат бенчмарках, використовуючі схожі ідеї з трейна R1.

Сорс:
GitHub
1🔥12
UI-TARS Desktop by bytedance

Оператор від китайців) bytedance натренували свої модельки для інтеракції з компом. Дають лінійку VLLMs моделей від 2B до 72B + апку.

Використовується vllm ліба для хосту моделькі, закидуєте шлях до апі в апку і можна користуватись. Але не дуже просто це підняти, треба гпу, бажано мінімум L4.

GitHub
👍2
Просто JFYI, там курсор завіз deepseek модельки. Але я бачів що там наче закрили доступ сьогодні до deepseek, цікаво чи воно вплине.
🔥7😁1
YuE – як Suno, тільки опенсорс!

Я не дуже багато користуюсь text-to-music моделями, але ця звучить дуже круто. Іноді можна помітити артефакти, але блін, what a time to be alive! Я послухав їх демо семпли, і це виглядає як можливість створювати автоген музичку на будь-яку тему та в будь-якому стилі. + Ще прикольно що воно може світчати мову в одному рані (додав приклад English + Japanese + Korean)

Доступні ваги для англійської, китайської, корейської та японської мов.

Усі ваги є на HuggingFace, а бекбон модельки – LLaMA2. Це означає, що модель можна легко файнтюнити, що відкриває просто нереально багато можливостей для опенсорс-спільноти.

Демки в них поки що немає, але якщо у вас є A100 з 80 ГБ або хоча б L4 із 24 ГБ пам’яті, то можна запускати локально.

Щодо таймінгів, автори стейтять:
On an H800 GPU, generating 30s audio takes 150 seconds. On an RTX 4090 GPU, generating 30s audio takes approximately 360 seconds.


Project Page: тут можна послухати демо семпли
GitHub
Paper: (coming soon)
👍21
This media is not supported in your browser
VIEW IN TELEGRAM
Побачив прикольний флоу search-агента на моделі deepseek-8b + ollama.

Є такий фреймворк від langchain для прототипування LLM-агентів - langgraph. Його особливість у тому, що всю комунікацію між нодами можна уявити у вигляді графа, ноди мають стрікт протокол комунікації, що спрощує дизайн. А ще є langsmith - тул для обсервабіліті LLM-агентів і воркфлоу.

Так от, те, що ви бачите у відео - це langgraph studio, тобто комбо langgraph + langsmith. Виглядає дуже класно для дебагу, хочеться потицяти.

Було б ще прикольно якщо б вони додали інтеграцію з MCP (model context protocol) від антропік, тоді ноди могли б бути мікро сервісами і тоді збирати своїх агентів було б набагато легше.

А ви грались з langgraph, як вам?
👍4🔥21🤔1
Я все думав, звідки люди приходять, побачив постик, хтось зробив папку з українськими мл каналами і вона в різних комьюніті гуляє. То якщо не бачили, заходьте до інших, в них багато класного контенту!)

Вітаю всіх хто приєднався, радий вас бачити!❤️
👍16🤝9
Mistral Small 3

Mistral AI викотили Mistral Small 3, нову 24B-parameter модель з Apache 2.0 ліцензією. Вона в 3 рази швидша за Llama 3.3 70B, але дає схожу якість відповіді (81% MMLU, 150 tokens/s).

З прикольного:
- легка для локального запуску (4090 / MacBook 32GB RAM).
- без RLHF і синтетики — гарна база для подальшого тюнінгу, наприклад різон тюнінг.
- швидкість > розмір — мало леерів, мінімальний летенсі

По суті це такий локальний gpt4o-mini, тільки швидше. А якщо хтось докрутить різонінг, я думаю буде на рівні 4о, може навіть краще.

HuggingFace Instruct | Base
Ollama
Постик
🔥13
СЕО Anthropic Dario Amodei виклав розбір польотів по DeepSeek.

Що цікавого він там стейтив:

Scaling laws (paper link): більше грошей → кращий результат. Якщо модель за $1M вирішує 20% coding-завдань, то $10M → 40%, $100M → 60%, і так далі.

Shifting the curve: AI дешевшає, але це не означає, що компанії витрачають менше. Кожного року зниження вартості тренування ~4x (оцінка Epoch), але компанії просто витрачають більше на ще потужніші моделі. Так працює весь ринок (деталі).

Shifting the paradigm: масштабування reasoning через RL (reinforcement learning). DeepSeek R1 – це ще один крок у новій фазі масштабування, аналогічний OpenAI o1-preview. Зараз ці моделі ще дешеві у навчанні, бо це відносно нова парадигма, але це швидко зміниться зі скейлінгом.

DeepSeek мали ~50k карточок (які бтв коштували їм ~$1B), якщо вірити SemiAnalysis. Також вони (deepseek) заявляють, що тренування DeepSeek-V3 коштувало ~$6M. Водночас Claude 3.5 Sonnet від Anthropic, коштував ~десятки мільйонів, але 9-12 місяців назад. Тому вони не прорвались вперед, а просто вписався в існуючий тренд, що звісно круто, бо це гарний доказ що скейлінг працює.

Але створення AI, який буде розумнішим за майже всіх людей у майже всіх сферах, вимагатиме мільйонів чипів, щонайменше десятків мільярдів доларів і, найімовірніше, відбудеться у 2026-2027 роках. Але важливий момент — де будуть мільйонні GPU-кластери в 2026-2027? Тому мені не дуже було зрозуміле падіння стоків великої кількості компаній в штатах.

Чому мені сподобався цей пост:
Він чітко описує три закони скейлінгу, які добре пояснюють, чого очікувати найближчим часом. Наприклад, тепер зрозуміліше, у що компанії вкладатимуть більше грошей. o3-mini від OpenAI — це просто плановий скейлінг по кривій розвитку.

Але що мені сподобалося найбільше — це те, що RL low-hanging fruits зараз збиратимуть дуже швидко, їх походу багато, і стагнації найближчим часом не буде.

———

А ще, якщо комусь цікаво, в пості він пояснює, чому санкції на карточки проти Китаю важливі. TL;DR: китайські компанії підконтрольні авторитарному уряду, який порушує права людини, агресивно діє на світовій арені і отримає ще більше свободи для таких дій, якщо зрівняється із США в AI.
👍19🔥4
Така класика якщо чесно, все несеться, купа всього виходить, а ми як використовували sonnet 3.5, так і продовжуємо. Звісно пробували інші модельки, але соннет поки що кращий в ціна/якість співвідношенні - гарно слухає інструкції, тул колінг норм, якщо багато нод в чейні то і різонінг можна отримати непоганий
👍14🤔1
LangFlow (якщо шо, не від langchain)

Візуальний фреймворк для створення multi-agent та RAG пайплайнів, який змінює підхід до побудови апок з написання купи коду, до простого перетягування блоків.

Що цікаво:

Drag-and-drop інтерфейс дозволяє швидко збирати складні воркфлоу без зайвого кодування. Просто під’єднуйте промпти, мовні моделі та джерела даних.

Підтримує всі популярні ллмки (openai, anthropic, google, ollama), векторні бази, ембеддінги, купу тулів. Але якщо треба, то в них наче не дуже важкі абстракції в коді щоб наприклад накидати свої тули.

З прикольного, вони скоро відкриють маркетплейс воркфлоу і це може бути круто, бо коммьюніті почнут шарити свої напрацювання.

GitHub
Project Page
Demo video
👍12
А хтось знає що зараз мутить Andrej? Я думав він щось активно пушить в EurekaLabsAI - компанію яку він засновав щоб робити едюкейшенал АІ, але щось в нього гітхаб останнім часом пустує, а твітер акк його компанії виглядає мертвим, як і діскорд
👀8😱1
OmniHuman-1

Це крута дифузійна модель, яка об'єднує купу модальностей для реалістичної анімації аватарів. Мені, як людині, яка протягом двох років намагалася зробити щось подібне в reface, дуже приємно бачити такі результати – це розйоб, ось що я вам скажу (дуже сподіваюсь що не черіпікі).

Які проблеми були до цього:

Більшість робіт фокусуються лише на вузькому наборі модальностей. Наприклад, ліпсінк-моделі враховують лише фейс, або audio-driven моделі часто використовують тільки аудіо та таргет ідентіті фічі. Через обмеженість вхідних модальностей аутпут результат часто добре працює в одному аспекті, але в реальних кейсах, де присутні шуми в сигналі, наприклад, коли модель ліпсінку тренувалася на обличчях, рух рук, тіла чи голови може зовсім не відповідати тому, що людина говорить.

Що зроблено:

Omni-conditions training: На початкових стадіях тренують модель із використанням тексту та reference image (щоб використовувати максимум доступних даних), потім додають аудіо, а на фінальній стадії – інтегрують інформацію про позу. Це забезпечує динамічні та натуральні рухи.

Архітектура:

Модель базується на кастомному DiT (MMDiT, натренованому на текст–відео парах) у поєднанні з causal 3D VAE для компресії темпорального сигналу. Аудіо обробляється за допомогою wav2vec і додається через cross-attention в кожен DiT-блок, що забезпечує точний синхрон рухів.

Трейн дані:

Використано приблизно 18,7k годин відео (з них близько 13% – якісних даних для аудіо та поз), що містять семпли з фейсом, півтілом та повнотілими відосами.

У пейпері не cказали про резолюшен, набір aspect ratio, довжину відосів на яких був трейн, але, ймовірно, застосовано звичайний прогресів підхід: спочатку претрейн на low-res даних (256×256), потім на більшому резолюшені і якісних даних (512×512), і fine-tuning на high-res 1024, або 4к.

Пейпр якщо чесно не дуже детальний, багато всього вони не говорять, типу скільки параметрів, особливості архітектири, які кости на інференс, яка була довжина трейн відосів, датасети, які едж кейси відосів - тобто де модель страглить. Короче думаю китайці хочуть зробити свій heygen і не дуже хочуть ділитись інфою)

Project Page
Paper
🔥10👍3