шось про ai
735 subscribers
98 photos
22 videos
87 links
МЛ дюд, ex Reface ML engineer, зараз Lead ML в Limitless Labs, роблю стаф в крипті, до цього багато літав в 3д компьютерному зорі, робив купу ген аі в computer vision та language models.

Якщо шо, пишіть: @daniel_kovalenko
Download Telegram
Просто JFYI, там курсор завіз deepseek модельки. Але я бачів що там наче закрили доступ сьогодні до deepseek, цікаво чи воно вплине.
🔥7😁1
YuE – як Suno, тільки опенсорс!

Я не дуже багато користуюсь text-to-music моделями, але ця звучить дуже круто. Іноді можна помітити артефакти, але блін, what a time to be alive! Я послухав їх демо семпли, і це виглядає як можливість створювати автоген музичку на будь-яку тему та в будь-якому стилі. + Ще прикольно що воно може світчати мову в одному рані (додав приклад English + Japanese + Korean)

Доступні ваги для англійської, китайської, корейської та японської мов.

Усі ваги є на HuggingFace, а бекбон модельки – LLaMA2. Це означає, що модель можна легко файнтюнити, що відкриває просто нереально багато можливостей для опенсорс-спільноти.

Демки в них поки що немає, але якщо у вас є A100 з 80 ГБ або хоча б L4 із 24 ГБ пам’яті, то можна запускати локально.

Щодо таймінгів, автори стейтять:
On an H800 GPU, generating 30s audio takes 150 seconds. On an RTX 4090 GPU, generating 30s audio takes approximately 360 seconds.


Project Page: тут можна послухати демо семпли
GitHub
Paper: (coming soon)
👍21
This media is not supported in your browser
VIEW IN TELEGRAM
Побачив прикольний флоу search-агента на моделі deepseek-8b + ollama.

Є такий фреймворк від langchain для прототипування LLM-агентів - langgraph. Його особливість у тому, що всю комунікацію між нодами можна уявити у вигляді графа, ноди мають стрікт протокол комунікації, що спрощує дизайн. А ще є langsmith - тул для обсервабіліті LLM-агентів і воркфлоу.

Так от, те, що ви бачите у відео - це langgraph studio, тобто комбо langgraph + langsmith. Виглядає дуже класно для дебагу, хочеться потицяти.

Було б ще прикольно якщо б вони додали інтеграцію з MCP (model context protocol) від антропік, тоді ноди могли б бути мікро сервісами і тоді збирати своїх агентів було б набагато легше.

А ви грались з langgraph, як вам?
👍4🔥21🤔1
Я все думав, звідки люди приходять, побачив постик, хтось зробив папку з українськими мл каналами і вона в різних комьюніті гуляє. То якщо не бачили, заходьте до інших, в них багато класного контенту!)

Вітаю всіх хто приєднався, радий вас бачити!❤️
👍16🤝9
Mistral Small 3

Mistral AI викотили Mistral Small 3, нову 24B-parameter модель з Apache 2.0 ліцензією. Вона в 3 рази швидша за Llama 3.3 70B, але дає схожу якість відповіді (81% MMLU, 150 tokens/s).

З прикольного:
- легка для локального запуску (4090 / MacBook 32GB RAM).
- без RLHF і синтетики — гарна база для подальшого тюнінгу, наприклад різон тюнінг.
- швидкість > розмір — мало леерів, мінімальний летенсі

По суті це такий локальний gpt4o-mini, тільки швидше. А якщо хтось докрутить різонінг, я думаю буде на рівні 4о, може навіть краще.

HuggingFace Instruct | Base
Ollama
Постик
🔥13
СЕО Anthropic Dario Amodei виклав розбір польотів по DeepSeek.

Що цікавого він там стейтив:

Scaling laws (paper link): більше грошей → кращий результат. Якщо модель за $1M вирішує 20% coding-завдань, то $10M → 40%, $100M → 60%, і так далі.

Shifting the curve: AI дешевшає, але це не означає, що компанії витрачають менше. Кожного року зниження вартості тренування ~4x (оцінка Epoch), але компанії просто витрачають більше на ще потужніші моделі. Так працює весь ринок (деталі).

Shifting the paradigm: масштабування reasoning через RL (reinforcement learning). DeepSeek R1 – це ще один крок у новій фазі масштабування, аналогічний OpenAI o1-preview. Зараз ці моделі ще дешеві у навчанні, бо це відносно нова парадигма, але це швидко зміниться зі скейлінгом.

DeepSeek мали ~50k карточок (які бтв коштували їм ~$1B), якщо вірити SemiAnalysis. Також вони (deepseek) заявляють, що тренування DeepSeek-V3 коштувало ~$6M. Водночас Claude 3.5 Sonnet від Anthropic, коштував ~десятки мільйонів, але 9-12 місяців назад. Тому вони не прорвались вперед, а просто вписався в існуючий тренд, що звісно круто, бо це гарний доказ що скейлінг працює.

Але створення AI, який буде розумнішим за майже всіх людей у майже всіх сферах, вимагатиме мільйонів чипів, щонайменше десятків мільярдів доларів і, найімовірніше, відбудеться у 2026-2027 роках. Але важливий момент — де будуть мільйонні GPU-кластери в 2026-2027? Тому мені не дуже було зрозуміле падіння стоків великої кількості компаній в штатах.

Чому мені сподобався цей пост:
Він чітко описує три закони скейлінгу, які добре пояснюють, чого очікувати найближчим часом. Наприклад, тепер зрозуміліше, у що компанії вкладатимуть більше грошей. o3-mini від OpenAI — це просто плановий скейлінг по кривій розвитку.

Але що мені сподобалося найбільше — це те, що RL low-hanging fruits зараз збиратимуть дуже швидко, їх походу багато, і стагнації найближчим часом не буде.

———

А ще, якщо комусь цікаво, в пості він пояснює, чому санкції на карточки проти Китаю важливі. TL;DR: китайські компанії підконтрольні авторитарному уряду, який порушує права людини, агресивно діє на світовій арені і отримає ще більше свободи для таких дій, якщо зрівняється із США в AI.
👍19🔥4
Така класика якщо чесно, все несеться, купа всього виходить, а ми як використовували sonnet 3.5, так і продовжуємо. Звісно пробували інші модельки, але соннет поки що кращий в ціна/якість співвідношенні - гарно слухає інструкції, тул колінг норм, якщо багато нод в чейні то і різонінг можна отримати непоганий
👍14🤔1
LangFlow (якщо шо, не від langchain)

Візуальний фреймворк для створення multi-agent та RAG пайплайнів, який змінює підхід до побудови апок з написання купи коду, до простого перетягування блоків.

Що цікаво:

Drag-and-drop інтерфейс дозволяє швидко збирати складні воркфлоу без зайвого кодування. Просто під’єднуйте промпти, мовні моделі та джерела даних.

Підтримує всі популярні ллмки (openai, anthropic, google, ollama), векторні бази, ембеддінги, купу тулів. Але якщо треба, то в них наче не дуже важкі абстракції в коді щоб наприклад накидати свої тули.

З прикольного, вони скоро відкриють маркетплейс воркфлоу і це може бути круто, бо коммьюніті почнут шарити свої напрацювання.

GitHub
Project Page
Demo video
👍12
А хтось знає що зараз мутить Andrej? Я думав він щось активно пушить в EurekaLabsAI - компанію яку він засновав щоб робити едюкейшенал АІ, але щось в нього гітхаб останнім часом пустує, а твітер акк його компанії виглядає мертвим, як і діскорд
👀8😱1
OmniHuman-1

Це крута дифузійна модель, яка об'єднує купу модальностей для реалістичної анімації аватарів. Мені, як людині, яка протягом двох років намагалася зробити щось подібне в reface, дуже приємно бачити такі результати – це розйоб, ось що я вам скажу (дуже сподіваюсь що не черіпікі).

Які проблеми були до цього:

Більшість робіт фокусуються лише на вузькому наборі модальностей. Наприклад, ліпсінк-моделі враховують лише фейс, або audio-driven моделі часто використовують тільки аудіо та таргет ідентіті фічі. Через обмеженість вхідних модальностей аутпут результат часто добре працює в одному аспекті, але в реальних кейсах, де присутні шуми в сигналі, наприклад, коли модель ліпсінку тренувалася на обличчях, рух рук, тіла чи голови може зовсім не відповідати тому, що людина говорить.

Що зроблено:

Omni-conditions training: На початкових стадіях тренують модель із використанням тексту та reference image (щоб використовувати максимум доступних даних), потім додають аудіо, а на фінальній стадії – інтегрують інформацію про позу. Це забезпечує динамічні та натуральні рухи.

Архітектура:

Модель базується на кастомному DiT (MMDiT, натренованому на текст–відео парах) у поєднанні з causal 3D VAE для компресії темпорального сигналу. Аудіо обробляється за допомогою wav2vec і додається через cross-attention в кожен DiT-блок, що забезпечує точний синхрон рухів.

Трейн дані:

Використано приблизно 18,7k годин відео (з них близько 13% – якісних даних для аудіо та поз), що містять семпли з фейсом, півтілом та повнотілими відосами.

У пейпері не cказали про резолюшен, набір aspect ratio, довжину відосів на яких був трейн, але, ймовірно, застосовано звичайний прогресів підхід: спочатку претрейн на low-res даних (256×256), потім на більшому резолюшені і якісних даних (512×512), і fine-tuning на high-res 1024, або 4к.

Пейпр якщо чесно не дуже детальний, багато всього вони не говорять, типу скільки параметрів, особливості архітектири, які кости на інференс, яка була довжина трейн відосів, датасети, які едж кейси відосів - тобто де модель страглить. Короче думаю китайці хочуть зробити свій heygen і не дуже хочуть ділитись інфою)

Project Page
Paper
🔥10👍3
Свіженький дроп від DeepSeek

DeepSeek-AI викотили DeepSeek-VL2 — серію MoE (Mixture-of-Experts) VL-моделей.

Що вони цікавого стейтять:

Dynamic Tiling Vision Encoder для обробки зображень високого резолюшену та купи різних aspect ratios.

Multi-head Latent Attention (MLA) для швидкого інференсу та менших витрат на KV-cache.

Є такі розміри моделей:
- VL2-Tiny (1.0B)
- VL2-Small (2.8B)
- VL2 (4.5B)

SOTA або конкурентні результати на більшості VL-бенчмарків, при цьому параметрів менше, ніж у багатьох аналогів.

Не здивуюсь якщо скоро вони свого "оператора" релізнуть, або діп ресьорчера, бо в веб агентах треба гарний OCR.

Потицяти:
HuggingFace Demo
GitHub
ArXiv
👍6
шось про ai
А хтось знає що зараз мутить Andrej? Я думав він щось активно пушить в EurekaLabsAI - компанію яку він засновав щоб робити едюкейшенал АІ, але щось в нього гітхаб останнім часом пустує, а твітер акк його компанії виглядає мертвим, як і діскорд
О, а ось і він, вернувся з Deep Dive into LLMs like ChatGPT!

3:31 годин контенту... Це прям серіал виходить) Буду дивитись чанками

Він там нормально так навалив:
00:00:00 introduction
00:01:00 pretraining data (internet)
00:07:47 tokenization
00:14:27 neural network I/O
00:20:11 neural network internals
00:26:01 inference
00:31:09 GPT-2: training and inference
00:42:52 Llama 3.1 base model inference
00:59:23 pretraining to post-training
01:01:06 post-training data (conversations)
01:20:32 hallucinations, tool use, knowledge/working memory
01:41:46 knowledge of self
01:46:56 models need tokens to think
02:01:11 tokenization revisited: models struggle with spelling
02:04:53 jagged intelligence
02:07:28 supervised finetuning to reinforcement learning
02:14:42 reinforcement learning
02:27:47 DeepSeek-R1
02:42:07 AlphaGo
02:48:26 reinforcement learning from human feedback (RLHF)
03:09:39 preview of things to come
03:15:15 keeping track of LLMs
03:18:34 where to find LLMs
03:21:46 grand summary

Дивитись тут:
https://youtu.be/7xTGNNLPyMI
5🎉1