шось про ai
DeepSeek-R1 Повністю опенсорсна ллм рівня openai-o1 тепер доступна кожному. Прямо таки день знань) Трошки пізніше хочу розібрати її деталі, може тестанемо її в проді, то напишу окремо. Тех репорт: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf…
Коммьюніті вже запускають DeepSeek R1 на різних штуках, ось один ентузіаст запустив на 7 M4 Pro Mac Minis та 1 M4 Max MacBook Pro, що в суммі дає 496GB памʼяті.
Але це 4-біт квантизація моделі, тому щоб хоча б на fp8 запустити, йому треба буде більше ніж 700гб.
Доречі, deepseek-r1 вже є в ollama, тому тепер можна нарешті легко ранити на маці
Твіт
Але це 4-біт квантизація моделі, тому щоб хоча б на fp8 запустити, йому треба буде більше ніж 700гб.
Доречі, deepseek-r1 вже є в ollama, тому тепер можна нарешті легко ранити на маці
Твіт
🔥7
Computer-Using Agent (CUA) by OpenAI
Мрії збуваються крок за кроком. Коли OpenAI тільки релізнули ChatGPT, я все думав, як буде круто сказати ЛЛМці: "закажи бургер з маку" або "заповни податкову декларацію" — і вона сама все зробить. І ось вони вже тут:
Що таке CUA?
Це агент, який працює з графічними інтерфейсами (GUI), як і ми з вами — хумани. Замість спеціалізованих API, він адаптується під будь-яке середовище, де є браузер чи операційна система. Простими словами: він може серфити інтернет, заповнювати форми, шукати знижки, робити якийсь ресьорч
Benchmark results:
- OSWorld (управління ОС): 38.1% успішності проти 22% у попередньої соти (від антропік). Люди показують 72.4%, тож роботи ще багато.
- WebArena (браузерні задачі на offline-сайтах, типу онлайн стор): 58.1% vs 78.2% у людей.
- WebVoyager (задачі на сайтах, таких як Google Maps чи GitHub): тут CUA вийшов у топ із 87%
Як працює?
CUA аналізує скріншоти інтерфейсу, генерує план дій (так званий chain-of-thought), а потім виконує кроки: клікає, вводить текст, прокручує сторінки. І якщо треба, просить підтвердження (наприклад, перед відправкою важливих даних чи щоб пройти каптчу).
Що цікаво:
CUA — це лише перший крок. Уявіть, що до нього додадуть голосову підтримку. Ви на прогулянці, а агент паралельно сьорфить твітер, робить для вас постик в тг. Це зовсім інший рівень взаємодії.
Зараз CUA доступний через платформу Operator для pro юзерів у штатах (vpn допоможе). Але думаю вже найближчими тижнями і ми подивимось що це за звір такий.
Потикати можна тут:
Operator
Анонс від OpenAI
System Card для деталей про безпеку
2025 точно буде роком агентів. Спостерігаємо за першим справжнім кроком до digital assistant для всіх.
Мрії збуваються крок за кроком. Коли OpenAI тільки релізнули ChatGPT, я все думав, як буде круто сказати ЛЛМці: "закажи бургер з маку" або "заповни податкову декларацію" — і вона сама все зробить. І ось вони вже тут:
Що таке CUA?
Це агент, який працює з графічними інтерфейсами (GUI), як і ми з вами — хумани. Замість спеціалізованих API, він адаптується під будь-яке середовище, де є браузер чи операційна система. Простими словами: він може серфити інтернет, заповнювати форми, шукати знижки, робити якийсь ресьорч
Benchmark results:
- OSWorld (управління ОС): 38.1% успішності проти 22% у попередньої соти (від антропік). Люди показують 72.4%, тож роботи ще багато.
- WebArena (браузерні задачі на offline-сайтах, типу онлайн стор): 58.1% vs 78.2% у людей.
- WebVoyager (задачі на сайтах, таких як Google Maps чи GitHub): тут CUA вийшов у топ із 87%
Як працює?
CUA аналізує скріншоти інтерфейсу, генерує план дій (так званий chain-of-thought), а потім виконує кроки: клікає, вводить текст, прокручує сторінки. І якщо треба, просить підтвердження (наприклад, перед відправкою важливих даних чи щоб пройти каптчу).
Що цікаво:
CUA — це лише перший крок. Уявіть, що до нього додадуть голосову підтримку. Ви на прогулянці, а агент паралельно сьорфить твітер, робить для вас постик в тг. Це зовсім інший рівень взаємодії.
Зараз CUA доступний через платформу Operator для pro юзерів у штатах (vpn допоможе). Але думаю вже найближчими тижнями і ми подивимось що це за звір такий.
Потикати можна тут:
Operator
Анонс від OpenAI
System Card для деталей про безпеку
2025 точно буде роком агентів. Спостерігаємо за першим справжнім кроком до digital assistant для всіх.
👍11🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
Open Operator by BrowserBase
Нещодавно писав про веб-серф агента для створення мемів, і ось від цих же авторів — open operator.
Я не став запускати демку локально, але потикав їх сайт. З простими задачами, типу дізнатися поточну ціну акцій Nvidia, воно справляється. А от з важчими, наприклад, пошук інформації на gov сайтах про законопроєкти падає.
Виглядає як хороша реклама їхніх ліб для веб-серфінгу на фоні релізу опенаі. Але є нюанси:
- потрібна підписка на BrowserBase API.
- швидкість роботи дуже низька. Навіть стокову ціну воно шукало хвилину-дві.
- все написано на next.js, тож на змеюці не попишеш.
Це по факту POC (вони самі так стейтят в репі), тому не засуджуємо за якість. З корисного, звідти можна взяти концепти і допілити цю історію до норм виду. Але хоч якісь метрички могли б додати, простіше було б оцінювати.
Потицяти можна тут:
GitHub
Demo
Нещодавно писав про веб-серф агента для створення мемів, і ось від цих же авторів — open operator.
Я не став запускати демку локально, але потикав їх сайт. З простими задачами, типу дізнатися поточну ціну акцій Nvidia, воно справляється. А от з важчими, наприклад, пошук інформації на gov сайтах про законопроєкти падає.
Виглядає як хороша реклама їхніх ліб для веб-серфінгу на фоні релізу опенаі. Але є нюанси:
- потрібна підписка на BrowserBase API.
- швидкість роботи дуже низька. Навіть стокову ціну воно шукало хвилину-дві.
- все написано на next.js, тож на змеюці не попишеш.
Це по факту POC (вони самі так стейтят в репі), тому не засуджуємо за якість. З корисного, звідти можна взяти концепти і допілити цю історію до норм виду. Але хоч якісь метрички могли б додати, простіше було б оцінювати.
Потицяти можна тут:
GitHub
Demo
👍7
Open R1
Hugging Face вирішили повторити повний цикл DeepSeek — від збору даних до навчання моделі.
Нашо?
Бо китайці релізнули лише ваги та флоу для інференсу. Процес тренування залишився за кадром. Це не просто відтворення — це крок до доступного і простого створення моделей рівня o1.
Думки:
Я бачу це як дуже крутий крок в опенсорс. Є сенс очікувати появи великої кількості маленьких моделей, які за якістю будуть не гірші за gpt-4o, а їх тренування буде доступне для більшості компаній, бо це дешево.
Наприклад, ось ця стаття. Не вникаючи в деталі, основна суть у тому, що вони взяли всього 8K трейн семплів, Qwen2.5-Math-7B як базову модель, і отримали 1.5x приріст якості, зрівнявшись з Eurus-2-7B-PRIME, яка краще за gpt-4o на мат бенчмарках, використовуючі схожі ідеї з трейна R1.
Сорс:
GitHub
Hugging Face вирішили повторити повний цикл DeepSeek — від збору даних до навчання моделі.
Нашо?
Бо китайці релізнули лише ваги та флоу для інференсу. Процес тренування залишився за кадром. Це не просто відтворення — це крок до доступного і простого створення моделей рівня o1.
Думки:
Я бачу це як дуже крутий крок в опенсорс. Є сенс очікувати появи великої кількості маленьких моделей, які за якістю будуть не гірші за gpt-4o, а їх тренування буде доступне для більшості компаній, бо це дешево.
Наприклад, ось ця стаття. Не вникаючи в деталі, основна суть у тому, що вони взяли всього 8K трейн семплів, Qwen2.5-Math-7B як базову модель, і отримали 1.5x приріст якості, зрівнявшись з Eurus-2-7B-PRIME, яка краще за gpt-4o на мат бенчмарках, використовуючі схожі ідеї з трейна R1.
Сорс:
GitHub
1🔥12
UI-TARS Desktop by bytedance
Оператор від китайців) bytedance натренували свої модельки для інтеракції з компом. Дають лінійку VLLMs моделей від 2B до 72B + апку.
Використовується
GitHub
Оператор від китайців) bytedance натренували свої модельки для інтеракції з компом. Дають лінійку VLLMs моделей від 2B до 72B + апку.
Використовується
vllm ліба для хосту моделькі, закидуєте шлях до апі в апку і можна користуватись. Але не дуже просто це підняти, треба гпу, бажано мінімум L4.GitHub
👍2
Просто JFYI, там курсор завіз deepseek модельки. Але я бачів що там наче закрили доступ сьогодні до deepseek, цікаво чи воно вплине.
🔥7😁1
YuE – як Suno, тільки опенсорс!
Я не дуже багато користуюсь text-to-music моделями, але ця звучить дуже круто. Іноді можна помітити артефакти, але блін, what a time to be alive! Я послухав їх демо семпли, і це виглядає як можливість створювати автоген музичку на будь-яку тему та в будь-якому стилі. + Ще прикольно що воно може світчати мову в одному рані (додав приклад English + Japanese + Korean)
Доступні ваги для англійської, китайської, корейської та японської мов.
Усі ваги є на HuggingFace, а бекбон модельки – LLaMA2. Це означає, що модель можна легко файнтюнити, що відкриває просто нереально багато можливостей для опенсорс-спільноти.
Демки в них поки що немає, але якщо у вас є A100 з 80 ГБ або хоча б L4 із 24 ГБ пам’яті, то можна запускати локально.
Щодо таймінгів, автори стейтять:
Project Page: тут можна послухати демо семпли
GitHub
Paper: (coming soon)
Я не дуже багато користуюсь text-to-music моделями, але ця звучить дуже круто. Іноді можна помітити артефакти, але блін, what a time to be alive! Я послухав їх демо семпли, і це виглядає як можливість створювати автоген музичку на будь-яку тему та в будь-якому стилі. + Ще прикольно що воно може світчати мову в одному рані (додав приклад English + Japanese + Korean)
Доступні ваги для англійської, китайської, корейської та японської мов.
Усі ваги є на HuggingFace, а бекбон модельки – LLaMA2. Це означає, що модель можна легко файнтюнити, що відкриває просто нереально багато можливостей для опенсорс-спільноти.
Демки в них поки що немає, але якщо у вас є A100 з 80 ГБ або хоча б L4 із 24 ГБ пам’яті, то можна запускати локально.
Щодо таймінгів, автори стейтять:
On an H800 GPU, generating 30s audio takes 150 seconds. On an RTX 4090 GPU, generating 30s audio takes approximately 360 seconds.
Project Page: тут можна послухати демо семпли
GitHub
Paper: (coming soon)
👍2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Побачив прикольний флоу search-агента на моделі deepseek-8b + ollama.
Є такий фреймворк від langchain для прототипування LLM-агентів - langgraph. Його особливість у тому, що всю комунікацію між нодами можна уявити у вигляді графа, ноди мають стрікт протокол комунікації, що спрощує дизайн. А ще є langsmith - тул для обсервабіліті LLM-агентів і воркфлоу.
Так от, те, що ви бачите у відео - це langgraph studio, тобто комбо langgraph + langsmith. Виглядає дуже класно для дебагу, хочеться потицяти.
Було б ще прикольно якщо б вони додали інтеграцію з MCP (model context protocol) від антропік, тоді ноди могли б бути мікро сервісами і тоді збирати своїх агентів було б набагато легше.
А ви грались з langgraph, як вам?
Є такий фреймворк від langchain для прототипування LLM-агентів - langgraph. Його особливість у тому, що всю комунікацію між нодами можна уявити у вигляді графа, ноди мають стрікт протокол комунікації, що спрощує дизайн. А ще є langsmith - тул для обсервабіліті LLM-агентів і воркфлоу.
Так от, те, що ви бачите у відео - це langgraph studio, тобто комбо langgraph + langsmith. Виглядає дуже класно для дебагу, хочеться потицяти.
Було б ще прикольно якщо б вони додали інтеграцію з MCP (model context protocol) від антропік, тоді ноди могли б бути мікро сервісами і тоді збирати своїх агентів було б набагато легше.
А ви грались з langgraph, як вам?
👍4🔥2❤1🤔1
Mistral Small 3
Mistral AI викотили Mistral Small 3, нову 24B-parameter модель з Apache 2.0 ліцензією. Вона в 3 рази швидша за Llama 3.3 70B, але дає схожу якість відповіді (81% MMLU, 150 tokens/s).
З прикольного:
- легка для локального запуску (4090 / MacBook 32GB RAM).
- без RLHF і синтетики — гарна база для подальшого тюнінгу, наприклад різон тюнінг.
- швидкість > розмір — мало леерів, мінімальний летенсі
По суті це такий локальний gpt4o-mini, тільки швидше. А якщо хтось докрутить різонінг, я думаю буде на рівні 4о, може навіть краще.
HuggingFace Instruct | Base
Ollama
Постик
Mistral AI викотили Mistral Small 3, нову 24B-parameter модель з Apache 2.0 ліцензією. Вона в 3 рази швидша за Llama 3.3 70B, але дає схожу якість відповіді (81% MMLU, 150 tokens/s).
З прикольного:
- легка для локального запуску (4090 / MacBook 32GB RAM).
- без RLHF і синтетики — гарна база для подальшого тюнінгу, наприклад різон тюнінг.
- швидкість > розмір — мало леерів, мінімальний летенсі
По суті це такий локальний gpt4o-mini, тільки швидше. А якщо хтось докрутить різонінг, я думаю буде на рівні 4о, може навіть краще.
HuggingFace Instruct | Base
Ollama
Постик
🔥13
СЕО Anthropic Dario Amodei виклав розбір польотів по DeepSeek.
Що цікавого він там стейтив:
Scaling laws (paper link): більше грошей → кращий результат. Якщо модель за $1M вирішує 20% coding-завдань, то $10M → 40%, $100M → 60%, і так далі.
Shifting the curve: AI дешевшає, але це не означає, що компанії витрачають менше. Кожного року зниження вартості тренування ~4x (оцінка Epoch), але компанії просто витрачають більше на ще потужніші моделі. Так працює весь ринок (деталі).
Shifting the paradigm: масштабування reasoning через RL (reinforcement learning). DeepSeek R1 – це ще один крок у новій фазі масштабування, аналогічний OpenAI o1-preview. Зараз ці моделі ще дешеві у навчанні, бо це відносно нова парадигма, але це швидко зміниться зі скейлінгом.
DeepSeek мали ~50k карточок (які бтв коштували їм ~$1B), якщо вірити SemiAnalysis. Також вони (deepseek) заявляють, що тренування DeepSeek-V3 коштувало ~$6M. Водночас Claude 3.5 Sonnet від Anthropic, коштував ~десятки мільйонів, але 9-12 місяців назад. Тому вони не прорвались вперед, а просто вписався в існуючий тренд, що звісно круто, бо це гарний доказ що скейлінг працює.
Але створення AI, який буде розумнішим за майже всіх людей у майже всіх сферах, вимагатиме мільйонів чипів, щонайменше десятків мільярдів доларів і, найімовірніше, відбудеться у 2026-2027 роках. Але важливий момент — де будуть мільйонні GPU-кластери в 2026-2027? Тому мені не дуже було зрозуміле падіння стоків великої кількості компаній в штатах.
Чому мені сподобався цей пост:
Він чітко описує три закони скейлінгу, які добре пояснюють, чого очікувати найближчим часом. Наприклад, тепер зрозуміліше, у що компанії вкладатимуть більше грошей. o3-mini від OpenAI — це просто плановий скейлінг по кривій розвитку.
Але що мені сподобалося найбільше — це те, що RL low-hanging fruits зараз збиратимуть дуже швидко, їх походу багато, і стагнації найближчим часом не буде.
———
А ще, якщо комусь цікаво, в пості він пояснює, чому санкції на карточки проти Китаю важливі. TL;DR: китайські компанії підконтрольні авторитарному уряду, який порушує права людини, агресивно діє на світовій арені і отримає ще більше свободи для таких дій, якщо зрівняється із США в AI.
Що цікавого він там стейтив:
Scaling laws (paper link): більше грошей → кращий результат. Якщо модель за $1M вирішує 20% coding-завдань, то $10M → 40%, $100M → 60%, і так далі.
Shifting the curve: AI дешевшає, але це не означає, що компанії витрачають менше. Кожного року зниження вартості тренування ~4x (оцінка Epoch), але компанії просто витрачають більше на ще потужніші моделі. Так працює весь ринок (деталі).
Shifting the paradigm: масштабування reasoning через RL (reinforcement learning). DeepSeek R1 – це ще один крок у новій фазі масштабування, аналогічний OpenAI o1-preview. Зараз ці моделі ще дешеві у навчанні, бо це відносно нова парадигма, але це швидко зміниться зі скейлінгом.
DeepSeek мали ~50k карточок (які бтв коштували їм ~$1B), якщо вірити SemiAnalysis. Також вони (deepseek) заявляють, що тренування DeepSeek-V3 коштувало ~$6M. Водночас Claude 3.5 Sonnet від Anthropic, коштував ~десятки мільйонів, але 9-12 місяців назад. Тому вони не прорвались вперед, а просто вписався в існуючий тренд, що звісно круто, бо це гарний доказ що скейлінг працює.
Але створення AI, який буде розумнішим за майже всіх людей у майже всіх сферах, вимагатиме мільйонів чипів, щонайменше десятків мільярдів доларів і, найімовірніше, відбудеться у 2026-2027 роках. Але важливий момент — де будуть мільйонні GPU-кластери в 2026-2027? Тому мені не дуже було зрозуміле падіння стоків великої кількості компаній в штатах.
Чому мені сподобався цей пост:
Він чітко описує три закони скейлінгу, які добре пояснюють, чого очікувати найближчим часом. Наприклад, тепер зрозуміліше, у що компанії вкладатимуть більше грошей. o3-mini від OpenAI — це просто плановий скейлінг по кривій розвитку.
Але що мені сподобалося найбільше — це те, що RL low-hanging fruits зараз збиратимуть дуже швидко, їх походу багато, і стагнації найближчим часом не буде.
———
А ще, якщо комусь цікаво, в пості він пояснює, чому санкції на карточки проти Китаю важливі. TL;DR: китайські компанії підконтрольні авторитарному уряду, який порушує права людини, агресивно діє на світовій арені і отримає ще більше свободи для таких дій, якщо зрівняється із США в AI.
Darioamodei
Dario Amodei — On DeepSeek and Export Controls
👍19🔥4
Така класика якщо чесно, все несеться, купа всього виходить, а ми як використовували sonnet 3.5, так і продовжуємо. Звісно пробували інші модельки, але соннет поки що кращий в ціна/якість співвідношенні - гарно слухає інструкції, тул колінг норм, якщо багато нод в чейні то і різонінг можна отримати непоганий
👍14🤔1
LangFlow (якщо шо, не від langchain)
Візуальний фреймворк для створення multi-agent та RAG пайплайнів, який змінює підхід до побудови апок з написання купи коду, до простого перетягування блоків.
Що цікаво:
Drag-and-drop інтерфейс дозволяє швидко збирати складні воркфлоу без зайвого кодування. Просто під’єднуйте промпти, мовні моделі та джерела даних.
Підтримує всі популярні ллмки (openai, anthropic, google, ollama), векторні бази, ембеддінги, купу тулів. Але якщо треба, то в них наче не дуже важкі абстракції в коді щоб наприклад накидати свої тули.
З прикольного, вони скоро відкриють маркетплейс воркфлоу і це може бути круто, бо коммьюніті почнут шарити свої напрацювання.
GitHub
Project Page
Demo video
Візуальний фреймворк для створення multi-agent та RAG пайплайнів, який змінює підхід до побудови апок з написання купи коду, до простого перетягування блоків.
Що цікаво:
Drag-and-drop інтерфейс дозволяє швидко збирати складні воркфлоу без зайвого кодування. Просто під’єднуйте промпти, мовні моделі та джерела даних.
Підтримує всі популярні ллмки (openai, anthropic, google, ollama), векторні бази, ембеддінги, купу тулів. Але якщо треба, то в них наче не дуже важкі абстракції в коді щоб наприклад накидати свої тули.
З прикольного, вони скоро відкриють маркетплейс воркфлоу і це може бути круто, бо коммьюніті почнут шарити свої напрацювання.
GitHub
Project Page
Demo video
👍12
А хтось знає що зараз мутить Andrej? Я думав він щось активно пушить в EurekaLabsAI - компанію яку він засновав щоб робити едюкейшенал АІ, але щось в нього гітхаб останнім часом пустує, а твітер акк його компанії виглядає мертвим, як і діскорд
👀8😱1