Microsoft AutoGen
Це open-source фреймворк для створення AI-агентів та їхньої взаємодії, протипоставлення langchain.
Він надає три рівні абстракції:
Core | Docs:
На найнижчому рівні знаходиться Core — основа, на якій будується все інше. Він забезпечує асинхронність між агентами, надає інструменти для скейлінгу, базові абстракції інтеракції з ллмками і т.д. Дозволяє будувати event-driven агентів з можливістю нормального дебагу (це коли ви бачите інтеракцію між агентами в логах дуже прозоро, з усіма трейсами, івент-айдішками і т.п.).
AgentChat | Docs:
Високорівневий API, який спрощує створення агентів. Надає готові компоненти для побудови як одиночних, так і мультиагентних систем, дозволяючи агентам спілкуватися між собою та з користувачами, менеджити стейт (наприклад, пам’ять), послідовність виклику та оркестрацію агентів. Якщо ви знайомі з LangChain, то в них є AgentExecutor або Chain абстракції. Вони наприклад побудовані на LangChain-core.
Applications:
На найвищому рівні розташовані готові апки, такі як Magentic-One та AutoGen Studio.
Magentic-One | Docs | Post: Це мультиагентна система, здатна виконувати комплексні завдання, такі як робота з вебом, файлами, запуск коду. Вона включає оркестратора, який планує та координує дії агентів, що можуть виконувати код, завантажувати файли, сьорфити веб. Це фактично демо AutoGen, тому якщо ви хочете побачити, на що здатний цей фреймворк, раджу почати саме з цього.
AutoGen Studio | Docs | Post: Інтерфейс із низьким порогом входу, який дозволяє швидко прототипувати AI-агентів без написання коду. Він надає можливість створювати та тестувати агентів у зручному UI поєднуючи блоки як в лего. Однак наразі його функціональність обмежена через невелику кількість доступних блоків, тому я десь через 10 хвилин відпав і поліз у код.
Мій досвід:
Я спробував їх приклади, і мене зачепив web surfer agent з їх рідмі. Це не звичайний скрапер, він рендерить UI браузера (дивиться скрін), може інтерактувати з елементами, є якийсь різонінг з хуманом в лупі.
Спочатку не дуже працювало: я просив його піти на сторінку GitHub і знайти приклади агентів, побудованих на цьому фреймворку. Він фейлив. Я трохи переписав систем-промпти, погрався з дебагом, і все запрацювало.
Найбільше сподобалося дебажити. Мені здається, LangChain-у варто брати приклад з AutoGen. Завдяки їх event-driven архітектурі в них ультра крутий трейсінг логів. Під капотом все дуже прозоро, хто та кого викликає, які параметри і т.д. що значно спрощує розуміння, що відбувається.
Класна штука, хз, чи перейдемо з LangChain, але в мене трошки задимилась шишка на це, то думаю ще тестити. Єдине, що трохи відштовхує — це той факт, що це Microsoft enterprise edition. У них мільйон абстракцій, треба окремий курс, щоб розібратися, що це, навіщо і як із цим працювати)
Post
GitHub
Docs
Це open-source фреймворк для створення AI-агентів та їхньої взаємодії, протипоставлення langchain.
Він надає три рівні абстракції:
Core | Docs:
На найнижчому рівні знаходиться Core — основа, на якій будується все інше. Він забезпечує асинхронність між агентами, надає інструменти для скейлінгу, базові абстракції інтеракції з ллмками і т.д. Дозволяє будувати event-driven агентів з можливістю нормального дебагу (це коли ви бачите інтеракцію між агентами в логах дуже прозоро, з усіма трейсами, івент-айдішками і т.п.).
AgentChat | Docs:
Високорівневий API, який спрощує створення агентів. Надає готові компоненти для побудови як одиночних, так і мультиагентних систем, дозволяючи агентам спілкуватися між собою та з користувачами, менеджити стейт (наприклад, пам’ять), послідовність виклику та оркестрацію агентів. Якщо ви знайомі з LangChain, то в них є AgentExecutor або Chain абстракції. Вони наприклад побудовані на LangChain-core.
Applications:
На найвищому рівні розташовані готові апки, такі як Magentic-One та AutoGen Studio.
Magentic-One | Docs | Post: Це мультиагентна система, здатна виконувати комплексні завдання, такі як робота з вебом, файлами, запуск коду. Вона включає оркестратора, який планує та координує дії агентів, що можуть виконувати код, завантажувати файли, сьорфити веб. Це фактично демо AutoGen, тому якщо ви хочете побачити, на що здатний цей фреймворк, раджу почати саме з цього.
AutoGen Studio | Docs | Post: Інтерфейс із низьким порогом входу, який дозволяє швидко прототипувати AI-агентів без написання коду. Він надає можливість створювати та тестувати агентів у зручному UI поєднуючи блоки як в лего. Однак наразі його функціональність обмежена через невелику кількість доступних блоків, тому я десь через 10 хвилин відпав і поліз у код.
Мій досвід:
Я спробував їх приклади, і мене зачепив web surfer agent з їх рідмі. Це не звичайний скрапер, він рендерить UI браузера (дивиться скрін), може інтерактувати з елементами, є якийсь різонінг з хуманом в лупі.
Спочатку не дуже працювало: я просив його піти на сторінку GitHub і знайти приклади агентів, побудованих на цьому фреймворку. Він фейлив. Я трохи переписав систем-промпти, погрався з дебагом, і все запрацювало.
Найбільше сподобалося дебажити. Мені здається, LangChain-у варто брати приклад з AutoGen. Завдяки їх event-driven архітектурі в них ультра крутий трейсінг логів. Під капотом все дуже прозоро, хто та кого викликає, які параметри і т.д. що значно спрощує розуміння, що відбувається.
Класна штука, хз, чи перейдемо з LangChain, але в мене трошки задимилась шишка на це, то думаю ще тестити. Єдине, що трохи відштовхує — це той факт, що це Microsoft enterprise edition. У них мільйон абстракцій, треба окремий курс, щоб розібратися, що це, навіщо і як із цим працювати)
Post
GitHub
Docs
🔥10👍5👀1🗿1
Цікаво чи в них реально є розуміння про агі, чи сама хайпу нагоняє?)
А от про агентів факт, їх стає все простіше робити і вони починають нарешті бути практичними, 2025 буде дуже цікавий в цьому напрямку
https://blog.samaltman.com/reflections
А от про агентів факт, їх стає все простіше робити і вони починають нарешті бути практичними, 2025 буде дуже цікавий в цьому напрямку
https://blog.samaltman.com/reflections
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
AI Agent для створення мемів
Доволі забавний та крутий приклад веб серф агента, який ходить по imgflip, знаходить темплейт який краще підходить для тексту який ви надали, генерить допис та скидає вам готовий мем.
Під капотом в них stagehand велика частина якого основана на tarsier — лібки для віжен інтеракції ллм агентів з вебом.
https://www.brainrot.run/
Доволі забавний та крутий приклад веб серф агента, який ходить по imgflip, знаходить темплейт який краще підходить для тексту який ви надали, генерить допис та скидає вам готовий мем.
Під капотом в них stagehand велика частина якого основана на tarsier — лібки для віжен інтеракції ллм агентів з вебом.
https://www.brainrot.run/
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Kokoro-82M
Відносно нова Text-To-Speech модель, яку нещодавно опенсорснули. Має всього 82М параметрів, в мене на маці м4 за 1 секунду генерує 10 секунд аудіо.
В доступі є багато войсів, які доречі можна легко міксувати між собою і виходить доволі непогано. Не вистачає емоцій, типу сміх наприклад, або якоїсь динаміки войсу. Але щоб ASMR про трансформери генерити вистачає з головою)
З мов доступні тільки такі поки: en-US, en-GB, fr-FR, ja-JP, ko-KR, zh-CN
Я взяв клод, сгенерував скрипт, закинув в цю модельку і отримав оцей контент що ви бачите
Моделька тут: https://huggingface.co/hexgrad/Kokoro-82M
Демку потикати можна тут: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Відносно нова Text-To-Speech модель, яку нещодавно опенсорснули. Має всього 82М параметрів, в мене на маці м4 за 1 секунду генерує 10 секунд аудіо.
В доступі є багато войсів, які доречі можна легко міксувати між собою і виходить доволі непогано. Не вистачає емоцій, типу сміх наприклад, або якоїсь динаміки войсу. Але щоб ASMR про трансформери генерити вистачає з головою)
З мов доступні тільки такі поки: en-US, en-GB, fr-FR, ja-JP, ko-KR, zh-CN
Я взяв клод, сгенерував скрипт, закинув в цю модельку і отримав оцей контент що ви бачите
Моделька тут: https://huggingface.co/hexgrad/Kokoro-82M
Демку потикати можна тут: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
👍8❤2🔥2
DeepSeek-R1
Повністю опенсорсна ллм рівня openai-o1 тепер доступна кожному. Прямо таки день знань)
Трошки пізніше хочу розібрати її деталі, може тестанемо її в проді, то напишу окремо.
Тех репорт: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
Потицяти можна тут: http://chat.deepseek.com (50 повідомлень в день)
Повністю опенсорсна ллм рівня openai-o1 тепер доступна кожному. Прямо таки день знань)
Трошки пізніше хочу розібрати її деталі, може тестанемо її в проді, то напишу окремо.
Тех репорт: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
Потицяти можна тут: http://chat.deepseek.com (50 повідомлень в день)
👍11
шось про ai
DeepSeek-R1 Повністю опенсорсна ллм рівня openai-o1 тепер доступна кожному. Прямо таки день знань) Трошки пізніше хочу розібрати її деталі, може тестанемо її в проді, то напишу окремо. Тех репорт: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf…
Коммьюніті вже запускають DeepSeek R1 на різних штуках, ось один ентузіаст запустив на 7 M4 Pro Mac Minis та 1 M4 Max MacBook Pro, що в суммі дає 496GB памʼяті.
Але це 4-біт квантизація моделі, тому щоб хоча б на fp8 запустити, йому треба буде більше ніж 700гб.
Доречі, deepseek-r1 вже є в ollama, тому тепер можна нарешті легко ранити на маці
Твіт
Але це 4-біт квантизація моделі, тому щоб хоча б на fp8 запустити, йому треба буде більше ніж 700гб.
Доречі, deepseek-r1 вже є в ollama, тому тепер можна нарешті легко ранити на маці
Твіт
🔥7
Computer-Using Agent (CUA) by OpenAI
Мрії збуваються крок за кроком. Коли OpenAI тільки релізнули ChatGPT, я все думав, як буде круто сказати ЛЛМці: "закажи бургер з маку" або "заповни податкову декларацію" — і вона сама все зробить. І ось вони вже тут:
Що таке CUA?
Це агент, який працює з графічними інтерфейсами (GUI), як і ми з вами — хумани. Замість спеціалізованих API, він адаптується під будь-яке середовище, де є браузер чи операційна система. Простими словами: він може серфити інтернет, заповнювати форми, шукати знижки, робити якийсь ресьорч
Benchmark results:
- OSWorld (управління ОС): 38.1% успішності проти 22% у попередньої соти (від антропік). Люди показують 72.4%, тож роботи ще багато.
- WebArena (браузерні задачі на offline-сайтах, типу онлайн стор): 58.1% vs 78.2% у людей.
- WebVoyager (задачі на сайтах, таких як Google Maps чи GitHub): тут CUA вийшов у топ із 87%
Як працює?
CUA аналізує скріншоти інтерфейсу, генерує план дій (так званий chain-of-thought), а потім виконує кроки: клікає, вводить текст, прокручує сторінки. І якщо треба, просить підтвердження (наприклад, перед відправкою важливих даних чи щоб пройти каптчу).
Що цікаво:
CUA — це лише перший крок. Уявіть, що до нього додадуть голосову підтримку. Ви на прогулянці, а агент паралельно сьорфить твітер, робить для вас постик в тг. Це зовсім інший рівень взаємодії.
Зараз CUA доступний через платформу Operator для pro юзерів у штатах (vpn допоможе). Але думаю вже найближчими тижнями і ми подивимось що це за звір такий.
Потикати можна тут:
Operator
Анонс від OpenAI
System Card для деталей про безпеку
2025 точно буде роком агентів. Спостерігаємо за першим справжнім кроком до digital assistant для всіх.
Мрії збуваються крок за кроком. Коли OpenAI тільки релізнули ChatGPT, я все думав, як буде круто сказати ЛЛМці: "закажи бургер з маку" або "заповни податкову декларацію" — і вона сама все зробить. І ось вони вже тут:
Що таке CUA?
Це агент, який працює з графічними інтерфейсами (GUI), як і ми з вами — хумани. Замість спеціалізованих API, він адаптується під будь-яке середовище, де є браузер чи операційна система. Простими словами: він може серфити інтернет, заповнювати форми, шукати знижки, робити якийсь ресьорч
Benchmark results:
- OSWorld (управління ОС): 38.1% успішності проти 22% у попередньої соти (від антропік). Люди показують 72.4%, тож роботи ще багато.
- WebArena (браузерні задачі на offline-сайтах, типу онлайн стор): 58.1% vs 78.2% у людей.
- WebVoyager (задачі на сайтах, таких як Google Maps чи GitHub): тут CUA вийшов у топ із 87%
Як працює?
CUA аналізує скріншоти інтерфейсу, генерує план дій (так званий chain-of-thought), а потім виконує кроки: клікає, вводить текст, прокручує сторінки. І якщо треба, просить підтвердження (наприклад, перед відправкою важливих даних чи щоб пройти каптчу).
Що цікаво:
CUA — це лише перший крок. Уявіть, що до нього додадуть голосову підтримку. Ви на прогулянці, а агент паралельно сьорфить твітер, робить для вас постик в тг. Це зовсім інший рівень взаємодії.
Зараз CUA доступний через платформу Operator для pro юзерів у штатах (vpn допоможе). Але думаю вже найближчими тижнями і ми подивимось що це за звір такий.
Потикати можна тут:
Operator
Анонс від OpenAI
System Card для деталей про безпеку
2025 точно буде роком агентів. Спостерігаємо за першим справжнім кроком до digital assistant для всіх.
👍11🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
Open Operator by BrowserBase
Нещодавно писав про веб-серф агента для створення мемів, і ось від цих же авторів — open operator.
Я не став запускати демку локально, але потикав їх сайт. З простими задачами, типу дізнатися поточну ціну акцій Nvidia, воно справляється. А от з важчими, наприклад, пошук інформації на gov сайтах про законопроєкти падає.
Виглядає як хороша реклама їхніх ліб для веб-серфінгу на фоні релізу опенаі. Але є нюанси:
- потрібна підписка на BrowserBase API.
- швидкість роботи дуже низька. Навіть стокову ціну воно шукало хвилину-дві.
- все написано на next.js, тож на змеюці не попишеш.
Це по факту POC (вони самі так стейтят в репі), тому не засуджуємо за якість. З корисного, звідти можна взяти концепти і допілити цю історію до норм виду. Але хоч якісь метрички могли б додати, простіше було б оцінювати.
Потицяти можна тут:
GitHub
Demo
Нещодавно писав про веб-серф агента для створення мемів, і ось від цих же авторів — open operator.
Я не став запускати демку локально, але потикав їх сайт. З простими задачами, типу дізнатися поточну ціну акцій Nvidia, воно справляється. А от з важчими, наприклад, пошук інформації на gov сайтах про законопроєкти падає.
Виглядає як хороша реклама їхніх ліб для веб-серфінгу на фоні релізу опенаі. Але є нюанси:
- потрібна підписка на BrowserBase API.
- швидкість роботи дуже низька. Навіть стокову ціну воно шукало хвилину-дві.
- все написано на next.js, тож на змеюці не попишеш.
Це по факту POC (вони самі так стейтят в репі), тому не засуджуємо за якість. З корисного, звідти можна взяти концепти і допілити цю історію до норм виду. Але хоч якісь метрички могли б додати, простіше було б оцінювати.
Потицяти можна тут:
GitHub
Demo
👍7
Open R1
Hugging Face вирішили повторити повний цикл DeepSeek — від збору даних до навчання моделі.
Нашо?
Бо китайці релізнули лише ваги та флоу для інференсу. Процес тренування залишився за кадром. Це не просто відтворення — це крок до доступного і простого створення моделей рівня o1.
Думки:
Я бачу це як дуже крутий крок в опенсорс. Є сенс очікувати появи великої кількості маленьких моделей, які за якістю будуть не гірші за gpt-4o, а їх тренування буде доступне для більшості компаній, бо це дешево.
Наприклад, ось ця стаття. Не вникаючи в деталі, основна суть у тому, що вони взяли всього 8K трейн семплів, Qwen2.5-Math-7B як базову модель, і отримали 1.5x приріст якості, зрівнявшись з Eurus-2-7B-PRIME, яка краще за gpt-4o на мат бенчмарках, використовуючі схожі ідеї з трейна R1.
Сорс:
GitHub
Hugging Face вирішили повторити повний цикл DeepSeek — від збору даних до навчання моделі.
Нашо?
Бо китайці релізнули лише ваги та флоу для інференсу. Процес тренування залишився за кадром. Це не просто відтворення — це крок до доступного і простого створення моделей рівня o1.
Думки:
Я бачу це як дуже крутий крок в опенсорс. Є сенс очікувати появи великої кількості маленьких моделей, які за якістю будуть не гірші за gpt-4o, а їх тренування буде доступне для більшості компаній, бо це дешево.
Наприклад, ось ця стаття. Не вникаючи в деталі, основна суть у тому, що вони взяли всього 8K трейн семплів, Qwen2.5-Math-7B як базову модель, і отримали 1.5x приріст якості, зрівнявшись з Eurus-2-7B-PRIME, яка краще за gpt-4o на мат бенчмарках, використовуючі схожі ідеї з трейна R1.
Сорс:
GitHub
1🔥12
UI-TARS Desktop by bytedance
Оператор від китайців) bytedance натренували свої модельки для інтеракції з компом. Дають лінійку VLLMs моделей від 2B до 72B + апку.
Використовується
GitHub
Оператор від китайців) bytedance натренували свої модельки для інтеракції з компом. Дають лінійку VLLMs моделей від 2B до 72B + апку.
Використовується
vllm ліба для хосту моделькі, закидуєте шлях до апі в апку і можна користуватись. Але не дуже просто це підняти, треба гпу, бажано мінімум L4.GitHub
👍2
Просто JFYI, там курсор завіз deepseek модельки. Але я бачів що там наче закрили доступ сьогодні до deepseek, цікаво чи воно вплине.
🔥7😁1
YuE – як Suno, тільки опенсорс!
Я не дуже багато користуюсь text-to-music моделями, але ця звучить дуже круто. Іноді можна помітити артефакти, але блін, what a time to be alive! Я послухав їх демо семпли, і це виглядає як можливість створювати автоген музичку на будь-яку тему та в будь-якому стилі. + Ще прикольно що воно може світчати мову в одному рані (додав приклад English + Japanese + Korean)
Доступні ваги для англійської, китайської, корейської та японської мов.
Усі ваги є на HuggingFace, а бекбон модельки – LLaMA2. Це означає, що модель можна легко файнтюнити, що відкриває просто нереально багато можливостей для опенсорс-спільноти.
Демки в них поки що немає, але якщо у вас є A100 з 80 ГБ або хоча б L4 із 24 ГБ пам’яті, то можна запускати локально.
Щодо таймінгів, автори стейтять:
Project Page: тут можна послухати демо семпли
GitHub
Paper: (coming soon)
Я не дуже багато користуюсь text-to-music моделями, але ця звучить дуже круто. Іноді можна помітити артефакти, але блін, what a time to be alive! Я послухав їх демо семпли, і це виглядає як можливість створювати автоген музичку на будь-яку тему та в будь-якому стилі. + Ще прикольно що воно може світчати мову в одному рані (додав приклад English + Japanese + Korean)
Доступні ваги для англійської, китайської, корейської та японської мов.
Усі ваги є на HuggingFace, а бекбон модельки – LLaMA2. Це означає, що модель можна легко файнтюнити, що відкриває просто нереально багато можливостей для опенсорс-спільноти.
Демки в них поки що немає, але якщо у вас є A100 з 80 ГБ або хоча б L4 із 24 ГБ пам’яті, то можна запускати локально.
Щодо таймінгів, автори стейтять:
On an H800 GPU, generating 30s audio takes 150 seconds. On an RTX 4090 GPU, generating 30s audio takes approximately 360 seconds.
Project Page: тут можна послухати демо семпли
GitHub
Paper: (coming soon)
👍2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Побачив прикольний флоу search-агента на моделі deepseek-8b + ollama.
Є такий фреймворк від langchain для прототипування LLM-агентів - langgraph. Його особливість у тому, що всю комунікацію між нодами можна уявити у вигляді графа, ноди мають стрікт протокол комунікації, що спрощує дизайн. А ще є langsmith - тул для обсервабіліті LLM-агентів і воркфлоу.
Так от, те, що ви бачите у відео - це langgraph studio, тобто комбо langgraph + langsmith. Виглядає дуже класно для дебагу, хочеться потицяти.
Було б ще прикольно якщо б вони додали інтеграцію з MCP (model context protocol) від антропік, тоді ноди могли б бути мікро сервісами і тоді збирати своїх агентів було б набагато легше.
А ви грались з langgraph, як вам?
Є такий фреймворк від langchain для прототипування LLM-агентів - langgraph. Його особливість у тому, що всю комунікацію між нодами можна уявити у вигляді графа, ноди мають стрікт протокол комунікації, що спрощує дизайн. А ще є langsmith - тул для обсервабіліті LLM-агентів і воркфлоу.
Так от, те, що ви бачите у відео - це langgraph studio, тобто комбо langgraph + langsmith. Виглядає дуже класно для дебагу, хочеться потицяти.
Було б ще прикольно якщо б вони додали інтеграцію з MCP (model context protocol) від антропік, тоді ноди могли б бути мікро сервісами і тоді збирати своїх агентів було б набагато легше.
А ви грались з langgraph, як вам?
👍4🔥2❤1🤔1
Mistral Small 3
Mistral AI викотили Mistral Small 3, нову 24B-parameter модель з Apache 2.0 ліцензією. Вона в 3 рази швидша за Llama 3.3 70B, але дає схожу якість відповіді (81% MMLU, 150 tokens/s).
З прикольного:
- легка для локального запуску (4090 / MacBook 32GB RAM).
- без RLHF і синтетики — гарна база для подальшого тюнінгу, наприклад різон тюнінг.
- швидкість > розмір — мало леерів, мінімальний летенсі
По суті це такий локальний gpt4o-mini, тільки швидше. А якщо хтось докрутить різонінг, я думаю буде на рівні 4о, може навіть краще.
HuggingFace Instruct | Base
Ollama
Постик
Mistral AI викотили Mistral Small 3, нову 24B-parameter модель з Apache 2.0 ліцензією. Вона в 3 рази швидша за Llama 3.3 70B, але дає схожу якість відповіді (81% MMLU, 150 tokens/s).
З прикольного:
- легка для локального запуску (4090 / MacBook 32GB RAM).
- без RLHF і синтетики — гарна база для подальшого тюнінгу, наприклад різон тюнінг.
- швидкість > розмір — мало леерів, мінімальний летенсі
По суті це такий локальний gpt4o-mini, тільки швидше. А якщо хтось докрутить різонінг, я думаю буде на рівні 4о, може навіть краще.
HuggingFace Instruct | Base
Ollama
Постик
🔥13