шось про ai

Мені подобається Andrej Karpathy тим, що він іноді бере важкі концепти і реалізовує їх мінімальну версію. Наприклад NanoGPT, де він зарепродьюсив якість GPT2 на опенсорсних даних та всього 8 А100 нодах за 4 дні.

Але недавно (давно, але вони недавно тільки виклали код + модель) вийшов пейпр, де тіпи з Sony пішли з схожим челенджем і натренували свою діфузію (рівня SD1 - SD1.5), 1.16B параметрів, в 512 резолюшені всього за 1,890$ = 8 H100, 2.6 дні.

Трошки важливого про MicroDiT:

- Deferred Masking: нова стратегія маскування, де зображення попередньо обробляється patch-mixer, що дозволяє зберегти семантичну інформацію навіть при маскуванні до 75% пікселів.
- Mixture-of-Experts: кожен другий блок DiT має MoE слой
- Layer-wise Scaling: замість фіксованої ширини леерів трансформера, ширина збільшується у глибших леерах для моделінга більш важких фіч.

Про данні: вони використали всього 37М зображень: реальних (22M) і синтетичних (15M) зображень (JourneyDB + DiffusionDB)

———

Мені особисто зайшло те, як мінімально в них все ралізовано в коді, це ідеальний темплейт для того, щоб задизайнити свою модель:
- замість кліпа взяти UL2 + T5
- замість 4х канального VAE від SDXL, взяти більш крутий 16ти канальний, наприклад від FLUX
- трошки зробити ширше трансформер
- взяти більш якісний датасет
- охапку дров і сота готова

ArXiv
GitHub
HF
Про датасет

P.S. пейпер в них класний, все прозоро, купа деталей, дуже подобається коли розповідають прям все-все.

🔥9👍2❤1

624 views17:20

шось про ai

This media is not supported in your browser

VIEW IN TELEGRAM

Adnrew Ng: AI Avatar

https://x.com/AndrewYNg/status/1879590674561110219 - лол, тут Adnrew написав та сказав що він втомився з усіма розмовляти про АІ, та заколабився з RealAvatar AI щоб зробити свого аватара з яким кожен може поговорити або початитись.

Цікаво чи там просто ллмка, чи вони підвʼязали якусь базу знань

Потестував, він прикольно задає різні питання, про які ти починаєш міркувати з ним і іноді навіть щось для себе розумієш. Але аватар виглядає трошки крінжово, не вистачає анімації коли він говорить з тобою, а респонси доволі surface level, типу фаново, але хз чи корисно.

😁3

354 views12:26

шось про ai

Останнім часом багато говорять про LLM-агентів🤖, і я доволі активно з ними працюю, тому ось трохи зібрав матеріалу від антропік по цій темі:

1. Cookbook
У Anthropic є кукбук, де вони дають купу прикладів, як працювати з тулами, vision-модельками і т.д. Але, на жаль, там майже нічого немає про reasoning-модельки.

2. Промптинг
У них є документація про те, як писати промпти. Це дуже важлива навичка, якщо плануєте працювати з агентами.

Якщо вам ліньки писати свої промпти, ось три варіанти:

- Prompt Generator: є готовий генератор промптів (Anthropic Dashboard), який працює за їхніми гайдами.
- Prompt Improver: можна написати частину промпту і потім допилити його через їхній Prompt Improver (тут же).
- Cursor + Docs: можна скористатися Cursor і додати документацію (гайд).

3. Блог про агентів
Є дуже свіженький блог пост (Building Effective Agents), де пояснюють різницю між:

Workflow-системами: із попередньо визначеними шляхами виконання, де LLM та тули працюють за фіксованими сценаріями.

Агентами: системами, де LLM самостійно керує процесом, динамічно обираючи інструменти й стратегії.
Там же є приклади, як це працює на практиці.

4. Model-Context-Protocol
Вони активно розвивають Model-Context-Protocol. Я про це писав раніше, але за останні два місяці вони зробили великий прогрес. Ідея — уніфікувати протокол комунікації LLM із контекстом через тули. По суті, це фреймворк для оркестрації агентів або workflow.

Я та моя команда активно користуємося їхнім гайденсом - поки їх поради значно покращили якість наших агентів. Якщо у вас теж є якісь лінки на статті, фреймворки або будь-що на цю тему, покидайте, плз

🔥21

519 views21:04

шось про ai

Є дуже свіженький блог пост (Building Effective Agents)

Слово дня, яке я дізнався з цього поста: Poka-yoke - робіть свій флоу в агентах так, щоб ллмці було дуже важко зробити помилки в аутпутах, або тул колі🧐

👍5

550 views08:07

шось про ai

Microsoft AutoGen

Це open-source фреймворк для створення AI-агентів та їхньої взаємодії, протипоставлення langchain.

Він надає три рівні абстракції:

Core | Docs:

На найнижчому рівні знаходиться Core — основа, на якій будується все інше. Він забезпечує асинхронність між агентами, надає інструменти для скейлінгу, базові абстракції інтеракції з ллмками і т.д. Дозволяє будувати event-driven агентів з можливістю нормального дебагу (це коли ви бачите інтеракцію між агентами в логах дуже прозоро, з усіма трейсами, івент-айдішками і т.п.).

AgentChat | Docs:

Високорівневий API, який спрощує створення агентів. Надає готові компоненти для побудови як одиночних, так і мультиагентних систем, дозволяючи агентам спілкуватися між собою та з користувачами, менеджити стейт (наприклад, пам’ять), послідовність виклику та оркестрацію агентів. Якщо ви знайомі з LangChain, то в них є AgentExecutor або Chain абстракції. Вони наприклад побудовані на LangChain-core.

Applications:

На найвищому рівні розташовані готові апки, такі як Magentic-One та AutoGen Studio.

Magentic-One | Docs | Post: Це мультиагентна система, здатна виконувати комплексні завдання, такі як робота з вебом, файлами, запуск коду. Вона включає оркестратора, який планує та координує дії агентів, що можуть виконувати код, завантажувати файли, сьорфити веб. Це фактично демо AutoGen, тому якщо ви хочете побачити, на що здатний цей фреймворк, раджу почати саме з цього.

AutoGen Studio | Docs | Post: Інтерфейс із низьким порогом входу, який дозволяє швидко прототипувати AI-агентів без написання коду. Він надає можливість створювати та тестувати агентів у зручному UI поєднуючи блоки як в лего. Однак наразі його функціональність обмежена через невелику кількість доступних блоків, тому я десь через 10 хвилин відпав і поліз у код.

Мій досвід:

Я спробував їх приклади, і мене зачепив web surfer agent з їх рідмі. Це не звичайний скрапер, він рендерить UI браузера (дивиться скрін), може інтерактувати з елементами, є якийсь різонінг з хуманом в лупі.

Спочатку не дуже працювало: я просив його піти на сторінку GitHub і знайти приклади агентів, побудованих на цьому фреймворку. Він фейлив. Я трохи переписав систем-промпти, погрався з дебагом, і все запрацювало.

Найбільше сподобалося дебажити. Мені здається, LangChain-у варто брати приклад з AutoGen. Завдяки їх event-driven архітектурі в них ультра крутий трейсінг логів. Під капотом все дуже прозоро, хто та кого викликає, які параметри і т.д. що значно спрощує розуміння, що відбувається.

Класна штука, хз, чи перейдемо з LangChain, але в мене трошки задимилась шишка на це, то думаю ще тестити. Єдине, що трохи відштовхує — це той факт, що це Microsoft enterprise edition. У них мільйон абстракцій, треба окремий курс, щоб розібратися, що це, навіщо і як із цим працювати)

Post
GitHub
Docs

🔥10👍5👀1🗿1

474 views22:50

шось про ai

Цікаво чи в них реально є розуміння про агі, чи сама хайпу нагоняє?)

А от про агентів факт, їх стає все простіше робити і вони починають нарешті бути практичними, 2025 буде дуже цікавий в цьому напрямку

https://blog.samaltman.com/reflections

👍5

340 views13:59

шось про ai

This media is not supported in your browser

VIEW IN TELEGRAM

AI Agent для створення мемів

Доволі забавний та крутий приклад веб серф агента, який ходить по imgflip, знаходить темплейт який краще підходить для тексту який ви надали, генерить допис та скидає вам готовий мем.

Під капотом в них stagehand велика частина якого основана на tarsier — лібки для віжен інтеракції ллм агентів з вебом.

https://www.brainrot.run/

👍6

395 views16:33

шось про ai

1:54

This media is not supported in your browser

VIEW IN TELEGRAM

Kokoro-82M

Відносно нова Text-To-Speech модель, яку нещодавно опенсорснули. Має всього 82М параметрів, в мене на маці м4 за 1 секунду генерує 10 секунд аудіо.

В доступі є багато войсів, які доречі можна легко міксувати між собою і виходить доволі непогано. Не вистачає емоцій, типу сміх наприклад, або якоїсь динаміки войсу. Але щоб ASMR про трансформери генерити вистачає з головою)

З мов доступні тільки такі поки: en-US, en-GB, fr-FR, ja-JP, ko-KR, zh-CN

Я взяв клод, сгенерував скрипт, закинув в цю модельку і отримав оцей контент що ви бачите

Моделька тут: https://huggingface.co/hexgrad/Kokoro-82M

Демку потикати можна тут: https://huggingface.co/spaces/hexgrad/Kokoro-TTS

👍8❤2🔥2

449 viewsedited 20:41

шось про ai

DeepSeek-R1

Повністю опенсорсна ллм рівня openai-o1 тепер доступна кожному. Прямо таки день знань)

Трошки пізніше хочу розібрати її деталі, може тестанемо її в проді, то напишу окремо.

Тех репорт: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

Потицяти можна тут: http://chat.deepseek.com (50 повідомлень в день)

👍11

459 viewsedited 18:57

шось про ai

DeepSeek-R1 Повністю опенсорсна ллм рівня openai-o1 тепер доступна кожному. Прямо таки день знань) Трошки пізніше хочу розібрати її деталі, може тестанемо її в проді, то напишу окремо. Тех репорт: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf…

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

Коммьюніті вже запускають DeepSeek R1 на різних штуках, ось один ентузіаст запустив на 7 M4 Pro Mac Minis та 1 M4 Max MacBook Pro, що в суммі дає 496GB памʼяті.

Але це 4-біт квантизація моделі, тому щоб хоча б на fp8 запустити, йому треба буде більше ніж 700гб.

Доречі, deepseek-r1 вже є в ollama, тому тепер можна нарешті легко ранити на маці

Твіт

🔥7

426 views14:34

шось про ai

Computer-Using Agent (CUA) by OpenAI

Мрії збуваються крок за кроком. Коли OpenAI тільки релізнули ChatGPT, я все думав, як буде круто сказати ЛЛМці: "закажи бургер з маку" або "заповни податкову декларацію" — і вона сама все зробить. І ось вони вже тут:

Що таке CUA?
Це агент, який працює з графічними інтерфейсами (GUI), як і ми з вами — хумани. Замість спеціалізованих API, він адаптується під будь-яке середовище, де є браузер чи операційна система. Простими словами: він може серфити інтернет, заповнювати форми, шукати знижки, робити якийсь ресьорч

Benchmark results:
- OSWorld (управління ОС): 38.1% успішності проти 22% у попередньої соти (від антропік). Люди показують 72.4%, тож роботи ще багато.
- WebArena (браузерні задачі на offline-сайтах, типу онлайн стор): 58.1% vs 78.2% у людей.
- WebVoyager (задачі на сайтах, таких як Google Maps чи GitHub): тут CUA вийшов у топ із 87%

Як працює?
CUA аналізує скріншоти інтерфейсу, генерує план дій (так званий chain-of-thought), а потім виконує кроки: клікає, вводить текст, прокручує сторінки. І якщо треба, просить підтвердження (наприклад, перед відправкою важливих даних чи щоб пройти каптчу).

Що цікаво:
CUA — це лише перший крок. Уявіть, що до нього додадуть голосову підтримку. Ви на прогулянці, а агент паралельно сьорфить твітер, робить для вас постик в тг. Це зовсім інший рівень взаємодії.

Зараз CUA доступний через платформу Operator для pro юзерів у штатах (vpn допоможе). Але думаю вже найближчими тижнями і ми подивимось що це за звір такий.

Потикати можна тут:
Operator
Анонс від OpenAI
System Card для деталей про безпеку

2025 точно буде роком агентів. Спостерігаємо за першим справжнім кроком до digital assistant для всіх.

👍11🔥7

407 views20:41

шось про ai

This media is not supported in your browser

VIEW IN TELEGRAM

Open Operator by BrowserBase

Нещодавно писав про веб-серф агента для створення мемів, і ось від цих же авторів — open operator.

Я не став запускати демку локально, але потикав їх сайт. З простими задачами, типу дізнатися поточну ціну акцій Nvidia, воно справляється. А от з важчими, наприклад, пошук інформації на gov сайтах про законопроєкти падає.

Виглядає як хороша реклама їхніх ліб для веб-серфінгу на фоні релізу опенаі. Але є нюанси:

- потрібна підписка на BrowserBase API.
- швидкість роботи дуже низька. Навіть стокову ціну воно шукало хвилину-дві.
- все написано на next.js, тож на змеюці не попишеш.

Це по факту POC (вони самі так стейтят в репі), тому не засуджуємо за якість. З корисного, звідти можна взяти концепти і допілити цю історію до норм виду. Але хоч якісь метрички могли б додати, простіше було б оцінювати.

Потицяти можна тут:
GitHub
Demo

👍7

397 viewsedited 18:56

шось про ai

Open R1

Hugging Face вирішили повторити повний цикл DeepSeek — від збору даних до навчання моделі.

Нашо?
Бо китайці релізнули лише ваги та флоу для інференсу. Процес тренування залишився за кадром. Це не просто відтворення — це крок до доступного і простого створення моделей рівня o1.

Думки:
Я бачу це як дуже крутий крок в опенсорс. Є сенс очікувати появи великої кількості маленьких моделей, які за якістю будуть не гірші за gpt-4o, а їх тренування буде доступне для більшості компаній, бо це дешево.

Наприклад, ось ця стаття. Не вникаючи в деталі, основна суть у тому, що вони взяли всього 8K трейн семплів, Qwen2.5-Math-7B як базову модель, і отримали 1.5x приріст якості, зрівнявшись з Eurus-2-7B-PRIME, яка краще за gpt-4o на мат бенчмарках, використовуючі схожі ідеї з трейна R1.

Сорс:
GitHub

1🔥12

431 views13:04

шось про ai

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

UI-TARS Desktop by bytedance

Оператор від китайців) bytedance натренували свої модельки для інтеракції з компом. Дають лінійку VLLMs моделей від 2B до 72B + апку.

Використовується vllm ліба для хосту моделькі, закидуєте шлях до апі в апку і можна користуватись. Але не дуже просто це підняти, треба гпу, бажано мінімум L4.

GitHub

👍2

418 views17:53

шось про ai

Просто JFYI, там курсор завіз deepseek модельки. Але я бачів що там наче закрили доступ сьогодні до deepseek, цікаво чи воно вплине.

🔥7😁1

421 views18:00

About

Blog

Apps

Platform