шось про ai
735 subscribers
98 photos
22 videos
87 links
МЛ дюд, ex Reface ML engineer, зараз Lead ML в Limitless Labs, роблю стаф в крипті, до цього багато літав в 3д компьютерному зорі, робив купу ген аі в computer vision та language models.

Якщо шо, пишіть: @daniel_kovalenko
Download Telegram
шось про ai
CS492(D): Diffusion Models and Their Applications Якщо треба підтягнути базу по дифузіях, здебільшого text-to-image, ось доволі крутий курс: https://mhsung.github.io/kaist-cs492d-fall-2024/ Вони покривають все-все: diffusion models, cfg, lora, controlnet…
Diffusion Explainer

Обожнюю коли хтось бере і пояснює важкі концепти через прості, інтерактивні візуалізації.

Наприклад ось візуалізація stable diffusion. Думаю з цього вийде круте доповнення якомусь курсу по діфузіям.

Але втф, я не знав що для таких штук пишуть прям пейпери, просто подивиться скільки там авторів)

Project page
Paper
GitHub
🤯3
<system prompt>
ТИ – АГЕНТ, ЩО ПРАГНЕ СТВОРЮВАТИ SYSTEM PROMPTS ДЛЯ РІЗНИХ МОДЕЛЕЙ. СКОРИСТАЙСЯ ЦИМИ GPTs, ЩОБ СПРОСТИТИ ПРОЦЕС І ЗАБЕЗПЕЧИТИ ЯКІСНІ РЕЗУЛЬТАТИ.

<instructions>
- ОБЕРИ ВІДПОВІДНИЙ ІНСТРУМЕНТ ДЛЯ СВОЄЇ МОДЕЛІ:

- System Prompt Generator for Reasoning Models
- General System Prompt Generator

- ЗВЕРНИ УВАГУ НА ДЕТАЛЬНО ПРОДУМАНУ СТРУКТУРУ ТА ПРИКЛАДИ, ЯКІ ГЕНЕРУЮТЬ ЦІ GPT.
- УВІЙДИ ЗА ПОСИЛАННЯМ ТА РОЗПОЧНИ РОБОТУ.

<what not to do>
- НЕ ІГНОРУЙ МОЖЛИВІСТЬ ОТРИМАТИ ГОТОВИЙ І ЯКІСНИЙ PROMPT.
- НЕ ЗАЛИШАЙ ПОСИЛАННЯ НЕВИКОРИСТАНИМИ, ЯКЩО ВОНИ ВІДПОВІДАЮТЬ ТВОЇМ БАЖАННЯМ.

</system prompt>

PS: постійно користуюсь останнім часом цими gpts, знайшов тут.
😁3
GraphRAG: From Local to Global Summarization

Новий підхід до query-focused summarization для великих текстових корпусів. Якщо коротко, це мікс RAG (Retrieval-Augmented Generation) і knowledge graph. Підходить, коли вам треба відповідати на складні "глобальні" питання типу "Які основні теми у цьому наборі даних?", а не просто шукати локальну інфу.

Naive RAG має проблему, що він використовує ембедінг квері і робить сіміляріти сьорч по базі. Це не працює, коли питання більш глобальне бо є амбігьюіті між квері і документами в векторній базі.

Як працює GraphRag:

Source Documents → Text Chunks: бʼє документи на текстові чанки оптимального розміру.

Text Chunks → Element Instances: LLM екстрактить елементи графа — сутності (nodes), їх зв’язки (edges) та ковариати (claims), такі як описи чи часові інтервали.

Element Instances → Graph Index: білдить однорідний knowledge graph, де вузли — це сутності, а ребра — їх зв’язки з вагами, які відображають їхню частотність.

Graph Index → Graph Communities: юзається Leiden алгоритм для кластеризації графа на кластери вузлів з сильними внутрішніми зв’язками.

Graph Communities → Community Summaries → Global Answer: LLM генерує описи для кожного кластеру, які потім комбінуються в єдину глобальну відповідь через map-reduce підхід.

———————

Тобто GraphRag не просто знаходить шматочки тексту, а будує модульний граф, який дозволяє робити обхід графу, має степень грануляції контенту від локального до глобального.

Цей вид памʼяті має більш сенсу, бо є певна ієрархія інформації.

Приклади де звичайний раг не працює:

"Що обговорюють про баланс між етикою та інноваціями в подкастах?"
GraphRAG аналізує всі епізоди, знаходить релевантні цитати та формує повний контекст. Naive RAG обмежується лише кількома локальними шматками.

"Які опенсорс проекти були найпопулярніші за останній місяць в твітері" - така сама історія, звичайний rag буде пробувати шукати якісь релевантні документи до цієї квері, тобто ранкінг, але пропустить багато контенту де опенсорс проекти не меншаняться явно

Але є нюанси:

- Будувати граф дорого (в плані токенів і часу). Зате якщо працюєте з великими корпусами і багато питань до одного датасету — це виправдано.
- Підходить для: глибоких аналітик, досліджень, policy review.
- Не підходить для: одноразових, локальних запитів.

Docs
Blog
GitHub
ArXiv

P.s. можливо спробую цю штуку на реальному юзкейсі скоро та видам більш розгорнутий фідбек чи має воно сенс, чи дефолтний раг все ще ок в плані якості/костів
1👍1
шось про ai
GraphRAG: From Local to Global Summarization Новий підхід до query-focused summarization для великих текстових корпусів. Якщо коротко, це мікс RAG (Retrieval-Augmented Generation) і knowledge graph. Підходить, коли вам треба відповідати на складні "глобальні"…
Про ієрархію памʼяті, мені сподобався шматочок статті від Lilian Weng, де вона навалює про різні типи памʼяті. От шо мені цікаво: наскільки оптимально ранити graphrag на особистих нотатках, тобто на датасеті дуже різноманітної інформації з темпоральною основою, що є якась інформація яка "свіжа", а є лонг терм меморі і це як вага до інформації, тобто ще більша ієрархія
3
шось про ai
- automations - це крон джоба на ллмках яка може ранитись кожні н годин, ходити в інтернет, шось шукати і скидати вам на пошту результати
This media is not supported in your browser
VIEW IN TELEGRAM
Automations (Tasks) в ChatGPT?

Нещодавно писав про круту фічу в khoj - створювати автоматичні джоби які раняться з якоюсь періодичністю, і ось дізнався що опенаі теж таке зробили.

Наприклад можна робити якесь маркет самарі S&P 500, або дайджест з контенту _akhaliq, або якийсь рекап з новин.

Цікаво, думаю якщо це підвʼязати ще до gpts, буде взагалі кльово. (можна буде пости не робити руцями🤔)

Офф пост від опенаі
1
Мені подобається Andrej Karpathy тим, що він іноді бере важкі концепти і реалізовує їх мінімальну версію. Наприклад NanoGPT, де він зарепродьюсив якість GPT2 на опенсорсних даних та всього 8 А100 нодах за 4 дні.

Але недавно (давно, але вони недавно тільки виклали код + модель) вийшов пейпр, де тіпи з Sony пішли з схожим челенджем і натренували свою діфузію (рівня SD1 - SD1.5), 1.16B параметрів, в 512 резолюшені всього за 1,890$ = 8 H100, 2.6 дні.

Трошки важливого про MicroDiT:

- Deferred Masking: нова стратегія маскування, де зображення попередньо обробляється patch-mixer, що дозволяє зберегти семантичну інформацію навіть при маскуванні до 75% пікселів.
- Mixture-of-Experts: кожен другий блок DiT має MoE слой
- Layer-wise Scaling: замість фіксованої ширини леерів трансформера, ширина збільшується у глибших леерах для моделінга більш важких фіч.

Про данні: вони використали всього 37М зображень: реальних (22M) і синтетичних (15M) зображень (JourneyDB + DiffusionDB)

———

Мені особисто зайшло те, як мінімально в них все ралізовано в коді, це ідеальний темплейт для того, щоб задизайнити свою модель:
- замість кліпа взяти UL2 + T5
- замість 4х канального VAE від SDXL, взяти більш крутий 16ти канальний, наприклад від FLUX
- трошки зробити ширше трансформер
- взяти більш якісний датасет
- охапку дров і сота готова

ArXiv
GitHub
HF
Про датасет

P.S. пейпер в них класний, все прозоро, купа деталей, дуже подобається коли розповідають прям все-все.
🔥9👍21
This media is not supported in your browser
VIEW IN TELEGRAM
Adnrew Ng: AI Avatar

https://x.com/AndrewYNg/status/1879590674561110219 - лол, тут Adnrew написав та сказав що він втомився з усіма розмовляти про АІ, та заколабився з RealAvatar AI щоб зробити свого аватара з яким кожен може поговорити або початитись.

Цікаво чи там просто ллмка, чи вони підвʼязали якусь базу знань

Потестував, він прикольно задає різні питання, про які ти починаєш міркувати з ним і іноді навіть щось для себе розумієш. Але аватар виглядає трошки крінжово, не вистачає анімації коли він говорить з тобою, а респонси доволі surface level, типу фаново, але хз чи корисно.
😁3
Останнім часом багато говорять про LLM-агентів🤖, і я доволі активно з ними працюю, тому ось трохи зібрав матеріалу від антропік по цій темі:

1. Cookbook
У Anthropic є кукбук, де вони дають купу прикладів, як працювати з тулами, vision-модельками і т.д. Але, на жаль, там майже нічого немає про reasoning-модельки.

2. Промптинг
У них є документація про те, як писати промпти. Це дуже важлива навичка, якщо плануєте працювати з агентами.

Якщо вам ліньки писати свої промпти, ось три варіанти:

- Prompt Generator: є готовий генератор промптів (Anthropic Dashboard), який працює за їхніми гайдами.
- Prompt Improver: можна написати частину промпту і потім допилити його через їхній Prompt Improver (тут же).
- Cursor + Docs: можна скористатися Cursor і додати документацію (гайд).

3. Блог про агентів
Є дуже свіженький блог пост (Building Effective Agents), де пояснюють різницю між:

Workflow-системами: із попередньо визначеними шляхами виконання, де LLM та тули працюють за фіксованими сценаріями.

Агентами: системами, де LLM самостійно керує процесом, динамічно обираючи інструменти й стратегії.
Там же є приклади, як це працює на практиці.

4. Model-Context-Protocol
Вони активно розвивають Model-Context-Protocol. Я про це писав раніше, але за останні два місяці вони зробили великий прогрес. Ідея — уніфікувати протокол комунікації LLM із контекстом через тули. По суті, це фреймворк для оркестрації агентів або workflow.

Я та моя команда активно користуємося їхнім гайденсом - поки їх поради значно покращили якість наших агентів. Якщо у вас теж є якісь лінки на статті, фреймворки або будь-що на цю тему, покидайте, плз
🔥21
шось про ai
Є дуже свіженький блог пост (Building Effective Agents)
Слово дня, яке я дізнався з цього поста: Poka-yoke - робіть свій флоу в агентах так, щоб ллмці було дуже важко зробити помилки в аутпутах, або тул колі🧐
👍5
Microsoft AutoGen

Це open-source фреймворк для створення AI-агентів та їхньої взаємодії, протипоставлення langchain.

Він надає три рівні абстракції:

Core | Docs:

На найнижчому рівні знаходиться Core — основа, на якій будується все інше. Він забезпечує асинхронність між агентами, надає інструменти для скейлінгу, базові абстракції інтеракції з ллмками і т.д. Дозволяє будувати event-driven агентів з можливістю нормального дебагу (це коли ви бачите інтеракцію між агентами в логах дуже прозоро, з усіма трейсами, івент-айдішками і т.п.).

AgentChat | Docs:

Високорівневий API, який спрощує створення агентів. Надає готові компоненти для побудови як одиночних, так і мультиагентних систем, дозволяючи агентам спілкуватися між собою та з користувачами, менеджити стейт (наприклад, пам’ять), послідовність виклику та оркестрацію агентів. Якщо ви знайомі з LangChain, то в них є AgentExecutor або Chain абстракції. Вони наприклад побудовані на LangChain-core.

Applications:

На найвищому рівні розташовані готові апки, такі як Magentic-One та AutoGen Studio.

Magentic-One | Docs | Post: Це мультиагентна система, здатна виконувати комплексні завдання, такі як робота з вебом, файлами, запуск коду. Вона включає оркестратора, який планує та координує дії агентів, що можуть виконувати код, завантажувати файли, сьорфити веб. Це фактично демо AutoGen, тому якщо ви хочете побачити, на що здатний цей фреймворк, раджу почати саме з цього.

AutoGen Studio | Docs | Post: Інтерфейс із низьким порогом входу, який дозволяє швидко прототипувати AI-агентів без написання коду. Він надає можливість створювати та тестувати агентів у зручному UI поєднуючи блоки як в лего. Однак наразі його функціональність обмежена через невелику кількість доступних блоків, тому я десь через 10 хвилин відпав і поліз у код.

Мій досвід:

Я спробував їх приклади, і мене зачепив web surfer agent з їх рідмі. Це не звичайний скрапер, він рендерить UI браузера (дивиться скрін), може інтерактувати з елементами, є якийсь різонінг з хуманом в лупі.

Спочатку не дуже працювало: я просив його піти на сторінку GitHub і знайти приклади агентів, побудованих на цьому фреймворку. Він фейлив. Я трохи переписав систем-промпти, погрався з дебагом, і все запрацювало.

Найбільше сподобалося дебажити. Мені здається, LangChain-у варто брати приклад з AutoGen. Завдяки їх event-driven архітектурі в них ультра крутий трейсінг логів. Під капотом все дуже прозоро, хто та кого викликає, які параметри і т.д. що значно спрощує розуміння, що відбувається.

Класна штука, хз, чи перейдемо з LangChain, але в мене трошки задимилась шишка на це, то думаю ще тестити. Єдине, що трохи відштовхує — це той факт, що це Microsoft enterprise edition. У них мільйон абстракцій, треба окремий курс, щоб розібратися, що це, навіщо і як із цим працювати)

Post
GitHub
Docs
🔥10👍5👀1🗿1
Цікаво чи в них реально є розуміння про агі, чи сама хайпу нагоняє?)

А от про агентів факт, їх стає все простіше робити і вони починають нарешті бути практичними, 2025 буде дуже цікавий в цьому напрямку

https://blog.samaltman.com/reflections
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
AI Agent для створення мемів

Доволі забавний та крутий приклад веб серф агента, який ходить по imgflip, знаходить темплейт який краще підходить для тексту який ви надали, генерить допис та скидає вам готовий мем.

Під капотом в них stagehand велика частина якого основана на tarsier — лібки для віжен інтеракції ллм агентів з вебом.

https://www.brainrot.run/
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Kokoro-82M

Відносно нова Text-To-Speech модель, яку нещодавно опенсорснули. Має всього 82М параметрів, в мене на маці м4 за 1 секунду генерує 10 секунд аудіо.

В доступі є багато войсів, які доречі можна легко міксувати між собою і виходить доволі непогано. Не вистачає емоцій, типу сміх наприклад, або якоїсь динаміки войсу. Але щоб ASMR про трансформери генерити вистачає з головою)

З мов доступні тільки такі поки: en-US, en-GB, fr-FR, ja-JP, ko-KR, zh-CN

Я взяв клод, сгенерував скрипт, закинув в цю модельку і отримав оцей контент що ви бачите

Моделька тут: https://huggingface.co/hexgrad/Kokoro-82M

Демку потикати можна тут: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
👍82🔥2
DeepSeek-R1

Повністю опенсорсна ллм рівня openai-o1 тепер доступна кожному. Прямо таки день знань)

Трошки пізніше хочу розібрати її деталі, може тестанемо її в проді, то напишу окремо.

Тех репорт: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

Потицяти можна тут: http://chat.deepseek.com (50 повідомлень в день)
👍11
шось про ai
DeepSeek-R1 Повністю опенсорсна ллм рівня openai-o1 тепер доступна кожному. Прямо таки день знань) Трошки пізніше хочу розібрати її деталі, може тестанемо її в проді, то напишу окремо. Тех репорт: https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf…
Коммьюніті вже запускають DeepSeek R1 на різних штуках, ось один ентузіаст запустив на 7 M4 Pro Mac Minis та 1 M4 Max MacBook Pro, що в суммі дає 496GB памʼяті.

Але це 4-біт квантизація моделі, тому щоб хоча б на fp8 запустити, йому треба буде більше ніж 700гб.

Доречі, deepseek-r1 вже є в ollama, тому тепер можна нарешті легко ранити на маці

Твіт
🔥7
Computer-Using Agent (CUA) by OpenAI

Мрії збуваються крок за кроком. Коли OpenAI тільки релізнули ChatGPT, я все думав, як буде круто сказати ЛЛМці: "закажи бургер з маку" або "заповни податкову декларацію" — і вона сама все зробить. І ось вони вже тут:

Що таке CUA?
Це агент, який працює з графічними інтерфейсами (GUI), як і ми з вами — хумани. Замість спеціалізованих API, він адаптується під будь-яке середовище, де є браузер чи операційна система. Простими словами: він може серфити інтернет, заповнювати форми, шукати знижки, робити якийсь ресьорч

Benchmark results:
- OSWorld (управління ОС): 38.1% успішності проти 22% у попередньої соти (від антропік). Люди показують 72.4%, тож роботи ще багато.
- WebArena (браузерні задачі на offline-сайтах, типу онлайн стор): 58.1% vs 78.2% у людей.
- WebVoyager (задачі на сайтах, таких як Google Maps чи GitHub): тут CUA вийшов у топ із 87%

Як працює?
CUA аналізує скріншоти інтерфейсу, генерує план дій (так званий chain-of-thought), а потім виконує кроки: клікає, вводить текст, прокручує сторінки. І якщо треба, просить підтвердження (наприклад, перед відправкою важливих даних чи щоб пройти каптчу).

Що цікаво:
CUA — це лише перший крок. Уявіть, що до нього додадуть голосову підтримку. Ви на прогулянці, а агент паралельно сьорфить твітер, робить для вас постик в тг. Це зовсім інший рівень взаємодії.

Зараз CUA доступний через платформу Operator для pro юзерів у штатах (vpn допоможе). Але думаю вже найближчими тижнями і ми подивимось що це за звір такий.

Потикати можна тут:
Operator
Анонс від OpenAI
System Card для деталей про безпеку

2025 точно буде роком агентів. Спостерігаємо за першим справжнім кроком до digital assistant для всіх.
👍11🔥7