DepthLab: From Partial to Complete
Вийшла нова сота в depth inpainting. Якщо по-простому - це коли у вас є RGB картинка і частково відома глибина (наприклад з LiDAR сенсора), і вам треба відновити глибину в тих місцях де її нема.
Головна фішка - це dual-branch diffusion архітектура:
- Reference U-Net витягує фічі з RGB картинки
- Estimation U-Net обробляє глибину і маски
- Feature Fusion з'єднує їх layer-by-layer для точного контролю
Модель натренована на Hypersim і Virtual KITTI (всього навсього 74к синтетичних семплів!), але що цікаво - вона добре працює на різних таскax без файнтюну:
- 3D Gaussian інпейнтінг (коли треба зафіксити діри в 3D сцені)
- LiDAR depth completion (коли треба заповнити пропуски в даних з лідара)
- Text-to-scene генерація (покращує 3D рендерінг з текстових промптів)
- Sparse-view реконструкція з DUST3R
Прикол в тому, що вона не просто заповнює пропуски, а робить це консистентно з відомою глибиною. Тобто нема артефактів на границях між відомою і згенерованою глибиною, що часто буває проблемою в інших методах.
Про інференс:
- Потрібно ~12GB відеопам'яті для базової версії
- Дефолтний processing_res - 512x512
- 20-50 кроків денойзінгу на інференс
- Можна зменшити processing_res або strength параметр для економії пам'яті, але це вплине на якість.
Якщо коротко, крутий тул, можна вертіти як завгодно, краще ніж DepthAnthingV2, очікуємо поки комуніті підхватить та зроблять різні флоу для comfyui та обкатають на практиці
Сорси:
Project Page: https://johanan528.github.io/depthlab_web/
GitHub: https://github.com/Johanan528/DepthLab
Paper: https://arxiv.org/pdf/2412.18153
Вийшла нова сота в depth inpainting. Якщо по-простому - це коли у вас є RGB картинка і частково відома глибина (наприклад з LiDAR сенсора), і вам треба відновити глибину в тих місцях де її нема.
Головна фішка - це dual-branch diffusion архітектура:
- Reference U-Net витягує фічі з RGB картинки
- Estimation U-Net обробляє глибину і маски
- Feature Fusion з'єднує їх layer-by-layer для точного контролю
Модель натренована на Hypersim і Virtual KITTI (всього навсього 74к синтетичних семплів!), але що цікаво - вона добре працює на різних таскax без файнтюну:
- 3D Gaussian інпейнтінг (коли треба зафіксити діри в 3D сцені)
- LiDAR depth completion (коли треба заповнити пропуски в даних з лідара)
- Text-to-scene генерація (покращує 3D рендерінг з текстових промптів)
- Sparse-view реконструкція з DUST3R
Прикол в тому, що вона не просто заповнює пропуски, а робить це консистентно з відомою глибиною. Тобто нема артефактів на границях між відомою і згенерованою глибиною, що часто буває проблемою в інших методах.
Про інференс:
- Потрібно ~12GB відеопам'яті для базової версії
- Дефолтний processing_res - 512x512
- 20-50 кроків денойзінгу на інференс
- Можна зменшити processing_res або strength параметр для економії пам'яті, але це вплине на якість.
Якщо коротко, крутий тул, можна вертіти як завгодно, краще ніж DepthAnthingV2, очікуємо поки комуніті підхватить та зроблять різні флоу для comfyui та обкатають на практиці
Сорси:
Project Page: https://johanan528.github.io/depthlab_web/
GitHub: https://github.com/Johanan528/DepthLab
Paper: https://arxiv.org/pdf/2412.18153
👍1
О, спайсі подкаст Лекса з Зеленським
Вони спілкувались на трьох мовах: українська, англійська та ру. З цікавого, Лекс використовував ElevenLabs щоб зробити ovedub на кожну з мов.
Поки нема оригінальної дорожки, тільки англійська, але скоро повинно з'явитись оригінал
OUTLINE:
0:00 - Introduction
3:29 - Introductory words from Lex
13:55 - Language
23:44 - World War II
40:32 - Invasion on Feb 24, 2022
47:07 - Negotiating Peace
1:07:24 - NATO and security guarantees
1:20:17 - Sitting down with Putin and Trump
1:39:47 - Compromise and leverage
1:45:15 - Putin and Russia
1:55:07 - Donald Trump
2:05:39 - Martial Law and Elections
2:17:58 - Corruption
2:26:44 - Elon Musk
2:30:47 - Trump Inauguration on Jan 20
2:33:55 - Power dynamics in Ukraine
2:37:27 - Future of Ukraine
2:42:09 - Choice of language
2:51:39 - Podcast prep and research process
3:00:04 - Travel and setup
3:05:51 - Conclusion
Відос: https://youtu.be/u321m25rKXc
Твіт: https://x.com/lexfridman/status/1875982164321239202
Вони спілкувались на трьох мовах: українська, англійська та ру. З цікавого, Лекс використовував ElevenLabs щоб зробити ovedub на кожну з мов.
Поки нема оригінальної дорожки, тільки англійська, але скоро повинно з'явитись оригінал
OUTLINE:
0:00 - Introduction
3:29 - Introductory words from Lex
13:55 - Language
23:44 - World War II
40:32 - Invasion on Feb 24, 2022
47:07 - Negotiating Peace
1:07:24 - NATO and security guarantees
1:20:17 - Sitting down with Putin and Trump
1:39:47 - Compromise and leverage
1:45:15 - Putin and Russia
1:55:07 - Donald Trump
2:05:39 - Martial Law and Elections
2:17:58 - Corruption
2:26:44 - Elon Musk
2:30:47 - Trump Inauguration on Jan 20
2:33:55 - Power dynamics in Ukraine
2:37:27 - Future of Ukraine
2:42:09 - Choice of language
2:51:39 - Podcast prep and research process
3:00:04 - Travel and setup
3:05:51 - Conclusion
Відос: https://youtu.be/u321m25rKXc
Твіт: https://x.com/lexfridman/status/1875982164321239202
YouTube
Volodymyr Zelenskyy: Ukraine, War, Peace, Putin, Trump, NATO, and Freedom | Lex Fridman Podcast #456
Volodymyr Zelenskyy is the President of Ukraine. This episode is available in English, Ukrainian, and Russian. Captions and voice-over audio tracks are provided in English, Ukrainian, Russian, and the original mixed-language version, with subtitles available…
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Khoj - Your AI second brain
Сьогодні тестував такой ось таку штуку, селф-хостед юайку/api яка в собі інкопсулює багато різного около ЛЛМ функціоналу:
Можна чатитись з купою моделей: llama3, qwen, gemma, mistral, gpt, claude, gemini
Воно підтримує багато форматів атачментів: image, pdf, markdown, org-mode, word, notion files
Може в сьорч, може генерувати картинки (dalle-3), може в tts (eleven labs)
Але мені більше всього зайшли їх експерементальні штуки:
- automations - це крон джоба на ллмках яка може ранитись кожні н годин, ходити в інтернет, шось шукати і скидати вам на пошту результати
- може генерувати діаграмки, типу просиш якусь формулу візуалізувати або фігуру
- агенти (mini gpts) - дуже прикольно що можна наконфігурити свого агента, прописати персоналіти, та чатитись з ним.
Як я бачу юзкейс в проді:
Прикольно те, що я можу наконфігурити агента, додати додаткових тулів, віддебажити його в юайці, а потім просто через сервер апі робити інтеграції з діскордом або тг. Класно саме те, що вони добре імплементували різонінг, памʼять, чат менеджмент, все асінк, працює швидко. + є адмінка, підтримка кучі інтеграцій з іншими апі
https://khoj.dev/
https://github.com/khoj-ai/khoj
Сьогодні тестував такой ось таку штуку, селф-хостед юайку/api яка в собі інкопсулює багато різного около ЛЛМ функціоналу:
Можна чатитись з купою моделей: llama3, qwen, gemma, mistral, gpt, claude, gemini
Воно підтримує багато форматів атачментів: image, pdf, markdown, org-mode, word, notion files
Може в сьорч, може генерувати картинки (dalle-3), може в tts (eleven labs)
Але мені більше всього зайшли їх експерементальні штуки:
- automations - це крон джоба на ллмках яка може ранитись кожні н годин, ходити в інтернет, шось шукати і скидати вам на пошту результати
- може генерувати діаграмки, типу просиш якусь формулу візуалізувати або фігуру
- агенти (mini gpts) - дуже прикольно що можна наконфігурити свого агента, прописати персоналіти, та чатитись з ним.
Як я бачу юзкейс в проді:
Прикольно те, що я можу наконфігурити агента, додати додаткових тулів, віддебажити його в юайці, а потім просто через сервер апі робити інтеграції з діскордом або тг. Класно саме те, що вони добре імплементували різонінг, памʼять, чат менеджмент, все асінк, працює швидко. + є адмінка, підтримка кучі інтеграцій з іншими апі
https://khoj.dev/
https://github.com/khoj-ai/khoj
❤2
шось про ai
CS492(D): Diffusion Models and Their Applications Якщо треба підтягнути базу по дифузіях, здебільшого text-to-image, ось доволі крутий курс: https://mhsung.github.io/kaist-cs492d-fall-2024/ Вони покривають все-все: diffusion models, cfg, lora, controlnet…
Diffusion Explainer
Обожнюю коли хтось бере і пояснює важкі концепти через прості, інтерактивні візуалізації.
Наприклад ось візуалізація stable diffusion. Думаю з цього вийде круте доповнення якомусь курсу по діфузіям.
Але втф, я не знав що для таких штук пишуть прям пейпери, просто подивиться скільки там авторів)
Project page
Paper
GitHub
Обожнюю коли хтось бере і пояснює важкі концепти через прості, інтерактивні візуалізації.
Наприклад ось візуалізація stable diffusion. Думаю з цього вийде круте доповнення якомусь курсу по діфузіям.
Але втф, я не знав що для таких штук пишуть прям пейпери, просто подивиться скільки там авторів)
Project page
Paper
GitHub
🤯3
<system prompt>
ТИ – АГЕНТ, ЩО ПРАГНЕ СТВОРЮВАТИ SYSTEM PROMPTS ДЛЯ РІЗНИХ МОДЕЛЕЙ. СКОРИСТАЙСЯ ЦИМИ GPTs, ЩОБ СПРОСТИТИ ПРОЦЕС І ЗАБЕЗПЕЧИТИ ЯКІСНІ РЕЗУЛЬТАТИ.
<instructions>
- ОБЕРИ ВІДПОВІДНИЙ ІНСТРУМЕНТ ДЛЯ СВОЄЇ МОДЕЛІ:
- System Prompt Generator for Reasoning Models
- General System Prompt Generator
- ЗВЕРНИ УВАГУ НА ДЕТАЛЬНО ПРОДУМАНУ СТРУКТУРУ ТА ПРИКЛАДИ, ЯКІ ГЕНЕРУЮТЬ ЦІ GPT.
- УВІЙДИ ЗА ПОСИЛАННЯМ ТА РОЗПОЧНИ РОБОТУ.
<what not to do>
- НЕ ІГНОРУЙ МОЖЛИВІСТЬ ОТРИМАТИ ГОТОВИЙ І ЯКІСНИЙ PROMPT.
- НЕ ЗАЛИШАЙ ПОСИЛАННЯ НЕВИКОРИСТАНИМИ, ЯКЩО ВОНИ ВІДПОВІДАЮТЬ ТВОЇМ БАЖАННЯМ.
</system prompt>
PS: постійно користуюсь останнім часом цими gpts, знайшов тут.
ТИ – АГЕНТ, ЩО ПРАГНЕ СТВОРЮВАТИ SYSTEM PROMPTS ДЛЯ РІЗНИХ МОДЕЛЕЙ. СКОРИСТАЙСЯ ЦИМИ GPTs, ЩОБ СПРОСТИТИ ПРОЦЕС І ЗАБЕЗПЕЧИТИ ЯКІСНІ РЕЗУЛЬТАТИ.
<instructions>
- ОБЕРИ ВІДПОВІДНИЙ ІНСТРУМЕНТ ДЛЯ СВОЄЇ МОДЕЛІ:
- System Prompt Generator for Reasoning Models
- General System Prompt Generator
- ЗВЕРНИ УВАГУ НА ДЕТАЛЬНО ПРОДУМАНУ СТРУКТУРУ ТА ПРИКЛАДИ, ЯКІ ГЕНЕРУЮТЬ ЦІ GPT.
- УВІЙДИ ЗА ПОСИЛАННЯМ ТА РОЗПОЧНИ РОБОТУ.
<what not to do>
- НЕ ІГНОРУЙ МОЖЛИВІСТЬ ОТРИМАТИ ГОТОВИЙ І ЯКІСНИЙ PROMPT.
- НЕ ЗАЛИШАЙ ПОСИЛАННЯ НЕВИКОРИСТАНИМИ, ЯКЩО ВОНИ ВІДПОВІДАЮТЬ ТВОЇМ БАЖАННЯМ.
</system prompt>
PS: постійно користуюсь останнім часом цими gpts, знайшов тут.
😁3
GraphRAG: From Local to Global Summarization
Новий підхід до query-focused summarization для великих текстових корпусів. Якщо коротко, це мікс RAG (Retrieval-Augmented Generation) і knowledge graph. Підходить, коли вам треба відповідати на складні "глобальні" питання типу "Які основні теми у цьому наборі даних?", а не просто шукати локальну інфу.
Naive RAG має проблему, що він використовує ембедінг квері і робить сіміляріти сьорч по базі. Це не працює, коли питання більш глобальне бо є амбігьюіті між квері і документами в векторній базі.
Як працює GraphRag:
Source Documents → Text Chunks: бʼє документи на текстові чанки оптимального розміру.
Text Chunks → Element Instances: LLM екстрактить елементи графа — сутності (nodes), їх зв’язки (edges) та ковариати (claims), такі як описи чи часові інтервали.
Element Instances → Graph Index: білдить однорідний knowledge graph, де вузли — це сутності, а ребра — їх зв’язки з вагами, які відображають їхню частотність.
Graph Index → Graph Communities: юзається Leiden алгоритм для кластеризації графа на кластери вузлів з сильними внутрішніми зв’язками.
Graph Communities → Community Summaries → Global Answer: LLM генерує описи для кожного кластеру, які потім комбінуються в єдину глобальну відповідь через map-reduce підхід.
———————
Тобто GraphRag не просто знаходить шматочки тексту, а будує модульний граф, який дозволяє робити обхід графу, має степень грануляції контенту від локального до глобального.
Цей вид памʼяті має більш сенсу, бо є певна ієрархія інформації.
Приклади де звичайний раг не працює:
"Що обговорюють про баланс між етикою та інноваціями в подкастах?"
GraphRAG аналізує всі епізоди, знаходить релевантні цитати та формує повний контекст. Naive RAG обмежується лише кількома локальними шматками.
"Які опенсорс проекти були найпопулярніші за останній місяць в твітері" - така сама історія, звичайний rag буде пробувати шукати якісь релевантні документи до цієї квері, тобто ранкінг, але пропустить багато контенту де опенсорс проекти не меншаняться явно
Але є нюанси:
- Будувати граф дорого (в плані токенів і часу). Зате якщо працюєте з великими корпусами і багато питань до одного датасету — це виправдано.
- Підходить для: глибоких аналітик, досліджень, policy review.
- Не підходить для: одноразових, локальних запитів.
Docs
Blog
GitHub
ArXiv
P.s. можливо спробую цю штуку на реальному юзкейсі скоро та видам більш розгорнутий фідбек чи має воно сенс, чи дефолтний раг все ще ок в плані якості/костів
Новий підхід до query-focused summarization для великих текстових корпусів. Якщо коротко, це мікс RAG (Retrieval-Augmented Generation) і knowledge graph. Підходить, коли вам треба відповідати на складні "глобальні" питання типу "Які основні теми у цьому наборі даних?", а не просто шукати локальну інфу.
Naive RAG має проблему, що він використовує ембедінг квері і робить сіміляріти сьорч по базі. Це не працює, коли питання більш глобальне бо є амбігьюіті між квері і документами в векторній базі.
Як працює GraphRag:
Source Documents → Text Chunks: бʼє документи на текстові чанки оптимального розміру.
Text Chunks → Element Instances: LLM екстрактить елементи графа — сутності (nodes), їх зв’язки (edges) та ковариати (claims), такі як описи чи часові інтервали.
Element Instances → Graph Index: білдить однорідний knowledge graph, де вузли — це сутності, а ребра — їх зв’язки з вагами, які відображають їхню частотність.
Graph Index → Graph Communities: юзається Leiden алгоритм для кластеризації графа на кластери вузлів з сильними внутрішніми зв’язками.
Graph Communities → Community Summaries → Global Answer: LLM генерує описи для кожного кластеру, які потім комбінуються в єдину глобальну відповідь через map-reduce підхід.
———————
Тобто GraphRag не просто знаходить шматочки тексту, а будує модульний граф, який дозволяє робити обхід графу, має степень грануляції контенту від локального до глобального.
Цей вид памʼяті має більш сенсу, бо є певна ієрархія інформації.
Приклади де звичайний раг не працює:
"Що обговорюють про баланс між етикою та інноваціями в подкастах?"
GraphRAG аналізує всі епізоди, знаходить релевантні цитати та формує повний контекст. Naive RAG обмежується лише кількома локальними шматками.
"Які опенсорс проекти були найпопулярніші за останній місяць в твітері" - така сама історія, звичайний rag буде пробувати шукати якісь релевантні документи до цієї квері, тобто ранкінг, але пропустить багато контенту де опенсорс проекти не меншаняться явно
Але є нюанси:
- Будувати граф дорого (в плані токенів і часу). Зате якщо працюєте з великими корпусами і багато питань до одного датасету — це виправдано.
- Підходить для: глибоких аналітик, досліджень, policy review.
- Не підходить для: одноразових, локальних запитів.
Docs
Blog
GitHub
ArXiv
P.s. можливо спробую цю штуку на реальному юзкейсі скоро та видам більш розгорнутий фідбек чи має воно сенс, чи дефолтний раг все ще ок в плані якості/костів
❤1👍1
шось про ai
GraphRAG: From Local to Global Summarization Новий підхід до query-focused summarization для великих текстових корпусів. Якщо коротко, це мікс RAG (Retrieval-Augmented Generation) і knowledge graph. Підходить, коли вам треба відповідати на складні "глобальні"…
Про ієрархію памʼяті, мені сподобався шматочок статті від Lilian Weng, де вона навалює про різні типи памʼяті. От шо мені цікаво: наскільки оптимально ранити graphrag на особистих нотатках, тобто на датасеті дуже різноманітної інформації з темпоральною основою, що є якась інформація яка "свіжа", а є лонг терм меморі і це як вага до інформації, тобто ще більша ієрархія
❤3
шось про ai
- automations - це крон джоба на ллмках яка може ранитись кожні н годин, ходити в інтернет, шось шукати і скидати вам на пошту результати
This media is not supported in your browser
VIEW IN TELEGRAM
Automations (Tasks) в ChatGPT?
Нещодавно писав про круту фічу в khoj - створювати автоматичні джоби які раняться з якоюсь періодичністю, і ось дізнався що опенаі теж таке зробили.
Наприклад можна робити якесь маркет самарі S&P 500, або дайджест з контенту _akhaliq, або якийсь рекап з новин.
Цікаво, думаю якщо це підвʼязати ще до gpts, буде взагалі кльово. (можна буде пости не робити руцями🤔)
Офф пост від опенаі
Нещодавно писав про круту фічу в khoj - створювати автоматичні джоби які раняться з якоюсь періодичністю, і ось дізнався що опенаі теж таке зробили.
Наприклад можна робити якесь маркет самарі S&P 500, або дайджест з контенту _akhaliq, або якийсь рекап з новин.
Цікаво, думаю якщо це підвʼязати ще до gpts, буде взагалі кльово. (можна буде пости не робити руцями🤔)
Офф пост від опенаі
❤1
Мені подобається Andrej Karpathy тим, що він іноді бере важкі концепти і реалізовує їх мінімальну версію. Наприклад NanoGPT, де він зарепродьюсив якість GPT2 на опенсорсних даних та всього 8 А100 нодах за 4 дні.
Але недавно (давно, але вони недавно тільки виклали код + модель) вийшов пейпр, де тіпи з Sony пішли з схожим челенджем і натренували свою діфузію (рівня SD1 - SD1.5), 1.16B параметрів, в 512 резолюшені всього за 1,890$ = 8 H100, 2.6 дні.
Трошки важливого про MicroDiT:
- Deferred Masking: нова стратегія маскування, де зображення попередньо обробляється patch-mixer, що дозволяє зберегти семантичну інформацію навіть при маскуванні до 75% пікселів.
- Mixture-of-Experts: кожен другий блок DiT має MoE слой
- Layer-wise Scaling: замість фіксованої ширини леерів трансформера, ширина збільшується у глибших леерах для моделінга більш важких фіч.
Про данні: вони використали всього 37М зображень: реальних (22M) і синтетичних (15M) зображень (JourneyDB + DiffusionDB)
———
Мені особисто зайшло те, як мінімально в них все ралізовано в коді, це ідеальний темплейт для того, щоб задизайнити свою модель:
- замість кліпа взяти UL2 + T5
- замість 4х канального VAE від SDXL, взяти більш крутий 16ти канальний, наприклад від FLUX
- трошки зробити ширше трансформер
- взяти більш якісний датасет
- охапку дров і сота готова
ArXiv
GitHub
HF
Про датасет
P.S. пейпер в них класний, все прозоро, купа деталей, дуже подобається коли розповідають прям все-все.
Але недавно (давно, але вони недавно тільки виклали код + модель) вийшов пейпр, де тіпи з Sony пішли з схожим челенджем і натренували свою діфузію (рівня SD1 - SD1.5), 1.16B параметрів, в 512 резолюшені всього за 1,890$ = 8 H100, 2.6 дні.
Трошки важливого про MicroDiT:
- Deferred Masking: нова стратегія маскування, де зображення попередньо обробляється patch-mixer, що дозволяє зберегти семантичну інформацію навіть при маскуванні до 75% пікселів.
- Mixture-of-Experts: кожен другий блок DiT має MoE слой
- Layer-wise Scaling: замість фіксованої ширини леерів трансформера, ширина збільшується у глибших леерах для моделінга більш важких фіч.
Про данні: вони використали всього 37М зображень: реальних (22M) і синтетичних (15M) зображень (JourneyDB + DiffusionDB)
———
Мені особисто зайшло те, як мінімально в них все ралізовано в коді, це ідеальний темплейт для того, щоб задизайнити свою модель:
- замість кліпа взяти UL2 + T5
- замість 4х канального VAE від SDXL, взяти більш крутий 16ти канальний, наприклад від FLUX
- трошки зробити ширше трансформер
- взяти більш якісний датасет
- охапку дров і сота готова
ArXiv
GitHub
HF
Про датасет
P.S. пейпер в них класний, все прозоро, купа деталей, дуже подобається коли розповідають прям все-все.
🔥9👍2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Adnrew Ng: AI Avatar
https://x.com/AndrewYNg/status/1879590674561110219 - лол, тут Adnrew написав та сказав що він втомився з усіма розмовляти про АІ, та заколабився з RealAvatar AI щоб зробити свого аватара з яким кожен може поговорити або початитись.
Цікаво чи там просто ллмка, чи вони підвʼязали якусь базу знань
Потестував, він прикольно задає різні питання, про які ти починаєш міркувати з ним і іноді навіть щось для себе розумієш. Але аватар виглядає трошки крінжово, не вистачає анімації коли він говорить з тобою, а респонси доволі surface level, типу фаново, але хз чи корисно.
https://x.com/AndrewYNg/status/1879590674561110219 - лол, тут Adnrew написав та сказав що він втомився з усіма розмовляти про АІ, та заколабився з RealAvatar AI щоб зробити свого аватара з яким кожен може поговорити або початитись.
Цікаво чи там просто ллмка, чи вони підвʼязали якусь базу знань
Потестував, він прикольно задає різні питання, про які ти починаєш міркувати з ним і іноді навіть щось для себе розумієш. Але аватар виглядає трошки крінжово, не вистачає анімації коли він говорить з тобою, а респонси доволі surface level, типу фаново, але хз чи корисно.
😁3
Останнім часом багато говорять про LLM-агентів🤖, і я доволі активно з ними працюю, тому ось трохи зібрав матеріалу від антропік по цій темі:
1. Cookbook
У Anthropic є кукбук, де вони дають купу прикладів, як працювати з тулами, vision-модельками і т.д. Але, на жаль, там майже нічого немає про reasoning-модельки.
2. Промптинг
У них є документація про те, як писати промпти. Це дуже важлива навичка, якщо плануєте працювати з агентами.
Якщо вам ліньки писати свої промпти, ось три варіанти:
- Prompt Generator: є готовий генератор промптів (Anthropic Dashboard), який працює за їхніми гайдами.
- Prompt Improver: можна написати частину промпту і потім допилити його через їхній Prompt Improver (тут же).
- Cursor + Docs: можна скористатися Cursor і додати документацію (гайд).
3. Блог про агентів
Є дуже свіженький блог пост (Building Effective Agents), де пояснюють різницю між:
Workflow-системами: із попередньо визначеними шляхами виконання, де LLM та тули працюють за фіксованими сценаріями.
Агентами: системами, де LLM самостійно керує процесом, динамічно обираючи інструменти й стратегії.
Там же є приклади, як це працює на практиці.
4. Model-Context-Protocol
Вони активно розвивають Model-Context-Protocol. Я про це писав раніше, але за останні два місяці вони зробили великий прогрес. Ідея — уніфікувати протокол комунікації LLM із контекстом через тули. По суті, це фреймворк для оркестрації агентів або workflow.
Я та моя команда активно користуємося їхнім гайденсом - поки їх поради значно покращили якість наших агентів. Якщо у вас теж є якісь лінки на статті, фреймворки або будь-що на цю тему, покидайте, плз
1. Cookbook
У Anthropic є кукбук, де вони дають купу прикладів, як працювати з тулами, vision-модельками і т.д. Але, на жаль, там майже нічого немає про reasoning-модельки.
2. Промптинг
У них є документація про те, як писати промпти. Це дуже важлива навичка, якщо плануєте працювати з агентами.
Якщо вам ліньки писати свої промпти, ось три варіанти:
- Prompt Generator: є готовий генератор промптів (Anthropic Dashboard), який працює за їхніми гайдами.
- Prompt Improver: можна написати частину промпту і потім допилити його через їхній Prompt Improver (тут же).
- Cursor + Docs: можна скористатися Cursor і додати документацію (гайд).
3. Блог про агентів
Є дуже свіженький блог пост (Building Effective Agents), де пояснюють різницю між:
Workflow-системами: із попередньо визначеними шляхами виконання, де LLM та тули працюють за фіксованими сценаріями.
Агентами: системами, де LLM самостійно керує процесом, динамічно обираючи інструменти й стратегії.
Там же є приклади, як це працює на практиці.
4. Model-Context-Protocol
Вони активно розвивають Model-Context-Protocol. Я про це писав раніше, але за останні два місяці вони зробили великий прогрес. Ідея — уніфікувати протокол комунікації LLM із контекстом через тули. По суті, це фреймворк для оркестрації агентів або workflow.
Я та моя команда активно користуємося їхнім гайденсом - поки їх поради значно покращили якість наших агентів. Якщо у вас теж є якісь лінки на статті, фреймворки або будь-що на цю тему, покидайте, плз
🔥21
шось про ai
Є дуже свіженький блог пост (Building Effective Agents)
Слово дня, яке я дізнався з цього поста: Poka-yoke - робіть свій флоу в агентах так, щоб ллмці було дуже важко зробити помилки в аутпутах, або тул колі🧐
👍5
Microsoft AutoGen
Це open-source фреймворк для створення AI-агентів та їхньої взаємодії, протипоставлення langchain.
Він надає три рівні абстракції:
Core | Docs:
На найнижчому рівні знаходиться Core — основа, на якій будується все інше. Він забезпечує асинхронність між агентами, надає інструменти для скейлінгу, базові абстракції інтеракції з ллмками і т.д. Дозволяє будувати event-driven агентів з можливістю нормального дебагу (це коли ви бачите інтеракцію між агентами в логах дуже прозоро, з усіма трейсами, івент-айдішками і т.п.).
AgentChat | Docs:
Високорівневий API, який спрощує створення агентів. Надає готові компоненти для побудови як одиночних, так і мультиагентних систем, дозволяючи агентам спілкуватися між собою та з користувачами, менеджити стейт (наприклад, пам’ять), послідовність виклику та оркестрацію агентів. Якщо ви знайомі з LangChain, то в них є AgentExecutor або Chain абстракції. Вони наприклад побудовані на LangChain-core.
Applications:
На найвищому рівні розташовані готові апки, такі як Magentic-One та AutoGen Studio.
Magentic-One | Docs | Post: Це мультиагентна система, здатна виконувати комплексні завдання, такі як робота з вебом, файлами, запуск коду. Вона включає оркестратора, який планує та координує дії агентів, що можуть виконувати код, завантажувати файли, сьорфити веб. Це фактично демо AutoGen, тому якщо ви хочете побачити, на що здатний цей фреймворк, раджу почати саме з цього.
AutoGen Studio | Docs | Post: Інтерфейс із низьким порогом входу, який дозволяє швидко прототипувати AI-агентів без написання коду. Він надає можливість створювати та тестувати агентів у зручному UI поєднуючи блоки як в лего. Однак наразі його функціональність обмежена через невелику кількість доступних блоків, тому я десь через 10 хвилин відпав і поліз у код.
Мій досвід:
Я спробував їх приклади, і мене зачепив web surfer agent з їх рідмі. Це не звичайний скрапер, він рендерить UI браузера (дивиться скрін), може інтерактувати з елементами, є якийсь різонінг з хуманом в лупі.
Спочатку не дуже працювало: я просив його піти на сторінку GitHub і знайти приклади агентів, побудованих на цьому фреймворку. Він фейлив. Я трохи переписав систем-промпти, погрався з дебагом, і все запрацювало.
Найбільше сподобалося дебажити. Мені здається, LangChain-у варто брати приклад з AutoGen. Завдяки їх event-driven архітектурі в них ультра крутий трейсінг логів. Під капотом все дуже прозоро, хто та кого викликає, які параметри і т.д. що значно спрощує розуміння, що відбувається.
Класна штука, хз, чи перейдемо з LangChain, але в мене трошки задимилась шишка на це, то думаю ще тестити. Єдине, що трохи відштовхує — це той факт, що це Microsoft enterprise edition. У них мільйон абстракцій, треба окремий курс, щоб розібратися, що це, навіщо і як із цим працювати)
Post
GitHub
Docs
Це open-source фреймворк для створення AI-агентів та їхньої взаємодії, протипоставлення langchain.
Він надає три рівні абстракції:
Core | Docs:
На найнижчому рівні знаходиться Core — основа, на якій будується все інше. Він забезпечує асинхронність між агентами, надає інструменти для скейлінгу, базові абстракції інтеракції з ллмками і т.д. Дозволяє будувати event-driven агентів з можливістю нормального дебагу (це коли ви бачите інтеракцію між агентами в логах дуже прозоро, з усіма трейсами, івент-айдішками і т.п.).
AgentChat | Docs:
Високорівневий API, який спрощує створення агентів. Надає готові компоненти для побудови як одиночних, так і мультиагентних систем, дозволяючи агентам спілкуватися між собою та з користувачами, менеджити стейт (наприклад, пам’ять), послідовність виклику та оркестрацію агентів. Якщо ви знайомі з LangChain, то в них є AgentExecutor або Chain абстракції. Вони наприклад побудовані на LangChain-core.
Applications:
На найвищому рівні розташовані готові апки, такі як Magentic-One та AutoGen Studio.
Magentic-One | Docs | Post: Це мультиагентна система, здатна виконувати комплексні завдання, такі як робота з вебом, файлами, запуск коду. Вона включає оркестратора, який планує та координує дії агентів, що можуть виконувати код, завантажувати файли, сьорфити веб. Це фактично демо AutoGen, тому якщо ви хочете побачити, на що здатний цей фреймворк, раджу почати саме з цього.
AutoGen Studio | Docs | Post: Інтерфейс із низьким порогом входу, який дозволяє швидко прототипувати AI-агентів без написання коду. Він надає можливість створювати та тестувати агентів у зручному UI поєднуючи блоки як в лего. Однак наразі його функціональність обмежена через невелику кількість доступних блоків, тому я десь через 10 хвилин відпав і поліз у код.
Мій досвід:
Я спробував їх приклади, і мене зачепив web surfer agent з їх рідмі. Це не звичайний скрапер, він рендерить UI браузера (дивиться скрін), може інтерактувати з елементами, є якийсь різонінг з хуманом в лупі.
Спочатку не дуже працювало: я просив його піти на сторінку GitHub і знайти приклади агентів, побудованих на цьому фреймворку. Він фейлив. Я трохи переписав систем-промпти, погрався з дебагом, і все запрацювало.
Найбільше сподобалося дебажити. Мені здається, LangChain-у варто брати приклад з AutoGen. Завдяки їх event-driven архітектурі в них ультра крутий трейсінг логів. Під капотом все дуже прозоро, хто та кого викликає, які параметри і т.д. що значно спрощує розуміння, що відбувається.
Класна штука, хз, чи перейдемо з LangChain, але в мене трошки задимилась шишка на це, то думаю ще тестити. Єдине, що трохи відштовхує — це той факт, що це Microsoft enterprise edition. У них мільйон абстракцій, треба окремий курс, щоб розібратися, що це, навіщо і як із цим працювати)
Post
GitHub
Docs
🔥10👍5👀1🗿1
Цікаво чи в них реально є розуміння про агі, чи сама хайпу нагоняє?)
А от про агентів факт, їх стає все простіше робити і вони починають нарешті бути практичними, 2025 буде дуже цікавий в цьому напрямку
https://blog.samaltman.com/reflections
А от про агентів факт, їх стає все простіше робити і вони починають нарешті бути практичними, 2025 буде дуже цікавий в цьому напрямку
https://blog.samaltman.com/reflections
👍5
This media is not supported in your browser
VIEW IN TELEGRAM
AI Agent для створення мемів
Доволі забавний та крутий приклад веб серф агента, який ходить по imgflip, знаходить темплейт який краще підходить для тексту який ви надали, генерить допис та скидає вам готовий мем.
Під капотом в них stagehand велика частина якого основана на tarsier — лібки для віжен інтеракції ллм агентів з вебом.
https://www.brainrot.run/
Доволі забавний та крутий приклад веб серф агента, який ходить по imgflip, знаходить темплейт який краще підходить для тексту який ви надали, генерить допис та скидає вам готовий мем.
Під капотом в них stagehand велика частина якого основана на tarsier — лібки для віжен інтеракції ллм агентів з вебом.
https://www.brainrot.run/
👍6
This media is not supported in your browser
VIEW IN TELEGRAM
Kokoro-82M
Відносно нова Text-To-Speech модель, яку нещодавно опенсорснули. Має всього 82М параметрів, в мене на маці м4 за 1 секунду генерує 10 секунд аудіо.
В доступі є багато войсів, які доречі можна легко міксувати між собою і виходить доволі непогано. Не вистачає емоцій, типу сміх наприклад, або якоїсь динаміки войсу. Але щоб ASMR про трансформери генерити вистачає з головою)
З мов доступні тільки такі поки: en-US, en-GB, fr-FR, ja-JP, ko-KR, zh-CN
Я взяв клод, сгенерував скрипт, закинув в цю модельку і отримав оцей контент що ви бачите
Моделька тут: https://huggingface.co/hexgrad/Kokoro-82M
Демку потикати можна тут: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
Відносно нова Text-To-Speech модель, яку нещодавно опенсорснули. Має всього 82М параметрів, в мене на маці м4 за 1 секунду генерує 10 секунд аудіо.
В доступі є багато войсів, які доречі можна легко міксувати між собою і виходить доволі непогано. Не вистачає емоцій, типу сміх наприклад, або якоїсь динаміки войсу. Але щоб ASMR про трансформери генерити вистачає з головою)
З мов доступні тільки такі поки: en-US, en-GB, fr-FR, ja-JP, ko-KR, zh-CN
Я взяв клод, сгенерував скрипт, закинув в цю модельку і отримав оцей контент що ви бачите
Моделька тут: https://huggingface.co/hexgrad/Kokoro-82M
Демку потикати можна тут: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
👍8❤2🔥2