шось про ai
735 subscribers
98 photos
22 videos
87 links
МЛ дюд, ex Reface ML engineer, зараз Lead ML в Limitless Labs, роблю стаф в крипті, до цього багато літав в 3д компьютерному зорі, робив купу ген аі в computer vision та language models.

Якщо шо, пишіть: @daniel_kovalenko
Download Telegram
Foundations of LLMs

Може комусь теж буде цікаво, знайшов 200+ сторінок детального розбору всього, що стосується ллмок. Такий собі повний гайд від базових концептів до більш адванс технік.

Вона розбита на 4 великі розділи:

- Pre-training: decoder-only, encoder-only, encoder-decoder
- Generative Models: трейн, файнтюн, scaling laws. Багато контенту про long sequence modeling - рішенням проблеми контекстного вікна через оптимізацію архітектури, кешування та позішенал енкодінгу.
- Prompting: chain of thought, problem decomposition, self-refinement, ensembling, RAG, tool usage
- Alignment: SFT, RLHF, DPO

Ми поки тренувати нічого не плануємо, може тільки файнтюнити, тому для мене тут цікаво почитати про алайнмент, промптінг, та як довгий контекст отримати - бо саме ці три компоненти є ключовими для агентів.

Почитати можна тут
👍9🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Data Science Agent від Google

AI-помічник, який автоматично аналізує дані в колабі. Після тестування з грудня 2024, тепер доступний всім.
Агент не просто генерує код, а й виконує його та виправляє помилки.

Завантажуєте файл (до 1ГБ), задаєте питання, отримуєте готовий аналіз. Підтримує весь цикл: від очистки даних до моделювання.

Хз, чатжпт вже давно це робить наче нормально, але прикольно що воно робить фул цикл.

Colab Notebook Create Link
👍3
Aya Vision by CohereForAI

Нова лінійка VLM (vision-language models) 8B та 32B з вагами у відкритому доступі (але NonCommercial ліцензія).

Комбінація SigLIP2-patch14-384 для обробки зображень + мультимовна LLM (для 8B це Command R7B, для 32B - Aya Expanse 32B). Доволі класичний віжен тавер: може приймати до 12 тайлів, 364x364px кожен - тобто може хавати 1456x1092 або 1092x1456 максимум.

По результатах:

- 32B моделька краще моделей вдвічі більшого розміру (Llama-3.2 90B Vision, Qwen2.5-VL 72B) на більше ніж 50% на AyaVisionBench
- 8B модель краще конкурентів у своєму класі (Qwen2.5-VL 7B, Pixtral 12B, Gemini Flash 1.5 8B) з win rate до 79%

Вони також багато стейтять що це одна з перших влмок яка підтримує багато мов (23 шутки):
English, French, Spanish, Italian, German, Portuguese, Japanese, Korean, Arabic, Chinese (Simplified and Traditional), Russian, Polish, Turkish, Vietnamese, Dutch, Czech, Indonesian, Ukrainian, Romanian, Greek, Hindi, Hebrew, and Persian.


Де подивитись:
Blog post
8B Checkpoint
32B Checkpoint
Colab Inference Example
6
LADDER

Learning through Autonomous Difficulty-Driven Example Recursion - метод який дозволяє ллмкам самостійно покращувати свої здібності через рекурсивну декомпозицію складних задач на простіші варіанти:

- Для кожної складної задачі модель створює кілька простіших варіантів, формуючи природний градієнт складності
- Процес продовжується рекурсивно: кожен варіант породжує ще простіші підваріанти
- Модель поступово розв'язує прості задачі, використовуючи їх як сходинки до складніших
- Весь процес перевіряється за допомогою верифікатора (в їхньому випадку - числового інтегрування)

В прикладах автори працювали з інтегралами, бо їх легко верифікувати, та декомпозувати.

По результатам:
- Покращили точність Llama 3.2 3B з 1% до 82% на університетському рівні задач з інтегрування
- Qwen2.5 7B Deepseek-R1 Distilled досягла 73% на відбірковому турі MIT Integration Bee

Також автори представили TTRL (Test-Time Reinforcement Learning) - це підхід, при якому модель під час інференсу генерує ~800 варіантів тестової задачі (тобто розбиває важку, на більш прості), проводить на них 100 кроків RL, і лише потім дає відповідь.

З TTRL модель досягла 90% на тому ж MIT Integration Bee, обігнавши openai o1

Єдине що мені поки що не подобається, що це працює тільки на задачах де є можливість перевірки (competitive programming, formal mathematics, planning tasks). Але не понятно як це заскейлити.

Почитати можна тут.
👍2🔥2
MCP в Cursor

Курсор нещодавно оновився, і тепер підтримує MCP (Model Context Protocol) від Anthropic. Це означає, що код-агент тепер може напряму використовувати зовнішні інструменти, які ви cамі зробите.

Як це працює:

- Ви пишете власний тул, який відповідає специфікації MCP (або берете його з якогось маркетплейсу тулів, як цей)
- Хостите його як MCP-сервер (локально або в хмарі)
- Підключаєте його до Cursor у налаштуваннях

З прикольного:
- Хочете щоб агент міг керувати докер-контейнерами? Загорніть Docker CLI в MCP сервер.
- Треба траверсити комміти у вашій репі? MCP тул для взаємодії з Git.
- Потрібен доступ до даних з Notion? Напишіть MCP-обгортку над Notion API.

Ключова фішка тут в тому, що це протокол який уніфікує комунікацію між агентом та тулами, та більшість фреймворків, код тулів, ллм провайдерів починають додавати інтеграції з цим протоколом, даючі комьюніті можливість скейлити потенціал агентів через тул маркетплейси.

Для Cursor це відкриває нові можливості: агент може тепер не просто писати код, а й взаємодіяти з зовнішнім світом через тули. Можна створити тули для моніторингу перформансу, управління CI/CD, або для розгортання інфраструктури.

Технічно, MCP працює через REST API з простим JSON форматом. Документація доволі проста, SDK є для Python та TypeScript. Можна накидати простий MCP сервер за годину-дві.

Сорси:
Дока від антропік
Оновлення курсору
🔥4👍3
The Anthropic Economic Index

Anthropic проаналізували понад 4 мільйони розмов з Claude, щоб зрозуміти, як AI використовується в різних професійних сферах.

Комп'ютерні та математичні професії домінують у використанні AIшки - 37.2% всіх запитів.

На другому місці - мистецтво, дизайн та медіа з 10.3% запитів. Це переважно контент кріейшн, копірайтінг та маркетинг.

Цікаво, що використання AI має чіткий патерн по зарплатам - пік використання в професіях з середньо-високими зарплатами ($50,000-125,000), а на обох кінцях спектру (низькооплачувані та дуже високооплачувані посади) використання помітно нижче.

З прикольного:
- Лише ~4% професій використовують AI для 75%+ своїх задач
- ~36% професій використовують AI хоча б для чверті задач
- 57% взаємодій з AI є аугментативними (покращують людські здібності), а 43% - автоматизаційними (замінюють людську роботу)

Короче, поки що AI здебільшого доповнює роботу людей, а не повністю замінює її. Масштабна автоматизація цілих професій - поки що не реальність, але певні задачі в багатьох сферах вже зараз можуть виконуватись AI.

Почитати можна тут:
ArXiv
Їх постик

Взагалі старенький пост (вже місяць пройшов), але щось останні дні мало чого несеться, тому вирішив почитати щось з минулого
👍15
New tools for building agents

OpenAI дуже не хочуть відставати від антропік по агентах, тому релізнули величезне оновлення свого апі.

Що цікавого:
- Responses API - новий апі-примітив, який поєднав Chat Completions із можливостями використання тулів від Assistants API. Короче тепер за один запит можна і тули виконати і комлпішен зробити (раніше було за два). Assistants API буде депрікейтнут десь в середині 2026.

Додали тули:
- Web search - пошук з цитатами та посиланнями. На бенчмарку SimpleQA дає 90% точності для GPT-4o і 88% для GPT-4o mini.
- File search - тул для пошуку в документах з підтримкою різних форматів, метаданих та фільтрації.
- Computer use - aka OPERATOR, aka CUA, почитати можна тут. Але тут вони дали саме апі, то можна буде через код дьоргати браузер та шукати інфу.

Також вони оновили свій фреймворк для створення та оркестрації агентів і назвали її Agents SDK: додали прикольні моніторінг тули, прості інтерфейси для створення тулів, меморі, ноледжу і всього цього агентського.

По костах:

- Web search: $35 за тисячу запитів для GPT-4o і $27.5 для GPT-4o mini
- File search: $2.50 за тисячу запитів + $0.10 ГБ/день за зберігання (перший ГБ безкоштовно)
- Computer use: $3/1M інпут токенів і $12/1M аутпут токенів

Бтв, якщо хтось не знав, но вони ще підтримують Code Interpreter тул, він дозволяє агенту ранити код за $0.03/сесію.

Почитати/подивитись можна тут:
Blog Post
YouTube
👍4
PORTAL

PORTAL (Policy Optimization and Reasoning for Tactical Artificial Learning) - це метод від Tencent, який дозволяє AI-агентам грати в тисячі різних ігор без класичного RL тренування.

Як воно працює: замість тренування нейронок безпосередньо у грі llm-ки заздалегідь генерують "дерева поведінки" (behavior trees) у спеціальній мові (DSL). Ці дерева потім запускаються в іграх і покращуються на основі фідбек лупа (числові метрики гри + Vision-Language аналіз)

Прикол методу в тому, що грає вже не сама ллмка, а створені нею behavior trees - по суті набори правил і умов, що значно зменшує обчислювальні витрати та робить систему zero-latency. Але повністю без нейронок теж не обійшлось - вони є в окремих вузлах дерева (наприклад, прості fully-connected або convolutional нейронки для руху між перешкодами чи стрільби). Вони тренуються заздалегідь на вузьких задачах.

Цікава гібридна історія: поєднує силу LLM для стратегічного планування з ефективністю rule-based дерев та мікро нейронок.

Це ж вони в ігри грали, а шо якщо робити те саме, тільки з роботікс? Думаю тут буде прикольний інтерсекшн

Коду нема, є тільки пейпр =(

Дивитись тут:
Project Page
Paper
👍15
Thera: Super-resolution with Neural Heat Fields

Коли я працював в рефейсі, ми багато всього робили в computer vision: намагались зробити 3д портрети, різні рієнактменти, рефейси і т.д. А ще ми робили супер резолюшен, це дуже цікава задача насправді, якщо треба отримати: а) маленьку модель здатну до ріал тайм інференсу, б) в вас не великий датасет.

Дослідники з ETH Zurich запропонували Thera - перший метод для arbitrary-scale супер-резолюшена, який розв'язує проблему аліасінгу елегантним способом.

Що цікавого:
- Замість стандартних нейронних мереж, Thera використовує спеціальну архітектуру neural heat fields, яка представляє зображення як набір синусоїдальних компонентів різної частоти замість дискретного піксель гріда.
- При масштабуванні зображення модель просто регулює вплив цих компонентів залежно від їхньої частоти - високочастотні деталі автоматично згладжуються при зменшенні, або зберігаються при збільшенні
- Результати: навіть найменша версія (8К параметрів) змагається з монстрами в 50-100 разів більшими, ну і так, це SOTA.

Зараз, коли всі роблять ставку на великі моделі і гігантські датасети, такі елегантні математично обгрунтовані рішення доводять, що іноді розумніше працює краще ніж більше. Саме такі нетривіальні підходи мені особисто значно цікавіші, ніж yet-another гігантський трансформер.

Моделей є декілька варіантів:
8k, 1.4M, 4.63M параметрів. Всі є в доступі + Apache 2.0 ліцензія.

(якщо шо, картинка на демці це 72х72px з апскейлом в 6 разів)

ArXiv
Project Page
Demo
GitHub
👍11👀1
Зараз весь твітер гудить від openai генерації зображень. Вирішив потестити, моєї фантазії вистачило тільки для цього)

Доречі картинки можна генерити не тільки в чаті з чатжпт, а ще й в юайці сори, але там можна більше налаштувань ставити + більше картинок за раз генерити.

Тицяти тут
😁5👍2
M-Attack: понад 90% успіху в атаках на GPT-4.5/4o/o1, Claude, Gemini

Що таке adversarial attack (також дивиться картинку з пандою, вона пояснює про що пост):
An adversarial example is an instance with small, intentional feature perturbations that cause a machine learning model to make a false prediction. - Interpretable Machine Learning


Проблема традиційних підходів адверсаріал атак полягає в тому, що вони генерують рівномірний шум без структури. Аналіз невдалих атак показує, що black-box моделі або повністю ігнорують такі пертубації, або дають розмиті відповіді типу "абстрактне зображення".

Що пропонують автори:

1. Local-level Matching: замість глобальної оптимізації всього зображення вони:
- Роблять випадковий кроп області сорс зображення (50-100% площі)
- Ресайзять цю область назад до оригінального розміру та пускають градієнти на цей кроп
- Максимізують подібність ембедингу цієї локальної області з таргет зображенням. Потім вставляють назад в сорс зображення.
- І так купу разів (~300)

2. Model Ensemble: використовують кілька CLIP-моделей з різним розміром патчів для кращого захоплення як дрібних деталей, так і загальної структури

Ключова ідея – заенкодити семантику таргет зображення саме в локальних областях, особливо в центральній частині. Після кількох ітерацій, центральна область сорс зображення починає проявляти семантику таргет зображення, при цьому збереження пертубацій майже непомітними (бо там купа констреінтів).

По результатах:

95% успіху на GPT-4.5 та GPT-4o, 94% на o1, і навіть 81% на Gemini Flash-thinking. При цьому, відповіді моделей максимально точно відтворюють опис таргет зображення, а не просто згадують одне-два слова.

Сорси:
ArXiv
GitHub
Adversarial Examples (для того, щоб зрозуміти що автори енкодили в ці картинки, дивиться цей файлик)
🔥8
🐱🖼

Грався з різніми форматами промпту, цікаво як воно працює. Наприклад як воно парсить такі тексти на рівні токенізатора перед тим як подавати в ллмку?
👀5