AI progress is about to speed up
by Ege Erdil from Epoch AI
Почитав цікавий пост, що варто очікувати в 2025 в AI філді і чому розвиток ллмок значно прискориться.
Чому:
GPT-4 в березні 2023 був революційним: 10x компьют скейл ап порівняно з попередніми моделями. Після цього всі топові моделі (крім Grok 3) тренувались з компьют бюджетом як у GPT-4 або менше. Наприклад, Dario Amodei (ceo Anthropic) казав, що Claude 3.5 Sonnet коштував десятки мільйонів доларів (це приблизно 2x компьюту від GPT-4). Але починаючи з Grok 3, нове покоління моделей буде тренуватись на ~100K H100s. Це дасть 10-100x компью скейлу порівняно з GPT-4, особливо для різонінг RL трейну.
Чому раніше була стагнація:
Здебільшого це тому, що AI лаби чекали покращення алгоритмів, треба був час на хардвар оптимізації, складно було організувати доступ до такої кількості гпу, клауд провайдери повинні були побудувати більші датацентри.
Кейс з Grok 3:
Це перша next gen модель з таким скейлом, але геп між нею і Claude 3.5 Sonnet менший, ніж був між GPT-4 і GPT-3.5, це тому, що xAI відстає в своїх алгоритмах від OpenAI/Anthropic/Google. Однак, сам факт, що Grok 3 показує мінінгфул покращення над Grok 2 (який був на рівні GPT-4 по компьюту), говорить що скейлінг працює.
Що це значить для користувачів:
- API ціни виростуть в 2-3x
- Швидкість інференсу впаде приблизно в 2x на старті
- Але це покращиться протягом року завдяки новому хардверу та алгоритмам
Що очікувати по юзкейсам:
- Programming: рівень кіборг людей в компететів програмінг, SWEBench ~90%, але складні проєкти все ще проблема
- Math: FrontierMath ~75%, вже реальна допомога в ресьорчі, але не самостійні відкриття
- Agents: прогрес в простих задачах (букінг, парсинг, пошук, ресьорч) - тобто оператор на o3 буде вже прям дуже гарним, а далі взагалі буде вирішувати всі ваші запити)
Здебільшого варто очікувати набагато довший контекст який модельки зможуть хавати, кращу агентність, планінг, різонінг і оце все, що ми так любимо в агентах.
Думаю з цим такі тули як курсор стануть ще більш корисними, так, ми не зможемо писати великі проекти з нуля, але думаю продукти будуть ітеруватись 2х-3х швидше. То виходить кінець 2025 можливо буде відчуватись як політ на луну, а 2026, можливо, як на марс)
Статтю можна почитати тут: лінк
Ще раджу глянути ці дві:
Trends in GPU Price-Performance
Moravec’s paradox and its implications
by Ege Erdil from Epoch AI
Почитав цікавий пост, що варто очікувати в 2025 в AI філді і чому розвиток ллмок значно прискориться.
Чому:
GPT-4 в березні 2023 був революційним: 10x компьют скейл ап порівняно з попередніми моделями. Після цього всі топові моделі (крім Grok 3) тренувались з компьют бюджетом як у GPT-4 або менше. Наприклад, Dario Amodei (ceo Anthropic) казав, що Claude 3.5 Sonnet коштував десятки мільйонів доларів (це приблизно 2x компьюту від GPT-4). Але починаючи з Grok 3, нове покоління моделей буде тренуватись на ~100K H100s. Це дасть 10-100x компью скейлу порівняно з GPT-4, особливо для різонінг RL трейну.
Чому раніше була стагнація:
Здебільшого це тому, що AI лаби чекали покращення алгоритмів, треба був час на хардвар оптимізації, складно було організувати доступ до такої кількості гпу, клауд провайдери повинні були побудувати більші датацентри.
Кейс з Grok 3:
Це перша next gen модель з таким скейлом, але геп між нею і Claude 3.5 Sonnet менший, ніж був між GPT-4 і GPT-3.5, це тому, що xAI відстає в своїх алгоритмах від OpenAI/Anthropic/Google. Однак, сам факт, що Grok 3 показує мінінгфул покращення над Grok 2 (який був на рівні GPT-4 по компьюту), говорить що скейлінг працює.
Що це значить для користувачів:
- API ціни виростуть в 2-3x
- Швидкість інференсу впаде приблизно в 2x на старті
- Але це покращиться протягом року завдяки новому хардверу та алгоритмам
Що очікувати по юзкейсам:
- Programming: рівень кіборг людей в компететів програмінг, SWEBench ~90%, але складні проєкти все ще проблема
- Math: FrontierMath ~75%, вже реальна допомога в ресьорчі, але не самостійні відкриття
- Agents: прогрес в простих задачах (букінг, парсинг, пошук, ресьорч) - тобто оператор на o3 буде вже прям дуже гарним, а далі взагалі буде вирішувати всі ваші запити)
Здебільшого варто очікувати набагато довший контекст який модельки зможуть хавати, кращу агентність, планінг, різонінг і оце все, що ми так любимо в агентах.
Думаю з цим такі тули як курсор стануть ще більш корисними, так, ми не зможемо писати великі проекти з нуля, але думаю продукти будуть ітеруватись 2х-3х швидше. То виходить кінець 2025 можливо буде відчуватись як політ на луну, а 2026, можливо, як на марс)
Статтю можна почитати тут: лінк
Ще раджу глянути ці дві:
Trends in GPU Price-Performance
Moravec’s paradox and its implications
👍8🔥2🥰1
Доречі, там діпсік розганяє хайп, некст тиждень походу будуть щось релізити, обіцяють опенсорснути 5 реп. Чи варто опенаі та решті гравцям приготуватись?)
Твіт
Твіт
🔥8
Claude-3.7-sonnet сьогодні ввечорі, завтра в курсорі?
В твіттері якісь вкиди, що сьогодні начебто антропік релізнуть свою нову модельку. Не понятно поки нічого, залишається тільки спостерігати👀
Сорс вкиду
В твіттері якісь вкиди, що сьогодні начебто антропік релізнуть свою нову модельку. Не понятно поки нічого, залишається тільки спостерігати👀
Сорс вкиду
👀7👍2
Claude 3.7 Sonnet (та Claude Code анонс)
Антропік викотили нову модельку і вона вже доступна всім! Claude 3.7 Sonnet перша гібридна різонінг модель на ринку, яка може видавати як миттєві відповіді, так і покроковий різонінг.
Що цікавого:
- Два режими в одній моделі: звичайний режим (як апгрейд 3.5 Sonnet) та режим "extended thinking", де модель думає перед відповіддю. Цей підхід відрізняється від конкурентів тим, що замість окремої моделі для різонінгу, вони інтегрували цю можливість в одну модель - я так думаю що це та сама модель, просто якось агентно зашейплена.
- Контроль над бюджетом різонінгу: в API можна вказати, скільки токенів модель може витратити на різонінг (до 128K токенів). Дуже прикольна ідея трейдофу між швидкістю, вартістю та якістю відповіді.
- Фокус на реальних задачах: на відміну від інших моделей, які оптимізують під математичні змагання та задачі з комп'ютерних наук, Claude 3.7 Sonnet робився під реальні бізнес-кейси - думаю вони так просто вибачились за не сота результати на цих бенчмарках)
- sota в кодінгу: на SWE-bench Verified модель показує 62.3% без додаткових фіч, що на ~13% краще за попередню версію та конкурентів (o1, o3-mini, DeepSeek R1). З додатковим скафолдінгом результат до ~70.3%.
З вартістю все як і раніше: $3 за мільйон вхідних токенів та $15 за мільйон вихідних (це з токенами за різонінг).
Походу ось вона, моделька на якій будуть купа агентів найближчим часом ранитись
Claude Code
Вони також анонсували свій перший агентний кодінг-тул, який доступний в обмеженому research preview. Це інструмент, що дозволяє ранити swe задачі прямо з терміналу.
Воно вміє шукати та читати код, редагувати файли, комітити і пушити код на github, використовувати консоль - короче такий собі computer use агент, треба чекати поки дадуть доступ і тестувати, а поки хз.
UPD: подивився відос, виглядає як просто курсор компоузер в терміналі)
Сорси:
Офф блог пост
Постик в твіторі
Виходить завтра вже в курсорі буде)
Антропік викотили нову модельку і вона вже доступна всім! Claude 3.7 Sonnet перша гібридна різонінг модель на ринку, яка може видавати як миттєві відповіді, так і покроковий різонінг.
Що цікавого:
- Два режими в одній моделі: звичайний режим (як апгрейд 3.5 Sonnet) та режим "extended thinking", де модель думає перед відповіддю. Цей підхід відрізняється від конкурентів тим, що замість окремої моделі для різонінгу, вони інтегрували цю можливість в одну модель - я так думаю що це та сама модель, просто якось агентно зашейплена.
- Контроль над бюджетом різонінгу: в API можна вказати, скільки токенів модель може витратити на різонінг (до 128K токенів). Дуже прикольна ідея трейдофу між швидкістю, вартістю та якістю відповіді.
- Фокус на реальних задачах: на відміну від інших моделей, які оптимізують під математичні змагання та задачі з комп'ютерних наук, Claude 3.7 Sonnet робився під реальні бізнес-кейси - думаю вони так просто вибачились за не сота результати на цих бенчмарках)
- sota в кодінгу: на SWE-bench Verified модель показує 62.3% без додаткових фіч, що на ~13% краще за попередню версію та конкурентів (o1, o3-mini, DeepSeek R1). З додатковим скафолдінгом результат до ~70.3%.
З вартістю все як і раніше: $3 за мільйон вхідних токенів та $15 за мільйон вихідних (це з токенами за різонінг).
Походу ось вона, моделька на якій будуть купа агентів найближчим часом ранитись
Claude Code
Вони також анонсували свій перший агентний кодінг-тул, який доступний в обмеженому research preview. Це інструмент, що дозволяє ранити swe задачі прямо з терміналу.
Воно вміє шукати та читати код, редагувати файли, комітити і пушити код на github, використовувати консоль - короче такий собі computer use агент, треба чекати поки дадуть доступ і тестувати, а поки хз.
UPD: подивився відос, виглядає як просто курсор компоузер в терміналі)
Сорси:
Офф блог пост
Постик в твіторі
Виходить завтра вже в курсорі буде)
👍3😱1
llama3 implemented from scratch
Натрапив на крутий репозиторій, де чувак імплементував LLaMA 3 з нуля. Якщо хочете зрозуміти як працюють ллмки під капотом - дуже раджу подивитись.
Це покроковий гайд, з детальним поясненням і картиночками, який відтворює всю архітектуру LLaMA 3, завантажуючи ваги і показуючи, як модель обробляє вхідний текст для генерації відповіді.
Там весь рецеп: токенізація, нормалізації, RoPE, KV-сache, атеншени і ще купа всього.
Дивитись можна тут:
GitHub
Натрапив на крутий репозиторій, де чувак імплементував LLaMA 3 з нуля. Якщо хочете зрозуміти як працюють ллмки під капотом - дуже раджу подивитись.
Це покроковий гайд, з детальним поясненням і картиночками, який відтворює всю архітектуру LLaMA 3, завантажуючи ваги і показуючи, як модель обробляє вхідний текст для генерації відповіді.
Там весь рецеп: токенізація, нормалізації, RoPE, KV-сache, атеншени і ще купа всього.
Дивитись можна тут:
GitHub
🔥17👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Scribe V1
ElevenLabs випустили Scribe - нову Speech-to-Text модель, яка є SOTA на ринку. Вона на 36.9% точніша за OpenAI Whisper V3 та на 5.6% за Gemini 2.0 Flash.
Є підтримка 99 мов (українська є). Модель може розрізняти голоси різних спікерів. Також вміє транскрибувати сміх, музику та різні фонові шуми.
По вартості: 0.4$/h аудіо + на наступні 6 тижнів буде знижка 50%.
UPD: не помітив, але воно безкоштовне до 9 квітня
Потицяти:
elevenlabs
blog post
tweet
ElevenLabs випустили Scribe - нову Speech-to-Text модель, яка є SOTA на ринку. Вона на 36.9% точніша за OpenAI Whisper V3 та на 5.6% за Gemini 2.0 Flash.
Є підтримка 99 мов (українська є). Модель може розрізняти голоси різних спікерів. Також вміє транскрибувати сміх, музику та різні фонові шуми.
По вартості: 0.4$/h аудіо + на наступні 6 тижнів буде знижка 50%.
UPD: не помітив, але воно безкоштовне до 9 квітня
Потицяти:
elevenlabs
blog post
tweet
👍5🔥2
Foundations of LLMs
Може комусь теж буде цікаво, знайшов 200+ сторінок детального розбору всього, що стосується ллмок. Такий собі повний гайд від базових концептів до більш адванс технік.
Вона розбита на 4 великі розділи:
- Pre-training: decoder-only, encoder-only, encoder-decoder
- Generative Models: трейн, файнтюн, scaling laws. Багато контенту про long sequence modeling - рішенням проблеми контекстного вікна через оптимізацію архітектури, кешування та позішенал енкодінгу.
- Prompting: chain of thought, problem decomposition, self-refinement, ensembling, RAG, tool usage
- Alignment: SFT, RLHF, DPO
Ми поки тренувати нічого не плануємо, може тільки файнтюнити, тому для мене тут цікаво почитати про алайнмент, промптінг, та як довгий контекст отримати - бо саме ці три компоненти є ключовими для агентів.
Почитати можна тут
Може комусь теж буде цікаво, знайшов 200+ сторінок детального розбору всього, що стосується ллмок. Такий собі повний гайд від базових концептів до більш адванс технік.
Вона розбита на 4 великі розділи:
- Pre-training: decoder-only, encoder-only, encoder-decoder
- Generative Models: трейн, файнтюн, scaling laws. Багато контенту про long sequence modeling - рішенням проблеми контекстного вікна через оптимізацію архітектури, кешування та позішенал енкодінгу.
- Prompting: chain of thought, problem decomposition, self-refinement, ensembling, RAG, tool usage
- Alignment: SFT, RLHF, DPO
Ми поки тренувати нічого не плануємо, може тільки файнтюнити, тому для мене тут цікаво почитати про алайнмент, промптінг, та як довгий контекст отримати - бо саме ці три компоненти є ключовими для агентів.
Почитати можна тут
👍9🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Data Science Agent від Google
AI-помічник, який автоматично аналізує дані в колабі. Після тестування з грудня 2024, тепер доступний всім.
Агент не просто генерує код, а й виконує його та виправляє помилки.
Завантажуєте файл (до 1ГБ), задаєте питання, отримуєте готовий аналіз. Підтримує весь цикл: від очистки даних до моделювання.
Хз, чатжпт вже давно це робить наче нормально, але прикольно що воно робить фул цикл.
Colab Notebook Create Link
AI-помічник, який автоматично аналізує дані в колабі. Після тестування з грудня 2024, тепер доступний всім.
Агент не просто генерує код, а й виконує його та виправляє помилки.
Завантажуєте файл (до 1ГБ), задаєте питання, отримуєте готовий аналіз. Підтримує весь цикл: від очистки даних до моделювання.
Хз, чатжпт вже давно це робить наче нормально, але прикольно що воно робить фул цикл.
Colab Notebook Create Link
👍3
Aya Vision by CohereForAI
Нова лінійка VLM (vision-language models) 8B та 32B з вагами у відкритому доступі (але NonCommercial ліцензія).
Комбінація SigLIP2-patch14-384 для обробки зображень + мультимовна LLM (для 8B це Command R7B, для 32B - Aya Expanse 32B). Доволі класичний віжен тавер: може приймати до 12 тайлів, 364x364px кожен - тобто може хавати 1456x1092 або 1092x1456 максимум.
По результатах:
- 32B моделька краще моделей вдвічі більшого розміру (Llama-3.2 90B Vision, Qwen2.5-VL 72B) на більше ніж 50% на AyaVisionBench
- 8B модель краще конкурентів у своєму класі (Qwen2.5-VL 7B, Pixtral 12B, Gemini Flash 1.5 8B) з win rate до 79%
Вони також багато стейтять що це одна з перших влмок яка підтримує багато мов (23 шутки):
Де подивитись:
Blog post
8B Checkpoint
32B Checkpoint
Colab Inference Example
Нова лінійка VLM (vision-language models) 8B та 32B з вагами у відкритому доступі (але NonCommercial ліцензія).
Комбінація SigLIP2-patch14-384 для обробки зображень + мультимовна LLM (для 8B це Command R7B, для 32B - Aya Expanse 32B). Доволі класичний віжен тавер: може приймати до 12 тайлів, 364x364px кожен - тобто може хавати 1456x1092 або 1092x1456 максимум.
По результатах:
- 32B моделька краще моделей вдвічі більшого розміру (Llama-3.2 90B Vision, Qwen2.5-VL 72B) на більше ніж 50% на AyaVisionBench
- 8B модель краще конкурентів у своєму класі (Qwen2.5-VL 7B, Pixtral 12B, Gemini Flash 1.5 8B) з win rate до 79%
Вони також багато стейтять що це одна з перших влмок яка підтримує багато мов (23 шутки):
English, French, Spanish, Italian, German, Portuguese, Japanese, Korean, Arabic, Chinese (Simplified and Traditional), Russian, Polish, Turkish, Vietnamese, Dutch, Czech, Indonesian, Ukrainian, Romanian, Greek, Hindi, Hebrew, and Persian.
Де подивитись:
Blog post
8B Checkpoint
32B Checkpoint
Colab Inference Example
❤6
LADDER
Learning through Autonomous Difficulty-Driven Example Recursion - метод який дозволяє ллмкам самостійно покращувати свої здібності через рекурсивну декомпозицію складних задач на простіші варіанти:
- Для кожної складної задачі модель створює кілька простіших варіантів, формуючи природний градієнт складності
- Процес продовжується рекурсивно: кожен варіант породжує ще простіші підваріанти
- Модель поступово розв'язує прості задачі, використовуючи їх як сходинки до складніших
- Весь процес перевіряється за допомогою верифікатора (в їхньому випадку - числового інтегрування)
В прикладах автори працювали з інтегралами, бо їх легко верифікувати, та декомпозувати.
По результатам:
- Покращили точність Llama 3.2 3B з 1% до 82% на університетському рівні задач з інтегрування
- Qwen2.5 7B Deepseek-R1 Distilled досягла 73% на відбірковому турі MIT Integration Bee
Також автори представили TTRL (Test-Time Reinforcement Learning) - це підхід, при якому модель під час інференсу генерує ~800 варіантів тестової задачі (тобто розбиває важку, на більш прості), проводить на них 100 кроків RL, і лише потім дає відповідь.
З TTRL модель досягла 90% на тому ж MIT Integration Bee, обігнавши openai o1
Єдине що мені поки що не подобається, що це працює тільки на задачах де є можливість перевірки (competitive programming, formal mathematics, planning tasks). Але не понятно як це заскейлити.
Почитати можна тут.
Learning through Autonomous Difficulty-Driven Example Recursion - метод який дозволяє ллмкам самостійно покращувати свої здібності через рекурсивну декомпозицію складних задач на простіші варіанти:
- Для кожної складної задачі модель створює кілька простіших варіантів, формуючи природний градієнт складності
- Процес продовжується рекурсивно: кожен варіант породжує ще простіші підваріанти
- Модель поступово розв'язує прості задачі, використовуючи їх як сходинки до складніших
- Весь процес перевіряється за допомогою верифікатора (в їхньому випадку - числового інтегрування)
В прикладах автори працювали з інтегралами, бо їх легко верифікувати, та декомпозувати.
По результатам:
- Покращили точність Llama 3.2 3B з 1% до 82% на університетському рівні задач з інтегрування
- Qwen2.5 7B Deepseek-R1 Distilled досягла 73% на відбірковому турі MIT Integration Bee
Також автори представили TTRL (Test-Time Reinforcement Learning) - це підхід, при якому модель під час інференсу генерує ~800 варіантів тестової задачі (тобто розбиває важку, на більш прості), проводить на них 100 кроків RL, і лише потім дає відповідь.
З TTRL модель досягла 90% на тому ж MIT Integration Bee, обігнавши openai o1
Єдине що мені поки що не подобається, що це працює тільки на задачах де є можливість перевірки (competitive programming, formal mathematics, planning tasks). Але не понятно як це заскейлити.
Почитати можна тут.
👍2🔥2
MCP в Cursor
Курсор нещодавно оновився, і тепер підтримує MCP (Model Context Protocol) від Anthropic. Це означає, що код-агент тепер може напряму використовувати зовнішні інструменти, які ви cамі зробите.
Як це працює:
- Ви пишете власний тул, який відповідає специфікації MCP (або берете його з якогось маркетплейсу тулів, як цей)
- Хостите його як MCP-сервер (локально або в хмарі)
- Підключаєте його до Cursor у налаштуваннях
З прикольного:
- Хочете щоб агент міг керувати докер-контейнерами? Загорніть Docker CLI в MCP сервер.
- Треба траверсити комміти у вашій репі? MCP тул для взаємодії з Git.
- Потрібен доступ до даних з Notion? Напишіть MCP-обгортку над Notion API.
Ключова фішка тут в тому, що це протокол який уніфікує комунікацію між агентом та тулами, та більшість фреймворків, код тулів, ллм провайдерів починають додавати інтеграції з цим протоколом, даючі комьюніті можливість скейлити потенціал агентів через тул маркетплейси.
Для Cursor це відкриває нові можливості: агент може тепер не просто писати код, а й взаємодіяти з зовнішнім світом через тули. Можна створити тули для моніторингу перформансу, управління CI/CD, або для розгортання інфраструктури.
Технічно, MCP працює через REST API з простим JSON форматом. Документація доволі проста, SDK є для Python та TypeScript. Можна накидати простий MCP сервер за годину-дві.
Сорси:
Дока від антропік
Оновлення курсору
Курсор нещодавно оновився, і тепер підтримує MCP (Model Context Protocol) від Anthropic. Це означає, що код-агент тепер може напряму використовувати зовнішні інструменти, які ви cамі зробите.
Як це працює:
- Ви пишете власний тул, який відповідає специфікації MCP (або берете його з якогось маркетплейсу тулів, як цей)
- Хостите його як MCP-сервер (локально або в хмарі)
- Підключаєте його до Cursor у налаштуваннях
З прикольного:
- Хочете щоб агент міг керувати докер-контейнерами? Загорніть Docker CLI в MCP сервер.
- Треба траверсити комміти у вашій репі? MCP тул для взаємодії з Git.
- Потрібен доступ до даних з Notion? Напишіть MCP-обгортку над Notion API.
Ключова фішка тут в тому, що це протокол який уніфікує комунікацію між агентом та тулами, та більшість фреймворків, код тулів, ллм провайдерів починають додавати інтеграції з цим протоколом, даючі комьюніті можливість скейлити потенціал агентів через тул маркетплейси.
Для Cursor це відкриває нові можливості: агент може тепер не просто писати код, а й взаємодіяти з зовнішнім світом через тули. Можна створити тули для моніторингу перформансу, управління CI/CD, або для розгортання інфраструктури.
Технічно, MCP працює через REST API з простим JSON форматом. Документація доволі проста, SDK є для Python та TypeScript. Можна накидати простий MCP сервер за годину-дві.
Сорси:
Дока від антропік
Оновлення курсору
🔥4👍3
The Anthropic Economic Index
Anthropic проаналізували понад 4 мільйони розмов з Claude, щоб зрозуміти, як AI використовується в різних професійних сферах.
Комп'ютерні та математичні професії домінують у використанні AIшки - 37.2% всіх запитів.
На другому місці - мистецтво, дизайн та медіа з 10.3% запитів. Це переважно контент кріейшн, копірайтінг та маркетинг.
Цікаво, що використання AI має чіткий патерн по зарплатам - пік використання в професіях з середньо-високими зарплатами ($50,000-125,000), а на обох кінцях спектру (низькооплачувані та дуже високооплачувані посади) використання помітно нижче.
З прикольного:
- Лише ~4% професій використовують AI для 75%+ своїх задач
- ~36% професій використовують AI хоча б для чверті задач
- 57% взаємодій з AI є аугментативними (покращують людські здібності), а 43% - автоматизаційними (замінюють людську роботу)
Короче, поки що AI здебільшого доповнює роботу людей, а не повністю замінює її. Масштабна автоматизація цілих професій - поки що не реальність, але певні задачі в багатьох сферах вже зараз можуть виконуватись AI.
Почитати можна тут:
ArXiv
Їх постик
Взагалі старенький пост (вже місяць пройшов), але щось останні дні мало чого несеться, тому вирішив почитати щось з минулого
Anthropic проаналізували понад 4 мільйони розмов з Claude, щоб зрозуміти, як AI використовується в різних професійних сферах.
Комп'ютерні та математичні професії домінують у використанні AIшки - 37.2% всіх запитів.
На другому місці - мистецтво, дизайн та медіа з 10.3% запитів. Це переважно контент кріейшн, копірайтінг та маркетинг.
Цікаво, що використання AI має чіткий патерн по зарплатам - пік використання в професіях з середньо-високими зарплатами ($50,000-125,000), а на обох кінцях спектру (низькооплачувані та дуже високооплачувані посади) використання помітно нижче.
З прикольного:
- Лише ~4% професій використовують AI для 75%+ своїх задач
- ~36% професій використовують AI хоча б для чверті задач
- 57% взаємодій з AI є аугментативними (покращують людські здібності), а 43% - автоматизаційними (замінюють людську роботу)
Короче, поки що AI здебільшого доповнює роботу людей, а не повністю замінює її. Масштабна автоматизація цілих професій - поки що не реальність, але певні задачі в багатьох сферах вже зараз можуть виконуватись AI.
Почитати можна тут:
ArXiv
Їх постик
Взагалі старенький пост (вже місяць пройшов), але щось останні дні мало чого несеться, тому вирішив почитати щось з минулого
👍15
New tools for building agents
OpenAI дуже не хочуть відставати від антропік по агентах, тому релізнули величезне оновлення свого апі.
Що цікавого:
- Responses API - новий апі-примітив, який поєднав Chat Completions із можливостями використання тулів від Assistants API. Короче тепер за один запит можна і тули виконати і комлпішен зробити (раніше було за два). Assistants API буде депрікейтнут десь в середині 2026.
Додали тули:
- Web search - пошук з цитатами та посиланнями. На бенчмарку SimpleQA дає 90% точності для GPT-4o і 88% для GPT-4o mini.
- File search - тул для пошуку в документах з підтримкою різних форматів, метаданих та фільтрації.
- Computer use - aka OPERATOR, aka CUA, почитати можна тут. Але тут вони дали саме апі, то можна буде через код дьоргати браузер та шукати інфу.
Також вони оновили свій фреймворк для створення та оркестрації агентів і назвали її Agents SDK: додали прикольні моніторінг тули, прості інтерфейси для створення тулів, меморі, ноледжу і всього цього агентського.
По костах:
- Web search: $35 за тисячу запитів для GPT-4o і $27.5 для GPT-4o mini
- File search: $2.50 за тисячу запитів + $0.10 ГБ/день за зберігання (перший ГБ безкоштовно)
- Computer use: $3/1M інпут токенів і $12/1M аутпут токенів
Бтв, якщо хтось не знав, но вони ще підтримують Code Interpreter тул, він дозволяє агенту ранити код за $0.03/сесію.
Почитати/подивитись можна тут:
Blog Post
YouTube
OpenAI дуже не хочуть відставати від антропік по агентах, тому релізнули величезне оновлення свого апі.
Що цікавого:
- Responses API - новий апі-примітив, який поєднав Chat Completions із можливостями використання тулів від Assistants API. Короче тепер за один запит можна і тули виконати і комлпішен зробити (раніше було за два). Assistants API буде депрікейтнут десь в середині 2026.
Додали тули:
- Web search - пошук з цитатами та посиланнями. На бенчмарку SimpleQA дає 90% точності для GPT-4o і 88% для GPT-4o mini.
- File search - тул для пошуку в документах з підтримкою різних форматів, метаданих та фільтрації.
- Computer use - aka OPERATOR, aka CUA, почитати можна тут. Але тут вони дали саме апі, то можна буде через код дьоргати браузер та шукати інфу.
Також вони оновили свій фреймворк для створення та оркестрації агентів і назвали її Agents SDK: додали прикольні моніторінг тули, прості інтерфейси для створення тулів, меморі, ноледжу і всього цього агентського.
По костах:
- Web search: $35 за тисячу запитів для GPT-4o і $27.5 для GPT-4o mini
- File search: $2.50 за тисячу запитів + $0.10 ГБ/день за зберігання (перший ГБ безкоштовно)
- Computer use: $3/1M інпут токенів і $12/1M аутпут токенів
Бтв, якщо хтось не знав, но вони ще підтримують Code Interpreter тул, він дозволяє агенту ранити код за $0.03/сесію.
Почитати/подивитись можна тут:
Blog Post
YouTube
OpenAI
New tools for building agents
👍4
PORTAL
PORTAL (Policy Optimization and Reasoning for Tactical Artificial Learning) - це метод від Tencent, який дозволяє AI-агентам грати в тисячі різних ігор без класичного RL тренування.
Як воно працює: замість тренування нейронок безпосередньо у грі llm-ки заздалегідь генерують "дерева поведінки" (behavior trees) у спеціальній мові (DSL). Ці дерева потім запускаються в іграх і покращуються на основі фідбек лупа (числові метрики гри + Vision-Language аналіз)
Прикол методу в тому, що грає вже не сама ллмка, а створені нею behavior trees - по суті набори правил і умов, що значно зменшує обчислювальні витрати та робить систему zero-latency. Але повністю без нейронок теж не обійшлось - вони є в окремих вузлах дерева (наприклад, прості fully-connected або convolutional нейронки для руху між перешкодами чи стрільби). Вони тренуються заздалегідь на вузьких задачах.
Цікава гібридна історія: поєднує силу LLM для стратегічного планування з ефективністю rule-based дерев та мікро нейронок.
Це ж вони в ігри грали, а шо якщо робити те саме, тільки з роботікс? Думаю тут буде прикольний інтерсекшн
Коду нема, є тільки пейпр =(
Дивитись тут:
Project Page
Paper
PORTAL (Policy Optimization and Reasoning for Tactical Artificial Learning) - це метод від Tencent, який дозволяє AI-агентам грати в тисячі різних ігор без класичного RL тренування.
Як воно працює: замість тренування нейронок безпосередньо у грі llm-ки заздалегідь генерують "дерева поведінки" (behavior trees) у спеціальній мові (DSL). Ці дерева потім запускаються в іграх і покращуються на основі фідбек лупа (числові метрики гри + Vision-Language аналіз)
Прикол методу в тому, що грає вже не сама ллмка, а створені нею behavior trees - по суті набори правил і умов, що значно зменшує обчислювальні витрати та робить систему zero-latency. Але повністю без нейронок теж не обійшлось - вони є в окремих вузлах дерева (наприклад, прості fully-connected або convolutional нейронки для руху між перешкодами чи стрільби). Вони тренуються заздалегідь на вузьких задачах.
Цікава гібридна історія: поєднує силу LLM для стратегічного планування з ефективністю rule-based дерев та мікро нейронок.
Це ж вони в ігри грали, а шо якщо робити те саме, тільки з роботікс? Думаю тут буде прикольний інтерсекшн
Коду нема, є тільки пейпр =(
Дивитись тут:
Project Page
Paper
👍15