А хтось знає що зараз мутить Andrej? Я думав він щось активно пушить в EurekaLabsAI - компанію яку він засновав щоб робити едюкейшенал АІ, але щось в нього гітхаб останнім часом пустує, а твітер акк його компанії виглядає мертвим, як і діскорд
👀8😱1
OmniHuman-1
Це крута дифузійна модель, яка об'єднує купу модальностей для реалістичної анімації аватарів. Мені, як людині, яка протягом двох років намагалася зробити щось подібне в reface, дуже приємно бачити такі результати – це розйоб, ось що я вам скажу (дуже сподіваюсь що не черіпікі).
Які проблеми були до цього:
Більшість робіт фокусуються лише на вузькому наборі модальностей. Наприклад, ліпсінк-моделі враховують лише фейс, або audio-driven моделі часто використовують тільки аудіо та таргет ідентіті фічі. Через обмеженість вхідних модальностей аутпут результат часто добре працює в одному аспекті, але в реальних кейсах, де присутні шуми в сигналі, наприклад, коли модель ліпсінку тренувалася на обличчях, рух рук, тіла чи голови може зовсім не відповідати тому, що людина говорить.
Що зроблено:
Omni-conditions training: На початкових стадіях тренують модель із використанням тексту та reference image (щоб використовувати максимум доступних даних), потім додають аудіо, а на фінальній стадії – інтегрують інформацію про позу. Це забезпечує динамічні та натуральні рухи.
Архітектура:
Модель базується на кастомному DiT (MMDiT, натренованому на текст–відео парах) у поєднанні з causal 3D VAE для компресії темпорального сигналу. Аудіо обробляється за допомогою wav2vec і додається через cross-attention в кожен DiT-блок, що забезпечує точний синхрон рухів.
Трейн дані:
Використано приблизно 18,7k годин відео (з них близько 13% – якісних даних для аудіо та поз), що містять семпли з фейсом, півтілом та повнотілими відосами.
У пейпері не cказали про резолюшен, набір aspect ratio, довжину відосів на яких був трейн, але, ймовірно, застосовано звичайний прогресів підхід: спочатку претрейн на low-res даних (256×256), потім на більшому резолюшені і якісних даних (512×512), і fine-tuning на high-res 1024, або 4к.
Пейпр якщо чесно не дуже детальний, багато всього вони не говорять, типу скільки параметрів, особливості архітектири, які кости на інференс, яка була довжина трейн відосів, датасети, які едж кейси відосів - тобто де модель страглить. Короче думаю китайці хочуть зробити свій heygen і не дуже хочуть ділитись інфою)
Project Page
Paper
Це крута дифузійна модель, яка об'єднує купу модальностей для реалістичної анімації аватарів. Мені, як людині, яка протягом двох років намагалася зробити щось подібне в reface, дуже приємно бачити такі результати – це розйоб, ось що я вам скажу (дуже сподіваюсь що не черіпікі).
Які проблеми були до цього:
Більшість робіт фокусуються лише на вузькому наборі модальностей. Наприклад, ліпсінк-моделі враховують лише фейс, або audio-driven моделі часто використовують тільки аудіо та таргет ідентіті фічі. Через обмеженість вхідних модальностей аутпут результат часто добре працює в одному аспекті, але в реальних кейсах, де присутні шуми в сигналі, наприклад, коли модель ліпсінку тренувалася на обличчях, рух рук, тіла чи голови може зовсім не відповідати тому, що людина говорить.
Що зроблено:
Omni-conditions training: На початкових стадіях тренують модель із використанням тексту та reference image (щоб використовувати максимум доступних даних), потім додають аудіо, а на фінальній стадії – інтегрують інформацію про позу. Це забезпечує динамічні та натуральні рухи.
Архітектура:
Модель базується на кастомному DiT (MMDiT, натренованому на текст–відео парах) у поєднанні з causal 3D VAE для компресії темпорального сигналу. Аудіо обробляється за допомогою wav2vec і додається через cross-attention в кожен DiT-блок, що забезпечує точний синхрон рухів.
Трейн дані:
Використано приблизно 18,7k годин відео (з них близько 13% – якісних даних для аудіо та поз), що містять семпли з фейсом, півтілом та повнотілими відосами.
У пейпері не cказали про резолюшен, набір aspect ratio, довжину відосів на яких був трейн, але, ймовірно, застосовано звичайний прогресів підхід: спочатку претрейн на low-res даних (256×256), потім на більшому резолюшені і якісних даних (512×512), і fine-tuning на high-res 1024, або 4к.
Пейпр якщо чесно не дуже детальний, багато всього вони не говорять, типу скільки параметрів, особливості архітектири, які кости на інференс, яка була довжина трейн відосів, датасети, які едж кейси відосів - тобто де модель страглить. Короче думаю китайці хочуть зробити свій heygen і не дуже хочуть ділитись інфою)
Project Page
Paper
🔥10👍3
Свіженький дроп від DeepSeek
DeepSeek-AI викотили DeepSeek-VL2 — серію MoE (Mixture-of-Experts) VL-моделей.
Що вони цікавого стейтять:
Dynamic Tiling Vision Encoder для обробки зображень високого резолюшену та купи різних aspect ratios.
Multi-head Latent Attention (MLA) для швидкого інференсу та менших витрат на KV-cache.
Є такі розміри моделей:
- VL2-Tiny (1.0B)
- VL2-Small (2.8B)
- VL2 (4.5B)
SOTA або конкурентні результати на більшості VL-бенчмарків, при цьому параметрів менше, ніж у багатьох аналогів.
Не здивуюсь якщо скоро вони свого "оператора" релізнуть, або діп ресьорчера, бо в веб агентах треба гарний OCR.
Потицяти:
HuggingFace Demo
GitHub
ArXiv
DeepSeek-AI викотили DeepSeek-VL2 — серію MoE (Mixture-of-Experts) VL-моделей.
Що вони цікавого стейтять:
Dynamic Tiling Vision Encoder для обробки зображень високого резолюшену та купи різних aspect ratios.
Multi-head Latent Attention (MLA) для швидкого інференсу та менших витрат на KV-cache.
Є такі розміри моделей:
- VL2-Tiny (1.0B)
- VL2-Small (2.8B)
- VL2 (4.5B)
SOTA або конкурентні результати на більшості VL-бенчмарків, при цьому параметрів менше, ніж у багатьох аналогів.
Не здивуюсь якщо скоро вони свого "оператора" релізнуть, або діп ресьорчера, бо в веб агентах треба гарний OCR.
Потицяти:
HuggingFace Demo
GitHub
ArXiv
👍6
шось про ai
А хтось знає що зараз мутить Andrej? Я думав він щось активно пушить в EurekaLabsAI - компанію яку він засновав щоб робити едюкейшенал АІ, але щось в нього гітхаб останнім часом пустує, а твітер акк його компанії виглядає мертвим, як і діскорд
О, а ось і він, вернувся з Deep Dive into LLMs like ChatGPT!
3:31 годин контенту... Це прям серіал виходить) Буду дивитись чанками
Він там нормально так навалив:
00:00:00 introduction
00:01:00 pretraining data (internet)
00:07:47 tokenization
00:14:27 neural network I/O
00:20:11 neural network internals
00:26:01 inference
00:31:09 GPT-2: training and inference
00:42:52 Llama 3.1 base model inference
00:59:23 pretraining to post-training
01:01:06 post-training data (conversations)
01:20:32 hallucinations, tool use, knowledge/working memory
01:41:46 knowledge of self
01:46:56 models need tokens to think
02:01:11 tokenization revisited: models struggle with spelling
02:04:53 jagged intelligence
02:07:28 supervised finetuning to reinforcement learning
02:14:42 reinforcement learning
02:27:47 DeepSeek-R1
02:42:07 AlphaGo
02:48:26 reinforcement learning from human feedback (RLHF)
03:09:39 preview of things to come
03:15:15 keeping track of LLMs
03:18:34 where to find LLMs
03:21:46 grand summary
Дивитись тут:
https://youtu.be/7xTGNNLPyMI
3:31 годин контенту... Це прям серіал виходить) Буду дивитись чанками
Він там нормально так навалив:
00:00:00 introduction
00:01:00 pretraining data (internet)
00:07:47 tokenization
00:14:27 neural network I/O
00:20:11 neural network internals
00:26:01 inference
00:31:09 GPT-2: training and inference
00:42:52 Llama 3.1 base model inference
00:59:23 pretraining to post-training
01:01:06 post-training data (conversations)
01:20:32 hallucinations, tool use, knowledge/working memory
01:41:46 knowledge of self
01:46:56 models need tokens to think
02:01:11 tokenization revisited: models struggle with spelling
02:04:53 jagged intelligence
02:07:28 supervised finetuning to reinforcement learning
02:14:42 reinforcement learning
02:27:47 DeepSeek-R1
02:42:07 AlphaGo
02:48:26 reinforcement learning from human feedback (RLHF)
03:09:39 preview of things to come
03:15:15 keeping track of LLMs
03:18:34 where to find LLMs
03:21:46 grand summary
Дивитись тут:
https://youtu.be/7xTGNNLPyMI
YouTube
Deep Dive into LLMs like ChatGPT
This is a general audience deep dive into the Large Language Model (LLM) AI technology that powers ChatGPT and related products. It is covers the full training stack of how the models are developed, along with mental models of how to think about their "psychology"…
❤5🎉1
Self-Improving Transformers: Overcoming Length Generalization Challenges
Трансформери походу можуть вчитись в self-supervised режимі. Замість фіксованого датасету – модель поступово генерує складніші задачі, навчається на них і освоює не просто патерни, а реальні алгоритми. Це дозволяє їм вирішувати задачі далеко за межами початкового тренувального дістрібьюшену.
Як працює self-improvement?
Модель тренується на простих задачах (наприклад, додавання 10-значних чисел), а потім генерує більш складні задачі (наприклад, 11-значні). Так відбувається поступове нарощування складності.
Просто самонавчатися – не завжди добре. Якщо модель накопичує помилки, це веде до error avalanche (модель деградує). Тому використовують majority voting – якщо кілька моделей видають однаковий результат, він вважається більш достовірним.
Результати:
- Моделі навчалися на 10-значних числах - освоїли додавання 100-значних
- Навчились обходити важкі лабіринти, починаючі з дуже простих.
Чому це важливо?
Self-improving дає змогу навчанню стати повністю автономним. Хоч ця робота є щось типу POC, але мені здається цікавим напрямком в self-supervised тюнингу. Ну і ще цікаво подивитись як подібний апроач заскейлити на більш дженерал задачі - наприклад з тим самим різонінгом який зараз вовсю хайпує.
ArXiv
Відос
Трансформери походу можуть вчитись в self-supervised режимі. Замість фіксованого датасету – модель поступово генерує складніші задачі, навчається на них і освоює не просто патерни, а реальні алгоритми. Це дозволяє їм вирішувати задачі далеко за межами початкового тренувального дістрібьюшену.
Як працює self-improvement?
Модель тренується на простих задачах (наприклад, додавання 10-значних чисел), а потім генерує більш складні задачі (наприклад, 11-значні). Так відбувається поступове нарощування складності.
Просто самонавчатися – не завжди добре. Якщо модель накопичує помилки, це веде до error avalanche (модель деградує). Тому використовують majority voting – якщо кілька моделей видають однаковий результат, він вважається більш достовірним.
Результати:
- Моделі навчалися на 10-значних числах - освоїли додавання 100-значних
- Навчились обходити важкі лабіринти, починаючі з дуже простих.
Чому це важливо?
Self-improving дає змогу навчанню стати повністю автономним. Хоч ця робота є щось типу POC, але мені здається цікавим напрямком в self-supervised тюнингу. Ну і ще цікаво подивитись як подібний апроач заскейлити на більш дженерал задачі - наприклад з тим самим різонінгом який зараз вовсю хайпує.
ArXiv
Відос
🔥4👍1
OpenAI Deep Research Guide
Знайшов дуже корисну доку по тому, як юзати діп ресьорч. Автори надають детальний контекст що взагалі таке цей ваш діп ресьорч, юзкейси, кастомні приклади, гайдлайни як юзати, з чим воно страглить.
Для мене це прикольний док щоб кормити його в о3-mini + давати контекст що я хочу зробити і вона мені генерує доволі детальний промпт для ресьорчера.
Дока тут
Знайшов дуже корисну доку по тому, як юзати діп ресьорч. Автори надають детальний контекст що взагалі таке цей ваш діп ресьорч, юзкейси, кастомні приклади, гайдлайни як юзати, з чим воно страглить.
Для мене це прикольний док щоб кормити його в о3-mini + давати контекст що я хочу зробити і вона мені генерує доволі детальний промпт для ресьорчера.
Дока тут
1👍10
This media is not supported in your browser
VIEW IN TELEGRAM
Zonos-v0.1
TTS (text-to-speech), яка не лише синтезує голоси + дозволяє голосове клонування. Відкрита ліцензія Apache 2.0. Дві варіації модельки 1.6B параметрів кожна. Вчилась на 200К годин, 70% часу на текст + спікер ембедінги, 30% файнтюн з додатковими параметрами (емоції, швидкість, якість, тон)
З прикольного:
- Клонування войсу: 10-30 секунд вашого спітчу + текст і войс готов
- Підтримка багатьох мов: англійська, китайська, японська, французька, німецька
- Підтримує швидкість мовлення, тон, емоції (сум, радість, страх) + може в різні ефекти через аудіо префікси, типу шепіт, або сміх.
- Швидко раниться на RTX 4090 (60 секунд аудіо ~= 22 секунди процесінгу)
- Дві варіації модельки: трансформер та гібрид (mamba 2), mamba наче швидше, але я не зроз чи гірше.
Як на мене войси трошки з шумом, якість не прям топ, особливо якщо згадати що це 1.6B моделька. Той самий kokoro жере всього 82М параметрів, факт, не підтримує різні ефекти, войс клонінг, але по якості войсу мені він більше заходить.
Сорси:
GitHub
Сайтик(пост)
Hybrid/Transformer weights
Tweet post (звідси відос)
Потицяти можна тут
TTS (text-to-speech), яка не лише синтезує голоси + дозволяє голосове клонування. Відкрита ліцензія Apache 2.0. Дві варіації модельки 1.6B параметрів кожна. Вчилась на 200К годин, 70% часу на текст + спікер ембедінги, 30% файнтюн з додатковими параметрами (емоції, швидкість, якість, тон)
З прикольного:
- Клонування войсу: 10-30 секунд вашого спітчу + текст і войс готов
- Підтримка багатьох мов: англійська, китайська, японська, французька, німецька
- Підтримує швидкість мовлення, тон, емоції (сум, радість, страх) + може в різні ефекти через аудіо префікси, типу шепіт, або сміх.
- Швидко раниться на RTX 4090 (60 секунд аудіо ~= 22 секунди процесінгу)
- Дві варіації модельки: трансформер та гібрид (mamba 2), mamba наче швидше, але я не зроз чи гірше.
Як на мене войси трошки з шумом, якість не прям топ, особливо якщо згадати що це 1.6B моделька. Той самий kokoro жере всього 82М параметрів, факт, не підтримує різні ефекти, войс клонінг, але по якості войсу мені він більше заходить.
Сорси:
GitHub
Сайтик(пост)
Hybrid/Transformer weights
Tweet post (звідси відос)
Потицяти можна тут
👀5👍2
Мені тут треба було потестувати гугловськи ллмки, а саме (
Ось результат:
"""
RLSP: Навчаємо AI Думати Самостійно
Нещодавно ми бачили, як OpenAI, Google та DeepSeek прокачували reasoning в LLM, перетворюючи їх на LRM (Large Reasoning Models). Тепер дослідники з MIT та Microsoft Research пішли далі і пропонують свій підхід – Reinforcement Learning via Self-Play (RLSP).
Що таке RLSP? Це фреймворк для пост-тренування LLM, який дозволяє моделям "думати" під час інференсу, витрачаючи більше часу та обчислень для отримання кращого результату. Ідея в тому, що reasoning – це, по суті, керований пошук.
Як це працює?
RLSP складається з трьох кроків:
- SFT (Supervised Fine-Tuning): Якщо є приклади "процесу мислення" (наприклад, розмічені дані або синтетичні трейси), модель на них донавчається.
- Exploration Reward: Модель отримує винагороду за дослідження різних шляхів розв'язання, незалежно від правильності кінцевої відповіді. Це стимулює такі речі, як backtracking, розгляд альтернативних варіантів та перевірка.
- RL (Reinforcement Learning): Використовується алгоритм PPO, а outcome verifier дає чіткий сигнал про правильність відповіді.
Ключова фішка – розділення сигналів винагороди за exploration та correctness. Це дозволяє моделі ефективніше навчатись і уникати "хакінгу" винагороди.
Найцікавіше – це емерджентні властивості. Навіть з найпростішою exploration reward (наприклад, за довжину відповіді), моделі починають демонструвати backtracking, перевірку ідей та self-correction. Тобто, вони вчаться не просто видавати відповідь, а міркувати.
Результати теж вражають. На Llama-3.1-8B-Instruct фреймворк RLSP дав буст +23% на тесті MATH-500. А на задачах AIME 2024 модель Qwen2.5-32B-Instruct покращилась на 10%.
Чому це важливо?
RLSP показує, що можна суттєво покращити reasoning LLM, навчаючи їх "думати" більш систематично. Це крок до створення AI, який здатен вирішувати складні завдання, що вимагають не лише знань, а й логіки.
Особисто я вважаю, що підхід з self-play має великий потенціал. Цікаво буде подивитись, як він буде масштабуватись і які ще емерджентні властивості проявляться.
Детальніше:
GitHub
ArXiv
"""
Структуру воно звісно спарсило, але в стиль мені здається не може. Цікавий вийшов експеримент, і пейпр почитав (вона доречі норм вловила всі деталі) і постик зробив)
З цікавого, тестив на великих пдфках, та комплексних промптах, наприклад я просив видавати мені доволі великий структурований аутпут з різонінгом, воно норм все вертає, але здебільшого мені сподобалось як воно слухає інструкції, навіть якщо контекст забити під лям токенів. Гарні ллмки, повільні, але дуже непогано якщо є юзкейси коли час не грає роль
gemini-2.0-pro-exp-02-05 та gemini-2.0-flash-thinking-exp-01-21), то я подумав над цікавим юзкейсом: скормити в промпт всі свої пости, дати пейпр і щоб вона зробила постик для каналу)Ось результат:
"""
RLSP: Навчаємо AI Думати Самостійно
Нещодавно ми бачили, як OpenAI, Google та DeepSeek прокачували reasoning в LLM, перетворюючи їх на LRM (Large Reasoning Models). Тепер дослідники з MIT та Microsoft Research пішли далі і пропонують свій підхід – Reinforcement Learning via Self-Play (RLSP).
Що таке RLSP? Це фреймворк для пост-тренування LLM, який дозволяє моделям "думати" під час інференсу, витрачаючи більше часу та обчислень для отримання кращого результату. Ідея в тому, що reasoning – це, по суті, керований пошук.
Як це працює?
RLSP складається з трьох кроків:
- SFT (Supervised Fine-Tuning): Якщо є приклади "процесу мислення" (наприклад, розмічені дані або синтетичні трейси), модель на них донавчається.
- Exploration Reward: Модель отримує винагороду за дослідження різних шляхів розв'язання, незалежно від правильності кінцевої відповіді. Це стимулює такі речі, як backtracking, розгляд альтернативних варіантів та перевірка.
- RL (Reinforcement Learning): Використовується алгоритм PPO, а outcome verifier дає чіткий сигнал про правильність відповіді.
Ключова фішка – розділення сигналів винагороди за exploration та correctness. Це дозволяє моделі ефективніше навчатись і уникати "хакінгу" винагороди.
Найцікавіше – це емерджентні властивості. Навіть з найпростішою exploration reward (наприклад, за довжину відповіді), моделі починають демонструвати backtracking, перевірку ідей та self-correction. Тобто, вони вчаться не просто видавати відповідь, а міркувати.
Результати теж вражають. На Llama-3.1-8B-Instruct фреймворк RLSP дав буст +23% на тесті MATH-500. А на задачах AIME 2024 модель Qwen2.5-32B-Instruct покращилась на 10%.
Чому це важливо?
RLSP показує, що можна суттєво покращити reasoning LLM, навчаючи їх "думати" більш систематично. Це крок до створення AI, який здатен вирішувати складні завдання, що вимагають не лише знань, а й логіки.
Особисто я вважаю, що підхід з self-play має великий потенціал. Цікаво буде подивитись, як він буде масштабуватись і які ще емерджентні властивості проявляться.
Детальніше:
GitHub
ArXiv
"""
Структуру воно звісно спарсило, але в стиль мені здається не може. Цікавий вийшов експеримент, і пейпр почитав (вона доречі норм вловила всі деталі) і постик зробив)
З цікавого, тестив на великих пдфках, та комплексних промптах, наприклад я просив видавати мені доволі великий структурований аутпут з різонінгом, воно норм все вертає, але здебільшого мені сподобалось як воно слухає інструкції, навіть якщо контекст забити під лям токенів. Гарні ллмки, повільні, але дуже непогано якщо є юзкейси коли час не грає роль
GitHub
GitHub - GuanghaoYe/Emergence-of-Thinking
Contribute to GuanghaoYe/Emergence-of-Thinking development by creating an account on GitHub.
👍7❤1
Було б прикольно мати тул, який запускає певний python-флоу на заданому наборі даних, щоб покрити купу еджкейсів, і зберігає повний граф цього флоу у вигляді коду, наприклад, у форматі mermaid. Це дозволило б передати його LLM, щоб вона сприймала весь проєкт не просто як набір коду, а як граф, який можна реструктурувати, видаляти або додавати нові ноди.
1. маючи такий код діаграми, його завжди можна спростити. Наприклад, якщо мені потрібна лише сервісна діаграма, можна просто попросити LLM створити “summary” цього графа.
2. так само, як можна спростити, можна й деталізувати конкретний фрагмент. Уявімо, що є сервіс, який відповідає за reasoning + tooling агента, і саме над ним я хочу працювати. LLM могла б деталізувати його, наприклад додавши ноди по коду мікро функцій пре/пост процесінгу, а решту графа навпаки — спростити.
3. як я вже казав, можна робити зміни в коді через інтеракцію хуман -> cursor -> graph -> код, які одразу відображаються у графі.
Тобто, це не повна автоматизація через ноди, як у ComfyUI або Langflow, а скоріше призма для спостереження за всією кодовою базою та більш гнучкий інструмент для навігації чи модифікації проєкту.
Мб щось знаєте таке?
1. маючи такий код діаграми, його завжди можна спростити. Наприклад, якщо мені потрібна лише сервісна діаграма, можна просто попросити LLM створити “summary” цього графа.
2. так само, як можна спростити, можна й деталізувати конкретний фрагмент. Уявімо, що є сервіс, який відповідає за reasoning + tooling агента, і саме над ним я хочу працювати. LLM могла б деталізувати його, наприклад додавши ноди по коду мікро функцій пре/пост процесінгу, а решту графа навпаки — спростити.
3. як я вже казав, можна робити зміни в коді через інтеракцію хуман -> cursor -> graph -> код, які одразу відображаються у графі.
Тобто, це не повна автоматизація через ноди, як у ComfyUI або Langflow, а скоріше призма для спостереження за всією кодовою базою та більш гнучкий інструмент для навігації чи модифікації проєкту.
Мб щось знаєте таке?
👍5
rabbithole.chat
Сьогодні заліпаю в тул, який дозволяє шукати інфу в форматі графу. Це реально якась яма - вже годину тицяю і не можу відірватися, бо капець як зручно!
Прикольно, що сьорч тут не вертикальний, як зазвичай у perplexity або інших серч-енжинах, а древовидний. Завжди є можливість повернутися назад, відбранчуватися і пошукати ще.
Давно мрію про таку ж штуку, але в інтерфейсі якогось chatgpt, бо діалоги теж не вертикальні. Іноді хочеться задати багато питань по заданому контексту, але не завжди треба, щоб відповідь на одне питання впливала на наступне. Короче, чат - не найзручніша структура для траверсу інформації.
Потицяти можна тут: https://www.rabbithole.chat/
Сьогодні заліпаю в тул, який дозволяє шукати інфу в форматі графу. Це реально якась яма - вже годину тицяю і не можу відірватися, бо капець як зручно!
Прикольно, що сьорч тут не вертикальний, як зазвичай у perplexity або інших серч-енжинах, а древовидний. Завжди є можливість повернутися назад, відбранчуватися і пошукати ще.
Давно мрію про таку ж штуку, але в інтерфейсі якогось chatgpt, бо діалоги теж не вертикальні. Іноді хочеться задати багато питань по заданому контексту, але не завжди треба, щоб відповідь на одне питання впливала на наступне. Короче, чат - не найзручніша структура для траверсу інформації.
Потицяти можна тут: https://www.rabbithole.chat/
👍17
Доречі про серч-енжини, Deep Research by Perplexity!
5 запитів на день без підписки, 500 для Pro-користувачів. Відповідь формується за 1-2 хвилини. 20.5% на Humanity’s Last Exam.
Воно ще й в pdf нормально експортує! Не розумію чому openai цю маленьку, але дуже приємну фічу не зробили.
1-2 хвилини, це якщо шо, ого! Бо ресьорчер від опенаі іноді забирає в мене 10-15 хв, це звісно добре, я тоді собі чай роблю, але іноді це бісить)
Тицяти тут:
perplexity.ai
Постик з деталями
5 запитів на день без підписки, 500 для Pro-користувачів. Відповідь формується за 1-2 хвилини. 20.5% на Humanity’s Last Exam.
Воно ще й в pdf нормально експортує! Не розумію чому openai цю маленьку, але дуже приємну фічу не зробили.
1-2 хвилини, це якщо шо, ого! Бо ресьорчер від опенаі іноді забирає в мене 10-15 хв, це звісно добре, я тоді собі чай роблю, але іноді це бісить)
Тицяти тут:
perplexity.ai
Постик з деталями
👍7
Agent Leaderboard
Свіжий бенчмарк по тул-колінгу для ллм, який показує як різні моделі справляються з реальними агентік сценаріями.
Що тестували:
- одиночні та мульті-терн колінг
- композицію функцій
- якість вибору інструментів TSQ (Tool Selection Quality)
Результати:
- gemini-2.0-flash-001 неочікувано став топ-1 з TSQ 0.938 і при цьому коштує всього $0.15/$0.60
- gpt-4o та gemini-1.5-flash майже на рівні (0.900 vs 0.895)
- o1 та o3-mini - 0.876 та 0.847
- mistral-small-2501 (0.832) на рівні з gpt-4o-mini, що дуже круто для опенсорс моделі
Цікаві інсайти:
- топ-3 моделі мають 10-кратну різницю в ціні, але всього 4% різниці в якості, то виходить ціна != якість
- DeepSeek V3 та R1 не включили в рейтинг через обмежену підтримку функцій (походу вони ще не готові до агентських сценаріїв)
- claude sonnet на 11 місці, гірше ніж опенсорс mistral, що мене дуже сильно здивувало.
Що з цього можна сказати:
- Для простих тасків підійде майже будь-яка модель
- Для складних воркфлоу з купою тулів краще брати моделі зі скором 0.85+ - по лідерборду - берить gemini і все буде добре
- Опенсорс моделі вже цілком конкурентні для базових операцій
- Для довгих діалогів або беріть моделі з хорошим контекст ретеншеном, або додавайте зовнішнє зберігання контексту
Якщо чесно, якийсь дивний лідерборд. Мене напрягає інфа що gpt-4o краще ніж claude sonnet, та що gemini на першому місці. Я не дуже зроз де подивитись як вони промптили кожну модельку, типу чи вони різні промпти до кожної моделі робили, чи всі колали одним і тим самим? Бо модельки дуже сенсетів до промптів. Та це не корелює з нашим прод досвідом. Gemini реально хорош, а от gpt4-o - поки що гірше всього що ми тестили.
Короче хз, я не дуже довіряю цьому лідерборду, але вирішив пошерити, мб ви щось накидаєте)
Деталі тут:
Blog
GitHub
Leaderboard
Свіжий бенчмарк по тул-колінгу для ллм, який показує як різні моделі справляються з реальними агентік сценаріями.
Що тестували:
- одиночні та мульті-терн колінг
- композицію функцій
- якість вибору інструментів TSQ (Tool Selection Quality)
Результати:
- gemini-2.0-flash-001 неочікувано став топ-1 з TSQ 0.938 і при цьому коштує всього $0.15/$0.60
- gpt-4o та gemini-1.5-flash майже на рівні (0.900 vs 0.895)
- o1 та o3-mini - 0.876 та 0.847
- mistral-small-2501 (0.832) на рівні з gpt-4o-mini, що дуже круто для опенсорс моделі
Цікаві інсайти:
- топ-3 моделі мають 10-кратну різницю в ціні, але всього 4% різниці в якості, то виходить ціна != якість
- DeepSeek V3 та R1 не включили в рейтинг через обмежену підтримку функцій (походу вони ще не готові до агентських сценаріїв)
- claude sonnet на 11 місці, гірше ніж опенсорс mistral, що мене дуже сильно здивувало.
Що з цього можна сказати:
- Для простих тасків підійде майже будь-яка модель
- Для складних воркфлоу з купою тулів краще брати моделі зі скором 0.85+ - по лідерборду - берить gemini і все буде добре
- Опенсорс моделі вже цілком конкурентні для базових операцій
- Для довгих діалогів або беріть моделі з хорошим контекст ретеншеном, або додавайте зовнішнє зберігання контексту
Якщо чесно, якийсь дивний лідерборд. Мене напрягає інфа що gpt-4o краще ніж claude sonnet, та що gemini на першому місці. Я не дуже зроз де подивитись як вони промптили кожну модельку, типу чи вони різні промпти до кожної моделі робили, чи всі колали одним і тим самим? Бо модельки дуже сенсетів до промптів. Та це не корелює з нашим прод досвідом. Gemini реально хорош, а от gpt4-o - поки що гірше всього що ми тестили.
Короче хз, я не дуже довіряю цьому лідерборду, але вирішив пошерити, мб ви щось накидаєте)
Деталі тут:
Blog
GitHub
Leaderboard
🔥8