Технозаметки Малышева
🔬 Nvidia GTC 2025: Новые архитектуры GPU и AI-модели для роботов На конференции GTC 2025 NVidia представила несколько интересных технических новинок: Дорожная карта GPU архитектур Компания анонсировала сразу несколько поколений GPU архитектур: - Blackwell…
This media is not supported in your browser
VIEW IN TELEGRAM
Ещё из презентации NVidia на GTC2025
Как вам такой вариант домашнего ассистента?
Плоская голова,- удобно, считаю. Можно кофе поставить... :)
#Nvidia #robots #gtc2025
------
@tsingular
Как вам такой вариант домашнего ассистента?
Плоская голова,- удобно, считаю. Можно кофе поставить... :)
#Nvidia #robots #gtc2025
------
@tsingular
👍9❤🔥3😁2🆒2🔥1👾1
Forwarded from Эксплойт
NVIDIA показала RTX PRO 6000 — это буквально монстры в мире видеокарт с 96 Гб видеопамяти (!), которые предназначены для ИИ, 3D и научных исследований.
Характеристики разрывают:
— 24 064 CUDA-ядра.
— 96 ГБ GDDR7.
— 600 ВТ. Здесь придется запастись собственной электростанцией.
Всего будет три версии:
— Workstation Edition: для домашних ПК, дизайн как у RTX 5090.
— Server Edition: для дата-центров с пассивным охлаждением.
— Max-Q Edition: для сетапов с большим количеством карт. Здесь на охлаждении настоящая ТУРБИНА.
Дата выхода: апрель-май, ценник пока неизвестен. Если хотите чтобы FPS не проседали, то откладывайте почки (сразу две) и приготовьте огнетушитель.
@exploitex
Характеристики разрывают:
— 24 064 CUDA-ядра.
— 96 ГБ GDDR7.
— 600 ВТ. Здесь придется запастись собственной электростанцией.
Всего будет три версии:
— Workstation Edition: для домашних ПК, дизайн как у RTX 5090.
— Server Edition: для дата-центров с пассивным охлаждением.
— Max-Q Edition: для сетапов с большим количеством карт. Здесь на охлаждении настоящая ТУРБИНА.
Дата выхода: апрель-май, ценник пока неизвестен. Если хотите чтобы FPS не проседали, то откладывайте почки (сразу две) и приготовьте огнетушитель.
@exploitex
⚡7🤣5
BigQuery: Как облачные сервисы могут незаметно опустошить ваш счёт
История, - огонь! Чел получил счёт на $10,000 за три запроса с LIMIT. А проблема оказалась в том, что BigQuery считает стоимость по объёму данных в таблице запроса, а не по реально обработанным данным в отличие от AWS Redshift, Athena, Snowflake и др.
🚨 Это важно и для работы с ИИ-агентами
Надо понимать: современные ИИ-агенты могут делать сотни запросов к данным, причем совершенно незаметно для пользователя. Представьте, что вы попросили агента "проанализировать данные за прошлый год" — и внезапно получили счет на миллионы $.
При работе с агентами критически важно:
1. Устанавливать жёсткие лимиты по расходам ($)
2. Проверять архитектуру запросов (например, в BigQuery использовать предварительную агрегацию)
3. Тестировать на маленьких наборах данных
4. Контролировать количество запросов через промежуточный сервис
Если используете BigQuery:
- Применяйте материализованные представления
- Используйте предварительную фильтрацию в отдельных таблицах
- Рассмотрите Apache Iceberg для более гибкой работы
- Настройте бюджетные оповещения на низких порогах
⚠️ Особенность всех облачных сервисов
Они всегда делают ставку на то, что вы не будете читать мелкий шрифт. Да, технически BigQuery не обманывает — информация есть в документации. Которую вы, скорее всего, не прочитаете никогда.
В итоге: с большими данными нужно быть осторожнее, а с ИИ-агентами — в десять раз осторожнее. Лимиты, мониторинг, тесты — вот ваша защита от "внезапных" счетов.
#BigQuery #price #limit
———
@tsingular
История, - огонь! Чел получил счёт на $10,000 за три запроса с LIMIT. А проблема оказалась в том, что BigQuery считает стоимость по объёму данных в таблице запроса, а не по реально обработанным данным в отличие от AWS Redshift, Athena, Snowflake и др.
Надо понимать: современные ИИ-агенты могут делать сотни запросов к данным, причем совершенно незаметно для пользователя. Представьте, что вы попросили агента "проанализировать данные за прошлый год" — и внезапно получили счет на миллионы $.
При работе с агентами критически важно:
1. Устанавливать жёсткие лимиты по расходам ($)
2. Проверять архитектуру запросов (например, в BigQuery использовать предварительную агрегацию)
3. Тестировать на маленьких наборах данных
4. Контролировать количество запросов через промежуточный сервис
Если используете BigQuery:
- Применяйте материализованные представления
- Используйте предварительную фильтрацию в отдельных таблицах
- Рассмотрите Apache Iceberg для более гибкой работы
- Настройте бюджетные оповещения на низких порогах
⚠️ Особенность всех облачных сервисов
Они всегда делают ставку на то, что вы не будете читать мелкий шрифт. Да, технически BigQuery не обманывает — информация есть в документации. Которую вы, скорее всего, не прочитаете никогда.
В итоге: с большими данными нужно быть осторожнее, а с ИИ-агентами — в десять раз осторожнее. Лимиты, мониторинг, тесты — вот ваша защита от "внезапных" счетов.
#BigQuery #price #limit
———
@tsingular
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Вот кого давно не было слышно!
Atlas от Boston Dynamics тоже готовится к Олимпиаде! В том числе танцевальной, судя по всему.
Голосуем, - настоящее (🔥 ) или рендер (😈) ?
#BostonDynamics #robots
———
@tsingular
Atlas от Boston Dynamics тоже готовится к Олимпиаде! В том числе танцевальной, судя по всему.
Голосуем, - настоящее (🔥 ) или рендер (😈) ?
#BostonDynamics #robots
———
@tsingular
🔥30😈8
This media is not supported in your browser
VIEW IN TELEGRAM
Unitree тоже сохраним для истории на текущую дату.
Голосуем, - настоящее (🔥 ) или рендер (😈) ?
#Unitree #robots
———
@tsingular
Голосуем, - настоящее (🔥 ) или рендер (😈) ?
#Unitree #robots
———
@tsingular
🔥21😈19👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Визуализация выходных сигналов трансформера (архитектура, на которой работают почти все современные LLM: ChatGPT, Claude, Llama и иже с ними)Отсюда
Сайт:
https://moebio.com/mind/
#LLMvisual #обучение
------
@tsingular
🔥13👍1
Forwarded from e/acc
Один из самых недооцененных трендов, который понимает Дарио или Сэм, но не понимает большая часть индустрии. С выхода GPT-4 прошло два года, при этом только за последний год стоимость использования моделей упала от 9 до 900 раз (см. график). При этом, одновременно, скорость инференса выросла от 4 до 8 раз в зависимости от модели благодаря кастомным чипам, оптимизациями инфраструктуры и компиляторов. Да, в этой гонке есть предел, но до него еще довольно много лет.
Метрика, на которую стоит смотреть это не токены в секунду и не MMLU, ибо в практических терминах все сегодняшние модели уже лучше человека. Смотреть стоит на реальное использование, то есть прокси решения насущных проблем сегодняшних бизнесов и академии. А измерять это стоит в perf/watt (производительность на ватт энергии) или, что я услышал на закрытой конфе в выходные и мне очень понравилось, — в $ / ELO of Int. То есть стоимость в долларах за каждое дополнительное очко в рейтинге системы Elo в интеллектуальных задачах. За последний год падение составило около 2 порядков, а в ближайшие годы это произойдет с видео, голосом и другими модальностями.
Метрика, на которую стоит смотреть это не токены в секунду и не MMLU, ибо в практических терминах все сегодняшние модели уже лучше человека. Смотреть стоит на реальное использование, то есть прокси решения насущных проблем сегодняшних бизнесов и академии. А измерять это стоит в perf/watt (производительность на ватт энергии) или, что я услышал на закрытой конфе в выходные и мне очень понравилось, — в $ / ELO of Int. То есть стоимость в долларах за каждое дополнительное очко в рейтинге системы Elo в интеллектуальных задачах. За последний год падение составило около 2 порядков, а в ближайшие годы это произойдет с видео, голосом и другими модальностями.
🔥8❤🔥1
Forwarded from Machinelearning
Microsoft Research представила KBLaM - архитектуру, которая решает ключевую проблему LLM — добавление новых внешних знаний. В отличие от традиционных методов файнтюна и RAG, KBLaM кодирует новые для LLM структурированные данные в виде векторных пар «ключ-значение», встраивая их напрямую в слои внимания модели. Это позволяет избежать дорогостоящего дообучения и построение дополнительных модулей, сохраняя линейную масштабируемость даже для баз знаний в 10 000 триплетов.
В KBLaM триплет — это структурированный элемент знания, состоящий из трех компонентов: сущности, свойства и значения. Например, в утверждении «Москва — столица России» сущностью выступает «Москва», свойством — «столица», а значением — «Россия».
В основе KBLaM - «прямоугольный механизм внимания»: языковые токены взаимодействуют с токенами знаний, но не наоборот. Такая структура сокращает вычислительные затраты до линейных, позволяя обрабатывать эквивалент 200 тыс. токенов на одном GPU. При этом модель динамически обновляет знания без пересчёта всей базы — достаточно изменить один триплет.
Эксперименты с KBLaM показали, что он не только эффективен, но и прозрачен: веса внимания визуализируют, какие факты использует модель. Например, при запросе о медицинском диагнозе высокие оценки внимания к соответствующим триплетам снижают риск «галлюцинаций», при этом, если ответ на запрос лежит вне базы знаний, модель отказывается на него отвечать.
Как заявляют авторы, KBLaM — не просто шаг к умным LLM, а мост между обученными на базовых знаниях моделями и реальным миром, где знания постоянно обновляются.
В опубликованном на Github коде для применения KBLaM поддерживаются модели с HF:
и эмбединги для генерации базы знаний:
⚠️ Чтобы добавить поддержку других моделей, необходимо отредактировать скрипты обработки моделей и включить в них адаптер, подобный
llama_model.py в src/kblam/models.@ai_machinelearning_big_data
#AI #ML #LLM #MicrosoftResearch #KBLaM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13✍7❤🔥1
Forwarded from Machinelearning
Разработчики уменьшили количество дефектов и улучшили генерацию текста на изображениях. Модели стали чётче следовать инструкциям в промтах. Впервые применили VLM для оценки качества работы нейросети. Визуально-лингвистическая модель проверяла множество изображений на соответствие заданным промтам. Например, действительно ли на картинке присутствовали все заданные пользователем элементы.
Тесты показывают превосходство YandexART 2.5 над Midjourney 6.1 и паритет с другими SOTA-моделями.
Доступ к базовой версии — бесплатно в Шедевруме. Для Pro-версии есть подписка за 100₽/месяц.
@ai_machinelearning_big_data
#ai #ml #release
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4
Forwarded from Анализ данных (Data analysis)
🗣️ Две модели преобразования речи в текст, которые, как заявляют разработчики, превосходят Whisper.
💬 1 Новая модель TTS - которой можно указать *как* ей говорить.
Поддерживает функцию задания интонации, тона, тембра голоса и еще множества других параметров с помощью промпта.
🤖 Еще OpenAi выпустили Agents SDK, который для создания голосовых агентов.
Через час состоится стрим, где покажут примера создания голосовых агентов с новыми аудиомоделями.
📌 Потестить можно здесь: https://www.openai.fm/
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤🔥1👍1
🔍 Claimify: повышение точности проверки фактов в текстах
Microsoft Research представила новый подход к извлечению утверждений из текстов, сгенерированных большими языковыми моделями (LLM).
Инструмент Claimify решает ключевую проблему: языковые модели часто выдают неточную или необоснованную информацию.
В чём суть проблемы?
Представьте: вы получили аналитическую справку от ИИ по развивающимся рынкам. Как проверить её достоверность? Разбить на отдельные утверждения и проверить каждое. Но тут-то и скрывается подвох – обычные методы извлечения утверждений часто ошибаются!
Исследователи выделили 4 ключевые проблемы:
1. Обработка мнений как фактов – когда субъективные суждения вроде "решение проблем требует комплексного подхода" выдаются за проверяемые факты
2. Неполнота – часть важной информации просто теряется
3. Неточности – например, фраза "ООН обнаружила связь между загрязнённой водой и болезнями" превращается в "ООН обнаружила загрязнённую воду" - происходит упрощение в котором теряется смысл.
4. Потеря контекста – утверждения вроде "Афганистан столкнулся с похожими проблемами" бесполезны без указания, с какими именно.
Как работает Claimify?
Система обрабатывает исходный текст в четыре этапа:
1. Разбивка на предложения с сохранением контекста – учитывается структура текста и окружающие предложения
2. Отбор фактов – ИИ отделяет предложения с проверяемыми фактами от субъективных мнений
3. Устранение неоднозначности – система определяет, можно ли однозначно интерпретировать предложение, и если нет – помечает его как неоднозначное
4. Декомпозиция – из предложений создаются отдельные проверяемые утверждения
Важнейшая особенность Claimify – она не пытается интерпретировать неоднозначности, когда контекст недостаточен. Система просто помечает такие случаи, вместо того чтобы гадать.
Что в итоге?
Проверка показала, что 99% утверждений, извлечённых Claimify, точно отражают исходный текст. Система также лучше балансирует между включением проверяемой информации и исключением субъективной, сохраняя критический контекст.
Разработчики уже успешно используют Claimify для оценки ответов GraphRAG.
По сути, Microsoft создаёт технологический фундамент для систем проверки достоверности ИИ-контента, что особенно важно для отраслей, где цена ошибки высока: финансы, медицина, юриспруденция.
Paper
Полезный метод. Пока в разработке - можно по документации свой создать.
#Microsoft #RAG
———
@tsingular
Microsoft Research представила новый подход к извлечению утверждений из текстов, сгенерированных большими языковыми моделями (LLM).
Инструмент Claimify решает ключевую проблему: языковые модели часто выдают неточную или необоснованную информацию.
В чём суть проблемы?
Представьте: вы получили аналитическую справку от ИИ по развивающимся рынкам. Как проверить её достоверность? Разбить на отдельные утверждения и проверить каждое. Но тут-то и скрывается подвох – обычные методы извлечения утверждений часто ошибаются!
Исследователи выделили 4 ключевые проблемы:
1. Обработка мнений как фактов – когда субъективные суждения вроде "решение проблем требует комплексного подхода" выдаются за проверяемые факты
2. Неполнота – часть важной информации просто теряется
3. Неточности – например, фраза "ООН обнаружила связь между загрязнённой водой и болезнями" превращается в "ООН обнаружила загрязнённую воду" - происходит упрощение в котором теряется смысл.
4. Потеря контекста – утверждения вроде "Афганистан столкнулся с похожими проблемами" бесполезны без указания, с какими именно.
Как работает Claimify?
Система обрабатывает исходный текст в четыре этапа:
1. Разбивка на предложения с сохранением контекста – учитывается структура текста и окружающие предложения
2. Отбор фактов – ИИ отделяет предложения с проверяемыми фактами от субъективных мнений
3. Устранение неоднозначности – система определяет, можно ли однозначно интерпретировать предложение, и если нет – помечает его как неоднозначное
4. Декомпозиция – из предложений создаются отдельные проверяемые утверждения
Важнейшая особенность Claimify – она не пытается интерпретировать неоднозначности, когда контекст недостаточен. Система просто помечает такие случаи, вместо того чтобы гадать.
Что в итоге?
Проверка показала, что 99% утверждений, извлечённых Claimify, точно отражают исходный текст. Система также лучше балансирует между включением проверяемой информации и исключением субъективной, сохраняя критический контекст.
Разработчики уже успешно используют Claimify для оценки ответов GraphRAG.
По сути, Microsoft создаёт технологический фундамент для систем проверки достоверности ИИ-контента, что особенно важно для отраслей, где цена ошибки высока: финансы, медицина, юриспруденция.
Paper
Полезный метод. Пока в разработке - можно по документации свой создать.
#Microsoft #RAG
———
@tsingular
🔥9👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 В Claude добавили web поиск
Anthropic наконец-то выпустил функцию веб-поиска для Claude – возможность, которуая в других моделях присутствует уже около года.
Claude теперь может искать актуальную информацию в интернете и цитировать источники
Доступно пока только платным пользователям в США.
Работает только с флагманской моделью Claude 3.7 Sonnet
Интересно на сколько он покажет себя лучше, чем OpenAI pro, как исследователь.
#Anthropic #Claude
———
@tsingular
Anthropic наконец-то выпустил функцию веб-поиска для Claude – возможность, которуая в других моделях присутствует уже около года.
Claude теперь может искать актуальную информацию в интернете и цитировать источники
Доступно пока только платным пользователям в США.
Работает только с флагманской моделью Claude 3.7 Sonnet
Интересно на сколько он покажет себя лучше, чем OpenAI pro, как исследователь.
#Anthropic #Claude
———
@tsingular
👍3❤1
o1-pro появился в API и цены абсолютно прокляты!
Как вам $600 за 1 млн токенов?
По сравнению с $1.1 за млн в o3-mini или $2.19 у DeepSeek R1
Или даже $22 у GigaChat2 Max
Т.е. конечно, понятно, что с точки зрения OpenAI - это уже не игрушка, а вроде как Доктор Наук в предметной области вопроса изволит отвечать вам 24/7, но для начала страшновато.
Скорее всего на его ответах сейчас насамогонят R2 и будет у нас O1pro за 2 бакса на китайском.
#OpenAI #prices
———
@tsingular
Как вам $600 за 1 млн токенов?
По сравнению с $1.1 за млн в o3-mini или $2.19 у DeepSeek R1
Или даже $22 у GigaChat2 Max
Т.е. конечно, понятно, что с точки зрения OpenAI - это уже не игрушка, а вроде как Доктор Наук в предметной области вопроса изволит отвечать вам 24/7, но для начала страшновато.
Скорее всего на его ответах сейчас насамогонят R2 и будет у нас O1pro за 2 бакса на китайском.
#OpenAI #prices
———
@tsingular
😁10🔥1
🔥 EXAONE Deep: LG врывается в гонку рассуждающих ИИ
На арене появился неожиданный игрок из Кореи — LG, как оказалось, умеет не только в холодильники и телевизоры, но и в ИИ.
EXAONE Deep от LG AI Research — новая линейка моделей (32B, 7.8B и 2.4B параметров), заточенных под математику, научное мышление и программирование. И, судя по бенчмаркам, получается вполне сносно.
• 32B версия работает наравне с такими лидерами, как Qwen 32B, QwQ 32B и даже DeepSeek-R1 671B в CSAT Math.
• Уже доступна на Hugging Face — можно пощупать прямо сейчас.
По бенчмаркам:
• AIME 2024/2025 (американские математические олимпиады) — 32B версия набирает 90 баллов, 7.8B — 83.3.
• Китайский экзамен CSAT 2025 по математике — 94.5 балла у 32B версии.
• GPQA Diamond (PhD-уровень задач по физике, химии, биологии) — 66.1 у 32B.
• LiveCodeBench (кодинг) — стабильно высокие результаты у всех версий.
Оптимизирована под корейский язык.
Требует специальную команду для запуска режима рассуждений в промпте: нужно добавлять
#reasoning #LG #EXAONE
———
@tsingular
На арене появился неожиданный игрок из Кореи — LG, как оказалось, умеет не только в холодильники и телевизоры, но и в ИИ.
EXAONE Deep от LG AI Research — новая линейка моделей (32B, 7.8B и 2.4B параметров), заточенных под математику, научное мышление и программирование. И, судя по бенчмаркам, получается вполне сносно.
• 32B версия работает наравне с такими лидерами, как Qwen 32B, QwQ 32B и даже DeepSeek-R1 671B в CSAT Math.
• Уже доступна на Hugging Face — можно пощупать прямо сейчас.
По бенчмаркам:
• AIME 2024/2025 (американские математические олимпиады) — 32B версия набирает 90 баллов, 7.8B — 83.3.
• Китайский экзамен CSAT 2025 по математике — 94.5 балла у 32B версии.
• GPQA Diamond (PhD-уровень задач по физике, химии, биологии) — 66.1 у 32B.
• LiveCodeBench (кодинг) — стабильно высокие результаты у всех версий.
Оптимизирована под корейский язык.
Требует специальную команду для запуска режима рассуждений в промпте: нужно добавлять
<thought>\n.#reasoning #LG #EXAONE
———
@tsingular
🤔4🔥1
🦉 OWL: Открытый AI-агент, обгоняющий Manus AI
Наконец-то! Достойная бесплатная альтернатива закрытым AI-агентам вроде Manus AI, о котором все говорят, но попасть куда можно только по инвайту.
OWL (Optimized Workforce Learning) — мультиагентный фреймворк с открытым кодом, набравший более 6000 звёзд на GitHub всего за 2 дня и занявший 1-е место среди опенсорсных систем в бенчмарке GAIA со средним баллом 58.18.
В чём фишка OWL?
Система состоит из трёх типов агентов:
- User Agents — разбивают сложные задачи на простые шаги
- Assistant Agents — создают стратегии выполнения и работают с инструментами
- Tool Agents — соединяются с API, поисковиками и другими сервисами
Это позволяет OWL делать всё — от автономных исследований и веб-серфинга до программирования. И главное — всё работает локально, ваши данные в безопасности.
Технические особенности:
1. Поддержка популярных LLM-моделей: GPT-4, Claude, Gemini, Mistral, DeepSeek, Qwen и Groq
2. Встроенные инструменты:
- Поиск через Google, DuckDuckGo, Wiki, Bocha, Baidu
- Браузерная автоматизация через Playwright
- Парсинг документов (Word, Excel, PDF, PowerPoint)
- Обработка изображений, видео и аудио
- Выполнение Python-кода
- Работа с GitHub, Reddit, арXiv и даже Notion!
3. Простое развёртывание через conda, uv или Docker
Интересно, что последние коммиты от 19-20 марта связаны с обновлением max_token в примерах и добавлением поддержки Azure и Groq в веб-приложение. Команда явно работает над совместимостью с разными провайдерами.
Для бизнеса:
В отличие от закрытых систем за $20-200/месяц, OWL абсолютно бесплатен. Если у вас уже есть ключи API к моделям вроде GPT-4, вы можете автоматизировать исследования, анализ данных и веб-взаимодействия без дополнительных затрат.
Плюс открытая архитектура позволяет настроить OWL под конкретные бизнес-задачи — например, интегрировать с внутренними базами данных или API.
Команда сейчас собирает примеры использования (дедлайн 31 марта), так что можно не только попробовать, но и получить признание сообщества за интересный кейс.
#OpenSource #Agents #Automation
———
@tsingular
Наконец-то! Достойная бесплатная альтернатива закрытым AI-агентам вроде Manus AI, о котором все говорят, но попасть куда можно только по инвайту.
OWL (Optimized Workforce Learning) — мультиагентный фреймворк с открытым кодом, набравший более 6000 звёзд на GitHub всего за 2 дня и занявший 1-е место среди опенсорсных систем в бенчмарке GAIA со средним баллом 58.18.
В чём фишка OWL?
Система состоит из трёх типов агентов:
- User Agents — разбивают сложные задачи на простые шаги
- Assistant Agents — создают стратегии выполнения и работают с инструментами
- Tool Agents — соединяются с API, поисковиками и другими сервисами
Это позволяет OWL делать всё — от автономных исследований и веб-серфинга до программирования. И главное — всё работает локально, ваши данные в безопасности.
Технические особенности:
1. Поддержка популярных LLM-моделей: GPT-4, Claude, Gemini, Mistral, DeepSeek, Qwen и Groq
2. Встроенные инструменты:
- Поиск через Google, DuckDuckGo, Wiki, Bocha, Baidu
- Браузерная автоматизация через Playwright
- Парсинг документов (Word, Excel, PDF, PowerPoint)
- Обработка изображений, видео и аудио
- Выполнение Python-кода
- Работа с GitHub, Reddit, арXiv и даже Notion!
3. Простое развёртывание через conda, uv или Docker
Интересно, что последние коммиты от 19-20 марта связаны с обновлением max_token в примерах и добавлением поддержки Azure и Groq в веб-приложение. Команда явно работает над совместимостью с разными провайдерами.
Для бизнеса:
В отличие от закрытых систем за $20-200/месяц, OWL абсолютно бесплатен. Если у вас уже есть ключи API к моделям вроде GPT-4, вы можете автоматизировать исследования, анализ данных и веб-взаимодействия без дополнительных затрат.
Плюс открытая архитектура позволяет настроить OWL под конкретные бизнес-задачи — например, интегрировать с внутренними базами данных или API.
Команда сейчас собирает примеры использования (дедлайн 31 марта), так что можно не только попробовать, но и получить признание сообщества за интересный кейс.
#OpenSource #Agents #Automation
———
@tsingular
🔥9👍5
Исследование METR: Время решения задач AI-моделями удваивается каждые 7 месяцев
Исследователи из Model Evaluation & Threat Research (METR) выпустили 19 марта интересную работу, показывающую, что временной горизонт задач, которые могут решать AI-агенты, растёт экспоненциально.
Что измеряли и как
Команда из 24 исследователей разработала метрику "50% time horizon" — это продолжительность задач (в человеко-часах), которые AI может решить с 50% вероятностью успеха. Простыми словами: "Насколько долгую человеческую работу может заменить AI?"
Они провели 800+ базовых измерений с реальными людьми-экспертами для калибровки сложности 170 задач (от простых как "какой файл содержит пароль?" до сложных вроде "оптимизируй CUDA-ядро для бэктестинга") и протестировали на них 13 моделей от GPT-2 (2019) до Claude 3.7 Sonnet (2025).
Основные результаты
1. Claude 3.7 Sonnet сейчас может решать задачи, занимающие у опытного человека около 59 минут.
2. Скорость роста: временной горизонт стабильно удваивается каждые ~7 месяцев последние 6 лет.
3. Разница между 50% и 80% надёжностью: Для Claude 3.7 Sonnet горизонт падает с 59 минут до 15 минут при требовании более высокой надёжности.
4. Основные улучшения моделей: более надёжное выполнение, адаптация к ошибкам, улучшенное логическое мышление и использование инструментов.
Прогнозы на будущее
Если тренд сохранится, то к концу 2029 года мы получим модели, способные самостоятельно выполнять месячные проекты. Это потенциально может автоматизировать значительную часть работы программистов и исследователей.
Практические соображения
1. Стоимость: Успешный запуск AI-агента стоит <10% от зарплаты человека-эксперта для той же задачи — экономически очень выгодно.
2. Контекст важен: Разработчики репозитория решают те же задачи в 5-18 раз быстрее контрактников (наёмные аутсорсеры) без контекста. AI пока ближе к контрактникам по эффективности.
3. "Грязные" задачи: AI хуже справляется с неструктурированными задачами, где нет чёткой обратной связи или требуется проактивный поиск информации.
Интересное сравнение в плане выбора - кого нанять - субподрядчика контрактника человека или ИИ.
И те и те должны "въезжать" в чужеродную для них задачу без контекста.
И умнее "контрактники" не становятся, а вот ИИ умнеет быстрее закона Мура. х2 каждые 7 месяцев
Исследование
#metr #research #futurology
———
@tsingular
Исследователи из Model Evaluation & Threat Research (METR) выпустили 19 марта интересную работу, показывающую, что временной горизонт задач, которые могут решать AI-агенты, растёт экспоненциально.
Что измеряли и как
Команда из 24 исследователей разработала метрику "50% time horizon" — это продолжительность задач (в человеко-часах), которые AI может решить с 50% вероятностью успеха. Простыми словами: "Насколько долгую человеческую работу может заменить AI?"
Они провели 800+ базовых измерений с реальными людьми-экспертами для калибровки сложности 170 задач (от простых как "какой файл содержит пароль?" до сложных вроде "оптимизируй CUDA-ядро для бэктестинга") и протестировали на них 13 моделей от GPT-2 (2019) до Claude 3.7 Sonnet (2025).
Основные результаты
1. Claude 3.7 Sonnet сейчас может решать задачи, занимающие у опытного человека около 59 минут.
2. Скорость роста: временной горизонт стабильно удваивается каждые ~7 месяцев последние 6 лет.
3. Разница между 50% и 80% надёжностью: Для Claude 3.7 Sonnet горизонт падает с 59 минут до 15 минут при требовании более высокой надёжности.
4. Основные улучшения моделей: более надёжное выполнение, адаптация к ошибкам, улучшенное логическое мышление и использование инструментов.
Прогнозы на будущее
Если тренд сохранится, то к концу 2029 года мы получим модели, способные самостоятельно выполнять месячные проекты. Это потенциально может автоматизировать значительную часть работы программистов и исследователей.
Практические соображения
1. Стоимость: Успешный запуск AI-агента стоит <10% от зарплаты человека-эксперта для той же задачи — экономически очень выгодно.
2. Контекст важен: Разработчики репозитория решают те же задачи в 5-18 раз быстрее контрактников (наёмные аутсорсеры) без контекста. AI пока ближе к контрактникам по эффективности.
3. "Грязные" задачи: AI хуже справляется с неструктурированными задачами, где нет чёткой обратной связи или требуется проактивный поиск информации.
Интересное сравнение в плане выбора - кого нанять - субподрядчика контрактника человека или ИИ.
И те и те должны "въезжать" в чужеродную для них задачу без контекста.
И умнее "контрактники" не становятся, а вот ИИ умнеет быстрее закона Мура. х2 каждые 7 месяцев
Исследование
#metr #research #futurology
———
@tsingular
🔥7✍4