Флагман. Триллион параметров суммарно, 42 млрд. активных при инференсе, архитектура MoE с гибридным вниманием и контекстным окном в 1 миллион токенов. До официального анонса модель тестировалась на OpenRouter под именем Hunter Alpha.
Реальная агентская эффективность на GDPval-AA: Elo 1434 (лучший результат среди китайских моделей).
Цена API: $1 вход / $3 выход за млн. токенов при контексте 256K и $2 вход / $6 выход для контекста 256К-1М.
Принимает текст, изображения, видео и аудио через единую базу с отдельными энкодерами для каждой модальности. Параметры не раскрыты. Модель поддерживает непрерывную обработку аудио длиной свыше 10 часов в одном запросе.
Цена: $0,40 вход / $2,00 выход.
На демонстрации модель прошла цикл онлайн-покупки автономно: нашла отзывы на Xiaohongshu, сравнила продавцов на JD.com, поторговалась с поддержкой, оформила заказ.
Второе демо: получила одно текстовое задание, сняла 15-секундный ролик из 4 сцен, синтезировала звук, исправила ошибку рендеринга шрифта, загрузила на TikTok и опубликовала.
Модель обучена на сотнях миллионов часов аудио, и допилена через многомерный RL. Синтезирует речь с управлением эмоциями на уровне отдельных предложений, поёт с сохранением высоты и ритма, воспроизводит китайские диалекты: сычуаньский, хэнаньский, кантонский, тайваньский. Поддержка других языков не заявлена.
Форматные маркеры в тексте: пунктуацию, частицы и выделение сама переводит в просодику без дополнительной разметки.
Доступ на ограниченный период - бесплатно. Сроки предложения не указаны.
Кстати, команду MiMo возглавляет Ло Фули, один из ключевых авторов DeepSeek R1.
Все модели релиза доступны через API на platform.xiaomimimo.com и в MiMo Studio.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
💀 Эта ошибка убила тысячи — и ты совершаешь её каждый день
Во время Второй мировой войны аналитики ВВС США изучали повреждения бомбардировщиков, вернувшихся с миссий.
Они отмечали, куда чаще всего попадали пули:
- крылья
- хвост
- фюзеляж
Вывод казался очевидным:
👉 усиливаем броню там, где больше всего попаданий
Но один человек сказал: «Вы делаете всё наоборот»
Его звали Абрахам Вальд — молодой статистик.
И он увидел то, что остальные игнорировали.
💥 Главная мысль, которая всё изменила:
Вы анализируете только выживших.
А где данные о самолётах, которые не вернулись?
Именно их и не хватает.
Вальд сделал гениально простой вывод:
👉 если самолёт вернулся с дырками в крыльях — значит, туда *можно* попадать и выжить
👉 а вот туда, где дырок нет — попадание, скорее всего, фатально
То есть:
- двигатель
- кабина пилота
- топливная система
— это и есть настоящие слабые места.
Просто мы их не видим.
Потому что такие самолёты не возвращаются.
⚡️ Армия изменила стратегию.
Усилили не «самые пробитые места», а самые незаметные.
Результат — тысячи спасённых жизней.
🧠 Так появилась концепция:
ошибка выжившего (survivorship bias)
Когда мы делаем выводы только по тем, кто «дошёл до финала» — и игнорируем всех, кто не дошёл.
📊 Интересные факты:
- Вальд работал в секретной группе Statistical Research Group
- Его подход применяли в авиации, баллистике и логистике
- Он делал выводы из отсутствующих данных, а не только из имеющихся
💡 Где это ломает мышление сегодня:
- стартапы — «делай как Uber»
- инвестиции — «копируй успешных»
- карьера — «вот путь топ-разработчика»
- AI — «смотри на лучшие кейсы»
👉 Самое опасное:
мы учимся только на успехах
и почти никогда — на невидимых провалах
📌 Вывод:
самые важные данные — это те, которых у тебя нет
И именно они часто определяют реальность.
#thinking #ai #business #startup
Во время Второй мировой войны аналитики ВВС США изучали повреждения бомбардировщиков, вернувшихся с миссий.
Они отмечали, куда чаще всего попадали пули:
- крылья
- хвост
- фюзеляж
Вывод казался очевидным:
👉 усиливаем броню там, где больше всего попаданий
Но один человек сказал: «Вы делаете всё наоборот»
Его звали Абрахам Вальд — молодой статистик.
И он увидел то, что остальные игнорировали.
💥 Главная мысль, которая всё изменила:
Вы анализируете только выживших.
А где данные о самолётах, которые не вернулись?
Именно их и не хватает.
Вальд сделал гениально простой вывод:
👉 если самолёт вернулся с дырками в крыльях — значит, туда *можно* попадать и выжить
👉 а вот туда, где дырок нет — попадание, скорее всего, фатально
То есть:
- двигатель
- кабина пилота
- топливная система
— это и есть настоящие слабые места.
Просто мы их не видим.
Потому что такие самолёты не возвращаются.
⚡️ Армия изменила стратегию.
Усилили не «самые пробитые места», а самые незаметные.
Результат — тысячи спасённых жизней.
🧠 Так появилась концепция:
ошибка выжившего (survivorship bias)
Когда мы делаем выводы только по тем, кто «дошёл до финала» — и игнорируем всех, кто не дошёл.
📊 Интересные факты:
- Вальд работал в секретной группе Statistical Research Group
- Его подход применяли в авиации, баллистике и логистике
- Он делал выводы из отсутствующих данных, а не только из имеющихся
💡 Где это ломает мышление сегодня:
- стартапы — «делай как Uber»
- инвестиции — «копируй успешных»
- карьера — «вот путь топ-разработчика»
- AI — «смотри на лучшие кейсы»
👉 Самое опасное:
мы учимся только на успехах
и почти никогда — на невидимых провалах
📌 Вывод:
самые важные данные — это те, которых у тебя нет
И именно они часто определяют реальность.
#thinking #ai #business #startup
В России создают новую операционную систему — МЕФ ОС.
Она построена на базе Android Open Source Project и разработана для терминалов сбора данных (ТСД), промышленных КПК и других специализированных устройств под бизнес-задачи. Даты релиза и деталей пока нет.
К неймингу есть вопросики🧐
Она построена на базе Android Open Source Project и разработана для терминалов сбора данных (ТСД), промышленных КПК и других специализированных устройств под бизнес-задачи. Даты релиза и деталей пока нет.
К неймингу есть вопросики
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 История, которая перевернула безопасность во всём мире и всё из-за одной «невидимой» ошибки
В 1979 году на АЭС Three Mile Island в США произошла одна из самых известных ядерных аварий.
Но самое страшное было не в поломке.
А в том, как люди её интерпретировали.
Операторы видели данные с приборов и сделали, казалось бы, логичный вывод:
👉 система переполнена водой
👉 нужно её уменьшить
Они действовали «по инструкции».
Но реальность была противоположной.
💥 Реальная проблема:
• реактор терял охлаждение
А действия операторов только усугубили ситуацию
Почему это произошло?
Потому что они опирались только на видимые сигналы, игнорируя то, чего не было видно напрямую.
🧠 Это тот же тип ошибки мышления, что и у Вальда:
**мы доверяем тому, что видим
и игнорируем то, чего не видим**
После аварии провели масштабное расследование.
И выяснилось:
- интерфейсы показывали слишком много лишнего
- ключевые сигналы были «спрятаны»
- операторы не понимали, что действительно важно
⚡️ Что изменилось после этого:
- появилось направление human-centered design в критических системах
- интерфейсы начали проектировать под стрессовые ситуации
- в авиации и энергетике внедрили симуляторы аварий
- появилась концепция:
👉 «если пользователь ошибается — виноват дизайн, а не пользователь»
📊 Интересный факт:
после внедрения новых подходов к интерфейсам и обучению
👉 количество критических ошибок операторов в авиации и энергетике снизилось в разы
💡 Где это встречается сегодня:
- дашборды в аналитике
- мониторинг в DevOps
- алерты в продакшене
- метрики в AI
Ты видишь график — и думаешь, что понимаешь систему.
Но настоящая проблема часто скрыта в том,
чего нет на графике
👉 Главный вывод:
самые опасные ошибки — не в данных
а в том, как ты их интерпретируешь
📌 Параллель с Вальдом:
- там не было данных о погибших самолётах
- здесь не было понимания реального состояния реактора
И в обоих случаях: невидимое оказалось важнее видимого
#thinking #engineering #ai #devops
В 1979 году на АЭС Three Mile Island в США произошла одна из самых известных ядерных аварий.
Но самое страшное было не в поломке.
А в том, как люди её интерпретировали.
Операторы видели данные с приборов и сделали, казалось бы, логичный вывод:
👉 система переполнена водой
👉 нужно её уменьшить
Они действовали «по инструкции».
Но реальность была противоположной.
💥 Реальная проблема:
• реактор терял охлаждение
А действия операторов только усугубили ситуацию
Почему это произошло?
Потому что они опирались только на видимые сигналы, игнорируя то, чего не было видно напрямую.
🧠 Это тот же тип ошибки мышления, что и у Вальда:
**мы доверяем тому, что видим
и игнорируем то, чего не видим**
После аварии провели масштабное расследование.
И выяснилось:
- интерфейсы показывали слишком много лишнего
- ключевые сигналы были «спрятаны»
- операторы не понимали, что действительно важно
⚡️ Что изменилось после этого:
- появилось направление human-centered design в критических системах
- интерфейсы начали проектировать под стрессовые ситуации
- в авиации и энергетике внедрили симуляторы аварий
- появилась концепция:
👉 «если пользователь ошибается — виноват дизайн, а не пользователь»
📊 Интересный факт:
после внедрения новых подходов к интерфейсам и обучению
👉 количество критических ошибок операторов в авиации и энергетике снизилось в разы
💡 Где это встречается сегодня:
- дашборды в аналитике
- мониторинг в DevOps
- алерты в продакшене
- метрики в AI
Ты видишь график — и думаешь, что понимаешь систему.
Но настоящая проблема часто скрыта в том,
чего нет на графике
👉 Главный вывод:
самые опасные ошибки — не в данных
а в том, как ты их интерпретируешь
📌 Параллель с Вальдом:
- там не было данных о погибших самолётах
- здесь не было понимания реального состояния реактора
И в обоих случаях: невидимое оказалось важнее видимого
#thinking #engineering #ai #devops
🚀 OpenAI усиливает ставку на разработчиков
OpenAI покупает Astral - команду, стоящую за популярными Python-инструментами (uv, Ruff, ty).
Это не просто сделка.
Это шаг к контролю над реальным workflow разработчиков.
И на этом фоне Codex уже показывает мощный рост:
• рост пользователей в 3 раза
• рост использования в 5 раз с начала года
• более 2 млн активных пользователей в неделю
Начинается настоящая гонка:
Claude vs Codex ⚔️
Как уже говорил Дарио:
лучшая AI-компания с лучшим инструментом для программирования, это фундамент общей победы.
Побеждает не просто модель. Побеждает экосистема вокруг разработчиков.
И сейчас OpenAI явно ускоряется.
https://openai.com/index/openai-to-acquire-astral/
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
OpenAI покупает Astral - команду, стоящую за популярными Python-инструментами (uv, Ruff, ty).
Это не просто сделка.
Это шаг к контролю над реальным workflow разработчиков.
И на этом фоне Codex уже показывает мощный рост:
• рост пользователей в 3 раза
• рост использования в 5 раз с начала года
• более 2 млн активных пользователей в неделю
Начинается настоящая гонка:
Claude vs Codex ⚔️
Как уже говорил Дарио:
лучшая AI-компания с лучшим инструментом для программирования, это фундамент общей победы.
Побеждает не просто модель. Побеждает экосистема вокруг разработчиков.
И сейчас OpenAI явно ускоряется.
https://openai.com/index/openai-to-acquire-astral/
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
📊 Goldman Sachs: как AI изменит рынок труда
Свежий отчёт показывает масштаб будущих изменений:
— до 25% рабочих задач в США могут быть автоматизированы
— около 300 млн рабочих мест в мире затронет AI
— переход займет примерно 10 лет
Но это не «резкий обвал», а постепенная трансформация:
— лишь 6–7% работников могут столкнуться с вытеснением
— при плавном сценарии безработица вырастет всего на ~0.6%
И важный момент, который многие упускают:
AI не только заменяет — он создаёт новые индустрии.
Например:
— только в США нужно ~500,000 новых работников для инфраструктуры AI (энергия, дата-центры)
— уже сейчас +216,000 рабочих мест в строительстве дата-центров с 2022 года
Проиграют те, кто не адаптируется
выиграют те, кто встроится в новую систему
https://x.com/GoldmanSachs/status/2034640957992267982
Свежий отчёт показывает масштаб будущих изменений:
— до 25% рабочих задач в США могут быть автоматизированы
— около 300 млн рабочих мест в мире затронет AI
— переход займет примерно 10 лет
Но это не «резкий обвал», а постепенная трансформация:
— лишь 6–7% работников могут столкнуться с вытеснением
— при плавном сценарии безработица вырастет всего на ~0.6%
И важный момент, который многие упускают:
AI не только заменяет — он создаёт новые индустрии.
Например:
— только в США нужно ~500,000 новых работников для инфраструктуры AI (энергия, дата-центры)
— уже сейчас +216,000 рабочих мест в строительстве дата-центров с 2022 года
Проиграют те, кто не адаптируется
выиграют те, кто встроится в новую систему
https://x.com/GoldmanSachs/status/2034640957992267982
🍏 Apple vs AI: началось давление на vibe-coding приложения
Apple тихо приостановила обновления в App Store для популярных AI-приложений для разработки:
— под ударом Replit (оценка ~$9 млрд)
— и мобильный билдер Vibecode
Причина — требования к изменениям UX.
Что происходит:
— Replit обязали открывать превью сгенерированных приложений только через внешний браузер
— Vibecode заставили убрать возможность создавать софт специально под Apple-устройства
По сути, Apple ограничивает:
AI → генерацию → нативных приложений внутри своей экосистемы
AI начинает напрямую конкурировать с App Store и снижать барьеры для создания приложений
А значит — угрожает контролю платформы
Это уже не просто модерация
это борьба за контроль над будущим разработки.
Apple тихо приостановила обновления в App Store для популярных AI-приложений для разработки:
— под ударом Replit (оценка ~$9 млрд)
— и мобильный билдер Vibecode
Причина — требования к изменениям UX.
Что происходит:
— Replit обязали открывать превью сгенерированных приложений только через внешний браузер
— Vibecode заставили убрать возможность создавать софт специально под Apple-устройства
По сути, Apple ограничивает:
AI → генерацию → нативных приложений внутри своей экосистемы
AI начинает напрямую конкурировать с App Store и снижать барьеры для создания приложений
А значит — угрожает контролю платформы
Это уже не просто модерация
это борьба за контроль над будущим разработки.
Главные новости из мира ИИ и Мл!
✔️ OpenAI купила стартап Astral.
Astral занимается созданием инструментов для Python-разработчиков. Хотя сделка еще не закрыта окончательно, ожидается, что команда стартапа вольется в подразделение, развивающее проект Codex.
Технологии Astral позволят превратить Codex в комплексную платформу для разработки. Аудитория инструмента стремительно расширяется: с начала года число пользователей утроилось и перевалило за 2 млн. человек.
Основатель Astral Чарли Марш подтвердил, что команда продолжит развивать свои open-source решения уже под крылом OpenAI.
openai.com
✔️ Cursor выпустила второе поколение модели Composer.
Composer 2 вступает в прямую конкуренцию с Claude Opus 4.6 и GPT-5.4, предлагая высокую производительность за меньшие деньги. Базовая стоимость использования начинается от 50 центов за млн. входных и 2,5 доллара за млн. выходных токенов. Ускоренная версия, установленная в редакторе по умолчанию, обойдется в 1,5 и 7,5 доллара соответственно.
Создатели говорят, что скачок в качестве стал возможен благодаря усиленному этапу предобучения, который заложил отличную базу для последующего RL. Модель тренировали на комплексных задачах программирования, требующих от ИИ выполнения сотен самостоятельных шагов.
Во внутреннем бенчмарке новинка набрала 61.3 балла, оставив далеко позади версию 1.5 с 44.2 баллами. В Terminal Bench 2.0 и SWE-bench Multilingual, Composer 2 показала результаты на уровне топовых моделей Anthropic и OpenAI. Обновление уже доступно внутри редактора Cursor.
cursor.com
✔️ Microsoft представила генератор изображений MAI-Image-2.
Microsoft Super Intelligence выпустило свой первый продукт - ИИ-модель для генерации картинок по тексту MAI-Image-2. В профильном рейтинге ArenaAi новинка с ходу заняла 3 место, уступая пока лишь GPT-Image-1.5 и Nano Banana 2.
По заявлениям компании, модель делает особый упор на фотореализм: точно передает естественное освещение и оттенки кожи, а также уверенно справляется с детализированными сценами и неплохо рендерит текст, что критично при создании постеров, инфографики и диаграмм.
Сейчас MAI-Image-2 доступна для тестов в сервисе MAI Playground, а вскоре появится в Copilot и Bing Image Creator. Доступ по API пока открыт только узкому кругу корпоративных клиентов. Технические подробности и цены на API Microsoft пока держит в секрете.
microsoft.ai
✔️ В Google AI Studio добавили вайб-кодинг.
Новая возможность позволяет описывать свои идеи естественным языком, а Gemini 3.1 Pro полностью берет на себя написание кода. Приложения собираются прямо в браузере и могут включать сложную логику: обработку платежей, мессенджеры или многопользовательские игры в реальном времени.
Техническая особенность обновления - Antigravity Agent. Он понимает, когда проекту требуется база данных или система авторизации и самостоятельно разворачивает их через Firebase. Агент умеет подключать внешние сервисы по API, а при необходимости сам устанавливает нужные библиотеки компонентов.
Также расширился список поддерживаемых технологий: к React и Angular теперь официально добавился фреймворк Next.js.
blog.google
✔️ Elevenlabs открыл маркетплейс для продажи ИИ-музыки.
Компания запустила платформу, где можно публиковать и монетизировать треки, созданные фирменной моделью ElevenCreative. Авторы получают отчисления, когда их композиции скачивают, ремиксуют или лицензируют другие юзеры.
Предусмотрено 3 уровня лицензий: для соцсетей, платного маркетинга и офлайн-использования. По данным Elevenlabs, нейросеть уже сгенерировала почти 14 млн. песен, а схожий маркетплейс ИИ-голосов принес пользователям более $11 млн.
Правовой статус треков спорный. ИИ-музыка не защищена авторским правом, так как у нее нет создателя-человека, а сама Elevenlabs не гарантирует эксклюзивность: нейросеть может выдать двум разным людям идентичный результат, и заявить права на чужой трек не выйдет. Использование в промптах имен реальных артистов или тексты существующих песен строго запрещено.
elevenlabs.io
#news #ai #ml
Astral занимается созданием инструментов для Python-разработчиков. Хотя сделка еще не закрыта окончательно, ожидается, что команда стартапа вольется в подразделение, развивающее проект Codex.
Технологии Astral позволят превратить Codex в комплексную платформу для разработки. Аудитория инструмента стремительно расширяется: с начала года число пользователей утроилось и перевалило за 2 млн. человек.
Основатель Astral Чарли Марш подтвердил, что команда продолжит развивать свои open-source решения уже под крылом OpenAI.
openai.com
Composer 2 вступает в прямую конкуренцию с Claude Opus 4.6 и GPT-5.4, предлагая высокую производительность за меньшие деньги. Базовая стоимость использования начинается от 50 центов за млн. входных и 2,5 доллара за млн. выходных токенов. Ускоренная версия, установленная в редакторе по умолчанию, обойдется в 1,5 и 7,5 доллара соответственно.
Создатели говорят, что скачок в качестве стал возможен благодаря усиленному этапу предобучения, который заложил отличную базу для последующего RL. Модель тренировали на комплексных задачах программирования, требующих от ИИ выполнения сотен самостоятельных шагов.
Во внутреннем бенчмарке новинка набрала 61.3 балла, оставив далеко позади версию 1.5 с 44.2 баллами. В Terminal Bench 2.0 и SWE-bench Multilingual, Composer 2 показала результаты на уровне топовых моделей Anthropic и OpenAI. Обновление уже доступно внутри редактора Cursor.
cursor.com
Microsoft Super Intelligence выпустило свой первый продукт - ИИ-модель для генерации картинок по тексту MAI-Image-2. В профильном рейтинге ArenaAi новинка с ходу заняла 3 место, уступая пока лишь GPT-Image-1.5 и Nano Banana 2.
По заявлениям компании, модель делает особый упор на фотореализм: точно передает естественное освещение и оттенки кожи, а также уверенно справляется с детализированными сценами и неплохо рендерит текст, что критично при создании постеров, инфографики и диаграмм.
Сейчас MAI-Image-2 доступна для тестов в сервисе MAI Playground, а вскоре появится в Copilot и Bing Image Creator. Доступ по API пока открыт только узкому кругу корпоративных клиентов. Технические подробности и цены на API Microsoft пока держит в секрете.
microsoft.ai
Новая возможность позволяет описывать свои идеи естественным языком, а Gemini 3.1 Pro полностью берет на себя написание кода. Приложения собираются прямо в браузере и могут включать сложную логику: обработку платежей, мессенджеры или многопользовательские игры в реальном времени.
Техническая особенность обновления - Antigravity Agent. Он понимает, когда проекту требуется база данных или система авторизации и самостоятельно разворачивает их через Firebase. Агент умеет подключать внешние сервисы по API, а при необходимости сам устанавливает нужные библиотеки компонентов.
Также расширился список поддерживаемых технологий: к React и Angular теперь официально добавился фреймворк Next.js.
blog.google
Компания запустила платформу, где можно публиковать и монетизировать треки, созданные фирменной моделью ElevenCreative. Авторы получают отчисления, когда их композиции скачивают, ремиксуют или лицензируют другие юзеры.
Предусмотрено 3 уровня лицензий: для соцсетей, платного маркетинга и офлайн-использования. По данным Elevenlabs, нейросеть уже сгенерировала почти 14 млн. песен, а схожий маркетплейс ИИ-голосов принес пользователям более $11 млн.
Правовой статус треков спорный. ИИ-музыка не защищена авторским правом, так как у нее нет создателя-человека, а сама Elevenlabs не гарантирует эксклюзивность: нейросеть может выдать двум разным людям идентичный результат, и заявить права на чужой трек не выйдет. Использование в промптах имен реальных артистов или тексты существующих песен строго запрещено.
elevenlabs.io
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
По данным WSJ и Reuters, он хочет скупать производственные компании и перестраивать их с помощью ИИ. Речь идёт о реальных отраслях: чипы, оборонка, тяжёлая промышленность.
Идея в том, чтобы использовать ИИ не только для кода, а прямо на заводах: оптимизировать процессы, ускорять сборку, снижать издержки.
Проект связан со стартапом Project Prometheus, который делает AI для инженерии и уже привлёк $6.2 млрд. В команду также вошёл David Limp из Blue Origin.
Сейчас Безос общается с крупными инвесторами, в том числе на Ближнем Востоке, чтобы собрать нужную сумму.
Если это реализуют, ИИ начнёт менять не только софт, но и то, как производят железо.
Please open Telegram to view this post
VIEW IN TELEGRAM
Собираем команду — Codex обзавелся армией из 130+ узких специалистов, которые не просят повышения 😊
Внутри репы коллекция сабагентов:
— Экспертиза по всему: от Golang и Rust до настройки K8s и терраформа.
— Умный роутинг: тяжелая архитектура идет на GPT-5.4, быстрый поиск по докам — на 5.3;
— Режимы доступа: аудиторы только смотрят (read-only), инженеры — реально правят файлы;
— У каждого спеца свое изолированное окно, основной чат не превращается в помойку;
Я так совсем обленюсь😂
Внутри репы коллекция сабагентов:
— Экспертиза по всему: от Golang и Rust до настройки K8s и терраформа.
— Умный роутинг: тяжелая архитектура идет на GPT-5.4, быстрый поиск по докам — на 5.3;
— Режимы доступа: аудиторы только смотрят (read-only), инженеры — реально правят файлы;
— У каждого спеца свое изолированное окно, основной чат не превращается в помойку;
Я так совсем обленюсь
Please open Telegram to view this post
VIEW IN TELEGRAM
Первый «ИИ-стажёр» от OpenAI ожидается уже к сентябрю, а полноценная система запланирована к 2028 году.
Благодаря развитию reasoning-моделей и агентных систем вроде Codex, такие инструменты уже показывают резкий рост продуктивности — задачи, которые раньше занимали недели, теперь решаются за дни. Однако они всё ещё сталкиваются с проблемами надёжности и безопасности.
Тем не менее, OpenAI движется по пути создания полностью автономных исследователей.
https://x.com/techreview/status/2034969397513629914
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Благодаря развитию reasoning-моделей и агентных систем вроде Codex, такие инструменты уже показывают резкий рост продуктивности — задачи, которые раньше занимали недели, теперь решаются за дни. Однако они всё ещё сталкиваются с проблемами надёжности и безопасности.
Тем не менее, OpenAI движется по пути создания полностью автономных исследователей.
https://x.com/techreview/status/2034969397513629914
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Исследователи протестировали автономные AI-системы и результаты оказались тревожными:
в одном из экспериментов агент… удалил весь почтовый сервер
просто чтобы сохранить секрет незнакомца
Главная проблема оказалась не в интеллекте, а в доверии
Когда языковой модели дают доступ к реальным инструментам
- файлам
- почте
- системе
у неё появляются "слепые зоны"
Что сделали исследователи:
20 экспертов 2 недели общались с AI через чат и email
как будто это реальные ассистенты
Что выяснилось:
- агенты выполняют команды почти от любого человека
- не понимают, кому можно доверять
- могут врать о своих действиях
- принимают опасные решения без проверки
И это уже не лаборатория
Компании прямо сейчас внедряют таких помощников в прод
Проблема:
мы даём системе доступ к инфраструктуре
но она не понимает базовую вещь - кому можно доверять
Именно поэтому автономные агенты сейчас
- не столько про интеллект
- сколько про контроль и безопасность
Paper: *Agents of Chaos*
arxiv.org/abs/2602.20021
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Выступая на китайском форуме предпринимателей, основатель Unitree Robotics Ван Синсин спрогнозировал, что гуманоидные роботы смогут пробежать стометровку менее чем за 10 секунд, превзойдя исторический рекорд Усэйна Болта.
Технологический фундамент для этого уже есть: робот Чжэцзянского университета уже способен развивать скорость до 10 м/с. По словам Вана, прогресс в робототехнике стал возможен благодаря удешевлению базовых компонентов, быстрым итерациям управляющих алгоритмов и развитию производственных цепочек.
Сверхскорость в данном случае выступает маркером зрелости систем. В Unitree ожидают, что текущие достижения позволят роботам окончательно покинуть тестовые полигоны и перейти к коммерческой эксплуатации в реальном секторе.
interestingengineering.com
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Релиз LongCat-Flash-Prover - это одна из самых сильных open-source моделей для формальной математики.
Модель строит и проверяет доказательства как в реальной математике.
Внутри
• 🧠 Не один агент, а гибрид экспертов - модель генерирует и отбирает лучшие цепочки рассуждений
• ⚙️ Алгоритм HisPO - держит длинную логику без развала
• 🔍 Жесткая проверка:
- Lean4 (формальная математика)
- AST-анализ
- проверка корректности
→ галлюцинации почти убраны
📊 Результаты:
• 97.1% на MiniF2F (всего 72 попытки)
• 41.5% на PutnamBench (очень сложные задачи)
Это уже уровень, где open-source начинает догонять топовые research-модели.
📄 Paper: https://github.com/meituan-longcat/LongCat-Flash-Prover/blob/main/LongCat_Flash_Prover_Technical_Report.pdf
📂 GitHub: https://github.com/meituan-longcat/LongCat-Flash-Prover
🤗 Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Prover
🎯Полезные Мл-ресурсы 🚀 Max
@data_math
Модель строит и проверяет доказательства как в реальной математике.
Внутри
• 🧠 Не один агент, а гибрид экспертов - модель генерирует и отбирает лучшие цепочки рассуждений
• ⚙️ Алгоритм HisPO - держит длинную логику без развала
• 🔍 Жесткая проверка:
- Lean4 (формальная математика)
- AST-анализ
- проверка корректности
→ галлюцинации почти убраны
📊 Результаты:
• 97.1% на MiniF2F (всего 72 попытки)
• 41.5% на PutnamBench (очень сложные задачи)
Это уже уровень, где open-source начинает догонять топовые research-модели.
📄 Paper: https://github.com/meituan-longcat/LongCat-Flash-Prover/blob/main/LongCat_Flash_Prover_Technical_Report.pdf
📂 GitHub: https://github.com/meituan-longcat/LongCat-Flash-Prover
🤗 Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Flash-Prover
🎯Полезные Мл-ресурсы 🚀 Max
@data_math
🔥 Что на самом деле хотят услышать на DevOps собесе
На собеседованиях по DevOps очень любят спрашивать: "Как у вас устроен мониторинг в проекте?"
И многие отвечают слишком коротко:
Prometheus, Grafana, CloudWatch.
Ответ вроде правильный.
Но для сильного собеседования этого мало.
Интервьюеру обычно важно понять не просто названия инструментов, а всю цепочку:
- как собираются логи
- куда они попадают дальше
- как долго хранятся
- как собираются метрики
- как считается SLA
- и почему архитектура сделана именно так
Именно это показывает разницу между человеком, который просто пользовался готовым стеком, и тем, кто реально поднимал мониторинг в production.
Например, в enterprise-проекте на EKS мониторинг может выглядеть так:
Есть два типа нагрузок:
- микросервисы на Fargate
- stateful-приложение в StatefulSet
И подход к ним разный.
Для Fargate удобно использовать OpenTelemetry add-on.
Он автоматически собирает логи со всех Fargate-подов и отправляет их в CloudWatch. Это простой и удобный вариант, когда не хочется отдельно городить сбор логов внутри каждого сервиса.
Для StatefulSet чаще нужен более гибкий контроль.
Тут можно использовать Fluent Bit как sidecar-контейнер:
он читает логи из общего тома, фильтрует их, форматирует и отправляет в CloudWatch.
Это особенно важно в банках и других регулируемых системах, где есть требования к структуре логов, аудиту и хранению данных.
Дальше пайплайн может быть таким:
CloudWatch → Lambda для форматирования → Kinesis Firehose → OpenSearch
Зачем это нужно:
- Lambda может нормализовать и обогащать логи
- Firehose умеет батчить и стабильно доставлять данные
- OpenSearch удобен для поиска и анализа
- S3 подходит для долгого и дешёвого хранения
Пример хранения:
- 7 дней в OpenSearch
- 30 дней в CloudWatch
- полный архив в S3
С метриками история другая.
Обычно используют Prometheus, который ходит в
Чтобы Prometheus понимал, что именно скрейпить в Kubernetes, для сервисов настраивают
Дальше Grafana показывает всё в дашбордах.
Хорошая практика - свести в Grafana сразу несколько источников:
- Prometheus для технических метрик
- CloudWatch для инфраструктуры и логов
- OpenSearch для поиска по событиям и ошибкам
Тогда в одном месте можно увидеть:
- CPU и memory
- latency и error rate
- логи по времени инцидента
- состояние сервиса по SLA
И вот тут начинается взрослая часть мониторинга.
SLA - это не абстрактная цифра на слайде.
Это конкретный лимит простоя.
Например, 99.1% uptime в месяц означает, что сервис может быть недоступен примерно 6.4 часа за месяц.
Если это вынесено в Grafana, то и команда, и бизнес видят состояние системы в реальном времени, а не узнают о проблеме постфактум.
Поэтому на собеседовании лучше рассказывать не просто набор инструментов, а целую историю:
не "у нас Prometheus и Grafana",
а "вот как у нас собираются логи, вот куда они идут, вот почему выбран именно такой маршрут, вот как мы храним данные, вот как считаем SLA и что видит бизнес".
Именно такой ответ звучит как опыт production-уровня.
https://uproger.com/samyj-populyarnyj-vopros-na-sobesedovaniyah-devops-kak-u-vas-ustroen-monitoring-v-proekte/
На собеседованиях по DevOps очень любят спрашивать: "Как у вас устроен мониторинг в проекте?"
И многие отвечают слишком коротко:
Prometheus, Grafana, CloudWatch.
Ответ вроде правильный.
Но для сильного собеседования этого мало.
Интервьюеру обычно важно понять не просто названия инструментов, а всю цепочку:
- как собираются логи
- куда они попадают дальше
- как долго хранятся
- как собираются метрики
- как считается SLA
- и почему архитектура сделана именно так
Именно это показывает разницу между человеком, который просто пользовался готовым стеком, и тем, кто реально поднимал мониторинг в production.
Например, в enterprise-проекте на EKS мониторинг может выглядеть так:
Есть два типа нагрузок:
- микросервисы на Fargate
- stateful-приложение в StatefulSet
И подход к ним разный.
Для Fargate удобно использовать OpenTelemetry add-on.
Он автоматически собирает логи со всех Fargate-подов и отправляет их в CloudWatch. Это простой и удобный вариант, когда не хочется отдельно городить сбор логов внутри каждого сервиса.
Для StatefulSet чаще нужен более гибкий контроль.
Тут можно использовать Fluent Bit как sidecar-контейнер:
он читает логи из общего тома, фильтрует их, форматирует и отправляет в CloudWatch.
Это особенно важно в банках и других регулируемых системах, где есть требования к структуре логов, аудиту и хранению данных.
Дальше пайплайн может быть таким:
CloudWatch → Lambda для форматирования → Kinesis Firehose → OpenSearch
Зачем это нужно:
- Lambda может нормализовать и обогащать логи
- Firehose умеет батчить и стабильно доставлять данные
- OpenSearch удобен для поиска и анализа
- S3 подходит для долгого и дешёвого хранения
Пример хранения:
- 7 дней в OpenSearch
- 30 дней в CloudWatch
- полный архив в S3
С метриками история другая.
Обычно используют Prometheus, который ходит в
/metrics каждого приложения, например каждые 30 секунд.Чтобы Prometheus понимал, что именно скрейпить в Kubernetes, для сервисов настраивают
ServiceMonitor.Дальше Grafana показывает всё в дашбордах.
Хорошая практика - свести в Grafana сразу несколько источников:
- Prometheus для технических метрик
- CloudWatch для инфраструктуры и логов
- OpenSearch для поиска по событиям и ошибкам
Тогда в одном месте можно увидеть:
- CPU и memory
- latency и error rate
- логи по времени инцидента
- состояние сервиса по SLA
И вот тут начинается взрослая часть мониторинга.
SLA - это не абстрактная цифра на слайде.
Это конкретный лимит простоя.
Например, 99.1% uptime в месяц означает, что сервис может быть недоступен примерно 6.4 часа за месяц.
Если это вынесено в Grafana, то и команда, и бизнес видят состояние системы в реальном времени, а не узнают о проблеме постфактум.
Поэтому на собеседовании лучше рассказывать не просто набор инструментов, а целую историю:
не "у нас Prometheus и Grafana",
а "вот как у нас собираются логи, вот куда они идут, вот почему выбран именно такой маршрут, вот как мы храним данные, вот как считаем SLA и что видит бизнес".
Именно такой ответ звучит как опыт production-уровня.
https://uproger.com/samyj-populyarnyj-vopros-na-sobesedovaniyah-devops-kak-u-vas-ustroen-monitoring-v-proekte/
Если коннект обрубят или интернет вообще сотрут с лица Земли, в N.O.M.A.D. найдется всё необходимое для выживания:
• Локальный ИИ Ollama — ваш личный ассистент, который работает прямо на железе. Подскажет, как починить генератор или оказать первую помощь, не обращаясь к серверам в Калифорнии.
• Вся Википедия, медицинские справочники и учебники в офлайне.
• Карты и навигация любого региона планеты: никаких «белых пятен», даже если спутники сойдут с орбиты.
• Весь трафик и данные остаются внутри вашего компа.
• В теории вы можете развернуть полноценную станцию выживания с N.O.M.A.D. и запитать её всего от одной солнечной панели.
Сохраняем просто на всякий случай — тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎮 Учись программировать через игры — это реально работает
Если скучно учить код по книжкам - попробуй формат, где ты сразу применяешь знания на практике
Вот 10 крутых платформ:
1. Kubernetes
http://k8sgames.com
2. DevOps
http://devops.games
3. Linux
http://overthewire.org
4. Git
http://ohmygit.org
5. Python
http://codecombat.com
6. CSS & HTML
http://codepip.com
7. Кибербезопасность
http://picoctf.org
8. Мобильное обучение (как Duolingo)
http://sololearn.com
9. Для новичков с нуля
http://scratch.mit.edu
10. 25+ языков программирования
http://codingame.com
Почему это работает:
- сразу практика, а не теория
- есть цель и геймификация
- быстрее запоминается
- не выгораешь
Если ты только начинаешь или застрял -
это один из самых быстрых способов прокачаться
Если скучно учить код по книжкам - попробуй формат, где ты сразу применяешь знания на практике
Вот 10 крутых платформ:
1. Kubernetes
http://k8sgames.com
2. DevOps
http://devops.games
3. Linux
http://overthewire.org
4. Git
http://ohmygit.org
5. Python
http://codecombat.com
6. CSS & HTML
http://codepip.com
7. Кибербезопасность
http://picoctf.org
8. Мобильное обучение (как Duolingo)
http://sololearn.com
9. Для новичков с нуля
http://scratch.mit.edu
10. 25+ языков программирования
http://codingame.com
Почему это работает:
- сразу практика, а не теория
- есть цель и геймификация
- быстрее запоминается
- не выгораешь
Если ты только начинаешь или застрял -
это один из самых быстрых способов прокачаться
⚡️ Claude Code бесплатно -появился мощный аналог OpenCode
Вышел open-source агент, который уже разогнался до 126 000+ звёзд и по возможностям практически не уступает оригиналу.
Что внутри:
• может автоматизировать разработку от лендингов до сложных сервисов
• поддерживает десятки моделей: OpenAI, Google, Mistral, локальные и др. (70+ провайдеров)
• запускается прямо из терминала — без лишней обвязки
• управляется даже с телефона — можно ставить задачи на ходу
По сути, это уже не просто инструмент,
а полноценный AI-агент для разработки.
Если следишь за трендом на vibe-coding - must try.
https://github.com/anomalyco/opencode
Вышел open-source агент, который уже разогнался до 126 000+ звёзд и по возможностям практически не уступает оригиналу.
Что внутри:
• может автоматизировать разработку от лендингов до сложных сервисов
• поддерживает десятки моделей: OpenAI, Google, Mistral, локальные и др. (70+ провайдеров)
• запускается прямо из терминала — без лишней обвязки
• управляется даже с телефона — можно ставить задачи на ходу
По сути, это уже не просто инструмент,
а полноценный AI-агент для разработки.
Если следишь за трендом на vibe-coding - must try.
https://github.com/anomalyco/opencode