Google I/O 2026 прошел 19 мая кейнот занял около двух часов и охватил модели, агентов, переработку всех основных приложений и железо
По моделям: Gemini 3.5 Flash становится новым флагманом, по заявлению Google быстрее 3.1 Pro в четыре раза и сильнее на агентских задачах. Gemini 3.5 Pro выйдет в следующем месяце
Gemini Omni мультимодальная модель с редактированием видео через текст, уже доступна в Gemini App и бесплатно в YouTube Shorts
По агентам: Gemini Spark персональный агент, который выполняет задачи в приложениях в фоне. Daily Brief собирает утренний дайджест из Gmail, календаря и задач. Information Agents мониторят веб по заданным темам без участия пользователя. Android Halo живая полоска на экране Android, показывает что агент делает в реальном времени
По приложениям: Gmail Live и Docs Live добавляют голосовое управление почтой и документами.
Google Keep превращает свободную речь в структурированные заметки (далее в комментариях)
По моделям: Gemini 3.5 Flash становится новым флагманом, по заявлению Google быстрее 3.1 Pro в четыре раза и сильнее на агентских задачах. Gemini 3.5 Pro выйдет в следующем месяце
Gemini Omni мультимодальная модель с редактированием видео через текст, уже доступна в Gemini App и бесплатно в YouTube Shorts
По агентам: Gemini Spark персональный агент, который выполняет задачи в приложениях в фоне. Daily Brief собирает утренний дайджест из Gmail, календаря и задач. Information Agents мониторят веб по заданным темам без участия пользователя. Android Halo живая полоска на экране Android, показывает что агент делает в реальном времени
По приложениям: Gmail Live и Docs Live добавляют голосовое управление почтой и документами.
Google Keep превращает свободную речь в структурированные заметки (далее в комментариях)
❤2
Media is too big
VIEW IN TELEGRAM
На конференции Google I/O продемонстрирован алгоритм взаимодействия с операционной системой macOS через Gemini
В рамках презентации был показан процесс создания электронного письма на основе нескольких разрозненных файлов. Пользователь выделил в папке фотографии и PDF-справки, а затем голосом поставил задачу написать письмо и собрать данные в таблицу. ИИ распознал информацию с изображений и текст из документов, после чего сгенерировал готовое сообщение с таблицей в почтовом клиенте.
Это пример использования мультимодальности для обработки файлов разных форматов без необходимости переключаться между окнами.
В рамках презентации был показан процесс создания электронного письма на основе нескольких разрозненных файлов. Пользователь выделил в папке фотографии и PDF-справки, а затем голосом поставил задачу написать письмо и собрать данные в таблицу. ИИ распознал информацию с изображений и текст из документов, после чего сгенерировал готовое сообщение с таблицей в почтовом клиенте.
Это пример использования мультимодальности для обработки файлов разных форматов без необходимости переключаться между окнами.
🔥3
Google на I/O 2026 выпустил Antigravity 2.0 отдельное десктопное приложение, построенное вокруг оркестрации ИИ агентов, без привязки к IDE
Несколько агентов запускаются параллельно через динамические subagent-воркфлоу, фоновые задачи планируются по расписанию, поддерживаются нативные голосовые команды. Движок, Gemini 3.5 Flash, по заявлению Google работает в четыре раза быстрее конкурирующих frontier-моделей и превосходит Gemini 3.1 Pro на кодинговых бенчмарках
В экосистему вошли также Antigravity CLI (полная замена Gemini CLI, написан на Go), Antigravity SDK для кастомных агентов и Managed Agents в Gemini API с персистентным Linux-окружением
Gemini CLI и расширения Code Assist отключат для всех пользователей 18 июня 2026 года. Новый план AI Ultra стоит $100 в месяц (5x лимиты против Pro), топовый снизился с $250 до $200 (20x лимиты)
Почитать: https://antigravity.google/blog/introducing-google-antigravity-2-0
Несколько агентов запускаются параллельно через динамические subagent-воркфлоу, фоновые задачи планируются по расписанию, поддерживаются нативные голосовые команды. Движок, Gemini 3.5 Flash, по заявлению Google работает в четыре раза быстрее конкурирующих frontier-моделей и превосходит Gemini 3.1 Pro на кодинговых бенчмарках
В экосистему вошли также Antigravity CLI (полная замена Gemini CLI, написан на Go), Antigravity SDK для кастомных агентов и Managed Agents в Gemini API с персистентным Linux-окружением
Gemini CLI и расширения Code Assist отключат для всех пользователей 18 июня 2026 года. Новый план AI Ultra стоит $100 в месяц (5x лимиты против Pro), топовый снизился с $250 до $200 (20x лимиты)
Почитать: https://antigravity.google/blog/introducing-google-antigravity-2-0
❤3
Media is too big
VIEW IN TELEGRAM
Google на I/O 2026 анонсировал Gemini Omni новую модель для генерации и редактирования видео, встроенную напрямую в Gemini
Заявленная долгосрочная цель, по словам Демиса Хасабиса, генерировать любой тип контента из любого входа; первый шаг видео. Например модель, берет видео как вход и позволяет редактировать его в чате: менять персонажей, фоны, убирать объекты текстовыми командами. Также у него нативная мультимодальность: на вход принимаются текст, аудио, изображения и видео одновременно, выход единый по стилю
По первым тестам качество сырой генерации уступает Seedance 2 от ByteDance, но редактирование работает заметно лучше конкурентов. Omni позиционируется как агент, аналогично Deep Research в AI Studio, и будет доступен через API.
Первая версия, Omni Flash, уже доступна подписчикам AI Plus, Pro и Ultra в Gemini App, Google Flow и Google Flow Music. В YouTube Shorts и YouTube Create доступ бесплатный без подписки
Заявленная долгосрочная цель, по словам Демиса Хасабиса, генерировать любой тип контента из любого входа; первый шаг видео. Например модель, берет видео как вход и позволяет редактировать его в чате: менять персонажей, фоны, убирать объекты текстовыми командами. Также у него нативная мультимодальность: на вход принимаются текст, аудио, изображения и видео одновременно, выход единый по стилю
По первым тестам качество сырой генерации уступает Seedance 2 от ByteDance, но редактирование работает заметно лучше конкурентов. Omni позиционируется как агент, аналогично Deep Research в AI Studio, и будет доступен через API.
Первая версия, Omni Flash, уже доступна подписчикам AI Plus, Pro и Ultra в Gemini App, Google Flow и Google Flow Music. В YouTube Shorts и YouTube Create доступ бесплатный без подписки
❤3
Это самое интересное
Google выпустил ИИ-функцию, которая меняет то, как мы все используем YouTube. Она называется Ask YouTube. Теперь вместо того, чтобы смотреть видео целиком, вы просто задаете вопрос о том, что именно вы хотите найти на YouTube, и он найдет нужное видео и точный момент в нем, который вы ищете 🔥
Google выпустил ИИ-функцию, которая меняет то, как мы все используем YouTube. Она называется Ask YouTube. Теперь вместо того, чтобы смотреть видео целиком, вы просто задаете вопрос о том, что именно вы хотите найти на YouTube, и он найдет нужное видео и точный момент в нем, который вы ищете 🔥
🔥9👎1
Разработчики ИИ консультируются с философами и теологами для настройки нейросетей. Anthropic привлекла специалистов по этике из 15 традиций для изучения формирования характера. Цель не навязывание идеологии, а поиск устойчивых ориентиров. Модели дали «внешнюю совесть» для проверки ответов перед генерацией, что снизило нарушения безопасности.
Anthropic опубликовала отчет о новых этических принципах. Проведены консультации с философами, учеными и представителями культур для интеграции моральных ориентиров без идеологического уклона.
Результат внедрение механизма «внешней совести». Алгоритм перед задачами обращается к нему для оценки конфликтов интересов. Пауза на размышление снизила количество ответов, нарушающих протоколы. К исследованию планируют привлечь юристов, психологов и социологов.
https://www.anthropic.com/news/widening-conversation-ai
Anthropic опубликовала отчет о новых этических принципах. Проведены консультации с философами, учеными и представителями культур для интеграции моральных ориентиров без идеологического уклона.
Результат внедрение механизма «внешней совести». Алгоритм перед задачами обращается к нему для оценки конфликтов интересов. Пауза на размышление снизила количество ответов, нарушающих протоколы. К исследованию планируют привлечь юристов, психологов и социологов.
https://www.anthropic.com/news/widening-conversation-ai
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Google анонсировал мобильное приложение AI Studio на I/O 2026. Инструмент, который раньше работал только в браузере, скоро появится в App Store и Google Play
Параллельно Google запустил возможность генерировать нативные Android-приложения из текстового промпта прямо в браузере, без установки SDK или настройки среды разработки
https://aistudio.google.com/mobile
Параллельно Google запустил возможность генерировать нативные Android-приложения из текстового промпта прямо в браузере, без установки SDK или настройки среды разработки
https://aistudio.google.com/mobile
🔥3😢1
This media is not supported in your browser
VIEW IN TELEGRAM
Вот пример 3 правок видео с новой моделью Google, Omni:
1. оригинал
2. сделать её невидимой, надеть на неё перчатки
3. пока она говорит, двое мужчин приходят и уносят картину в рамке
4. изменить её наряд
1. оригинал
2. сделать её невидимой, надеть на неё перчатки
3. пока она говорит, двое мужчин приходят и уносят картину в рамке
4. изменить её наряд
🔥5❤1
Репозиторий от HuggingFace.
Agent Skill инструкция + набор скриптов, которую ты отдаёшь агенту (Claude Code и/или другому агенту). Он читает исходный код архитектуры из transformers, сам переписывает его под MLX, прогоняет тесты и готовит PR. Человек только проверяет результат
Если захочешь запустить какую-то модель локально на М чипе, а она ещё не портирована в mlx-lm вот инструмент чтобы это сделать
https://github.com/huggingface/transformers-to-mlx
Agent Skill инструкция + набор скриптов, которую ты отдаёшь агенту (Claude Code и/или другому агенту). Он читает исходный код архитектуры из transformers, сам переписывает его под MLX, прогоняет тесты и готовит PR. Человек только проверяет результат
Если захочешь запустить какую-то модель локально на М чипе, а она ещё не портирована в mlx-lm вот инструмент чтобы это сделать
https://github.com/huggingface/transformers-to-mlx
🔥2
Официально поддерживает казахский и русский 🔥🔥🔥
Tencent выпустил Hy-MT2, семейство открытых моделей для машинного перевода в трёх размерах: 1.8B, 7B и 30B-A3B.
Все три поддерживают 33 языка, в том числе казахский, русский. Версия 1.8B сжата до 440 МБ с помощью квантизации AngelSlim до 1.25 бит и рассчитана на запуск локально на мобильных чипах
По результатам бенчмарков WMT25 модели 7B и 30B-A3B превзошли DeepSeek-V4-Pro и Kimi K2.6 на переводческих задачах, а 1.8B обошла ряд коммерческих API. Вместе с моделями опубликован IFMTBench, бенчмарк для оценки следования инструкциям при переводе. Веса доступны на Hugging Face в форматах GGUF, FP8 и 1.25-bit GGUF.
GitHub: https://github.com/Tencent-Hunyuan/Hy-MT2
ModelScope: https://modelscope.cn/collections/Tencent-Hunyuan/Hy-MT2
Hugging Face: https://huggingface.co/collections/tencent/hy-mt2
Tencent выпустил Hy-MT2, семейство открытых моделей для машинного перевода в трёх размерах: 1.8B, 7B и 30B-A3B.
Все три поддерживают 33 языка, в том числе казахский, русский. Версия 1.8B сжата до 440 МБ с помощью квантизации AngelSlim до 1.25 бит и рассчитана на запуск локально на мобильных чипах
По результатам бенчмарков WMT25 модели 7B и 30B-A3B превзошли DeepSeek-V4-Pro и Kimi K2.6 на переводческих задачах, а 1.8B обошла ряд коммерческих API. Вместе с моделями опубликован IFMTBench, бенчмарк для оценки следования инструкциям при переводе. Веса доступны на Hugging Face в форматах GGUF, FP8 и 1.25-bit GGUF.
GitHub: https://github.com/Tencent-Hunyuan/Hy-MT2
ModelScope: https://modelscope.cn/collections/Tencent-Hunyuan/Hy-MT2
Hugging Face: https://huggingface.co/collections/tencent/hy-mt2
🔥6❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Статичная инфографика превращается в анимированное видео одним промптом. Пользователь загрузил картинку в Gemini и попросил расставить анимацию элементов в нужном порядке, модель сама интерпретировала структуру изображения и сгенерировала видео. Твит с результатом набрал 61 тыс. просмотров за сутки.
Промпт: «Сделай из этого изображения профессиональную анимацию с направлением взгляда зрителя. Основные элементы должны появляться в порядке: заголовок, визуал, дополнение, CTA. Движение должно быть элегантным и ритмичным, с естественным завершением.»
❤2
Alibaba выпустила Qwen3.7-Max, для агентных сценариев
Ключевой эксперимент команды: в режиме автономного запуска модель 35 часов оптимизировала CUDA-ядро Extend Attention, совершив 1158 вызовов инструментов и 432 итерации компиляции, без участия человека, и достигла ускорения в 10x относительно базового Triton-ядра.
На агентных бенчмарках Terminal-Bench (69.7), MCP-Atlas (76.4), SWE-bench Multilingual (78.3) модель занимает первое место среди протестированных
На CoWorkBench результат 67.2 против 68.2 у Claude Opus 4.6 Max. Модель доступна через API Alibaba Model Studio и Qwen Studio
Почитать: https://qwen.ai/blog?id=qwen3.7
Демо: https://chat.qwen.ai
Ключевой эксперимент команды: в режиме автономного запуска модель 35 часов оптимизировала CUDA-ядро Extend Attention, совершив 1158 вызовов инструментов и 432 итерации компиляции, без участия человека, и достигла ускорения в 10x относительно базового Triton-ядра.
На агентных бенчмарках Terminal-Bench (69.7), MCP-Atlas (76.4), SWE-bench Multilingual (78.3) модель занимает первое место среди протестированных
На CoWorkBench результат 67.2 против 68.2 у Claude Opus 4.6 Max. Модель доступна через API Alibaba Model Studio и Qwen Studio
Почитать: https://qwen.ai/blog?id=qwen3.7
Демо: https://chat.qwen.ai
🔥3
Media is too big
VIEW IN TELEGRAM
Генеративный ИИ создает изображения на основе статистических закономерностей, а не физического моделирования сцены
Именно это и эксплуатирует Хани Фарид, один из основателей цифровой криминалистики, в своей работе по обнаружению фейков. В апрельской статье Science журналист Кай Купфершмидт описывает три конкретных метода Фарида.
Первый: в реальном фото параллельные линии, например плитка пола или рельсы, сходятся в единой точке перспективы. Если нет, снимок физически неправдоподобен.
Второй: отражения подчиняются той же геометрии.
Третий: тени от солнца на поверхности Земли параллельны, и их несоответствие этому принципу выдает подделку
Фарид скептически относится к тезису о том, что ИИ со временем научится воспроизводить физику корректно: у компаний нет стимула добиваться такого уровня точности, их цель, обмануть рядового пользователя, а не криминалиста
Источник: https://www.science.org/content/article/deepfakes-are-everywhere-godfather-digital-forensics-fighting-back
Именно это и эксплуатирует Хани Фарид, один из основателей цифровой криминалистики, в своей работе по обнаружению фейков. В апрельской статье Science журналист Кай Купфершмидт описывает три конкретных метода Фарида.
Первый: в реальном фото параллельные линии, например плитка пола или рельсы, сходятся в единой точке перспективы. Если нет, снимок физически неправдоподобен.
Второй: отражения подчиняются той же геометрии.
Третий: тени от солнца на поверхности Земли параллельны, и их несоответствие этому принципу выдает подделку
Фарид скептически относится к тезису о том, что ИИ со временем научится воспроизводить физику корректно: у компаний нет стимула добиваться такого уровня точности, их цель, обмануть рядового пользователя, а не криминалиста
Источник: https://www.science.org/content/article/deepfakes-are-everywhere-godfather-digital-forensics-fighting-back
🔥3
AI Secrets
Карпаты присоединился к Anthropic 🔥
This media is not supported in your browser
VIEW IN TELEGRAM
Первый день Андрея Карпатого в офисе Anthropic
😁8👍4🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen 3.7-Max написал Тетрис-бота лучше Claude и GPT, потратив в 9 раз меньше денег
Три модели дали бота, который сам читал свой код и переписывал себя 10 раз подряд. Qwen улучшил результат на 56% за $1.32, Claude Opus 4.7 дал +28% за $12.15, GPT-5.5 вышел в минус с +7% за $2.85. В длинных агентных циклах разница в цене оказывается принципиальной
Три модели дали бота, который сам читал свой код и переписывал себя 10 раз подряд. Qwen улучшил результат на 56% за $1.32, Claude Opus 4.7 дал +28% за $12.15, GPT-5.5 вышел в минус с +7% за $2.85. В длинных агентных циклах разница в цене оказывается принципиальной
🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI добавила в Codex функцию Appshots
На Mac двойное нажатие Command прикрепляет окно любого приложения к активному треду в Codex. Агент получает одновременно скриншот и полный текст содержимого окна, в том числе контент за пределами видимой области экрана. Это позволяет передавать контекст без ручного копирования или описания
Функция доступна на всех тарифных планах для Mac
На Mac двойное нажатие Command прикрепляет окно любого приложения к активному треду в Codex. Агент получает одновременно скриншот и полный текст содержимого окна, в том числе контент за пределами видимой области экрана. Это позволяет передавать контекст без ручного копирования или описания
Функция доступна на всех тарифных планах для Mac
🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Tesana выпустила Muranyi 3, третью итерацию своей специализированной ИИ модели для создания игр из текстовых описаний
В отличие от универсальных языковых моделей, Muranyi обучена именно на игровой логике: она генерирует окружение, механики, персонажей и системы поведения NPC через промпты. В новой версии появился встроенный редактор кода, заявлено на 90% меньше багов в сгенерированном коде, улучшены 3D-анимации и скорость сборки
Платформа работает в браузере без установки движка. Компания привлекла около 10 000 платящих пользователей за первые недели и показывала продукт на GDC в марте 2026 года. Пространство «промпт в игру» становится конкурентным: среди других игроков Rosebud и несколько YC-стартапов
Почитать: https://tesana.ai/en/blog/introducing-muranyi-3
В отличие от универсальных языковых моделей, Muranyi обучена именно на игровой логике: она генерирует окружение, механики, персонажей и системы поведения NPC через промпты. В новой версии появился встроенный редактор кода, заявлено на 90% меньше багов в сгенерированном коде, улучшены 3D-анимации и скорость сборки
Платформа работает в браузере без установки движка. Компания привлекла около 10 000 платящих пользователей за первые недели и показывала продукт на GDC в марте 2026 года. Пространство «промпт в игру» становится конкурентным: среди других игроков Rosebud и несколько YC-стартапов
Почитать: https://tesana.ai/en/blog/introducing-muranyi-3
❤4🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь на Mac с чипом Apple можно запустить анимацию любого портрета через веб-камеру, и модель будет переносить мимику лица в реальном времени на выбранное изображение: фотографию, картину или даже кота.
Инструмент называется fasterliveportrait-mlx. Он работает локально, через браузер, без облака. В качестве источника можно использовать не только лицо человека, но и любое изображение с несколькими лицами одновременно. Аудио и текст в качестве управления мимикой тоже поддерживаются, но пока в экспериментальном режиме.
GitHub: https://github.com/ivanfioravanti/fasterliveportrait-mlx
Инструмент называется fasterliveportrait-mlx. Он работает локально, через браузер, без облака. В качестве источника можно использовать не только лицо человека, но и любое изображение с несколькими лицами одновременно. Аудио и текст в качестве управления мимикой тоже поддерживаются, но пока в экспериментальном режиме.
GitHub: https://github.com/ivanfioravanti/fasterliveportrait-mlx
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Как понять сложную научную статью по 3D-графике, не копаясь часами в формулах?
Gemini 3.5 flash превращает старые чертежи из документов в интерактивные трехмерные модели. Ей можно просто показать скриншот статьи отметив формулу/объект который не понимаешь и он сам разберет схемы, напишет код и создаст веб-страницу, где на 3D-объекте можно крутить ползунки, менять углы падения света и сразу видеть, как работает математика из текста
Gemini 3.5 flash превращает старые чертежи из документов в интерактивные трехмерные модели. Ей можно просто показать скриншот статьи отметив формулу/объект который не понимаешь и он сам разберет схемы, напишет код и создаст веб-страницу, где на 3D-объекте можно крутить ползунки, менять углы падения света и сразу видеть, как работает математика из текста
❤4
Perplexity выпустили Bumblebee безопасный сканер для разработчиков 🐝
Он ищет зараженные библиотеки (из npm, PyPI и др.) на вашем компе, но делает это в режиме «только чтение». Никакой код при проверке не запускается, так что вирус случайно не активируется
Проект: github.com/perplexityai/bumblebee
Он ищет зараженные библиотеки (из npm, PyPI и др.) на вашем компе, но делает это в режиме «только чтение». Никакой код при проверке не запускается, так что вирус случайно не активируется
Когда в npm или PyPI находят очередную зараженную библиотеку (а это происходит постоянно), первая мысль: «Блин, а у меня она не стоит?»
Проект: github.com/perplexityai/bumblebee
🔥3👍1