AI Secrets
642 subscribers
191 photos
245 videos
3 files
444 links
Все про ИИ и open source проекты

Угости меня кофе ☕️
4400430300037006
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
LM Studio обновила MLX движок до версии v1.8.1 с двумя изменениями

Первое, batching для vision-моделей: несколько чатов с multimodal-моделью теперь обрабатываются параллельно, а не последовательно

Второе, переработанное кэширование KV-кэшей для ускорения инференса в целом. Обновление доступно только через бета-канал: Developer Mode, переключение на beta runtime channel, выбор LM Studio MLX v1.8.1. Стабильный канал пока не затронут
2
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI запустил Codex в мобильном приложении ChatGPT в режиме превью
2
Anthropic выделяет подписчикам тарифа Max 20x отдельный ежемесячный бюджет в $200 для использования Claude через Agent SDK и флаг claude -p, включая сторонние приложения, построенные на базе Agent SDK

До этого изменения было неясно, конкурирует ли программное использование с лимитами интерактивного чата. Теперь бюджеты разделены: $200 идут на агентное и скриптовое использование, основные лимиты остаются для чата, Claude Code и Cowork

При исчерпании бонусного баланса включается режим “extra usage”, который можно включить или отключить вручную. Бюджет не переносится на следующий месяц и требует ручной активации в июне через отдельное уведомление от Anthropic
👍2
Топ опенсорс 🔥 (особенно под стиль kids и тд)

Большинство качественных лекций, подкастов и технических докладов доступны только на одном языке, чаще всего на английском

Violin решает это через единый пайплайн: ffmpeg извлекает аудио, Whisper Large v3 строит транскрипт с временными метками, DeepSeek V4 Pro переводит каждый сегмент, Cartesia Sonic 3 синтезирует озвучку, и ffmpeg собирает итоговый mp4 с субтитрами

Поддерживаются 33 языка, для 16 из них есть подобранные голоса носителей, включая русский. Шесть стилевых профилей меняют регистр перевода и темп речи, например “kids” переписывает текст для уровня 7-летнего. Встроенный ИИ ассистент позволяет задавать вопросы по содержанию видео через Qwen3.5-397B с опорой на кадры и субтитры. Клонирование голоса не поддерживается.

Стек взаимозаменяем через YAML: Together, OpenAI, ElevenLabs. Лицензия MIT, Python 3.10+

Почитать: https://www.together.ai/blog/violin-open-source-translation-skill
GitHub: https://github.com/shang-zhu/violin
Демо: https://www.violin-ai.com​​​​​​​​​​​​​​​​
🔥4
Большой репозиторий с Claude Code это десятки инструментальных вызовов на каждый вопрос о структуре кода. CodeGraph решает это через предварительную индексацию: граф символов, цепочки вызовов и зависимости строятся один раз и хранятся локально в SQLite

Инструмент работает как MCP-сервер: tree-sitter парсит код в AST, извлекает функции, классы, вызовы и импорты, разрешает ссылки между символами. Claude Code получает инструменты codegraph_explore, codegraph_callers, codegraph_impact и другие, по которым запрашивает граф напрямую вместо сканирования файловой системы

Тесты на шести репозиториях (VS Code: 59 тысяч нод, Swift Compiler: 272 тысячи нод) показали среднее сокращение вызовов инструментов на 92% и ускорение на 71%. На VS Code агент ответил на вопрос об архитектуре за 17 секунд вместо 1 минуты 37 секунд, не прочитав ни одного файла

Поддерживается 19 языков, файловый вотчер обновляет граф инкрементально при сохранении с задержкой около 2 секунд. Данные не покидают машину

GitHub: https://github.com/colbymchenry/codegraph​​​​​​​​​​​​​​​​
🔥32
Есть кто используют Tinker (платформа для файн-тюнинга), тут новости

Они убирают из своего каталога Llama, DeepSeek и большую часть Qwen3, заменяя их моделями серии Qwen3.5 и Qwen3.6. Дата снятия, 12 июня 2026, затрагивает 20 моделей сразу

Под депрекацию попали все базовые Llama 3.1 и 3.2, Kimi-K2.5 и K2-Thinking, DeepSeek-V3.1-Base. Рекомендованной заменой для большинства из них стал Qwen, в том числе для Llama-3.3-70B, что говорит о том, как платформа сейчас оценивает соотношение качества и эффективности этих моделей

Одновременно в каталог добавлены три новые модели: Qwen3.5-9B, Qwen3.5-35B-A3B-Base и Qwen3.5-9B-Base. После 12 июня обучать и запускать инференс на устаревших моделях будет нельзя, но скачать сохраненные чекпоинты можно еще в течение 6 месяцев.

Получается Qwen сейчас считается универсальным стандартом по соотношению качество/эффективность

Документация: https://tinker-docs.thinkingmachines.ai/tinker/model-deprecations/​​​​​​​​​​​​​​​​
5
This media is not supported in your browser
VIEW IN TELEGRAM
Подход e2e-тестирования iOS на симуляторе без написания тестового кода.

Вместо Maestro или XCTest использовали gpt-5.5-low через OpenAI Codex CLI в YOLO-режиме и CLI-инструмент agent-device. Модель получает задачу на человекочитаемом языке, делает скриншот экрана симулятора, читает accessibility tree, нажимает на элементы по координатам, снова проверяет результат и корректирует действия.

В демо задача была переключить Glass Effect в настройках приложения Moshi: модель не нашла кнопку в accessibility tree, определила ее положение по координатам и завершила задачу. Из двух ошибок вышла самостоятельно.

Установить нужно только agent-device.dev CLI и его companion skill для модели

Интересный подход от https://x.com/odd_joel/status/2055672427259334930?s=46
6
Официальный репозиторий от Google, Agent Skills для своих продуктов

13 скилов: BigQuery, Firebase, GKE, Cloud Run, Cloud SQL, AlloyDB, Gemini API, а также рецепты по онбордингу и Well-Architected Framework. Устанавливается командой npx skills add google/skills. Работает в Claude Code, Gemini CLI и любых других совместимых агентах

Также команда google-gemini опубликовала отдельный репозиторий gemini-skills, где замерили эффект: добавление скила повышает точность генерации корректного API-кода до 87% с Gemini 3 Flash и до 96% с Gemini 3.1 Pro

GitHub: https://github.com/google/skills

GitHub: https://github.com/google-gemini/gemini-skills​​​​​​​​​​​​​​​​
🔥3
OpenAI Codex получил функцию Remote Connections, которая сейчас находится в стадии альфа. Она позволяет запускать агента на удаленном SSH-хосте и работать с ним с любого другого устройства

Практическая схема: Mac mini держит Codex всегда включенным и подключенным, MacBook и телефон подключаются к нему и видят все активные треды. Настройка требует добавить хост в ~/.ssh/config, установить Codex на удаленной машине и подключить ее в Settings > Connections внутри приложения. Треды, запущенные для удаленного проекта, выполняют команды и читают файлы именно на том хосте

Для работы вне локальной сети OpenAI рекомендует использовать VPN или Tailscale, а не открывать app server напрямую в интернет. Фича пока в альфа-доступе, условия могут меняться

Документация: https://developers.openai.com/codex/remote-connections​​​​​​​​​​​​​​​​
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
В сети появилось видео с новой версией программы Gemini для компьютеров Mac

Главное изменение заключается в том, что искусственный интеллект теперь может напрямую работать с файлами на вашем жестком диске. Программа умеет читать документы в указанных папках, находить там информацию и вносить правки по запросу пользователя.

В приложении также заявлена функция анализа происходящего на экране в реальном времени

Надеюсь также пофиксят баг, когда приложение само по себе закрывается
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Исследователи из компании Calif продемонстрировали успешный взлом ядра macOS на устройствах с процессорами Apple M5

В ходе работы был обойден аппаратный механизм Memory Integrity Enforcement, который основан на технологии ARM MTE. Эта система внедрялась как основная функция безопасности чипов M5 и A19, предназначенная для защиты от класса уязвимостей, использующих повреждение памяти

Разработка рабочего эксплойта заняла у специалистов пять дней, для чего применялся инструмент Mythos Preview. Представители Calif лично передали подробный отчет об уязвимости в главный офис Apple

Публикация технических деталей ожидается только после того, как компания выпустит соответствующее обновление операционной системы для устранения данной проблемы

На видео демонстрируется сам процесс взлома

Источники:

https://x.com/intcyberdigest/status/2055281844816384262?s=46

https://blog.calif.io/p/first-public-kernel-memory-corruption
😱3👌1
This media is not supported in your browser
VIEW IN TELEGRAM
У Gemini новый дизайн в iOS приложении, на маке тоже завезли 🔥

Также добавили модели и уровень рассуждения
🔥2
Карпаты присоединился к Anthropic 🔥
🔥71
Media is too big
VIEW IN TELEGRAM
Tongyi Lab выпустил Qwen3.5-LiveTranslate, модель для синхронного перевода речи в реальном времени с клонированием голоса спикера (у GPT-realtime такого нету 👀)

Поддерживается понимание и текстовый вывод на 60 языках, голосовой вывод на 29. Заявлено более 3500 языковых пар с минимальной задержкой

Функция Visual Grounding позволяет модели использовать визуальный контекст с экрана или камеры для повышения точности перевода

Hotword Customization дает возможность задать пользовательский словарь из брендов, имен и терминов, чтобы исключить их искажение при транскрипции

Модель уже доступна на omni.chat.ai, API анонсировано как скоро доступное через bailian.console.aliyun.com.
🔥4
Media is too big
VIEW IN TELEGRAM
Gemini Omni, новая видеомодель Google, генерирует образовательные ролики по запросу пользователь описывает тему, модель создает короткое видео с визуализацией, субтитрами и голосом

Ключевое отличие от существующих видеогенераторов, судя по утечкам и ранним тестам, это корректный рендеринг математических формул и уравнений прямо в видеоряде, что критично для образовательного контента. Ранние тесты также фиксировали стабильность сцен, синхронизацию голоса и возможность редактирования через чат-запрос

Модель анонсируется сегодня на Google I/O 2026. По структуре Omni позиционируется как единая мультимодальная система, которая работает с текстом, изображениями, видео и аудио нативно, в рамках одной модели
🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Когда запускаешь ИИ-агента, нужно самому писать логику цикла: вызовы инструментов, обработка ошибок, управление контекстом, стриминг событий

Claude Managed Agents берет это на себя вы описываете задачу и подключаете инструменты, Anthropic запускает агентный цикл на своей стороне

Сегодня добавили две вещи. Self-hosted sandboxes: сам агентный цикл остается у Anthropic, но выполнение инструментов переносится в вашу инфраструктуру или к провайдерам вроде Cloudflare, Daytona, Modal, Vercel.

MCP tunnels: агент обращается к внутренним базам, API и сервисам компании через зашифрованный туннель, без входящих правил файрвола и публичных эндпоинтов. Актуально для enterprise, где данные не должны покидать периметр. Self-hosted sandboxes уже в публичной бете, MCP tunnels пока в research preview

Почитать: https://claude.com/blog/claude-managed-agents-updates

Документация: https://platform.claude.com/docs/en/managed-agents/self-hosted-sandboxes​​​​​​​​​​​​​​​​
🔥2
Thariq, инженер команды Claude Code в Anthropic, опубликовал промпт, который регулярно применяет при работе с ИИ агентами

Шаблон выглядит так:

Implement <SPEC> and while you do, keep a running implementation-notes.html file with decisions you had to make that weren’t in the spec, things you had to change, tradeoffs you had to make or anything else I should know.


Идея в том, что любая спецификация содержит неоднозначности, и вместо того чтобы модель молча делала допущения, она ведет живой лог своих решений. В уточненной версии промпта лог разбивается на четыре категории: дизайн-решения при неоднозначностях в спеке, намеренные отклонения с обоснованием, рассмотренные альтернативы, открытые вопросы для ревью
4
Google I/O 2026 прошел 19 мая кейнот занял около двух часов и охватил модели, агентов, переработку всех основных приложений и железо

По моделям: Gemini 3.5 Flash становится новым флагманом, по заявлению Google быстрее 3.1 Pro в четыре раза и сильнее на агентских задачах. Gemini 3.5 Pro выйдет в следующем месяце
Gemini Omni мультимодальная модель с редактированием видео через текст, уже доступна в Gemini App и бесплатно в YouTube Shorts

По агентам: Gemini Spark персональный агент, который выполняет задачи в приложениях в фоне. Daily Brief собирает утренний дайджест из Gmail, календаря и задач. Information Agents мониторят веб по заданным темам без участия пользователя. Android Halo живая полоска на экране Android, показывает что агент делает в реальном времени

По приложениям: Gmail Live и Docs Live добавляют голосовое управление почтой и документами.
Google Keep превращает свободную речь в структурированные заметки (далее в комментариях)
2
Media is too big
VIEW IN TELEGRAM
На конференции Google I/O продемонстрирован алгоритм взаимодействия с операционной системой macOS через Gemini

В рамках презентации был показан процесс создания электронного письма на основе нескольких разрозненных файлов. Пользователь выделил в папке фотографии и PDF-справки, а затем голосом поставил задачу написать письмо и собрать данные в таблицу. ИИ распознал информацию с изображений и текст из документов, после чего сгенерировал готовое сообщение с таблицей в почтовом клиенте.

Это пример использования мультимодальности для обработки файлов разных форматов без необходимости переключаться между окнами.
🔥3
Google на I/O 2026 выпустил Antigravity 2.0 отдельное десктопное приложение, построенное вокруг оркестрации ИИ агентов, без привязки к IDE

Несколько агентов запускаются параллельно через динамические subagent-воркфлоу, фоновые задачи планируются по расписанию, поддерживаются нативные голосовые команды. Движок, Gemini 3.5 Flash, по заявлению Google работает в четыре раза быстрее конкурирующих frontier-моделей и превосходит Gemini 3.1 Pro на кодинговых бенчмарках

В экосистему вошли также Antigravity CLI (полная замена Gemini CLI, написан на Go), Antigravity SDK для кастомных агентов и Managed Agents в Gemini API с персистентным Linux-окружением

Gemini CLI и расширения Code Assist отключат для всех пользователей 18 июня 2026 года. Новый план AI Ultra стоит $100 в месяц (5x лимиты против Pro), топовый снизился с $250 до $200 (20x лимиты)

Почитать: https://antigravity.google/blog/introducing-google-antigravity-2-0​​​​​​​​​​​​​​​​
3
Media is too big
VIEW IN TELEGRAM
Google на I/O 2026 анонсировал Gemini Omni новую модель для генерации и редактирования видео, встроенную напрямую в Gemini

Заявленная долгосрочная цель, по словам Демиса Хасабиса, генерировать любой тип контента из любого входа; первый шаг видео. Например модель, берет видео как вход и позволяет редактировать его в чате: менять персонажей, фоны, убирать объекты текстовыми командами. Также у него нативная мультимодальность: на вход принимаются текст, аудио, изображения и видео одновременно, выход единый по стилю

По первым тестам качество сырой генерации уступает Seedance 2 от ByteDance, но редактирование работает заметно лучше конкурентов. Omni позиционируется как агент, аналогично Deep Research в AI Studio, и будет доступен через API.

Первая версия, Omni Flash, уже доступна подписчикам AI Plus, Pro и Ultra в Gemini App, Google Flow и Google Flow Music. В YouTube Shorts и YouTube Create доступ бесплатный без подписки
3