AI Secrets
642 subscribers
190 photos
245 videos
3 files
443 links
Все про ИИ и open source проекты

Угости меня кофе ☕️
4400430300037006
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI запустила Daybreak, платформу для кибербезопасности на базе Codex Security и GPT-5.5

Агент строит контекстную модель угроз конкретного проекта, ищет уязвимости, проверяет их в sandbox для исключения ложных срабатываний, ранжирует по реальному impact и предлагает готовый патч, который можно принять прямо из интерфейса

За месяц работы инструмент просканировал 1,2 млн коммитов и нашел 792 критических уязвимости и более 10 тысяч высокосерьезных, включая 14 записей в базе CVE. Частота ложных срабатываний снизилась более чем на 50% по сравнению с бетой

Доступно в research preview для Pro, Enterprise, Business и Edu.

Почитать: https://openai.com/daybreak/
4🔥2
Инструмент agent-skills-eval позволяет объективно измерить, помогает ли SKILL.md агенту или нет

Один и тот же промпт запускается дважды в режиме with_skill и without_skill после чего judge-модель оценивает оба ответа по assertions и присваивает pass или fail

На скриншоте из репозитория, с SKILL.md модель прошла 5 из 5 assertions, без скила только 2 из 5

Инструмент написан на TypeScript, совместим с любым OpenAI-совместимым провайдером, запускается одной строкой через npx или встраивается через SDK в CI-пайплайны. Вывод JSON-артефакты и статический HTML-отчет

GitHub: https://github.com/darkrishabh/agent-skills-eval​​​​​​​​​​​​​​​​
3
Thinking Machines Lab, компания Миры Мурати, опубликовала research preview Interaction Models нового класса ИИ-моделей, обученных работать в режиме реального времени с нуля

Текущие real-time системы (GPT Realtime, Gemini Live) используют harness: отдельный компонент обнаружения пауз в речи определяет, когда пользователь закончил говорить, и только после этого модель начинает отвечать. Interaction Model работает с потоками аудио, видео и текста через микро-туры: входящий и исходящий потоки обрабатываются параллельно, без искусственных границ реплик

Это позволяет модели перебивать, отвечать на визуальные изменения без звуковой подсказки, делать живой перевод пока собеседник говорит

Модель MoE 276B параметров, 12B активных. На бенчмарке FD-bench v1.5, 77.8 против 46.8 у GPT-realtime-2.0 minimal и 54.3 у Gemini-3.1-flash-live minimal. Задержка ответа 0.40 с против 1.18 у GPT. Широкий доступ запланирован на позднее в этом году

Почитать: https://thinkingmachines.ai/blog/interaction-models/​​​​​​​​​​​​​​​​
4🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Курсор мыши не менялся принципиально более 50 лет. Google DeepMind опубликовал концепцию AI Pointer, где курсор становится точкой входа в ИИ прямо в любом приложении

Система на основе Gemini захватывает визуальный и семантический контекст вокруг курсора, поэтому пользователь может сказать “исправь это” или “перемести туда”, не описывая, что именно

Среди сценариев: указать на PDF и получить краткое изложение, навести на таблицу и получить диаграмму, указать на кадр из видео и получить ссылку на бронирование. Принципы уже интегрируются в Chrome (через Gemini in Chrome) и ноутбук Googlebook под названием Magic Pointer. В Google AI Studio доступны два экспериментальных демо: редактирование изображения и поиск мест на карте через голос и указание

Почитать: https://deepmind.google/blog/ai-pointer/
Демо: https://aistudio.google.com/apps/bundled/ai-pointer-find​​​​​​​​​​​​​​​​
4🥱1🦄1
В агентном мире Mac не должен засыпать, а держать крышку приоткрытой не вариант. Появились USB-C dummy plug заглушки за $3-5, которые эмулируют наличие внешнего дисплея на аппаратном уровне, и Mac остается активным в clamshell mode без команд и утилит
AI Secrets
Курсор мыши не менялся принципиально более 50 лет. Google DeepMind опубликовал концепцию AI Pointer, где курсор становится точкой входа в ИИ прямо в любом приложении Система на основе Gemini захватывает визуальный и семантический контекст вокруг курсора,…
Media is too big
VIEW IN TELEGRAM
Через несколько часов после анонса Google DeepMind AI Pointer разработчик Milind S выпустил open-source клон для macOS под названием tiptour

Приложение захватывает экран, определяет, на какое окно или приложение направлено внимание пользователя, и принимает команды в свободной форме: можно нарисовать что-то на экране и попросить ИИ это изменить, или просто сказать что сделать. Агент умеет кликать, печатать, редактировать интерфейсы, навигироваться между приложениями и выполнять код

Сделано на основе trycua, open-source фреймворка для computer-use агентов. Работает на macOS, требует Gemini API ключ. Скачать можно как готовый DMG без сборки через Xcode

GitHub: https://github.com/milind-soni/tiptour-macos

DMG: https://tiptour.io/​​​​​​​​​​​​​​​​
6🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Инженер из команды Claude Code Тарик опубликовал статью “The Unreasonable Effectiveness of HTML” о том, что Markdown плохо масштабируется как формат вывода агентов: документы длиннее 100 строк никто не читает, ASCII-диаграммы нечитаемы, таблицы из символов ломаются

Карпатый поддержал тезис и добавил свою рамку: треть мозга занята зрением, и визуальный вывод от ИИ эффективнее текстового по определению

Разработчик Нико Байлон сделал скил visual-explainer, который реализует эту идею в Claude Code. Скил добавляет команды /diff-review, /plan-review, /project-recap, /fact-check и /generate-web-diagram, каждая из которых генерирует самодостаточный HTML-файл и открывает его в браузере. Любая команда поддерживает флаг --slides для генерации слайд-дека

GitHub: https://github.com/nicobailon/visual-explainer
🔥7🥴1
Anthropic выпустила пакет инструментов для малого бизнеса: Claude теперь умеет планировать зарплату, закрывать месяц в бухгалтерии, отправлять контракты на подпись и запускать маркетинговые кампании.

Все это подключается переключателем в Claude Cowork к уже привычным инструментам: QuickBooks, PayPal, Canva, DocuSign и другим. Дополнительной платы нет сверх текущей подписки

Почитать: https://www.anthropic.com/news/claude-for-small-business

Посмотреть: https://youtu.be/lserpKbUDjc?si=xygPtPgluO45qFbu
🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
LM Studio обновила MLX движок до версии v1.8.1 с двумя изменениями

Первое, batching для vision-моделей: несколько чатов с multimodal-моделью теперь обрабатываются параллельно, а не последовательно

Второе, переработанное кэширование KV-кэшей для ускорения инференса в целом. Обновление доступно только через бета-канал: Developer Mode, переключение на beta runtime channel, выбор LM Studio MLX v1.8.1. Стабильный канал пока не затронут
2
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI запустил Codex в мобильном приложении ChatGPT в режиме превью
2
Anthropic выделяет подписчикам тарифа Max 20x отдельный ежемесячный бюджет в $200 для использования Claude через Agent SDK и флаг claude -p, включая сторонние приложения, построенные на базе Agent SDK

До этого изменения было неясно, конкурирует ли программное использование с лимитами интерактивного чата. Теперь бюджеты разделены: $200 идут на агентное и скриптовое использование, основные лимиты остаются для чата, Claude Code и Cowork

При исчерпании бонусного баланса включается режим “extra usage”, который можно включить или отключить вручную. Бюджет не переносится на следующий месяц и требует ручной активации в июне через отдельное уведомление от Anthropic
👍2
Топ опенсорс 🔥 (особенно под стиль kids и тд)

Большинство качественных лекций, подкастов и технических докладов доступны только на одном языке, чаще всего на английском

Violin решает это через единый пайплайн: ffmpeg извлекает аудио, Whisper Large v3 строит транскрипт с временными метками, DeepSeek V4 Pro переводит каждый сегмент, Cartesia Sonic 3 синтезирует озвучку, и ffmpeg собирает итоговый mp4 с субтитрами

Поддерживаются 33 языка, для 16 из них есть подобранные голоса носителей, включая русский. Шесть стилевых профилей меняют регистр перевода и темп речи, например “kids” переписывает текст для уровня 7-летнего. Встроенный ИИ ассистент позволяет задавать вопросы по содержанию видео через Qwen3.5-397B с опорой на кадры и субтитры. Клонирование голоса не поддерживается.

Стек взаимозаменяем через YAML: Together, OpenAI, ElevenLabs. Лицензия MIT, Python 3.10+

Почитать: https://www.together.ai/blog/violin-open-source-translation-skill
GitHub: https://github.com/shang-zhu/violin
Демо: https://www.violin-ai.com​​​​​​​​​​​​​​​​
🔥4
Большой репозиторий с Claude Code это десятки инструментальных вызовов на каждый вопрос о структуре кода. CodeGraph решает это через предварительную индексацию: граф символов, цепочки вызовов и зависимости строятся один раз и хранятся локально в SQLite

Инструмент работает как MCP-сервер: tree-sitter парсит код в AST, извлекает функции, классы, вызовы и импорты, разрешает ссылки между символами. Claude Code получает инструменты codegraph_explore, codegraph_callers, codegraph_impact и другие, по которым запрашивает граф напрямую вместо сканирования файловой системы

Тесты на шести репозиториях (VS Code: 59 тысяч нод, Swift Compiler: 272 тысячи нод) показали среднее сокращение вызовов инструментов на 92% и ускорение на 71%. На VS Code агент ответил на вопрос об архитектуре за 17 секунд вместо 1 минуты 37 секунд, не прочитав ни одного файла

Поддерживается 19 языков, файловый вотчер обновляет граф инкрементально при сохранении с задержкой около 2 секунд. Данные не покидают машину

GitHub: https://github.com/colbymchenry/codegraph​​​​​​​​​​​​​​​​
🔥32
Есть кто используют Tinker (платформа для файн-тюнинга), тут новости

Они убирают из своего каталога Llama, DeepSeek и большую часть Qwen3, заменяя их моделями серии Qwen3.5 и Qwen3.6. Дата снятия, 12 июня 2026, затрагивает 20 моделей сразу

Под депрекацию попали все базовые Llama 3.1 и 3.2, Kimi-K2.5 и K2-Thinking, DeepSeek-V3.1-Base. Рекомендованной заменой для большинства из них стал Qwen, в том числе для Llama-3.3-70B, что говорит о том, как платформа сейчас оценивает соотношение качества и эффективности этих моделей

Одновременно в каталог добавлены три новые модели: Qwen3.5-9B, Qwen3.5-35B-A3B-Base и Qwen3.5-9B-Base. После 12 июня обучать и запускать инференс на устаревших моделях будет нельзя, но скачать сохраненные чекпоинты можно еще в течение 6 месяцев.

Получается Qwen сейчас считается универсальным стандартом по соотношению качество/эффективность

Документация: https://tinker-docs.thinkingmachines.ai/tinker/model-deprecations/​​​​​​​​​​​​​​​​
5
This media is not supported in your browser
VIEW IN TELEGRAM
Подход e2e-тестирования iOS на симуляторе без написания тестового кода.

Вместо Maestro или XCTest использовали gpt-5.5-low через OpenAI Codex CLI в YOLO-режиме и CLI-инструмент agent-device. Модель получает задачу на человекочитаемом языке, делает скриншот экрана симулятора, читает accessibility tree, нажимает на элементы по координатам, снова проверяет результат и корректирует действия.

В демо задача была переключить Glass Effect в настройках приложения Moshi: модель не нашла кнопку в accessibility tree, определила ее положение по координатам и завершила задачу. Из двух ошибок вышла самостоятельно.

Установить нужно только agent-device.dev CLI и его companion skill для модели

Интересный подход от https://x.com/odd_joel/status/2055672427259334930?s=46
6
Официальный репозиторий от Google, Agent Skills для своих продуктов

13 скилов: BigQuery, Firebase, GKE, Cloud Run, Cloud SQL, AlloyDB, Gemini API, а также рецепты по онбордингу и Well-Architected Framework. Устанавливается командой npx skills add google/skills. Работает в Claude Code, Gemini CLI и любых других совместимых агентах

Также команда google-gemini опубликовала отдельный репозиторий gemini-skills, где замерили эффект: добавление скила повышает точность генерации корректного API-кода до 87% с Gemini 3 Flash и до 96% с Gemini 3.1 Pro

GitHub: https://github.com/google/skills

GitHub: https://github.com/google-gemini/gemini-skills​​​​​​​​​​​​​​​​
🔥3
OpenAI Codex получил функцию Remote Connections, которая сейчас находится в стадии альфа. Она позволяет запускать агента на удаленном SSH-хосте и работать с ним с любого другого устройства

Практическая схема: Mac mini держит Codex всегда включенным и подключенным, MacBook и телефон подключаются к нему и видят все активные треды. Настройка требует добавить хост в ~/.ssh/config, установить Codex на удаленной машине и подключить ее в Settings > Connections внутри приложения. Треды, запущенные для удаленного проекта, выполняют команды и читают файлы именно на том хосте

Для работы вне локальной сети OpenAI рекомендует использовать VPN или Tailscale, а не открывать app server напрямую в интернет. Фича пока в альфа-доступе, условия могут меняться

Документация: https://developers.openai.com/codex/remote-connections​​​​​​​​​​​​​​​​
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
В сети появилось видео с новой версией программы Gemini для компьютеров Mac

Главное изменение заключается в том, что искусственный интеллект теперь может напрямую работать с файлами на вашем жестком диске. Программа умеет читать документы в указанных папках, находить там информацию и вносить правки по запросу пользователя.

В приложении также заявлена функция анализа происходящего на экране в реальном времени

Надеюсь также пофиксят баг, когда приложение само по себе закрывается
🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Исследователи из компании Calif продемонстрировали успешный взлом ядра macOS на устройствах с процессорами Apple M5

В ходе работы был обойден аппаратный механизм Memory Integrity Enforcement, который основан на технологии ARM MTE. Эта система внедрялась как основная функция безопасности чипов M5 и A19, предназначенная для защиты от класса уязвимостей, использующих повреждение памяти

Разработка рабочего эксплойта заняла у специалистов пять дней, для чего применялся инструмент Mythos Preview. Представители Calif лично передали подробный отчет об уязвимости в главный офис Apple

Публикация технических деталей ожидается только после того, как компания выпустит соответствующее обновление операционной системы для устранения данной проблемы

На видео демонстрируется сам процесс взлома

Источники:

https://x.com/intcyberdigest/status/2055281844816384262?s=46

https://blog.calif.io/p/first-public-kernel-memory-corruption
😱3👌1
This media is not supported in your browser
VIEW IN TELEGRAM
У Gemini новый дизайн в iOS приложении, на маке тоже завезли 🔥

Также добавили модели и уровень рассуждения
🔥2
Карпаты присоединился к Anthropic 🔥
🔥71