Репозиторий от HuggingFace.
Agent Skill инструкция + набор скриптов, которую ты отдаёшь агенту (Claude Code и/или другому агенту). Он читает исходный код архитектуры из transformers, сам переписывает его под MLX, прогоняет тесты и готовит PR. Человек только проверяет результат
Если захочешь запустить какую-то модель локально на М чипе, а она ещё не портирована в mlx-lm вот инструмент чтобы это сделать
https://github.com/huggingface/transformers-to-mlx
Agent Skill инструкция + набор скриптов, которую ты отдаёшь агенту (Claude Code и/или другому агенту). Он читает исходный код архитектуры из transformers, сам переписывает его под MLX, прогоняет тесты и готовит PR. Человек только проверяет результат
Если захочешь запустить какую-то модель локально на М чипе, а она ещё не портирована в mlx-lm вот инструмент чтобы это сделать
https://github.com/huggingface/transformers-to-mlx
🔥2
Официально поддерживает казахский и русский 🔥🔥🔥
Tencent выпустил Hy-MT2, семейство открытых моделей для машинного перевода в трёх размерах: 1.8B, 7B и 30B-A3B.
Все три поддерживают 33 языка, в том числе казахский, русский. Версия 1.8B сжата до 440 МБ с помощью квантизации AngelSlim до 1.25 бит и рассчитана на запуск локально на мобильных чипах
По результатам бенчмарков WMT25 модели 7B и 30B-A3B превзошли DeepSeek-V4-Pro и Kimi K2.6 на переводческих задачах, а 1.8B обошла ряд коммерческих API. Вместе с моделями опубликован IFMTBench, бенчмарк для оценки следования инструкциям при переводе. Веса доступны на Hugging Face в форматах GGUF, FP8 и 1.25-bit GGUF.
GitHub: https://github.com/Tencent-Hunyuan/Hy-MT2
ModelScope: https://modelscope.cn/collections/Tencent-Hunyuan/Hy-MT2
Hugging Face: https://huggingface.co/collections/tencent/hy-mt2
Tencent выпустил Hy-MT2, семейство открытых моделей для машинного перевода в трёх размерах: 1.8B, 7B и 30B-A3B.
Все три поддерживают 33 языка, в том числе казахский, русский. Версия 1.8B сжата до 440 МБ с помощью квантизации AngelSlim до 1.25 бит и рассчитана на запуск локально на мобильных чипах
По результатам бенчмарков WMT25 модели 7B и 30B-A3B превзошли DeepSeek-V4-Pro и Kimi K2.6 на переводческих задачах, а 1.8B обошла ряд коммерческих API. Вместе с моделями опубликован IFMTBench, бенчмарк для оценки следования инструкциям при переводе. Веса доступны на Hugging Face в форматах GGUF, FP8 и 1.25-bit GGUF.
GitHub: https://github.com/Tencent-Hunyuan/Hy-MT2
ModelScope: https://modelscope.cn/collections/Tencent-Hunyuan/Hy-MT2
Hugging Face: https://huggingface.co/collections/tencent/hy-mt2
🔥6❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Статичная инфографика превращается в анимированное видео одним промптом. Пользователь загрузил картинку в Gemini и попросил расставить анимацию элементов в нужном порядке, модель сама интерпретировала структуру изображения и сгенерировала видео. Твит с результатом набрал 61 тыс. просмотров за сутки.
Промпт: «Сделай из этого изображения профессиональную анимацию с направлением взгляда зрителя. Основные элементы должны появляться в порядке: заголовок, визуал, дополнение, CTA. Движение должно быть элегантным и ритмичным, с естественным завершением.»
❤2
Alibaba выпустила Qwen3.7-Max, для агентных сценариев
Ключевой эксперимент команды: в режиме автономного запуска модель 35 часов оптимизировала CUDA-ядро Extend Attention, совершив 1158 вызовов инструментов и 432 итерации компиляции, без участия человека, и достигла ускорения в 10x относительно базового Triton-ядра.
На агентных бенчмарках Terminal-Bench (69.7), MCP-Atlas (76.4), SWE-bench Multilingual (78.3) модель занимает первое место среди протестированных
На CoWorkBench результат 67.2 против 68.2 у Claude Opus 4.6 Max. Модель доступна через API Alibaba Model Studio и Qwen Studio
Почитать: https://qwen.ai/blog?id=qwen3.7
Демо: https://chat.qwen.ai
Ключевой эксперимент команды: в режиме автономного запуска модель 35 часов оптимизировала CUDA-ядро Extend Attention, совершив 1158 вызовов инструментов и 432 итерации компиляции, без участия человека, и достигла ускорения в 10x относительно базового Triton-ядра.
На агентных бенчмарках Terminal-Bench (69.7), MCP-Atlas (76.4), SWE-bench Multilingual (78.3) модель занимает первое место среди протестированных
На CoWorkBench результат 67.2 против 68.2 у Claude Opus 4.6 Max. Модель доступна через API Alibaba Model Studio и Qwen Studio
Почитать: https://qwen.ai/blog?id=qwen3.7
Демо: https://chat.qwen.ai
🔥3
Media is too big
VIEW IN TELEGRAM
Генеративный ИИ создает изображения на основе статистических закономерностей, а не физического моделирования сцены
Именно это и эксплуатирует Хани Фарид, один из основателей цифровой криминалистики, в своей работе по обнаружению фейков. В апрельской статье Science журналист Кай Купфершмидт описывает три конкретных метода Фарида.
Первый: в реальном фото параллельные линии, например плитка пола или рельсы, сходятся в единой точке перспективы. Если нет, снимок физически неправдоподобен.
Второй: отражения подчиняются той же геометрии.
Третий: тени от солнца на поверхности Земли параллельны, и их несоответствие этому принципу выдает подделку
Фарид скептически относится к тезису о том, что ИИ со временем научится воспроизводить физику корректно: у компаний нет стимула добиваться такого уровня точности, их цель, обмануть рядового пользователя, а не криминалиста
Источник: https://www.science.org/content/article/deepfakes-are-everywhere-godfather-digital-forensics-fighting-back
Именно это и эксплуатирует Хани Фарид, один из основателей цифровой криминалистики, в своей работе по обнаружению фейков. В апрельской статье Science журналист Кай Купфершмидт описывает три конкретных метода Фарида.
Первый: в реальном фото параллельные линии, например плитка пола или рельсы, сходятся в единой точке перспективы. Если нет, снимок физически неправдоподобен.
Второй: отражения подчиняются той же геометрии.
Третий: тени от солнца на поверхности Земли параллельны, и их несоответствие этому принципу выдает подделку
Фарид скептически относится к тезису о том, что ИИ со временем научится воспроизводить физику корректно: у компаний нет стимула добиваться такого уровня точности, их цель, обмануть рядового пользователя, а не криминалиста
Источник: https://www.science.org/content/article/deepfakes-are-everywhere-godfather-digital-forensics-fighting-back
🔥3
AI Secrets
Карпаты присоединился к Anthropic 🔥
This media is not supported in your browser
VIEW IN TELEGRAM
Первый день Андрея Карпатого в офисе Anthropic
😁8👍4🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen 3.7-Max написал Тетрис-бота лучше Claude и GPT, потратив в 9 раз меньше денег
Три модели дали бота, который сам читал свой код и переписывал себя 10 раз подряд. Qwen улучшил результат на 56% за $1.32, Claude Opus 4.7 дал +28% за $12.15, GPT-5.5 вышел в минус с +7% за $2.85. В длинных агентных циклах разница в цене оказывается принципиальной
Три модели дали бота, который сам читал свой код и переписывал себя 10 раз подряд. Qwen улучшил результат на 56% за $1.32, Claude Opus 4.7 дал +28% за $12.15, GPT-5.5 вышел в минус с +7% за $2.85. В длинных агентных циклах разница в цене оказывается принципиальной
🔥8
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI добавила в Codex функцию Appshots
На Mac двойное нажатие Command прикрепляет окно любого приложения к активному треду в Codex. Агент получает одновременно скриншот и полный текст содержимого окна, в том числе контент за пределами видимой области экрана. Это позволяет передавать контекст без ручного копирования или описания
Функция доступна на всех тарифных планах для Mac
На Mac двойное нажатие Command прикрепляет окно любого приложения к активному треду в Codex. Агент получает одновременно скриншот и полный текст содержимого окна, в том числе контент за пределами видимой области экрана. Это позволяет передавать контекст без ручного копирования или описания
Функция доступна на всех тарифных планах для Mac
🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Tesana выпустила Muranyi 3, третью итерацию своей специализированной ИИ модели для создания игр из текстовых описаний
В отличие от универсальных языковых моделей, Muranyi обучена именно на игровой логике: она генерирует окружение, механики, персонажей и системы поведения NPC через промпты. В новой версии появился встроенный редактор кода, заявлено на 90% меньше багов в сгенерированном коде, улучшены 3D-анимации и скорость сборки
Платформа работает в браузере без установки движка. Компания привлекла около 10 000 платящих пользователей за первые недели и показывала продукт на GDC в марте 2026 года. Пространство «промпт в игру» становится конкурентным: среди других игроков Rosebud и несколько YC-стартапов
Почитать: https://tesana.ai/en/blog/introducing-muranyi-3
В отличие от универсальных языковых моделей, Muranyi обучена именно на игровой логике: она генерирует окружение, механики, персонажей и системы поведения NPC через промпты. В новой версии появился встроенный редактор кода, заявлено на 90% меньше багов в сгенерированном коде, улучшены 3D-анимации и скорость сборки
Платформа работает в браузере без установки движка. Компания привлекла около 10 000 платящих пользователей за первые недели и показывала продукт на GDC в марте 2026 года. Пространство «промпт в игру» становится конкурентным: среди других игроков Rosebud и несколько YC-стартапов
Почитать: https://tesana.ai/en/blog/introducing-muranyi-3
❤4🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь на Mac с чипом Apple можно запустить анимацию любого портрета через веб-камеру, и модель будет переносить мимику лица в реальном времени на выбранное изображение: фотографию, картину или даже кота.
Инструмент называется fasterliveportrait-mlx. Он работает локально, через браузер, без облака. В качестве источника можно использовать не только лицо человека, но и любое изображение с несколькими лицами одновременно. Аудио и текст в качестве управления мимикой тоже поддерживаются, но пока в экспериментальном режиме.
GitHub: https://github.com/ivanfioravanti/fasterliveportrait-mlx
Инструмент называется fasterliveportrait-mlx. Он работает локально, через браузер, без облака. В качестве источника можно использовать не только лицо человека, но и любое изображение с несколькими лицами одновременно. Аудио и текст в качестве управления мимикой тоже поддерживаются, но пока в экспериментальном режиме.
GitHub: https://github.com/ivanfioravanti/fasterliveportrait-mlx
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Как понять сложную научную статью по 3D-графике, не копаясь часами в формулах?
Gemini 3.5 flash превращает старые чертежи из документов в интерактивные трехмерные модели. Ей можно просто показать скриншот статьи отметив формулу/объект который не понимаешь и он сам разберет схемы, напишет код и создаст веб-страницу, где на 3D-объекте можно крутить ползунки, менять углы падения света и сразу видеть, как работает математика из текста
Gemini 3.5 flash превращает старые чертежи из документов в интерактивные трехмерные модели. Ей можно просто показать скриншот статьи отметив формулу/объект который не понимаешь и он сам разберет схемы, напишет код и создаст веб-страницу, где на 3D-объекте можно крутить ползунки, менять углы падения света и сразу видеть, как работает математика из текста
❤4
Perplexity выпустили Bumblebee безопасный сканер для разработчиков 🐝
Он ищет зараженные библиотеки (из npm, PyPI и др.) на вашем компе, но делает это в режиме «только чтение». Никакой код при проверке не запускается, так что вирус случайно не активируется
Проект: github.com/perplexityai/bumblebee
Он ищет зараженные библиотеки (из npm, PyPI и др.) на вашем компе, но делает это в режиме «только чтение». Никакой код при проверке не запускается, так что вирус случайно не активируется
Когда в npm или PyPI находят очередную зараженную библиотеку (а это происходит постоянно), первая мысль: «Блин, а у меня она не стоит?»
Проект: github.com/perplexityai/bumblebee
🔥3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Google на I/O 2026 представила Neural Expressive, новый дизайн-язык для приложения Gemini
Суть не в визуальном рефреше, а в изменении логики ответа: модель больше не возвращает блок текста по умолчанию. Вместо этого ответ может быть оформлен как интерактивный таймлайн, иллюстрация с подписями, PDF или видео с озвучкой
В рекламном видео показан сценарий, где пользователь наводит камеру на нецветущее растение и запрашивает, как оно выглядело бы в цвету, Gemini генерирует изображение прямо в диалоге
Другой запрос превращает тот же снимок в открытку. Режим Gemini Live теперь встроен в основной интерфейс, без отдельного экрана, пользователь может переключаться между текстом и голосом без потери контекста
Аудитория приложения, по данным Google, превысила 900 млн активных пользователей в месяц. Обновление распространяется с 19 мая на Android, iOS и веб
Суть не в визуальном рефреше, а в изменении логики ответа: модель больше не возвращает блок текста по умолчанию. Вместо этого ответ может быть оформлен как интерактивный таймлайн, иллюстрация с подписями, PDF или видео с озвучкой
В рекламном видео показан сценарий, где пользователь наводит камеру на нецветущее растение и запрашивает, как оно выглядело бы в цвету, Gemini генерирует изображение прямо в диалоге
Другой запрос превращает тот же снимок в открытку. Режим Gemini Live теперь встроен в основной интерфейс, без отдельного экрана, пользователь может переключаться между текстом и голосом без потери контекста
Аудитория приложения, по данным Google, превысила 900 млн активных пользователей в месяц. Обновление распространяется с 19 мая на Android, iOS и веб
This media is not supported in your browser
VIEW IN TELEGRAM
В мобильном приложении ChatGPT продемонстрирована новая возможность для автоматизации документооборота. Функция объединяет распознавание изображений и голосовой ввод для заполнения различных бланков, анкет и регистрационных форм
Процесс строится на интеграции мультимодальных возможностей нейросети. Пользователь отправляет в чат снимок незаполненного документа и наговаривает сопутствующую информацию голосом без строгого соблюдения порядка пунктов. ChatGPT анализирует аудиозапись, извлекает контекст, находит соответствующие поля на изображении и аккуратно вписывает туда текст или проставляет галочки. На выходе формируется копия исходного документа с внесенными данными, при этом специфические требования, вроде сохранения пустой графы для физической подписи, выполняются корректно
Процесс строится на интеграции мультимодальных возможностей нейросети. Пользователь отправляет в чат снимок незаполненного документа и наговаривает сопутствующую информацию голосом без строгого соблюдения порядка пунктов. ChatGPT анализирует аудиозапись, извлекает контекст, находит соответствующие поля на изображении и аккуратно вписывает туда текст или проставляет галочки. На выходе формируется копия исходного документа с внесенными данными, при этом специфические требования, вроде сохранения пустой графы для физической подписи, выполняются корректно
Вы заходите в незнакомую кодовую базу на 200 тысяч строк и не знаете, с чего начать
Understand Anything решает именно эту задачу: инструмент запускает мультиагентный пайплайн, который сканирует весь проект и строит интерактивный граф из каждого файла, функции и класса. Можно искать по смыслу, смотреть, какие части кода затронут ваши изменения до коммита, и переключаться в режим бизнес-домена, где код отображается как процессы
Работает с Claude Code, Gemini CLI, Cursor и десятком других инструментов
GitHub: https://github.com/Lum1104/Understand-Anything
Understand Anything решает именно эту задачу: инструмент запускает мультиагентный пайплайн, который сканирует весь проект и строит интерактивный граф из каждого файла, функции и класса. Можно искать по смыслу, смотреть, какие части кода затронут ваши изменения до коммита, и переключаться в режим бизнес-домена, где код отображается как процессы
Работает с Claude Code, Gemini CLI, Cursor и десятком других инструментов
GitHub: https://github.com/Lum1104/Understand-Anything
❤3👌1
This media is not supported in your browser
VIEW IN TELEGRAM
Любой веб-сайт можно превратить в десктопное приложение за одну минуту
С помощью утилиты Pake на базе Rust и Tauri можно упаковать любой сайт, например NotebookLM или Deepseek, в автономную программу для macOS, Windows или Linux
Готовое приложение весит в пределах 15 мегабайт и расходует значительно меньше оперативной памяти по сравнению с браузерными вкладками или аналогами на Electron
Для сборки достаточно выполнить одну команду в терминале. Все последующие обновления на целевом сайте будут появляться в интерфейсе автоматически, так как приложение отображает актуальную веб-страницу в изолированном окне
https://github.com/tw93/Pake
С помощью утилиты Pake на базе Rust и Tauri можно упаковать любой сайт, например NotebookLM или Deepseek, в автономную программу для macOS, Windows или Linux
Готовое приложение весит в пределах 15 мегабайт и расходует значительно меньше оперативной памяти по сравнению с браузерными вкладками или аналогами на Electron
Для сборки достаточно выполнить одну команду в терминале. Все последующие обновления на целевом сайте будут появляться в интерфейсе автоматически, так как приложение отображает актуальную веб-страницу в изолированном окне
https://github.com/tw93/Pake
👍3🤯3
This media is not supported in your browser
VIEW IN TELEGRAM
Локальные ИИ модели на Mac удобно запускать, но управлять ими неудобно: часть лежит в LM Studio, Ollam, часть в кеше Hugging Face, часть в случайных папках
ModelHub, нативное приложение в строке меню для macOS, решает именно эту проблему показывает все локальные модели в одном списке, позволяет скачивать новые с Hugging Face в один клик и удалять ненужные
Это не замена Ollama или LM Studio, а слой управления поверх них
GitHub: https://github.com/conscious-engines/modelhub
ModelHub, нативное приложение в строке меню для macOS, решает именно эту проблему показывает все локальные модели в одном списке, позволяет скачивать новые с Hugging Face в один клик и удалять ненужные
Это не замена Ollama или LM Studio, а слой управления поверх них
GitHub: https://github.com/conscious-engines/modelhub
❤2👍2