AI Secrets
642 subscribers
190 photos
245 videos
3 files
443 links
Все про ИИ и open source проекты

Угости меня кофе ☕️
4400430300037006
Download Telegram
Это самое интересное

Google выпустил ИИ-функцию, которая меняет то, как мы все используем YouTube. Она называется Ask YouTube. Теперь вместо того, чтобы смотреть видео целиком, вы просто задаете вопрос о том, что именно вы хотите найти на YouTube, и он найдет нужное видео и точный момент в нем, который вы ищете 🔥
🔥9👎1
Разработчики ИИ консультируются с философами и теологами для настройки нейросетей. Anthropic привлекла специалистов по этике из 15 традиций для изучения формирования характера. Цель не навязывание идеологии, а поиск устойчивых ориентиров. Модели дали «внешнюю совесть» для проверки ответов перед генерацией, что снизило нарушения безопасности.

Anthropic опубликовала отчет о новых этических принципах. Проведены консультации с философами, учеными и представителями культур для интеграции моральных ориентиров без идеологического уклона.

Результат внедрение механизма «внешней совести». Алгоритм перед задачами обращается к нему для оценки конфликтов интересов. Пауза на размышление снизила количество ответов, нарушающих протоколы. К исследованию планируют привлечь юристов, психологов и социологов.

https://www.anthropic.com/news/widening-conversation-ai
🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Google анонсировал мобильное приложение AI Studio на I/O 2026. Инструмент, который раньше работал только в браузере, скоро появится в App Store и Google Play

Параллельно Google запустил возможность генерировать нативные Android-приложения из текстового промпта прямо в браузере, без установки SDK или настройки среды разработки

https://aistudio.google.com/mobile
🔥3😢1
This media is not supported in your browser
VIEW IN TELEGRAM
Вот пример 3 правок видео с новой моделью Google, Omni:
1. оригинал
2. сделать её невидимой, надеть на неё перчатки
3. пока она говорит, двое мужчин приходят и уносят картину в рамке
4. изменить её наряд
🔥51
Gemini на iOS работает с единым лимитом на мультимедиа. Модель Omni поддерживает работу с видео, но лимиты не разделены по типу контента. Изображения, видео и музыка расходуют один общий пул, и при достижении порога все три категории оказываются недоступны до его сброса 🫠
🥴2
Репозиторий от HuggingFace.

Agent Skill инструкция + набор скриптов, которую ты отдаёшь агенту (Claude Code и/или другому агенту). Он читает исходный код архитектуры из transformers, сам переписывает его под MLX, прогоняет тесты и готовит PR. Человек только проверяет результат

Если захочешь запустить какую-то модель локально на М чипе, а она ещё не портирована в mlx-lm вот инструмент чтобы это сделать

https://github.com/huggingface/transformers-to-mlx
🔥2
Официально поддерживает казахский и русский 🔥🔥🔥

Tencent выпустил Hy-MT2, семейство открытых моделей для машинного перевода в трёх размерах: 1.8B, 7B и 30B-A3B.

Все три поддерживают 33 языка, в том числе казахский, русский. Версия 1.8B сжата до 440 МБ с помощью квантизации AngelSlim до 1.25 бит и рассчитана на запуск локально на мобильных чипах

По результатам бенчмарков WMT25 модели 7B и 30B-A3B превзошли DeepSeek-V4-Pro и Kimi K2.6 на переводческих задачах, а 1.8B обошла ряд коммерческих API. Вместе с моделями опубликован IFMTBench, бенчмарк для оценки следования инструкциям при переводе. Веса доступны на Hugging Face в форматах GGUF, FP8 и 1.25-bit GGUF.

GitHub: https://github.com/Tencent-Hunyuan/Hy-MT2

ModelScope: https://modelscope.cn/collections/Tencent-Hunyuan/Hy-MT2

Hugging Face: https://huggingface.co/collections/tencent/hy-mt2
🔥61
This media is not supported in your browser
VIEW IN TELEGRAM
Статичная инфографика превращается в анимированное видео одним промптом. Пользователь загрузил картинку в Gemini и попросил расставить анимацию элементов в нужном порядке, модель сама интерпретировала структуру изображения и сгенерировала видео. Твит с результатом набрал 61 тыс. просмотров за сутки.

Промпт: «Сделай из этого изображения профессиональную анимацию с направлением взгляда зрителя. Основные элементы должны появляться в порядке: заголовок, визуал, дополнение, CTA. Движение должно быть элегантным и ритмичным, с естественным завершением.»
2
Alibaba выпустила Qwen3.7-Max, для агентных сценариев

Ключевой эксперимент команды: в режиме автономного запуска модель 35 часов оптимизировала CUDA-ядро Extend Attention, совершив 1158 вызовов инструментов и 432 итерации компиляции, без участия человека, и достигла ускорения в 10x относительно базового Triton-ядра.

На агентных бенчмарках Terminal-Bench (69.7), MCP-Atlas (76.4), SWE-bench Multilingual (78.3) модель занимает первое место среди протестированных

На CoWorkBench результат 67.2 против 68.2 у Claude Opus 4.6 Max. Модель доступна через API Alibaba Model Studio и Qwen Studio

Почитать: https://qwen.ai/blog?id=qwen3.7

Демо: https://chat.qwen.ai
🔥3
Media is too big
VIEW IN TELEGRAM
Генеративный ИИ создает изображения на основе статистических закономерностей, а не физического моделирования сцены

Именно это и эксплуатирует Хани Фарид, один из основателей цифровой криминалистики, в своей работе по обнаружению фейков. В апрельской статье Science журналист Кай Купфершмидт описывает три конкретных метода Фарида.

Первый: в реальном фото параллельные линии, например плитка пола или рельсы, сходятся в единой точке перспективы. Если нет, снимок физически неправдоподобен.
Второй: отражения подчиняются той же геометрии.
Третий: тени от солнца на поверхности Земли параллельны, и их несоответствие этому принципу выдает подделку

Фарид скептически относится к тезису о том, что ИИ со временем научится воспроизводить физику корректно: у компаний нет стимула добиваться такого уровня точности, их цель, обмануть рядового пользователя, а не криминалиста

Источник: https://www.science.org/content/article/deepfakes-are-everywhere-godfather-digital-forensics-fighting-back
🔥3
AI Secrets
Карпаты присоединился к Anthropic 🔥
This media is not supported in your browser
VIEW IN TELEGRAM
Первый день Андрея Карпатого в офисе Anthropic
😁8👍4🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen 3.7-Max написал Тетрис-бота лучше Claude и GPT, потратив в 9 раз меньше денег

Три модели дали бота, который сам читал свой код и переписывал себя 10 раз подряд. Qwen улучшил результат на 56% за $1.32, Claude Opus 4.7 дал +28% за $12.15, GPT-5.5 вышел в минус с +7% за $2.85. В длинных агентных циклах разница в цене оказывается принципиальной
🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI добавила в Codex функцию Appshots

На Mac двойное нажатие Command прикрепляет окно любого приложения к активному треду в Codex. Агент получает одновременно скриншот и полный текст содержимого окна, в том числе контент за пределами видимой области экрана. Это позволяет передавать контекст без ручного копирования или описания

Функция доступна на всех тарифных планах для Mac
🔥5
This media is not supported in your browser
VIEW IN TELEGRAM
Tesana выпустила Muranyi 3, третью итерацию своей специализированной ИИ модели для создания игр из текстовых описаний

В отличие от универсальных языковых моделей, Muranyi обучена именно на игровой логике: она генерирует окружение, механики, персонажей и системы поведения NPC через промпты. В новой версии появился встроенный редактор кода, заявлено на 90% меньше багов в сгенерированном коде, улучшены 3D-анимации и скорость сборки

Платформа работает в браузере без установки движка. Компания привлекла около 10 000 платящих пользователей за первые недели и показывала продукт на GDC в марте 2026 года. Пространство «промпт в игру» становится конкурентным: среди других игроков Rosebud и несколько YC-стартапов

Почитать: https://tesana.ai/en/blog/introducing-muranyi-3
4🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Теперь на Mac с чипом Apple можно запустить анимацию любого портрета через веб-камеру, и модель будет переносить мимику лица в реальном времени на выбранное изображение: фотографию, картину или даже кота.

Инструмент называется fasterliveportrait-mlx. Он работает локально, через браузер, без облака. В качестве источника можно использовать не только лицо человека, но и любое изображение с несколькими лицами одновременно. Аудио и текст в качестве управления мимикой тоже поддерживаются, но пока в экспериментальном режиме.

GitHub: https://github.com/ivanfioravanti/fasterliveportrait-mlx
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Как понять сложную научную статью по 3D-графике, не копаясь часами в формулах?

Gemini 3.5 flash превращает старые чертежи из документов в интерактивные трехмерные модели. Ей можно просто показать скриншот статьи отметив формулу/объект который не понимаешь и он сам разберет схемы, напишет код и создаст веб-страницу, где на 3D-объекте можно крутить ползунки, менять углы падения света и сразу видеть, как работает математика из текста
4
Perplexity выпустили Bumblebee безопасный сканер для разработчиков 🐝

Он ищет зараженные библиотеки (из npm, PyPI и др.) на вашем компе, но делает это в режиме «только чтение». Никакой код при проверке не запускается, так что вирус случайно не активируется

Когда в npm или PyPI находят очередную зараженную библиотеку (а это происходит постоянно), первая мысль: «Блин, а у меня она не стоит?»


Проект: github.com/perplexityai/bumblebee
🔥3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Google на I/O 2026 представила Neural Expressive, новый дизайн-язык для приложения Gemini

Суть не в визуальном рефреше, а в изменении логики ответа: модель больше не возвращает блок текста по умолчанию. Вместо этого ответ может быть оформлен как интерактивный таймлайн, иллюстрация с подписями, PDF или видео с озвучкой

В рекламном видео показан сценарий, где пользователь наводит камеру на нецветущее растение и запрашивает, как оно выглядело бы в цвету, Gemini генерирует изображение прямо в диалоге

Другой запрос превращает тот же снимок в открытку. Режим Gemini Live теперь встроен в основной интерфейс, без отдельного экрана, пользователь может переключаться между текстом и голосом без потери контекста

Аудитория приложения, по данным Google, превысила 900 млн активных пользователей в месяц. Обновление распространяется с 19 мая на Android, iOS и веб
LM Studio теперь генерирует текст быстрее за счет MTP модель предсказывает сразу несколько токенов за один проход вместо одного

Доступно в версии 0.4.14 для GGUF-моделей с поддержкой этой техники, например Qwen3.6-35B и Qwen3.6-27B в MTP-вариантах. Включается при загрузке модели.
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
В мобильном приложении ChatGPT продемонстрирована новая возможность для автоматизации документооборота. Функция объединяет распознавание изображений и голосовой ввод для заполнения различных бланков, анкет и регистрационных форм

Процесс строится на интеграции мультимодальных возможностей нейросети. Пользователь отправляет в чат снимок незаполненного документа и наговаривает сопутствующую информацию голосом без строгого соблюдения порядка пунктов. ChatGPT анализирует аудиозапись, извлекает контекст, находит соответствующие поля на изображении и аккуратно вписывает туда текст или проставляет галочки. На выходе формируется копия исходного документа с внесенными данными, при этом специфические требования, вроде сохранения пустой графы для физической подписи, выполняются корректно