This media is not supported in your browser
VIEW IN TELEGRAM
Так я вижу работу ИИ-агента со стороны:
❤30😁16👍10🔥4🤣3
Gemma 4 от GoogleDeepMind дебютировала на 3 и 6 местах в open source leaderboard, став моделью №1 среди open source моделей из США.
При этом по числу параметров Gemma 4 (31B) в 24 раза меньше, чем GLM-5, и в 34 раза меньше, чем Kimi-K2.5-Thinking — при сопоставимой производительности и значительно меньших ресурсах.
При этом по числу параметров Gemma 4 (31B) в 24 раза меньше, чем GLM-5, и в 34 раза меньше, чем Kimi-K2.5-Thinking — при сопоставимой производительности и значительно меньших ресурсах.
🔥23👍9🤣5
🎧 Fish Audio S2 Pro - мощная open-source модель для синтеза речи.
Это 4B + 400M параметровая TTS-модель с необычной архитектурой Dual-AR, обученная на 10+ миллионах часов аудио и поддерживающая 80+ языков.
Что делает её интересной.
🏗 Dual-AR архитектура
Модель разделена на две части:
• 4B Slow AR отвечает за семантику и структуру речи
• 400M Fast AR генерирует 9 residual codebooks для акустики
Такой подход позволяет сохранить высокое качество звука без сильной нагрузки на инференс.
🎭 Свободное управление эмоциями и интонацией
Можно прямо в тексте задавать стиль речи:
Поддерживается 15 000+ тегов, которые работают на уровне отдельных слов.
🌐 80+ языков
Основные языки высокого качества:
• английский
• китайский
• японский
⚡ Оптимизация для LLM-инфраструктуры
Модель нативно работает со стеком SGLang, поэтому поддерживает:
• continuous batching
• paged KV cache
• RadixAttention prefix caching
📊 Производительность
• RTF: 0.195 на Nvidia H200
• ~100 мс до первого аудио
• более 3000 акустических токенов/сек
Также разработчики выложили:
• веса модели
• код для fine-tuning
• движок для streaming inference
Модель: https://modelscope.ai/models/fishaudio/s2-pro
GitHub: https://github.com/fishaudio/fish-speech
#ai #tts #opensourсe
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Это 4B + 400M параметровая TTS-модель с необычной архитектурой Dual-AR, обученная на 10+ миллионах часов аудио и поддерживающая 80+ языков.
Что делает её интересной.
🏗 Dual-AR архитектура
Модель разделена на две части:
• 4B Slow AR отвечает за семантику и структуру речи
• 400M Fast AR генерирует 9 residual codebooks для акустики
Такой подход позволяет сохранить высокое качество звука без сильной нагрузки на инференс.
🎭 Свободное управление эмоциями и интонацией
Можно прямо в тексте задавать стиль речи:
[whisper] [laughing] [professional broadcast tone]Поддерживается 15 000+ тегов, которые работают на уровне отдельных слов.
🌐 80+ языков
Основные языки высокого качества:
• английский
• китайский
• японский
⚡ Оптимизация для LLM-инфраструктуры
Модель нативно работает со стеком SGLang, поэтому поддерживает:
• continuous batching
• paged KV cache
• RadixAttention prefix caching
📊 Производительность
• RTF: 0.195 на Nvidia H200
• ~100 мс до первого аудио
• более 3000 акустических токенов/сек
Также разработчики выложили:
• веса модели
• код для fine-tuning
• движок для streaming inference
Модель: https://modelscope.ai/models/fishaudio/s2-pro
GitHub: https://github.com/fishaudio/fish-speech
#ai #tts #opensourсe
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
👍6❤5🔥5
🚨 NVIDIA выложила на Hugging Face квантизированную Gemma 4 31B
- NVFP4 сжимает веса в ~4 раза без заметной потери качества
- 99.7% от baseline на GPQA (75.46% vs 75.71%)
- Контекст до 256K
- Мультимодальность: текст, изображения, видео
- vLLM-ready + оптимизация под Blackwell
По железу:
- веса: ~16–21 GB VRAM
- нормальный запуск: от 24 GB
- полный 256K контекст: комфортно от 32 GB
31B-модель уровня frontier, которую наконец можно гонять локально на топовом consumer GPU, а не только в облаке
Попробовать: https://huggingface.co/nvidia/Gemma-4-31B-IT-NVFP4
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
- NVFP4 сжимает веса в ~4 раза без заметной потери качества
- 99.7% от baseline на GPQA (75.46% vs 75.71%)
- Контекст до 256K
- Мультимодальность: текст, изображения, видео
- vLLM-ready + оптимизация под Blackwell
По железу:
- веса: ~16–21 GB VRAM
- нормальный запуск: от 24 GB
- полный 256K контекст: комфортно от 32 GB
31B-модель уровня frontier, которую наконец можно гонять локально на топовом consumer GPU, а не только в облаке
Попробовать: https://huggingface.co/nvidia/Gemma-4-31B-IT-NVFP4
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
🔥26👍6❤5
Доминик Кундель из OpenAI попросил Codex встроить самого себя внутрь DOOM.
Не оверлей, не окошко сбоку, а настоящий терминал прямо в игровом движке. Подходишь к стене, открываешь терминал и даешь задачи реальному Codex-агенту: хоть игровые, хоть свой код на доработку.
Все построено на Codex app server.
Это JSON-RPC сервер, который стоит за приложением Codex, расширениями для IDE, интеграциями с Xcode и JetBrains. По сути API, через который агента можно воткнуть куда угодно. Кундель решил доказать это буквально.
Codex собрал все сам: от плана до рабочей реализации за ~6:40 часов, потратив 205 млн токенов.
Кундель в это время занимался домашними делами и в какой-то момент подпрыгнул от звуков стрельбы - это Codex тестировал сборку, запуская игру через Playwright. Он же сам нарисовал текстуру с логотипом на игровой стене, проверил рендер с разных ракурсов, нашел баг, исправил и перепроверил.
Без явных инструкций на тестирование.
DOOM, конечно, не лучший интерфейс для кода. Но демо четко показывает: Codex app server позволяет встроить агента в любую среду. Исходники открыты.
Github: https://github.com/openai/codex/tree/main/codex-rs/app-server
Post: https://x.com/dkundel/status/2040130396747407437
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13🔥9👍5
⚡️ DeepSeek готовит V4 и впервые модель такого уровня будет работать нативно на чипах Huawei. Это не просто релиз. Это сигнал, что экосистема начинает раскалываться.
Крупнейшие игроки вроде Alibaba, ByteDance и Tencent уже скупают сотни тысяч Ascend 950PR. Цены на чипы растут, спрос бешеный. При этом DeepSeek сознательно не дал NVIDIA ранний доступ к модели. Это выглядит как стратегическое решение, а не случайность.
Суть не в том, что NVIDIA потеряет деньги сегодня. Китай и так был ограничен экспортными правилами. Проблема глубже. Уходит зависимость от CUDA. А значит исчезает главный барьер, который держал всех внутри экосистемы NVIDIA.
Huawei сделал ход, который снижает стоимость перехода. Их чипы понимают те же инструкции. Разработчикам больше не нужно полностью переписывать стек. Это подрывает lock-in, на котором держался рынок последние годы.
По цифрам Китай пока не догнал топ. Ascend 950PR быстрее H20, но уступает H200. Производство ограничено. SMIC не может тягаться с TSMC, а память всё ещё частично импортная.
Но ключевое вообще не в этом. Китай закрыл контур. Есть свои модели, свои чипы и почти готовые решения для обучения. Два года назад этого не существовало.
Теперь вопрос уже не в том, может ли Китай делать сильный AI. Вопрос в том, сможет ли он делать его полностью на своей инфраструктуре. И похоже, что ответ становится положительным.
Если это закрепится, рынок перестанет быть единым. Появятся две параллельные экосистемы. И тогда борьба пойдёт не за модели, а за стандарты и платформы.
https://www.reuters.com/world/china/deepseeks-v4-model-will-run-huawei-chips-information-reports-2026-04-03/
Крупнейшие игроки вроде Alibaba, ByteDance и Tencent уже скупают сотни тысяч Ascend 950PR. Цены на чипы растут, спрос бешеный. При этом DeepSeek сознательно не дал NVIDIA ранний доступ к модели. Это выглядит как стратегическое решение, а не случайность.
Суть не в том, что NVIDIA потеряет деньги сегодня. Китай и так был ограничен экспортными правилами. Проблема глубже. Уходит зависимость от CUDA. А значит исчезает главный барьер, который держал всех внутри экосистемы NVIDIA.
Huawei сделал ход, который снижает стоимость перехода. Их чипы понимают те же инструкции. Разработчикам больше не нужно полностью переписывать стек. Это подрывает lock-in, на котором держался рынок последние годы.
По цифрам Китай пока не догнал топ. Ascend 950PR быстрее H20, но уступает H200. Производство ограничено. SMIC не может тягаться с TSMC, а память всё ещё частично импортная.
Но ключевое вообще не в этом. Китай закрыл контур. Есть свои модели, свои чипы и почти готовые решения для обучения. Два года назад этого не существовало.
Теперь вопрос уже не в том, может ли Китай делать сильный AI. Вопрос в том, сможет ли он делать его полностью на своей инфраструктуре. И похоже, что ответ становится положительным.
Если это закрепится, рынок перестанет быть единым. Появятся две параллельные экосистемы. И тогда борьба пойдёт не за модели, а за стандарты и платформы.
https://www.reuters.com/world/china/deepseeks-v4-model-will-run-huawei-chips-information-reports-2026-04-03/
👍34❤14🔥7🤯1🙏1🥴1
Похоже, OpenAI готовит не очередную версию, а полноценный перезапуск архитектуры.
Что известно из утечек:
• Новая база GPT-5.5 - это не тюнинг старого, а полностью новый фундамент после ~2 лет разработки.
• Мышление стало “человечнее” Модели меньше «тупят по шаблону» и лучше понимают намерение без лишних объяснений.
• Омнимодальность из коробки Текст, изображения, возможно аудио и видео — всё в одной системе без костылей.
Фокус смещается: от ответов → к выполнению задач и автономной работе (все пилят агентов).
• Длинные горизонты мышления Сложные задачи, многошаговые процессы, долгий контекст - это ключевая ставка.
То, что раньше требовало сложных промптов - теперь работает «из коробки».
Ценовая война на подходе На фоне слухов о дорогих конкурентах OpenAI может демпинговать ради захвата рынка.
Релиз уже близко.
В AI-аренах уже мелькают первые генерации - похоже, тесты идут полным ходом.
https://x.com/pankajkumar_dev/status/2040670839624908816
Что известно из утечек:
• Новая база GPT-5.5 - это не тюнинг старого, а полностью новый фундамент после ~2 лет разработки.
• Мышление стало “человечнее” Модели меньше «тупят по шаблону» и лучше понимают намерение без лишних объяснений.
• Омнимодальность из коробки Текст, изображения, возможно аудио и видео — всё в одной системе без костылей.
Фокус смещается: от ответов → к выполнению задач и автономной работе (все пилят агентов).
• Длинные горизонты мышления Сложные задачи, многошаговые процессы, долгий контекст - это ключевая ставка.
То, что раньше требовало сложных промптов - теперь работает «из коробки».
Ценовая война на подходе На фоне слухов о дорогих конкурентах OpenAI может демпинговать ради захвата рынка.
Релиз уже близко.
В AI-аренах уже мелькают первые генерации - похоже, тесты идут полным ходом.
https://x.com/pankajkumar_dev/status/2040670839624908816
❤11👍10🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Студент собрал в общаге метеостанцию $101K на ставках на погоду с помощью Claude и трёх Mac Mini
Китайский студент-инженер собрал в своей общаге метеостанцию. Три Mac Mini с подписями на корпусах: UI/UX, DEV, ADMIN. Два монитора. Спутниковые карты на обоих экранах. Сосед по комнате думал, что это климатический исследовательский проект. Преподаватели думали, что прототип дипломной работы. Он никого не поправлял.
А потом кто-то заметил, к чему на самом деле подключена станция. К кошельку на Polymarket (Акк polymarket.com/@ColdMath?via=carverfomo). С профитом $101 042. 5 252 предсказания. Аккаунт ColdMath.
Claude забирает пилотные метеоданные в реальном времени. Настоящие сенсоры, настоящие показания, обновления каждые 1-3 часа со станций по всему миру. Сравнивает их с ценами на предиктивных рынках. Когда данные расходятся с ценой, DEV-бокс сигналит о несоответствии. Студент ставит.
Размеры ставок и выплат выглядят безумно. $25 на то, что в Токио будет 16°C 20 марта - выплата $12 452. $24 на Чикаго с 54°F 11 марта - выплата $12 398. $13 на Лакхнау с 39°C 7 марта - выплата $6 850. Ставки по $13-25 с возвратом по $6-12 тысяч.
Ключевой инсайт пришел от знакомого пилота гражданской авиации. Пилоты получают атмосферные данные за часы до любого публичного прогноза. Температуру с точностью до десятой доли градуса. Эти данные бесплатны, потому что авиационная безопасность требует их открытости. За пределами авиации на них просто никто не смотрит.
Он посмотрел. Направил Claude на эти фиды. Задача: найди каждый город, где прогноз расходится с ценой. Claude находил десятки таких расхождений. Каждый день.
Сосед однажды утром увидел работающую станцию и наконец спросил, что она делает. Студент показал баланс. Сосед ничего не сказал. Просто попросил второй монитор.
Сейчас 34 тысячи подписчиков наблюдают за аккаунтом. $96K в активных позициях. Три Mac Mini, два экрана, один тихий парень, который понял: самая предсказуемая вещь на Земле - та, которую все игнорируют. Погода.
Открытые данные + LLM для парсинга и сравнения + предиктивный рынок с неэффективным ценообразованием. Вся "альфа" в том, что парень заметил информационную асимметрию, которая лежала на поверхности. Авиационные метеоданные публичны и точнее любого прогноза, но рынки предсказаний их не закладывают, потому что ни один маркетмейкер туда не смотрит. Классический случай, когда edge появляется от источника данных, а модель просто делает грязную работу по мониторингу и сопоставлению.
Китайский студент-инженер собрал в своей общаге метеостанцию. Три Mac Mini с подписями на корпусах: UI/UX, DEV, ADMIN. Два монитора. Спутниковые карты на обоих экранах. Сосед по комнате думал, что это климатический исследовательский проект. Преподаватели думали, что прототип дипломной работы. Он никого не поправлял.
А потом кто-то заметил, к чему на самом деле подключена станция. К кошельку на Polymarket (Акк polymarket.com/@ColdMath?via=carverfomo). С профитом $101 042. 5 252 предсказания. Аккаунт ColdMath.
Claude забирает пилотные метеоданные в реальном времени. Настоящие сенсоры, настоящие показания, обновления каждые 1-3 часа со станций по всему миру. Сравнивает их с ценами на предиктивных рынках. Когда данные расходятся с ценой, DEV-бокс сигналит о несоответствии. Студент ставит.
Размеры ставок и выплат выглядят безумно. $25 на то, что в Токио будет 16°C 20 марта - выплата $12 452. $24 на Чикаго с 54°F 11 марта - выплата $12 398. $13 на Лакхнау с 39°C 7 марта - выплата $6 850. Ставки по $13-25 с возвратом по $6-12 тысяч.
Ключевой инсайт пришел от знакомого пилота гражданской авиации. Пилоты получают атмосферные данные за часы до любого публичного прогноза. Температуру с точностью до десятой доли градуса. Эти данные бесплатны, потому что авиационная безопасность требует их открытости. За пределами авиации на них просто никто не смотрит.
Он посмотрел. Направил Claude на эти фиды. Задача: найди каждый город, где прогноз расходится с ценой. Claude находил десятки таких расхождений. Каждый день.
Сосед однажды утром увидел работающую станцию и наконец спросил, что она делает. Студент показал баланс. Сосед ничего не сказал. Просто попросил второй монитор.
Сейчас 34 тысячи подписчиков наблюдают за аккаунтом. $96K в активных позициях. Три Mac Mini, два экрана, один тихий парень, который понял: самая предсказуемая вещь на Земле - та, которую все игнорируют. Погода.
Открытые данные + LLM для парсинга и сравнения + предиктивный рынок с неэффективным ценообразованием. Вся "альфа" в том, что парень заметил информационную асимметрию, которая лежала на поверхности. Авиационные метеоданные публичны и точнее любого прогноза, но рынки предсказаний их не закладывают, потому что ни один маркетмейкер туда не смотрит. Классический случай, когда edge появляется от источника данных, а модель просто делает грязную работу по мониторингу и сопоставлению.
🔥23❤10👍7🤔2🥱1🌭1
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Бесплатно запускаем Gemma 4 на телефоне без интернета.
Google выкатили AI Edge Gallery для iOS и Android. Это официальный клиент, где модели работают локально на устройстве.
Что внутри чат с моделью, разбор изображений, офлайн-транскрипция аудио и простой агент с инструментами
Никаких облаков всё считается прямо на телефоне
По моделям E4B - мощнее, но требует около 8 ГБ RAM E2B - легче и быстрее, запускается даже с ~1.5 ГБ памяти
Фактически это карманный ИИ без зависимости от сети и API
На видео запускается Google Gemma 4 E2B на iPhone 17 Pro.
Около ~40 токенов в секунду с MLX, оптимизированным под Apple Silicon.
Модель показала топовый уровень в коде и математике прямо на смартфоне с контекстом 128K.
Полностью офлайн, с режимом рассуждения.
https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
Google выкатили AI Edge Gallery для iOS и Android. Это официальный клиент, где модели работают локально на устройстве.
Что внутри чат с моделью, разбор изображений, офлайн-транскрипция аудио и простой агент с инструментами
Никаких облаков всё считается прямо на телефоне
По моделям E4B - мощнее, но требует около 8 ГБ RAM E2B - легче и быстрее, запускается даже с ~1.5 ГБ памяти
Фактически это карманный ИИ без зависимости от сети и API
На видео запускается Google Gemma 4 E2B на iPhone 17 Pro.
Около ~40 токенов в секунду с MLX, оптимизированным под Apple Silicon.
Модель показала топовый уровень в коде и математике прямо на смартфоне с контекстом 128K.
Полностью офлайн, с режимом рассуждения.
https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
🔥22👍11❤7