DataGym Channel [Power of data]
2.4K subscribers
52 photos
7 videos
1 file
158 links
Канал про Data Science и BigData.

Для связи: @ermakovpetr
Download Telegram
ИИ в науке

- IBM и NASA предсказывают "космическую погоду": Опубликована открытая модель Surya для прогнозирования солнечных вспышек и магнитных бурь. Модель разработана IBM совместно с NASA и стала первой «фундационной» AI-моделью в гелиофизике. Surya обучена на 9 годах высокочастотных снимков Солнца (≈218 ТБ данных с обсерватории SDO) В тестах она показала на 16% более высокую точность классификации солнечных вспышек по сравнению с предыдущими методами. Более того, Surya умеет визуально прогнозировать развитие вспышки – генерировать картину likely-событий за 2 часа до их возникновения. Модель и датасеты выложены в открытый доступ на Hugging Face, чтобы учёные по всему миру могли исследовать и улучшать методы предсказания космической погоды. По словам исследователей, точные прогнозы солнечных бурь помогут защитить спутники, энергосети, связь и другую критичную инфраструктуру на Земле [science.nasa.gov]

- GPT-4b micro для биотеха: OpenAI совместно с биотех-стартапом Retro Biosciences разработали специальную модель GPT-4b micro – мини-версию GPT-4o, адаптированную для задач молекулярной биологии. Цель проекта – ускорить исследования в области продления жизни, в частности улучшить технологии перепрограммирования стволовых клеток. Модель инициализировали уменьшенной копией GPT-4, а затем дообучили на массиве белковых последовательностей, аннотациях функций и даже токенизированных 3D-структурах белков. В отличие от традиционных protein-LLM, GPT-4b micro получает на вход не только последовательность аминокислот, но и контекст – описания, эволюционные гомологи, группы взаимодействующих белков. Благодаря этому модель может генерировать предложения по дизайну новых белков с заданными свойствами. В частности, GPT-4b micro сумела спроектировать улучшенные варианты факторов Яманаки (белки SOX2, KLF4), отвечающих за омоложение клеток. Экспериментально полученные белки показали в 50 раз более высокую экспрессию маркеров перепрограммирования клеток, чем исходные, и повысили восстановление ДНК, т.е. омолаживающий эффект. Модель способна работать как с структурированными, так и с «бесформенными» (intrinsically disordered) белками – она обучалась на данных, где большинство белков не имели стабильной структуры, что научило её одинаково хорошо обрабатывать гибкие, неупорядоченные участки молекул. Эти результаты открывают путь к более эффективной инженерии белков для биомедицины – от терапии старения до регенеративной медицины [openai.com]

(А все, это последний блок =) Хорошего дня)
42👍1👏1
AI для голоса и аудио

- Microsoft VibeVoice - генератор подкастов на 90 минут.
Microsoft представила открытую TTS-модель VibeVoice для генерации длительных аудиозаписей. Она способна создавать до 1,5 часов речи с четырьмя разными голосами и позиционируется как инструмент для подкастов. Модель на 1,5 млрд параметров (7-миллиардная версия ожидается) и поддерживает английский и китайский языки. VibeVoice генерирует диалог нескольких спикеров. В каждой сгенерированной записи предусмотрены сигналы об использовании ИИ (аудиодисклеймер и скрытые водяные знаки) для предотвращения дезинформации. [pymnts.com]

- OpenAI Realtime API и модель gpt-realtime.
OpenAI вывела из беты Realtime API - универсальный голосовой интерфейс, объединяющий распознавание речи, генерацию текста и синтез голоса в одном API. Новая модель gpt-realtime обучена для голосовых ассистентов, контакт-центров и систем перевода: она распознаёт устную речь, генерирует ответ и сразу озвучивает его, минуя традиционную цепочку из отдельных сервисов. Благодаря цельному подходу к обработке аудио, задержки сокращены, а голосовые ответы звучат естественнее. Одновременно OpenAI снизила тарифы на аудиотокены примерно на 20% - теперь реальный голосовой API стоит ~$32 за 1 млн входных аудиотокенов и $64 за 1 млн выходных. [openai.com]

- Собственные модели Microsoft: MAI-Voice-1 и MAI-1-preview.
Подразделение Microsoft по ИИ выпустило первые модели собственной разработки. MAI-Voice-1 - ультрабыстрый генератор речи, способный сгенерировать минутный аудиофрагмент меньше чем за секунду на одном GPU. Эту модель уже используют, например, в Copilot Daily для автоматического озвучивания новостей. Вторая новинка - MAI-1-preview, языковая модель (тренировалась на ~15 000 GPU H100), которая дает представление о будущих возможностях Copilot. Microsoft планирует задействовать MAI-1-preview в текстовых задачах помощника Copilot (который пока опирается на модели OpenAI) и уже тестирует её. [theverge.com]
👍43🔥1
AI для изображений и компьютерного зрения

- Google Gemini 2.5 Flash Image (nano-banana).
Google DeepMind официально запустила новую модель Gemini 2.5 Flash Image, известную по тестам под кодовым именем nano-banana. Это генератор и редактор изображений, который возглавил сразу 6 категорий на площадке LMArena: общей оценке качества редактирования изображений, обойдя даже GPT-4.1 Image и Qwen Image Edit - уступил им лишь в стилизации. Особый акцент сделан на стабильности персонажей и стиле: nano-banana сохраняет облик и позу объектов при многократных редактированиях сцены, решая проблему, когда другие модели «переиначивали» персонажей при каждом новом кадре. Это открывает возможности создавать серии визуалов с одинаковыми героями и дизайном. Модель уже доступна разработчикам в AI Studio, Vertex AI и через API Gemini. [masterconcept.ai] [habr.com] [blog.getbind.co]

- Apple FastVLM - ультрабыстрые vision-language модели.
Apple анонсировала новую линейку FastVLM - мультимодальные модели с гибридным визуальным энкодером FastViTHD для ускоренной обработки изображений. Ключевая инновация - уменьшение числа визуальных токенов без потери качества: FastVLM выделяет в 4 раза меньше токенов из картинки благодаря дополнительному этапу downsampling в энкодере. В результате, по сравнению с LLaVA-1.5, достигается ускорение Time-To-First-Token в ~3,2 раза при сопоставимом уровне точности. FastVLM показал превосходство на ряде бенчмарков (TextVQA, DocVQA) и обходит конкурентные open-source модели (ConvLLaVA, Cambrian-1) по сочетанию разрешения, скорости и качества. Модели FastVLM доступны на Hugging Face и обучены на единичном узле (8×H100) всего за ~30 минут базовой стадии. В перспективе технология FastViTHD может лечь в основу ускоренных мультимодальных сервисов Apple. [marktechpost.com]
👍43🔥2
AI для видео

- Google NotebookLM: видеопрезентации теперь на 80 языках.
Сервис NotebookLM (Google Labs) получил обновление: функция Video Overviews теперь поддерживает 80 языков, включая русский. NotebookLM генерирует видеоролики-презентации на основе документов пользователя - слайд-шоу с цитатами, диаграммами, изображениями и озвучкой от ИИ. Ранее (с июля) эта возможность работала только на английском, но теперь охватывает большинство популярных языков. Также улучшены Audio Overviews: для всех 80 языков они стали полноформатными и детальными, как и в английской версии. Генератор уже применяют для учебных конспектов, исследований и туториалов - ИИ быстро собирает ключевые идеи из больших текстов и представляет их в наглядном ролике [techcrunch.com] [support.google.com]

- Alibaba Wan2.2-S2V - открытый генератор «говорящих видео».
Китайская Alibaba выпустила бесплатный ИИ-сервис Wan2.2 S2V, превращающий одно фото и аудодорожку в реалистичный видеоролик. Модель Wan2.2-S2V (14 млрд параметров) открыта для сообщества: исходный код выложен на GitHub, веса - на Hugging Face. Инструмент не ограничивается созданием «говорящих голов» – он способен анимировать персонажа в полный рост в тч окружающую обстановку, точно синхронизируя речь с движениями. Разработчики заявляют поддержку мультисцен - модель справляется даже с несколькими героями в кадре и реагирует на текстовые подсказки о жестах или окружении. Wan2.2-S2V использует аудиоуправляемую анимацию, комбинируя портрет и голос: загружаешь фото, добавляешь озвучку и ИИ выдает видео с выбранным ракурсом.[betanews.com]

- PixVerse V5 - новый уровень качества AI-видео.
Сервис PixVerse выпустил обновление модели генерации видео, заметно улучшив качество роликов. Пользователи отмечают более плавную анимацию, прорисованность деталей и точное следование промптам. Новинка близка по визуальному стилю к кино: движения камеры стали кинематографичными, персонажи ведут себя естественно, цвета и стиль сцены стабильны от кадра к кадру. Функция Agent позволяет оживить статичный кадр: достаточно загрузить одно фото, и ИИ сгенерирует по нему ролик длительностью 5–30 секунд, добавив движение и контекст. Генерация стала сверхбыстрой - черновой ролик 360p создается за считанные 5 секунд, FullHD (1080p) - примерно за минуту. [imagine.art]

- Google Vids - бесплатный облачный видеоредактор с ИИ-функциями.
Google сделала общедоступным Google Vids - ранее эксклюзивный для Workspace AI облачный редактор видео. Vids по сценарию подбирает сцены, изображения, фоновую музыку. Доступно озвучивание с помощью аватаров: можно выбрать одного из 12 виртуальных ведущих с разным голосом и внешностью, которые зачитают ваш текст (правда, создавать аватар с собственным лицом пока нельзя). Также редактор умеет превращать загруженное изображение в короткий (8-секундный) видеоролик. а также автоматически вырезать слова-паразиты и паузы из записанного видео докладчика. Google позиционирует Vids как средство резко сократить время и стоимость производства роликов для бизнеса [theverge.com]
🔥5👍43
AI для разработчиков и кода

- xAI Grok Code Fast 1
Стартап xAI (Илон Маск) выпустил модель Grok Code Fast 1, ориентированную на генерацию кода с упором на скорость. Это большая MoE-модель с 314 млрд параметров, поддерживающая контекст до ~262k токенов. Ключевая идея - агентное (агентское? ну вы поняли) кодирование: Grok не просто дополняет код, а самостоятельно выполняет многошаговые задачи, обдумывая решения. Внутреннее тестирование показало неплохую скорость: модель пишет код и находит баги гораздо быстрее конкурентов (за что получила кодовое имя Sonic). Однако разработчики предупреждают: для наилучшего результата запросы нужно формулировать конкретно - если дать расплывчатое ТЗ, Grok может упростить задачу и выдать тривиальное решение (впрочем, как и все ленивые программисты). Доступ: xAI сделала Grok Code Fast включён в платные тарифы Copilot (Pro, Business, Enterprise). Цены API: ~$0.20 за 1M входящих токенов и $1.50 за 1M исходящих. [timesofai.com]
3
Маркировка честный знак ИИ-контента

- DeepSeek помечает весь сгенерированный контент.
DeepSeek ввела жёсткую политику маркировки результатов работы своих моделей ИИ. Теперь любое AI-сгенерированное содержание (текст, изображение, видео и пр.), созданное через их модели, обязательно снабжается признаками ИИ, и пользователям запрещено их убирать или менять. Разосланное уведомление разъясняет два типа меток: явные – заметные текстовые или аудиометки вроде "Сгенерировано ИИ", а также скрытые технические маркеры. Под угрозой блокировок запрещено пытаться удалять или подделывать эти сигналы. DeepSeek также блокирует любые сторонние инструменты, помогающие снять метки. Нововведение связано как с внутренними стандартами прозрачности, так и с требованиями регуляторов Китая – летом власти обязали всех помечать ИИ-контент. [gizmochina.com]
Я уже не знаю как эти новости объединять, ловите последнюю пачку дайджеста

- Google Stax - платформа для тестирования языковых моделей.
Google Labs запустила экспериментальный сервис Stax - инструмент для структурированного, автоматизированного оценивания LLM. Stax позволяет разработчикам задавать метрики и сценарии и получать количественные показатели качества модели вместо субъективного “ну вот это вроде збс”. В системе можно проверить ИИ-модель по ключевым параметрам: беглость и правильность ответов, их соответствие инструкциям, безопасность (наличие токсичного или нежелательного контента), скорость отклика, а также долю успешных решений в специально подобранных задачах. Доступны как встроенные авто-тесты (на базе LLM-as-a-Judge), так и полностью настраиваемые проверки - разработчик может загрузить свой набор промптов и эталонных ответов для сравнения. Stax призван заменить тестирование моделей на инженерный подход в стиле unit-тестов: каждый раз при изменении модели или промпта разработчик получает объективные метрики, лучше ли стал ИИ. Инструмент интегрирует наработки DeepMind по eval-бенчмаркам и идеи по визуализации результатов. Пока Stax в экспериментальном доступе. [developers.googleblog.com]

- Anthropic Claude в Chrome - агент-ассистент в браузере.
Компания Anthropic начала тестирование расширения Claude for Chrome, превращающего ИИ-модель Claude в браузерного ассистента. Выбранные пользователи получили возможность общаться с Claude прямо в сайдбаре Chrome и поручать ему действия на страницах. Агент имеет доступ к контексту открытых вкладок и, с разрешения, может кликать по кнопкам, заполнять формы, перемещаться по ссылкам - фактически выполнять роль помощника, облегчающего рутинные веб-задачи. Такой функционал схож с недавно появившимися AI-агентами в браузерах конкурентов: например, Perplexity выпустила свой браузер Comet с агентом, OpenAI, по слухам, разрабатывает аналогичное решение. Anthropic подчёркивает, что уделяет внимание безопасности: браузерные агенты уязвимы для атак через prompt injection на сайтах, поэтому Claude в Chrome снабжён механизмами фильтрации - в тестах им удалось снизить успех подобных атак примерно с 23,6% до 11,2% (все еще жесть). [techcrunch.com]

- VK-LSVD - датасет для рекомендаций на 40 млрд событий.
Ребята из VK AI выложила в открытый доступ массив данных VK-LSVD (Large Short-Video Dataset) - большой публичный датасет взаимодействий пользователей с короткими видео. Он содержит 40 миллиардов обезличенных событий (лайки, дизлайки, шеры, время просмотра и т.д.) от 10 миллионов пользователей по 20 миллионам видеороликов за 6 месяцев 2025 года. Помимо самих интеракций, для каждого пользователя указаны социально-демографические характеристики (без персональных данных), а для каждого видео - атрибуты контента. Пожелаем удачи ребятам, открытые датасеты - это всегда круто. Но просто напомню, что 3 месяца назад появился датасет Yambda, а статью о датасете приняли на ACM RecSys [hf vk-lsvd]

- ИИ против болезни Альцгеймера
Билл Гейтс объявил глобальный конкурс AI Solutions for Alzheimer’s, пообещав $1млн команде, которая предложит прорывной подход к исследованию болезни Альцгеймера с помощью ИИ. Инициатива запущена фондом AD Data Initiative при поддержке Gates Ventures и других партнёров. Для Гейтса это личная история - его отец скончался от деменции в 2020 году, и с тех пор он инвестирует в область. Заявки на участие принимаются от инженеров по машинному обучению, биоинформатиков, неврологов, стартапов – всех, кто может предложить нестандартные AI-подходы. Полуфиналистов объявят в декабре 2025, а финал пройдёт в марте 2026 года на профильной конференции AD/PD в Копенгагене. Победитель получит не только приз, но и поддержку в реализации решения - разработанные ИИ-инструменты планируется сделать доступными в открытой научной среде AD Data Initiative. [observer.com]

На этом дайджест недели все, регистрируйтесь и приходите к нам на practical ml conf
6🔥4👍2
Забрасывайте хорошие мемы в комменты 👇
😁266🌭1
Друзья, регистрация скоро закроется, честно.

27 сентября пройдет Practical ML Conf - лучшая конференция по ML в России. За качество отвечаю лично.

Регистрируйтесь на офлайн сейчас. А если не сможете быть в Москве, регистрируйтесь на онлайн (в этом году для онлайна делаем дополнительный трек).

Обещаю интересные доклады, мастер-классы и дискуссии, крутую экспозону и качественный нетворк.

Репосты приветствуются.
6👍5🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
Скоро новогодние корпоративы, главное чтоб этим роботом не были вы
😁12🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
ML-инженер не обязан лететь на NeurIPS. Но может, если хочет. Я выберу того, кто хочет.

🎯 Забегай к нам на ML Global Recap 11 декабря, обсудим:
NeurlPS
CIKM и RecSys и тренды в рекомендательных технологиях
ICLR и тренды в компьютерном зрении
ICLR и ACL и тренды в NLP
Interspeech и тренды в технологиях распознавания речи

Со всех конф 2025 года везли вам самые интересные папиры
О них и куча нетворка: 11 декабря | 18:00 | Москва и онлайн
🔗 Подробная программа и регистрация по ссылке.
7🎉6🍾5