Computer Vision News

Forwarded from КПД

Точность имеет значение

У наиболее распространенного на данный момент для обучения формата bfloat16 всего 7️⃣ бит на мантиссу. Обычно полагается, что такой формат lossless с точки зрения обучения и инференса (есть работы указывающие на сложность в воспроизводимости результатов в bf16).

Однако для некоторых слоев и тензоров, могут быть интересные последствия.

Некоторое время назад, обучая модельку, мы обнаружили, что веса при RMS нормах вообще не сдвинулись с места. При этом градиент тек по ним, и оптимизатор вполне себе их захватывал.

А дело в том, что в момент инициализации веса при RMS норме равны 1, и если обновление по величине не превышает 1e-3, то вес никогда не изменится.

В bfloat16: 1 + 1e-3 = 1

Собственно для таких ситуаций и нужна мастер копия в fp32.

🔥3

160 views18:25

Computer Vision News

Forwarded from Технохаб Сбера | Екатеринбург

Вы этого точно ждали!

Открываем регистрацию на ежегодный масштабный Хакатон для старшеклассников и студентов «Уральский код».

В этом году решаем кейсы от Сбера, УрФУ и Библиотек Екатеринбурга😎

⏰ 22-23 ноября
📍 Технохаб Сбера, очный формат

Скорее переходи по ссылке и записывай свою команду: уральскийкод.рф

👍1

125 views15:37

Computer Vision News

Forwarded from Нейродвиж

0:36

This media is not supported in your browser

VIEW IN TELEGRAM

У Google новый ИИ-продукт для программистов — Code Wiki ⌨️

Открываем codewiki.google, закидываем ссылку на репозиторий и получаем красивую документацию со схемами. Бонусом идет чат с Gemini, где можно попросить что-то объяснить.

Ключевая фишка: документация на codewiki будет обновляться каждый раз, когда вы внесете изменения в репо. Круто!

Please open Telegram to view this post

VIEW IN TELEGRAM

120 views09:22

Computer Vision News

Forwarded from RuCode Festival

💎 Состоялось торжественное награждение лауреатов первой RuCode.Премии по искусственному интеллекту 💎

В столице прошла торжественная церемония вручения первой RuCode.Премии в области искусственного интеллекта. Награда, учрежденная МФТИ в рамках фестиваля RuCode, призвана отметить и поддержать лидеров, активно внедряющих и популяризирующих технологии ИИ.

Событие собрало под одной крышей представителей науки, образования, индустрии, а также амбициозных молодых специалистов, студентов и школьников.

👏В рамках церемонии были объявлены лауреаты в 10 номинациях.

Ключевые цифры:
• 700+ заявок из 23 регионов России
• 53 номинанта, чьи инициативы рассмотрел экспертный совет
• 3 млн рублей — общий призовой фонд премии

🧬 Поздравляем лауреатов первой RuCode.Премии:

• «ИИ Альма-Матер» — КГБПОУ «Алтайский промышленно-экономический колледж» («Активное ИИ образование»)
• «Кузница ИИ талантов» (при поддержке «Киберпротект») —
ЧОУДО «Высшая школа программирования»
• «ИИ пространство» —
ГАПОУ «Казанский торгово-экономический техникум» («LessonSkills: ИИ-платформа для подготовки учебных материалов»)
• «ИТ-мануфактура» —
ФГАОУ ВО «Национальный исследовательский университет ИТМО»
• «Братство ИТ» —
Панкратов Г.А., Мовзалевская В.В., Дибров Н. и Совет обучающихся ФМиКН СКФУ
• «Проект будущего» (при поддержке «Киберпротект») —
Васин Я.Е., Кадыров И.К., Хасанов А.Г., Хисматуллин И.И. («Разработка системы безопасности и мониторинга общественных мест»)
• «ИИ инноватор» —
Шаланкин Максим Дмитриевич (НИУ «Высшая школа экономики»)
• «ИИ гуру» (при поддержке Сбер): Хайрутдинов Тагир Рамилевич («Тагир Анализирует»)
• «Мастер генераций» —
Ржанов Егор Алексеевич
• «ИИ для всех» (учреждена MWS) —
Бекетов Петр Викторович («Панда-копирайтинг»)

Также на церемонии были награждены финалисты Чемпионата RuCode по ИИ, успешно справившиеся с практическими задачами от индустриальных партнёров.

Фестиваль RuCode реализуется при поддержке гранта Минобрнауки России в рамках Десятилетия науки и технологий.

🚀 Генеральный партнёр фестиваля: МТС Web Services
🚀 Партнёры: Сбер, группа компаний Астра

Поздравляем победителей и всех, кто развивает сферу ИИ в России! Это только началоудивительных свершений!

#RuCode #AI #ИИ #ПремияRuCode #МФТИ #Москва #Наука #Технологии #Инновации #Образование

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

131 views17:56

Computer Vision News

Forwarded from Machinelearning

4:52

Media is too big

VIEW IN TELEGRAM

✔️

Google подружила Colab с Visual Studio Code.

Компания выпустила расширение, которое напрямую связывает редактор кода со средами выполнения Google Colab. Иными словами, теперь можно работать с локальными .ipynb файлами, но выполнять код на Google Colab. Поддерживается подключение как к бесплатным средам выполнения, так и к премиум-тарифам Colab Pro.

Для начала работы достаточно установить расширение Google Colab из VS Code Marketplace. При выборе ядра для ноутбука появится опция «Colab», после чего нужно будет авторизоваться в аккаунте Google. Расширение также опубликовано в реестре Open VSX для совместимых редакторов.
developers.googleblog.com

✔️

ByteDance представила Depth Anything 3.

Depth Anything 3 может предсказывает пространственно-согласованную геометрию по одному или нескольким изображениям, даже без известных параметров камеры. Ключевая особенность релиза - в радикальном упрощении архитектуры.

Под капотом единый трансформер и унифицированное представление depth-ray. Одна и та же модель теперь решает целый спектр задач: от монокулярной оценки глубины и определения поз камеры до прямой генерации 3D гауссианов для синтеза новых ракурсов.

В тестах DA3 превзошла предыдущие версии. Команда выпустила веса моделей, инструментарий CLI и WebUI на Gradio.
depth-anything-3.github.io

✔️

Sakana AI стал самым дорогим "единорогом" в Японии.

Компания закрыла раунд финансирования на 20 млрд. иен, в результате чего её оценка достигла около $2.635 млрд. Это сделало её самым дорогим непубличным стартапом в истории Японии. Среди инвесторов - Mitsubishi UFJ Financial Group и американские венчурные фонды.

Привлечённые средства будут направлены на разработку собственной LLM, адаптированной под особенности японского языка и культуры. Компания уже сотрудничает с MUFG и Daiwa Securities для создания специализированного ИИ для финансового сектора, а в будущем планирует расширяться в оборонную и обрабатывающую промышленность.
asia.nikkei.com

✔️

Джефф Безос возглавил ИИ-стартап.

Основатель Amazon впервые после ухода с поста CEO занял операционную должность, став соруководителем ИИ-стартапа Project Prometheus. Компания привлекла $6.2 млрд, часть из которых — личные средства Безоса, что делает её одним из самых финансируемых стартапов на ранней стадии. Вторым CEO стал Вик Баджадж, физик и химик, ранее работавший в Google X над проектом Waymo.

Prometheus сфокусируется на создании ИИ-инструментов для ускорения инженерных и производственных процессов в автомобилестроении, аэрокосмической сфере и вычислительной техники. Стартап нацелен на сегмент ИИ-систем для робототехники, научные исследования и разработку материалов.

Несмотря на скрытный режим работы, команда проекта уже насчитывает около 100 специалистов, выходцев из OpenAI и DeepMind и компании Марка Цукербурга.
nytimes.com

✔️

Сценарий из «Чёрного зеркала» становится реальностью.

Актёр Калум Уорти запустил ИИ-платформу 2wai, которая создаёт интерактивные цифровые копии ушедших из жизни людей. Для генерации приложению достаточно нескольких минут видеозаписи с человеком и после их оцифровки, пользователь может взаимодействовать с аватаром своего родственника, симулируя общение на разных этапах жизни.

В сети проект вызвал волну негатива и обвинение создателей в эксплуатации горя. Основные претензии сводятся к тому, что технология мешает здоровому процессу скорби и использует образы людей без их согласия.

Бета-версия приложения уже доступна в App Store. В будущем разработчики планируют ввести платную подписку и выпустить версию для Android.
Calum Worthy в сети Х

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

107 views10:16

Computer Vision News

Forwarded from GigaChat

🔥

МЫ ПРЕДСТАВЛЯЕМ КРУПНЕЙШИЙ OPEN-SOURCE AI В ЕВРОПЕ

🔥

Мы стремимся не замыкаться в «закрытой» технологии, а строить открытую платформу для всей страны, поэтому мы публикуем веса наших моделей

Что появилось в открытом доступе ↓

🔷 GigaChat Ultra Preview

Самая мощная модель Сбера. Лучше DeepSeek V3.1 и GigaChat Max 2 в русскоязычных задачах. Подходит для бизнеса, аналитики, разработки и дообучения на своих данных

➡

GitHub | HuggingFace | GitVerse

🔷 GigaAM-v3

Пять моделей, которые превращают голос в текст с пунктуацией, понимают акценты, спонтанную речь и даже музыкальные запросы. Подойдут для голосовых ассистентов, контакт-центров, аналитики звонков

➡

GitHub | HuggingFace | GitVerse
➡ Читайте подробный пост от команды

🔷 GigaChat Lightning

Лёгкая, компактная и быстрая. Конкурирует с Qwen3-4B, по скорости сравнима с Qwen3-1.7B, но намного умнее и больше по параметрам

➡

GitHub | Hugging Face | GitVerse

🔷 Kandinsky 5.0

Создание фото и видео по тексту. Внутри:
• Image Lite — делает изображения в HD, отлично понимает русский язык и культурный контекст
• Video Pro — создаёт до 10 секунд реалистичного HD-видео. Конкурирует с топовыми мировыми моделями
• Video Lite — облегчённая версия для домашней видеокарты (от 12 ГБ)

➡️

GitHub | GitVerse | Hugging Face | Технический репорт

🔷 K-VAE 1.0

Ускорение генеративного AI. Это технологии, которые «упаковывают» картинки и видео в скрытое пространство, чтобы модели работали быстрее и требовали меньше ресурсов. Лучшие среди открытых аналогов

➡️

GitHub | Hugging Face

Код и веса этих моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

114 views14:59

Computer Vision News

Forwarded from Институт AIRI

В финальный научный день AIJ Институт AIRI представил GigaEvo — платформу для автоматизации научных экспериментов по ИИ

🔖

В отличие от существующих решений, GigaEvo использует эволюционный поиск стратегий обучения, что позволяет системе самостоятельно находить и улучшать лучшие подходы без постоянного участия специалистов.

Платформа автоматизирует подбор архитектур, оптимизацию гиперпараметров и тестирование моделей, сокращая время исследований и повышая качество результатов. GigaEvo интегрируется с AutoML и MLOps, поддерживает облачные и корпоративные среды, а также обеспечивает полный контроль над экспериментами в реальном времени.

Тесты показали, что GigaEvo успешно воспроизводит сложные математические задачи и масштабирует исследовательские процессы, которые раньше требовали дорогой инфраструктуры. В перспективе платформа поможет ускорить научные и прикладные разработки в разных сферах — от Data Science до промышленности и финансов.

Интерфейс | GitHub | ТАСС

Please open Telegram to view this post

VIEW IN TELEGRAM

119 views13:39

Computer Vision News

Forwarded from КПД

11 декабря в Москве пройдет встреча ML Global Recap'25, посвященная основным международным AI конференциям и главным трендам
в рекомендательных технологиях, компьютерном зрении, технологиях распознавания речи и NLP.

Список выступающих и доклады:

🔸 Алексей Гусаков, CTO Поисковых сервисов и ИИ. Откроет ивент кратким обзором NeurlPS
🔸 Борис Шелудько, руководитель команды качества звука. Расскажет про последние тренды по звуку и рассмотрит статьи с Interspeech
🔸 Николай Савушкин, руководитель команды рекомендательных технологий. Выступит с докладом про CIKM и RecSys и тренды в рекомендательных решениях
🔸 Роман Исаченко, руководитель команды анализа и изображений. Расскажет про тренды в компьютерном зрении и детально рассмотрит ICLR
🔸 Александр Юшкевич, руководитель команды развития моделей базового качества. Расскажет про тренды в NLP и поделится новостями с ICLR и ACL

📅 Когда: 11 декабря в 18:00
🏙️ Где: в Москве и онлайн

Приглашаются все желающие.

134 views06:49

Computer Vision News

Forwarded from DeepSchool

Vision-Language-Action (VLA) Models: от токенов к действиям

Современные мультимодальные модели умеют работать с визуальными данными и текстом. Следующий шаг их развития — взаимодействие с физическим миром. Для управления роботами создаются Vision-Language-Action (VLA) модели, которые переводят визуальные данные и текстовые инструкции прямо в моторные команды робота. О том, как устроены такие модели, рассказываем в новой статье. 🤖

Из неё вы узнаете:
• как устроены VLA-модели — от визуального энкодера до генератора действий
• какие архитектуры используются для предсказания движений — от дискретных токенов до диффузий и Flow Matching'а
• какие существуют подходы к дообучению систем — от полного fine-tuning'а до PEFT-методов, таких как LoRA
• с какими проблемами сталкиваются VLA в реальном мире: задержки, накопление ошибок и безопасность

Читайте новую статью по ссылке! 🚀

🪔

DeepSchool

Please open Telegram to view this post

VIEW IN TELEGRAM

DeepSchool

Vision-Language-Action (VLA) Models: от токенов к действиям - DeepSchool

Рассказываем, как устроены VLA-модели — от визуального энкодера до генератора действий.

132 views14:33

Computer Vision News

Forwarded from Machinelearning

⚡️ Главное с Practical ML Conf 2025, если вы пропустили

27 сентября в Москве прошла Practical ML Conf 2025 - одна из самых сильных прикладных ML-конференций года.
Ничего лишнего, только практика, хардкор и опыт больших продовых команд.

Что сделало конференцию особенной

• Реальные кейсы от Яндекса, Sber AI, Т-Банка, VK и других
• Глубокие инженерные разборы ML-систем, которые работают на миллионы пользователей
• Обсуждения между практиками, а не общие презентации
• Место, где можно задать сложные вопросы тем, кто строит модели и инфраструктуру каждый день

Андрей Окуньков, лауреат Филдсовской медали, прочитал кейноут о математике и языке, и это стало одним из самых обсуждаемых событий конференции.

Онлайн-зал «Сеть»
Впервые доклады можно было смотреть в прямом эфире из любой точки мира.
Это заметно расширило аудиторию и дало возможность участвовать тем, кто не смог приехать офлайн.

Экспозона
Здесь можно было потрогать технологии руками:

• ML-сервисы Яндекса
• «Интеллект» Алисы
• SourceCraft Code Assistant
• кастомный раннер от Плюса и Фантеха
• робо-собаки и гуманоидные роботы на Leshy OS

Записи уже доступны в VK Видео и YouTube
Рекомендуем начать с:

• «Память и online-RL: опыт YandexGPT 5.1» - Алексей Колесов
• «Создание памяти для LLM на примере GigaChat» - Павел Гуляев
• «Генеративные рекомендательные технологии: что работает в Яндексе» - Николай Савушкин

Practical ML Conf снова показала, насколько быстро меняется индустрия ML.

И если хотите чувствовать тренды в реальном времени — эти доклады точно стоит посмотреть.

Реклама ООО «ЯНДЕКС» ИНН 7736207543 erid:2SDnjcR3eAT

143 views08:32

Computer Vision News

Forwarded from 🦒∵ girafe.ai

Всем доброго дня! А завтра пройдет финальное открытое выступление от команды из Мегафона:

27 ноября в 18.30 коллеги расскажут про соревновательный анализ данных в проде😄: feature engineering, тюнинг гиперпараметров, стэкинг, и почему это все еще актуально.

Zoom-ссылка будет доступна завтра перед самим занятием.

Участие свободное, регистрация не требуется.

Ну и приложу ссылку на предыдущее сообщение:
Вопросы также приветствуются ;)

🦒∵ girafe.ai

Всем привет! Мы продолжаем практику открытых выступлений, и в этот раз у нас в гостях будут коллеги из Мегафона с серией аж из трех выступлений.

Они планируют разобрать, как знакомые вам методы машинного обучения стакливаются с суровой реальностью. В частности:…

192 views13:36

Computer Vision News

Forwarded from AI VK Hub

🔥

Большой датасет коротких видео для рекомендаций VK-LSVD в открытом доступе

Мы открыли доступ к датасету VK-LSVD — это ~40 млрд взаимодействий между 10 млн пользователей и 20 млн видео, плюс контентные эмбеддинги и часть анонимизированных пользовательских фичей.

По меркам открытых рекомендательных датасетов — это очень большой и редкий набор данных. Но есть ещё один важный плюс: все взаимодействия сохранены в хронологическом порядке. Это сильно упрощает разбиение на train / val / test и улучшает воспроизводимость экспериментов — настоящий подарок для исследователей RecSys.

Кому полезно:
🔸исследователям рекомендательных систем;
🔸участникам соревнований;
🔸тем, кто просто хочет потренировать модельку на реалистичных данных и посмотреть, «как оно в проде».

На Хабре мы подробно рассказали:
🔸как устроен датасет;
🔸как загрузить и обработать данные;
🔸как готовить разбиения;
🔸как фильтровать пользователей/айтемы по популярности.

🔗

Приятного чтения и добро пожаловать в VK RecSys Challenge!

#RecSysChallenge #RecSys #LSVD

Please open Telegram to view this post

VIEW IN TELEGRAM

199 views12:16

Computer Vision News

Forwarded from AI VK Hub

На ридинг-группе 4 декабря обсудим очередную попытку разрушить классическую парадигму рекомендательных систем – фреймворк RecGPT от компании Taobao.

Китайский комбайн умеет предсказывать интент и интересы пользователя, генерировать и ранжировать айтемы-кандидаты и даже объяснять рекомендации.

Ведущим будет Александр Подвойский, ML-инженер AI VK.

🔹 4 декабря в 18:00

Zoom: ссылка
ID: 707 776 9330
Код: 464167

Параллельно запустим стрим прямо в канале AI VK Hub.

#ридинггруппа #aivk

Please open Telegram to view this post

VIEW IN TELEGRAM

160 views06:53

About

Blog

Apps

Platform