Computer Vision News
221 subscribers
296 photos
80 videos
299 links
Download Telegram
Forwarded from RuCode Festival
💎 Состоялось торжественное награждение лауреатов первой RuCode.Премии по искусственному интеллекту 💎

В столице прошла торжественная церемония вручения первой RuCode.Премии в области искусственного интеллекта. Награда, учрежденная МФТИ в рамках фестиваля RuCode, призвана отметить и поддержать лидеров, активно внедряющих и популяризирующих технологии ИИ.

Событие собрало под одной крышей представителей науки, образования, индустрии, а также амбициозных молодых специалистов, студентов и школьников.

👏В рамках церемонии были объявлены лауреаты в 10 номинациях.

Ключевые цифры:
• 700+ заявок из 23 регионов России
• 53 номинанта, чьи инициативы рассмотрел экспертный совет
• 3 млн рублей — общий призовой фонд премии

🧬 Поздравляем лауреатов первой RuCode.Премии:

• «ИИ Альма-Матер» — КГБПОУ «Алтайский промышленно-экономический колледж» («Активное ИИ образование»)
• «Кузница ИИ талантов» (при поддержке «Киберпротект») —
ЧОУДО «Высшая школа программирования»
• «ИИ пространство» —
ГАПОУ «Казанский торгово-экономический техникум» («LessonSkills: ИИ-платформа для подготовки учебных материалов»)
• «ИТ-мануфактура» —
ФГАОУ ВО «Национальный исследовательский университет ИТМО»
• «Братство ИТ» —
Панкратов Г.А., Мовзалевская В.В., Дибров Н. и Совет обучающихся ФМиКН СКФУ
• «Проект будущего» (при поддержке «Киберпротект») —
Васин Я.Е., Кадыров И.К., Хасанов А.Г., Хисматуллин И.И. («Разработка системы безопасности и мониторинга общественных мест»)
• «ИИ инноватор» —
Шаланкин Максим Дмитриевич (НИУ «Высшая школа экономики»)
• «ИИ гуру» (при поддержке Сбер): Хайрутдинов Тагир Рамилевич («Тагир Анализирует»)
• «Мастер генераций» —
Ржанов Егор Алексеевич
• «ИИ для всех» (учреждена MWS) —
Бекетов Петр Викторович («Панда-копирайтинг»)

Также на церемонии были награждены финалисты Чемпионата RuCode по ИИ, успешно справившиеся с практическими задачами от индустриальных партнёров.

Фестиваль RuCode реализуется при поддержке гранта Минобрнауки России в рамках Десятилетия науки и технологий.

🚀 Генеральный партнёр фестиваля: МТС Web Services
🚀 Партнёры: Сбер, группа компаний Астра

Поздравляем победителей и всех, кто развивает сферу ИИ в России! Это только началоудивительных свершений!

#RuCode #AI #ИИ #ПремияRuCode #МФТИ #Москва #Наука #Технологии #Инновации #Образование
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Google подружила Colab с Visual Studio Code.

Компания выпустила расширение, которое напрямую связывает редактор кода со средами выполнения Google Colab. Иными словами, теперь можно работать с локальными .ipynb файлами, но выполнять код на Google Colab. Поддерживается подключение как к бесплатным средам выполнения, так и к премиум-тарифам Colab Pro.

Для начала работы достаточно установить расширение Google Colab из VS Code Marketplace. При выборе ядра для ноутбука появится опция «Colab», после чего нужно будет авторизоваться в аккаунте Google. Расширение также опубликовано в реестре Open VSX для совместимых редакторов.
developers.googleblog.com

✔️ ByteDance представила Depth Anything 3.

Depth Anything 3 может предсказывает пространственно-согласованную геометрию по одному или нескольким изображениям, даже без известных параметров камеры. Ключевая особенность релиза - в радикальном упрощении архитектуры.

Под капотом единый трансформер и унифицированное представление depth-ray. Одна и та же модель теперь решает целый спектр задач: от монокулярной оценки глубины и определения поз камеры до прямой генерации 3D гауссианов для синтеза новых ракурсов.

В тестах DA3 превзошла предыдущие версии. Команда выпустила веса моделей, инструментарий CLI и WebUI на Gradio.
depth-anything-3.github.io

✔️ Sakana AI стал самым дорогим "единорогом" в Японии.

Компания закрыла раунд финансирования на 20 млрд. иен, в результате чего её оценка достигла около $2.635 млрд. Это сделало её самым дорогим непубличным стартапом в истории Японии. Среди инвесторов - Mitsubishi UFJ Financial Group и американские венчурные фонды.

Привлечённые средства будут направлены на разработку собственной LLM, адаптированной под особенности японского языка и культуры. Компания уже сотрудничает с MUFG и Daiwa Securities для создания специализированного ИИ для финансового сектора, а в будущем планирует расширяться в оборонную и обрабатывающую промышленность.
asia.nikkei.com

✔️ Джефф Безос возглавил ИИ-стартап.

Основатель Amazon впервые после ухода с поста CEO занял операционную должность, став соруководителем ИИ-стартапа Project Prometheus. Компания привлекла $6.2 млрд, часть из которых — личные средства Безоса, что делает её одним из самых финансируемых стартапов на ранней стадии. Вторым CEO стал Вик Баджадж, физик и химик, ранее работавший в Google X над проектом Waymo.

Prometheus сфокусируется на создании ИИ-инструментов для ускорения инженерных и производственных процессов в автомобилестроении, аэрокосмической сфере и вычислительной техники. Стартап нацелен на сегмент ИИ-систем для робототехники, научные исследования и разработку материалов.

Несмотря на скрытный режим работы, команда проекта уже насчитывает около 100 специалистов, выходцев из OpenAI и DeepMind и компании Марка Цукербурга.
nytimes.com

✔️ Сценарий из «Чёрного зеркала» становится реальностью.

Актёр Калум Уорти запустил ИИ-платформу 2wai, которая создаёт интерактивные цифровые копии ушедших из жизни людей. Для генерации приложению достаточно нескольких минут видеозаписи с человеком и после их оцифровки, пользователь может взаимодействовать с аватаром своего родственника, симулируя общение на разных этапах жизни.

В сети проект вызвал волну негатива и обвинение создателей в эксплуатации горя. Основные претензии сводятся к тому, что технология мешает здоровому процессу скорби и использует образы людей без их согласия.

Бета-версия приложения уже доступна в App Store. В будущем разработчики планируют ввести платную подписку и выпустить версию для Android.
Calum Worthy в сети Х

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from GigaChat
🔥МЫ ПРЕДСТАВЛЯЕМ КРУПНЕЙШИЙ OPEN-SOURCE AI В ЕВРОПЕ 🔥

Мы стремимся не замыкаться в «закрытой» технологии, а строить открытую платформу для всей страны, поэтому мы публикуем веса наших моделей

Что появилось в открытом доступе ↓

🔷 GigaChat Ultra Preview
Самая мощная модель Сбера. Лучше DeepSeek V3.1 и GigaChat Max 2 в русскоязычных задачах. Подходит для бизнеса, аналитики, разработки и дообучения на своих данных

GitHub | HuggingFace | GitVerse

🔷 GigaAM-v3
Пять моделей, которые превращают голос в текст с пунктуацией, понимают акценты, спонтанную речь и даже музыкальные запросы. Подойдут для голосовых ассистентов, контакт-центров, аналитики звонков

GitHub | HuggingFace | GitVerse
Читайте подробный пост от команды

🔷 GigaChat Lightning
Лёгкая, компактная и быстрая. Конкурирует с Qwen3-4B, по скорости сравнима с Qwen3-1.7B, но намного умнее и больше по параметрам

GitHub | Hugging Face | GitVerse

🔷 Kandinsky 5.0
Создание фото и видео по тексту. Внутри:
• Image Lite — делает изображения в HD, отлично понимает русский язык и культурный контекст
• Video Pro — создаёт до 10 секунд реалистичного HD-видео. Конкурирует с топовыми мировыми моделями
• Video Lite — облегчённая версия для домашней видеокарты (от 12 ГБ)

➡️ GitHub | GitVerse | Hugging Face | Технический репорт

🔷 K-VAE 1.0
Ускорение генеративного AI. Это технологии, которые «упаковывают» картинки и видео в скрытое пространство, чтобы модели работали быстрее и требовали меньше ресурсов. Лучшие среди открытых аналогов

➡️ GitHub | Hugging Face

Код и веса этих моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Forwarded from Институт AIRI
В финальный научный день AIJ Институт AIRI представил GigaEvo — платформу для автоматизации научных экспериментов по ИИ 🔖

В отличие от существующих решений, GigaEvo использует эволюционный поиск стратегий обучения, что позволяет системе самостоятельно находить и улучшать лучшие подходы без постоянного участия специалистов.

Платформа автоматизирует подбор архитектур, оптимизацию гиперпараметров и тестирование моделей, сокращая время исследований и повышая качество результатов. GigaEvo интегрируется с AutoML и MLOps, поддерживает облачные и корпоративные среды, а также обеспечивает полный контроль над экспериментами в реальном времени.

Тесты показали, что GigaEvo успешно воспроизводит сложные математические задачи и масштабирует исследовательские процессы, которые раньше требовали дорогой инфраструктуры. В перспективе платформа поможет ускорить научные и прикладные разработки в разных сферах — от Data Science до промышленности и финансов.

Интерфейс | GitHub | ТАСС
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from КПД
11 декабря в Москве пройдет встреча ML Global Recap'25, посвященная основным международным AI конференциям и главным трендам
в рекомендательных технологиях, компьютерном зрении, технологиях распознавания речи и NLP.

Список выступающих и доклады:

🔸 Алексей Гусаков, CTO Поисковых сервисов и ИИ. Откроет ивент кратким обзором NeurlPS
🔸 Борис Шелудько, руководитель команды качества звука. Расскажет про последние тренды по звуку и рассмотрит статьи с Interspeech
🔸 Николай Савушкин, руководитель команды рекомендательных технологий. Выступит с докладом про CIKM и RecSys и тренды в рекомендательных решениях
🔸 Роман Исаченко, руководитель команды анализа и изображений. Расскажет про тренды в компьютерном зрении и детально рассмотрит ICLR
🔸 Александр Юшкевич, руководитель команды развития моделей базового качества. Расскажет про тренды в NLP и поделится новостями с ICLR и ACL

📅 Когда: 11 декабря в 18:00
🏙️ Где: в Москве и онлайн

Приглашаются все желающие.
Forwarded from DeepSchool
Vision-Language-Action (VLA) Models: от токенов к действиям

Современные мультимодальные модели умеют работать с визуальными данными и текстом. Следующий шаг их развития — взаимодействие с физическим миром. Для управления роботами создаются Vision-Language-Action (VLA) модели, которые переводят визуальные данные и текстовые инструкции прямо в моторные команды робота. О том, как устроены такие модели, рассказываем в новой статье. 🤖

Из неё вы узнаете:
• как устроены VLA-модели — от визуального энкодера до генератора действий
• какие архитектуры используются для предсказания движений — от дискретных токенов до диффузий и Flow Matching'а
• какие существуют подходы к дообучению систем — от полного fine-tuning'а до PEFT-методов, таких как LoRA
• с какими проблемами сталкиваются VLA в реальном мире: задержки, накопление ошибок и безопасность

Читайте новую статью по ссылке! 🚀

🪔 DeepSchool
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Главное с Practical ML Conf 2025, если вы пропустили

27 сентября в Москве прошла Practical ML Conf 2025 - одна из самых сильных прикладных ML-конференций года.
Ничего лишнего, только практика, хардкор и опыт больших продовых команд.

Что сделало конференцию особенной

• Реальные кейсы от Яндекса, Sber AI, Т-Банка, VK и других
• Глубокие инженерные разборы ML-систем, которые работают на миллионы пользователей
• Обсуждения между практиками, а не общие презентации
• Место, где можно задать сложные вопросы тем, кто строит модели и инфраструктуру каждый день

Андрей Окуньков, лауреат Филдсовской медали, прочитал кейноут о математике и языке, и это стало одним из самых обсуждаемых событий конференции.

Онлайн-зал «Сеть»
Впервые доклады можно было смотреть в прямом эфире из любой точки мира.
Это заметно расширило аудиторию и дало возможность участвовать тем, кто не смог приехать офлайн.

Экспозона
Здесь можно было потрогать технологии руками:

• ML-сервисы Яндекса
• «Интеллект» Алисы
• SourceCraft Code Assistant
• кастомный раннер от Плюса и Фантеха
• робо-собаки и гуманоидные роботы на Leshy OS

Записи уже доступны в VK Видео и YouTube
Рекомендуем начать с:

• «Память и online-RL: опыт YandexGPT 5.1» - Алексей Колесов
• «Создание памяти для LLM на примере GigaChat» - Павел Гуляев
• «Генеративные рекомендательные технологии: что работает в Яндексе» - Николай Савушкин

Practical ML Conf снова показала, насколько быстро меняется индустрия ML.

И если хотите чувствовать тренды в реальном времени — эти доклады точно стоит посмотреть.

Реклама ООО «ЯНДЕКС» ИНН 7736207543 erid:2SDnjcR3eAT
Forwarded from 🦒∵ girafe.ai
Всем доброго дня! А завтра пройдет финальное открытое выступление от команды из Мегафона:

27 ноября в 18.30 коллеги расскажут про соревновательный анализ данных в проде😄: feature engineering, тюнинг гиперпараметров, стэкинг, и почему это все еще актуально.

Zoom-ссылка будет доступна завтра перед самим занятием.

Участие свободное, регистрация не требуется.

Ну и приложу ссылку на предыдущее сообщение:
Вопросы также приветствуются ;)
Forwarded from AI VK Hub
🔥 Большой датасет коротких видео для рекомендаций VK-LSVD в открытом доступе

Мы открыли доступ к датасету VK-LSVD — это ~40 млрд взаимодействий между 10 млн пользователей и 20 млн видео, плюс контентные эмбеддинги и часть анонимизированных пользовательских фичей.

По меркам открытых рекомендательных датасетов — это очень большой и редкий набор данных. Но есть ещё один важный плюс: все взаимодействия сохранены в хронологическом порядке. Это сильно упрощает разбиение на train / val / test и улучшает воспроизводимость экспериментов — настоящий подарок для исследователей RecSys.

Кому полезно:
🔸исследователям рекомендательных систем;
🔸участникам соревнований;
🔸тем, кто просто хочет потренировать модельку на реалистичных данных и посмотреть, «как оно в проде».

На Хабре мы подробно рассказали:
🔸как устроен датасет;
🔸как загрузить и обработать данные;
🔸как готовить разбиения;
🔸как фильтровать пользователей/айтемы по популярности.

🔗 Приятного чтения и добро пожаловать в VK RecSys Challenge!

#RecSysChallenge #RecSys #LSVD
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AI VK Hub
На ридинг-группе 4 декабря обсудим очередную попытку разрушить классическую парадигму рекомендательных систем – фреймворк RecGPT от компании Taobao.

Китайский комбайн умеет предсказывать интент и интересы пользователя, генерировать и ранжировать айтемы-кандидаты и даже объяснять рекомендации.

Ведущим будет Александр Подвойский, ML-инженер AI VK.

🔹 4 декабря в 18:00

Zoom: ссылка
ID: 707 776 9330
Код: 464167

Параллельно запустим стрим прямо в канале AI VK Hub.

#ридинггруппа #aivk
Please open Telegram to view this post
VIEW IN TELEGRAM
Подборка каналов об ИТ, радиоэлектронике и смежных областях

SciencePub — научный ликбез без скучных лекций. Рассказываю о нейросетях, виаре, цифровых двойниках и других технологиях человеческим языком.

FPGA-Systems Events — канал для тех, кто знает што такое vhdl и veriog. Новостной канал FPGA / RTL / Verification / ASIC комунити FPGA-Systems.

Дорога в ИТ — это ваш гид в мир технологий от Татьяны, HR-эксперта с 8-летним опытом, специализирующейся на карьере в IT. Здесь вы получите практические советы, актуальные тренды, вдохновляющие истории и поддержку на пути к профессии в IT — потому что за кодом стоят живые люди со своими мечтами и интересами.

Радиотехнические системы & проектирование — посвящён изучению и проектированию радиотехнических систем. В канале обсуждается применение нейросетей для создании устройств обработки и формирования сигналов.

Computer Vision News — в канале публикуются новости о передовых технологиях в компьютерном зрении, а также информация о соревнованиях по ML. Автор канала — Дунаева Александра, старший преподаватель кафедры высокопроизводительных технологий УрФУ и методист ЦРИТО МФТИ.

LoFiCoder — вместе превращаем науку в код. От снежинки до сознания — всё, можно закодировать и запустить. Вычислительная природа реальности, пост за постом. + полезные инструменты для вашей учёбы или работы.
🔥2
Forwarded from Machinelearning
📌 LiDAR: глаза беспилотников.

Лонгрид материала от Main Street Autonomy, о том, как лидары видят мир, почему они прожигают камеры смартфонов и где маркетологи нас обманывают.

🟡Что делает LiDAR?

В отличие от обычной камеры, которая фиксирует интенсивность света, лидар - это активный сенсор. Он отправляет свет и ловит его отражение. Его цель - измерить расстояние и направление.

В результате получается облако точек, где каждая точка - это точное положение объекта в пространстве. Камеры дают разрешение и цвет, а лидары - точную геометрию.

🟡Методы измерения дальности.

Самый популярный - Direct time of flight. Лидар посылает лазерный импульс и засекает время, за которое он вернется. Зная скорость света, можно посчитать расстояние. Но чтобы это работало, нужны невероятно быстрые детекторы.

🟡Детекторы.

APD - это лавинные фотодиоды. Они надежны, работают в линейном режиме, но требуют сложной аналоговой электроники.

А вот SPAD - однофотонные лавинные диоды, это настоящий бриллиант. Они настолько чувствительны, что реагируют на единственный фотон, работая в режиме счетчика Гейгера.

Главный плюс SPAD в том, что они совместимы с CMOS-процессом. Это значит, что их можно делать на тех же кремниевых пластинах, что и процессоры, создавая огромные массивы - их называют  SPAD macropixels. Это путь компаний Ouster и Sony.

Но есть и другой путь - FMCW, или частотно-модулированный лидар. Здесь лазер светит постоянно, меняя частоту, а расстояние вычисляется по сдвигу фазы вернувшегося сигнала.

С FMCW можно измерять не только дальность, но и мгновенную скорость объекта через эффект Доплера. Звучит круто, но требует дорогих лазеров.

🟡Как LiDAR понимает, куда он смотрит?

Исторически, первым решением было просто вращать весь лидар. Старые модели на крышах машин - те самые «ведра», которые крутятся на 360 градусов. Это надежно, дает полный обзор, но механически сложно и дорого.

Современный тренд - уход от вращения всей «головы» к более хитрым методам.

MEMS mirror. Это крошечные зеркала на чипе, которые вибрируют и отклоняют луч.

Risley prisms. Две вращающиеся призмы, преломляющие луч так, что он рисует сложный узор, похожий на цветок.

Есть совсем футуристичный Baraja SpectrumScan. Они вообще отказались от движущихся зеркал в одной из плоскостей. Они меняют длину волны лазера, пропуская свет через призму. Разные цвета преломляются под разным углом и луч сканирует пространство просто за счет изменения цвета. Гениально, но требует очень качественного источника света.

🟡Длина волны.

Большинство лидаров работают на длине волны 905 nm. Но есть проблема: человеческий глаз фокусирует этот свет на сетчатке. Если поднять мощность, можно буквально выжечь человеку глаз. Поэтому мощность таких лидаров жестко ограничена.

1550 nm. Этот свет поглощается жидкостью в глазу и не доходит до сетчатки. И мощность можно поднимать в тысячи раз, что дает огромную дальность обнаружения.

Но для детекторов на этой частоте нужен дорогой сплав InGaAs, а в качестве источника часто используют волоконные лазеры.

И тут есть нюанс: мощный лазер 1550 nm безопасен для сетчатки, но может повредить роговицу нагревом. Более того, такие мощные лидары сжигают матрицы обычных камер и смартфонов, если те окажутся на "линии огня".

🟡Суровые реалии эксплуатации.

Многие лидары врут. Одна из частых проблем - рассинхрон углов лучей. Даже в знаменитом датасете KITTI находили ошибки калибровки, из-за чего плоские стены становились кривыми.

Еще одна беда - «блюминг». Если лазер попадает в дорожный знак или катафот, отраженный сигнал настолько силен, что засвечивает соседние пиксели. Лидар видит призрачные объекты там, где их нет.

🟡И напоследок, про один маркетинговый миф.

Есть такой термин - "Solid State LiDAR". Производители любят называть так свои устройства, чтобы подчеркнуть надежность.

Но часто это не так. Они выглядят как цельные коробки, но внутри у них есть движущиеся части: зеркала или призмы.

Настоящий Solid State - это когда вообще ничего не движется, даже внутри. Это то, к чему стремится индустрия. Но пока механика все еще с нами.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Forwarded from Droider
🏠 Сколько зданий на Земле?

Простой вопрос. Но оказывается ответа на него не было. До сих пор.

Команда профессора Сяосян Чжу из Мюнхенского технического университета собрала первый в истории 3D-каталог всех зданий планеты. Называется GlobalBuildingAtlas. Внутри — 2,75 миллиарда построек. Каждая из них с высотой и объёмом. Для сравнения: предыдущий рекорд был 1,7 миллиарда, и то в 2D.

Откуда данные? Спутниковые снимки 2019 года. Разрешение — 3 на 3 метра. Это в 30 раз детальнее, чем у похожих баз. 97% зданий (2,68 миллиарда) представлены как LoD1-модели, упрощённые 3D-формы с базовой геометрией и высотой.

Самое ценное: в каталог попали регионы, которые обычно игнорируют. Африка, Южная Америка, сельская местность. Раньше глобальные карты их просто пропускали.

Чжу с командой ввели новый индикатор — объём зданий на душу населения. Не площадь застройки, а именно объём. Он показывает реальные жилищные условия и социальное неравенство точнее любых 2D-карт.

Данные открытые и находятся на GitHub. Любой желающий может их использовать для своих проектов.

@droidergram
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1👏1
Почему NVIDIA Jetson уступает аналогам по аналогичной цене
Так. Давно хотел сделать это видео.
В последние пол года я перестал понимать зачем люди выбирают Jetson. Ведь уже конкуренты почти все подмяли.
1) По чистой скорости - есть масса ускорителей, в том числе те которые были на канале.
2) По удобству - Intel с их аналогами NUC уже превосходит TensorRT. А AMD и Qualcomm дышат в затылок.
И всё это дешевле Jetson.

Jetson Thor? Я так его и не понял. Какие юзкейсы для него:
1) Где нельзя поставить полноценную GPU?
2) Где нельзя застримить видео на соседний сервак?
3) Где можно выжигать 120W потребления
4) Где цена под 4к бачей нормальна.

В теории роботы, но кажется что 1/2 - более дешевые и простые конкуренты, 90% кейсов закрывают. 3/4 блокируют остальные 50% применений.

Чуть более подробно - в видео https://youtu.be/AFMoMB74Ogo
🔥1
✔️ SAM Audio: модель для изоляции любых звуков по тексту, таймкоду или клику на видео.

ИИ-команда Марка Цукерберга расширила линейку Segment Anything: новая модель SAM Audio способна извлекать звуковые дорожки из сложных аудио-визуальных миксов с помощью мультимодальной системы промптов.

Выделить голос, музыкальный инструмент или фоновый шум можно 3 способами: текстовым описанием, выделением временного отрезка или визуально - просто кликнув на объект в кадре видео.

Код для инференса и веса модели в 3-х вариантах (small, base и large) уже опубликованы на GitHub и Hugging Face под лицензией SAM, а протестировать возможности можно в официальном Playground.
github.com
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
✔️ Qwen-Image-Layered: декомпозиция изображений в редактируемые RGBA-слои.

Qwen релизнула Qwen-Image-Layered - диффузионную модель, которая разбивает изображения на отдельные семантические слои с прозрачностью.

Инструмент переводит работу с генеративной графикой из плоского растра в формат, где каждый элемент (фон, передний план, текст) можно перемещать, масштабировать или удалять независимо друг от друга.

Модель обучалась на реальных PSD-файлах и уже доступна на Hugging Face и ModelScope.
qwen.ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Нейродвиж
«Топ за свои деньги» теперь и в LLM — Xiaomi выпустили модель MiMo-V2-Flash, и она неожиданно крутая 💃

— На бенчмарке SWE-Bench Verified (кодерские задачки из GitHub) 73,4% — абсолютный рекорд среди открытых моделей;
— В AIME 2025 (математика) и GPQA-Diamond (физика, химия) — топ-2 среди open source;
— А еще она нереально дешевая: всего 0,1$/0,3$ за миллион токенов — это где-то в 30 раз дешевле, чем Claude 4.5 Sonnet.

Вот что реально интересно — у китайцев там свои нейросетевые войны: разработкой моделей Xiaomi теперь занимается некий Ло Фули — один из ключевых разработчиков... DeepSeek 😁

Здесь — анонс, а модель — на Hugging Face.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Machinelearning
🌟 Z-Image Turbo взяла 1 место на Artificial Analysis Image Arena.

Детище Alibaba, которое было выпущено отдельно от команд Wan и Qwen и стоит 5 долларов за 1000 изображений на Alibaba Cloud добралась до 1 места в рейтинге Artificial Analysis Image Arena.

Это модель с 6 млрд. параметров, которая может работать на потребительском оборудовании с объемом памяти всего 16 ГБ в полной точночти, а квантованные варианты запускаются на 8 ГБ.

Z-Image Turbo дешевле всех конкурентов: FLUX.2 [dev] ($12/1 тыс. изображений), HiDream-I1-Dev ($26/1 тыс. изображений) и Qwen-Image ($20/1 тыс. изображений), доступна под открытой лицензией Apache 2.0, что позволяет использовать ее в коммерческих целях без ограничений.

Кто-нибудь, поднимите веки Stable Diffusion


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Machinelearning
⚡️ HF Learn: 11 бесплатных курсов по ИИ от HuggingFace.

В преддверии новогодних праздников платформа подготовила набор обучающих материалов по основным направлениям ИИ:

🟢LLM Course - познакомит с большими языковыми моделями и обработкой естественного языка с использованием библиотек экосистемы HF: Transformers, Datasets, Tokenizers и Accelerate.

🟢Robotics Course - проведет вас от классической робототехники к современным подходам, основанным на ML.

🟢Model Context Protocol Course - курс, созданный в партнерстве с Anthropic , научит пониманию, использованию и созданию приложений с помощью MCP.

🟢Smol-course - самый всеобъемлющий (и самый короткий) трек по тонкой настройке языковых моделей.

🟢AI Agents Course - научит разбираться и использовать самую топовую тему на сегодняшний день: создание и применение агентов ИИ.

🟢Deep RL Course - курс по самой интересной теме в области ИИ: глубокому обучению с подкреплением.

🟢Computer Vision Course - подробный разбор компьютерного зрения, созданный сообществом HF, состоящий из теории, практических занятий и увлекательных заданий.

🟢Audio Сourse - научит вас использовать Transformers для обработки звука. Вы получите представление о специфике работы с аудиоданными, изучите различные архитектуры Transformers и обучите собственные модели.

🟢ML for Games Course - узнаете как интегрировать модели ИИ в процессы разработки игр и создавать уникальные игровые впечатления.

🟢Diffusion Course - полномасштабный источник знаний и навыков по диффузии. Теория и практика: от изучения библиотеки Diffusers до создания конвейеров обработки данных.

🟢ML for 3D Course - авторский набор обучающих материалов по использованию машинного обучения в 3D от Дилана Эберта (IndividualKex) - разработчика по 3D-графике HuggingFace.

Сохраните на праздники, в этом году они длинные


@ai_machinelearning_big_data

#AI #ML #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1