Computer Vision News
221 subscribers
296 photos
80 videos
299 links
Download Telegram
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Google подружила Colab с Visual Studio Code.

Компания выпустила расширение, которое напрямую связывает редактор кода со средами выполнения Google Colab. Иными словами, теперь можно работать с локальными .ipynb файлами, но выполнять код на Google Colab. Поддерживается подключение как к бесплатным средам выполнения, так и к премиум-тарифам Colab Pro.

Для начала работы достаточно установить расширение Google Colab из VS Code Marketplace. При выборе ядра для ноутбука появится опция «Colab», после чего нужно будет авторизоваться в аккаунте Google. Расширение также опубликовано в реестре Open VSX для совместимых редакторов.
developers.googleblog.com

✔️ ByteDance представила Depth Anything 3.

Depth Anything 3 может предсказывает пространственно-согласованную геометрию по одному или нескольким изображениям, даже без известных параметров камеры. Ключевая особенность релиза - в радикальном упрощении архитектуры.

Под капотом единый трансформер и унифицированное представление depth-ray. Одна и та же модель теперь решает целый спектр задач: от монокулярной оценки глубины и определения поз камеры до прямой генерации 3D гауссианов для синтеза новых ракурсов.

В тестах DA3 превзошла предыдущие версии. Команда выпустила веса моделей, инструментарий CLI и WebUI на Gradio.
depth-anything-3.github.io

✔️ Sakana AI стал самым дорогим "единорогом" в Японии.

Компания закрыла раунд финансирования на 20 млрд. иен, в результате чего её оценка достигла около $2.635 млрд. Это сделало её самым дорогим непубличным стартапом в истории Японии. Среди инвесторов - Mitsubishi UFJ Financial Group и американские венчурные фонды.

Привлечённые средства будут направлены на разработку собственной LLM, адаптированной под особенности японского языка и культуры. Компания уже сотрудничает с MUFG и Daiwa Securities для создания специализированного ИИ для финансового сектора, а в будущем планирует расширяться в оборонную и обрабатывающую промышленность.
asia.nikkei.com

✔️ Джефф Безос возглавил ИИ-стартап.

Основатель Amazon впервые после ухода с поста CEO занял операционную должность, став соруководителем ИИ-стартапа Project Prometheus. Компания привлекла $6.2 млрд, часть из которых — личные средства Безоса, что делает её одним из самых финансируемых стартапов на ранней стадии. Вторым CEO стал Вик Баджадж, физик и химик, ранее работавший в Google X над проектом Waymo.

Prometheus сфокусируется на создании ИИ-инструментов для ускорения инженерных и производственных процессов в автомобилестроении, аэрокосмической сфере и вычислительной техники. Стартап нацелен на сегмент ИИ-систем для робототехники, научные исследования и разработку материалов.

Несмотря на скрытный режим работы, команда проекта уже насчитывает около 100 специалистов, выходцев из OpenAI и DeepMind и компании Марка Цукербурга.
nytimes.com

✔️ Сценарий из «Чёрного зеркала» становится реальностью.

Актёр Калум Уорти запустил ИИ-платформу 2wai, которая создаёт интерактивные цифровые копии ушедших из жизни людей. Для генерации приложению достаточно нескольких минут видеозаписи с человеком и после их оцифровки, пользователь может взаимодействовать с аватаром своего родственника, симулируя общение на разных этапах жизни.

В сети проект вызвал волну негатива и обвинение создателей в эксплуатации горя. Основные претензии сводятся к тому, что технология мешает здоровому процессу скорби и использует образы людей без их согласия.

Бета-версия приложения уже доступна в App Store. В будущем разработчики планируют ввести платную подписку и выпустить версию для Android.
Calum Worthy в сети Х

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from GigaChat
🔥МЫ ПРЕДСТАВЛЯЕМ КРУПНЕЙШИЙ OPEN-SOURCE AI В ЕВРОПЕ 🔥

Мы стремимся не замыкаться в «закрытой» технологии, а строить открытую платформу для всей страны, поэтому мы публикуем веса наших моделей

Что появилось в открытом доступе ↓

🔷 GigaChat Ultra Preview
Самая мощная модель Сбера. Лучше DeepSeek V3.1 и GigaChat Max 2 в русскоязычных задачах. Подходит для бизнеса, аналитики, разработки и дообучения на своих данных

GitHub | HuggingFace | GitVerse

🔷 GigaAM-v3
Пять моделей, которые превращают голос в текст с пунктуацией, понимают акценты, спонтанную речь и даже музыкальные запросы. Подойдут для голосовых ассистентов, контакт-центров, аналитики звонков

GitHub | HuggingFace | GitVerse
Читайте подробный пост от команды

🔷 GigaChat Lightning
Лёгкая, компактная и быстрая. Конкурирует с Qwen3-4B, по скорости сравнима с Qwen3-1.7B, но намного умнее и больше по параметрам

GitHub | Hugging Face | GitVerse

🔷 Kandinsky 5.0
Создание фото и видео по тексту. Внутри:
• Image Lite — делает изображения в HD, отлично понимает русский язык и культурный контекст
• Video Pro — создаёт до 10 секунд реалистичного HD-видео. Конкурирует с топовыми мировыми моделями
• Video Lite — облегчённая версия для домашней видеокарты (от 12 ГБ)

➡️ GitHub | GitVerse | Hugging Face | Технический репорт

🔷 K-VAE 1.0
Ускорение генеративного AI. Это технологии, которые «упаковывают» картинки и видео в скрытое пространство, чтобы модели работали быстрее и требовали меньше ресурсов. Лучшие среди открытых аналогов

➡️ GitHub | Hugging Face

Код и веса этих моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Forwarded from Институт AIRI
В финальный научный день AIJ Институт AIRI представил GigaEvo — платформу для автоматизации научных экспериментов по ИИ 🔖

В отличие от существующих решений, GigaEvo использует эволюционный поиск стратегий обучения, что позволяет системе самостоятельно находить и улучшать лучшие подходы без постоянного участия специалистов.

Платформа автоматизирует подбор архитектур, оптимизацию гиперпараметров и тестирование моделей, сокращая время исследований и повышая качество результатов. GigaEvo интегрируется с AutoML и MLOps, поддерживает облачные и корпоративные среды, а также обеспечивает полный контроль над экспериментами в реальном времени.

Тесты показали, что GigaEvo успешно воспроизводит сложные математические задачи и масштабирует исследовательские процессы, которые раньше требовали дорогой инфраструктуры. В перспективе платформа поможет ускорить научные и прикладные разработки в разных сферах — от Data Science до промышленности и финансов.

Интерфейс | GitHub | ТАСС
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from КПД
11 декабря в Москве пройдет встреча ML Global Recap'25, посвященная основным международным AI конференциям и главным трендам
в рекомендательных технологиях, компьютерном зрении, технологиях распознавания речи и NLP.

Список выступающих и доклады:

🔸 Алексей Гусаков, CTO Поисковых сервисов и ИИ. Откроет ивент кратким обзором NeurlPS
🔸 Борис Шелудько, руководитель команды качества звука. Расскажет про последние тренды по звуку и рассмотрит статьи с Interspeech
🔸 Николай Савушкин, руководитель команды рекомендательных технологий. Выступит с докладом про CIKM и RecSys и тренды в рекомендательных решениях
🔸 Роман Исаченко, руководитель команды анализа и изображений. Расскажет про тренды в компьютерном зрении и детально рассмотрит ICLR
🔸 Александр Юшкевич, руководитель команды развития моделей базового качества. Расскажет про тренды в NLP и поделится новостями с ICLR и ACL

📅 Когда: 11 декабря в 18:00
🏙️ Где: в Москве и онлайн

Приглашаются все желающие.
Forwarded from DeepSchool
Vision-Language-Action (VLA) Models: от токенов к действиям

Современные мультимодальные модели умеют работать с визуальными данными и текстом. Следующий шаг их развития — взаимодействие с физическим миром. Для управления роботами создаются Vision-Language-Action (VLA) модели, которые переводят визуальные данные и текстовые инструкции прямо в моторные команды робота. О том, как устроены такие модели, рассказываем в новой статье. 🤖

Из неё вы узнаете:
• как устроены VLA-модели — от визуального энкодера до генератора действий
• какие архитектуры используются для предсказания движений — от дискретных токенов до диффузий и Flow Matching'а
• какие существуют подходы к дообучению систем — от полного fine-tuning'а до PEFT-методов, таких как LoRA
• с какими проблемами сталкиваются VLA в реальном мире: задержки, накопление ошибок и безопасность

Читайте новую статью по ссылке! 🚀

🪔 DeepSchool
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Главное с Practical ML Conf 2025, если вы пропустили

27 сентября в Москве прошла Practical ML Conf 2025 - одна из самых сильных прикладных ML-конференций года.
Ничего лишнего, только практика, хардкор и опыт больших продовых команд.

Что сделало конференцию особенной

• Реальные кейсы от Яндекса, Sber AI, Т-Банка, VK и других
• Глубокие инженерные разборы ML-систем, которые работают на миллионы пользователей
• Обсуждения между практиками, а не общие презентации
• Место, где можно задать сложные вопросы тем, кто строит модели и инфраструктуру каждый день

Андрей Окуньков, лауреат Филдсовской медали, прочитал кейноут о математике и языке, и это стало одним из самых обсуждаемых событий конференции.

Онлайн-зал «Сеть»
Впервые доклады можно было смотреть в прямом эфире из любой точки мира.
Это заметно расширило аудиторию и дало возможность участвовать тем, кто не смог приехать офлайн.

Экспозона
Здесь можно было потрогать технологии руками:

• ML-сервисы Яндекса
• «Интеллект» Алисы
• SourceCraft Code Assistant
• кастомный раннер от Плюса и Фантеха
• робо-собаки и гуманоидные роботы на Leshy OS

Записи уже доступны в VK Видео и YouTube
Рекомендуем начать с:

• «Память и online-RL: опыт YandexGPT 5.1» - Алексей Колесов
• «Создание памяти для LLM на примере GigaChat» - Павел Гуляев
• «Генеративные рекомендательные технологии: что работает в Яндексе» - Николай Савушкин

Practical ML Conf снова показала, насколько быстро меняется индустрия ML.

И если хотите чувствовать тренды в реальном времени — эти доклады точно стоит посмотреть.

Реклама ООО «ЯНДЕКС» ИНН 7736207543 erid:2SDnjcR3eAT
Forwarded from 🦒∵ girafe.ai
Всем доброго дня! А завтра пройдет финальное открытое выступление от команды из Мегафона:

27 ноября в 18.30 коллеги расскажут про соревновательный анализ данных в проде😄: feature engineering, тюнинг гиперпараметров, стэкинг, и почему это все еще актуально.

Zoom-ссылка будет доступна завтра перед самим занятием.

Участие свободное, регистрация не требуется.

Ну и приложу ссылку на предыдущее сообщение:
Вопросы также приветствуются ;)
Forwarded from AI VK Hub
🔥 Большой датасет коротких видео для рекомендаций VK-LSVD в открытом доступе

Мы открыли доступ к датасету VK-LSVD — это ~40 млрд взаимодействий между 10 млн пользователей и 20 млн видео, плюс контентные эмбеддинги и часть анонимизированных пользовательских фичей.

По меркам открытых рекомендательных датасетов — это очень большой и редкий набор данных. Но есть ещё один важный плюс: все взаимодействия сохранены в хронологическом порядке. Это сильно упрощает разбиение на train / val / test и улучшает воспроизводимость экспериментов — настоящий подарок для исследователей RecSys.

Кому полезно:
🔸исследователям рекомендательных систем;
🔸участникам соревнований;
🔸тем, кто просто хочет потренировать модельку на реалистичных данных и посмотреть, «как оно в проде».

На Хабре мы подробно рассказали:
🔸как устроен датасет;
🔸как загрузить и обработать данные;
🔸как готовить разбиения;
🔸как фильтровать пользователей/айтемы по популярности.

🔗 Приятного чтения и добро пожаловать в VK RecSys Challenge!

#RecSysChallenge #RecSys #LSVD
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AI VK Hub
На ридинг-группе 4 декабря обсудим очередную попытку разрушить классическую парадигму рекомендательных систем – фреймворк RecGPT от компании Taobao.

Китайский комбайн умеет предсказывать интент и интересы пользователя, генерировать и ранжировать айтемы-кандидаты и даже объяснять рекомендации.

Ведущим будет Александр Подвойский, ML-инженер AI VK.

🔹 4 декабря в 18:00

Zoom: ссылка
ID: 707 776 9330
Код: 464167

Параллельно запустим стрим прямо в канале AI VK Hub.

#ридинггруппа #aivk
Please open Telegram to view this post
VIEW IN TELEGRAM
Подборка каналов об ИТ, радиоэлектронике и смежных областях

SciencePub — научный ликбез без скучных лекций. Рассказываю о нейросетях, виаре, цифровых двойниках и других технологиях человеческим языком.

FPGA-Systems Events — канал для тех, кто знает што такое vhdl и veriog. Новостной канал FPGA / RTL / Verification / ASIC комунити FPGA-Systems.

Дорога в ИТ — это ваш гид в мир технологий от Татьяны, HR-эксперта с 8-летним опытом, специализирующейся на карьере в IT. Здесь вы получите практические советы, актуальные тренды, вдохновляющие истории и поддержку на пути к профессии в IT — потому что за кодом стоят живые люди со своими мечтами и интересами.

Радиотехнические системы & проектирование — посвящён изучению и проектированию радиотехнических систем. В канале обсуждается применение нейросетей для создании устройств обработки и формирования сигналов.

Computer Vision News — в канале публикуются новости о передовых технологиях в компьютерном зрении, а также информация о соревнованиях по ML. Автор канала — Дунаева Александра, старший преподаватель кафедры высокопроизводительных технологий УрФУ и методист ЦРИТО МФТИ.

LoFiCoder — вместе превращаем науку в код. От снежинки до сознания — всё, можно закодировать и запустить. Вычислительная природа реальности, пост за постом. + полезные инструменты для вашей учёбы или работы.
🔥2
Forwarded from Machinelearning
📌 LiDAR: глаза беспилотников.

Лонгрид материала от Main Street Autonomy, о том, как лидары видят мир, почему они прожигают камеры смартфонов и где маркетологи нас обманывают.

🟡Что делает LiDAR?

В отличие от обычной камеры, которая фиксирует интенсивность света, лидар - это активный сенсор. Он отправляет свет и ловит его отражение. Его цель - измерить расстояние и направление.

В результате получается облако точек, где каждая точка - это точное положение объекта в пространстве. Камеры дают разрешение и цвет, а лидары - точную геометрию.

🟡Методы измерения дальности.

Самый популярный - Direct time of flight. Лидар посылает лазерный импульс и засекает время, за которое он вернется. Зная скорость света, можно посчитать расстояние. Но чтобы это работало, нужны невероятно быстрые детекторы.

🟡Детекторы.

APD - это лавинные фотодиоды. Они надежны, работают в линейном режиме, но требуют сложной аналоговой электроники.

А вот SPAD - однофотонные лавинные диоды, это настоящий бриллиант. Они настолько чувствительны, что реагируют на единственный фотон, работая в режиме счетчика Гейгера.

Главный плюс SPAD в том, что они совместимы с CMOS-процессом. Это значит, что их можно делать на тех же кремниевых пластинах, что и процессоры, создавая огромные массивы - их называют  SPAD macropixels. Это путь компаний Ouster и Sony.

Но есть и другой путь - FMCW, или частотно-модулированный лидар. Здесь лазер светит постоянно, меняя частоту, а расстояние вычисляется по сдвигу фазы вернувшегося сигнала.

С FMCW можно измерять не только дальность, но и мгновенную скорость объекта через эффект Доплера. Звучит круто, но требует дорогих лазеров.

🟡Как LiDAR понимает, куда он смотрит?

Исторически, первым решением было просто вращать весь лидар. Старые модели на крышах машин - те самые «ведра», которые крутятся на 360 градусов. Это надежно, дает полный обзор, но механически сложно и дорого.

Современный тренд - уход от вращения всей «головы» к более хитрым методам.

MEMS mirror. Это крошечные зеркала на чипе, которые вибрируют и отклоняют луч.

Risley prisms. Две вращающиеся призмы, преломляющие луч так, что он рисует сложный узор, похожий на цветок.

Есть совсем футуристичный Baraja SpectrumScan. Они вообще отказались от движущихся зеркал в одной из плоскостей. Они меняют длину волны лазера, пропуская свет через призму. Разные цвета преломляются под разным углом и луч сканирует пространство просто за счет изменения цвета. Гениально, но требует очень качественного источника света.

🟡Длина волны.

Большинство лидаров работают на длине волны 905 nm. Но есть проблема: человеческий глаз фокусирует этот свет на сетчатке. Если поднять мощность, можно буквально выжечь человеку глаз. Поэтому мощность таких лидаров жестко ограничена.

1550 nm. Этот свет поглощается жидкостью в глазу и не доходит до сетчатки. И мощность можно поднимать в тысячи раз, что дает огромную дальность обнаружения.

Но для детекторов на этой частоте нужен дорогой сплав InGaAs, а в качестве источника часто используют волоконные лазеры.

И тут есть нюанс: мощный лазер 1550 nm безопасен для сетчатки, но может повредить роговицу нагревом. Более того, такие мощные лидары сжигают матрицы обычных камер и смартфонов, если те окажутся на "линии огня".

🟡Суровые реалии эксплуатации.

Многие лидары врут. Одна из частых проблем - рассинхрон углов лучей. Даже в знаменитом датасете KITTI находили ошибки калибровки, из-за чего плоские стены становились кривыми.

Еще одна беда - «блюминг». Если лазер попадает в дорожный знак или катафот, отраженный сигнал настолько силен, что засвечивает соседние пиксели. Лидар видит призрачные объекты там, где их нет.

🟡И напоследок, про один маркетинговый миф.

Есть такой термин - "Solid State LiDAR". Производители любят называть так свои устройства, чтобы подчеркнуть надежность.

Но часто это не так. Они выглядят как цельные коробки, но внутри у них есть движущиеся части: зеркала или призмы.

Настоящий Solid State - это когда вообще ничего не движется, даже внутри. Это то, к чему стремится индустрия. Но пока механика все еще с нами.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Forwarded from Droider
🏠 Сколько зданий на Земле?

Простой вопрос. Но оказывается ответа на него не было. До сих пор.

Команда профессора Сяосян Чжу из Мюнхенского технического университета собрала первый в истории 3D-каталог всех зданий планеты. Называется GlobalBuildingAtlas. Внутри — 2,75 миллиарда построек. Каждая из них с высотой и объёмом. Для сравнения: предыдущий рекорд был 1,7 миллиарда, и то в 2D.

Откуда данные? Спутниковые снимки 2019 года. Разрешение — 3 на 3 метра. Это в 30 раз детальнее, чем у похожих баз. 97% зданий (2,68 миллиарда) представлены как LoD1-модели, упрощённые 3D-формы с базовой геометрией и высотой.

Самое ценное: в каталог попали регионы, которые обычно игнорируют. Африка, Южная Америка, сельская местность. Раньше глобальные карты их просто пропускали.

Чжу с командой ввели новый индикатор — объём зданий на душу населения. Не площадь застройки, а именно объём. Он показывает реальные жилищные условия и социальное неравенство точнее любых 2D-карт.

Данные открытые и находятся на GitHub. Любой желающий может их использовать для своих проектов.

@droidergram
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1👏1
Почему NVIDIA Jetson уступает аналогам по аналогичной цене
Так. Давно хотел сделать это видео.
В последние пол года я перестал понимать зачем люди выбирают Jetson. Ведь уже конкуренты почти все подмяли.
1) По чистой скорости - есть масса ускорителей, в том числе те которые были на канале.
2) По удобству - Intel с их аналогами NUC уже превосходит TensorRT. А AMD и Qualcomm дышат в затылок.
И всё это дешевле Jetson.

Jetson Thor? Я так его и не понял. Какие юзкейсы для него:
1) Где нельзя поставить полноценную GPU?
2) Где нельзя застримить видео на соседний сервак?
3) Где можно выжигать 120W потребления
4) Где цена под 4к бачей нормальна.

В теории роботы, но кажется что 1/2 - более дешевые и простые конкуренты, 90% кейсов закрывают. 3/4 блокируют остальные 50% применений.

Чуть более подробно - в видео https://youtu.be/AFMoMB74Ogo
🔥1
✔️ SAM Audio: модель для изоляции любых звуков по тексту, таймкоду или клику на видео.

ИИ-команда Марка Цукерберга расширила линейку Segment Anything: новая модель SAM Audio способна извлекать звуковые дорожки из сложных аудио-визуальных миксов с помощью мультимодальной системы промптов.

Выделить голос, музыкальный инструмент или фоновый шум можно 3 способами: текстовым описанием, выделением временного отрезка или визуально - просто кликнув на объект в кадре видео.

Код для инференса и веса модели в 3-х вариантах (small, base и large) уже опубликованы на GitHub и Hugging Face под лицензией SAM, а протестировать возможности можно в официальном Playground.
github.com
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
✔️ Qwen-Image-Layered: декомпозиция изображений в редактируемые RGBA-слои.

Qwen релизнула Qwen-Image-Layered - диффузионную модель, которая разбивает изображения на отдельные семантические слои с прозрачностью.

Инструмент переводит работу с генеративной графикой из плоского растра в формат, где каждый элемент (фон, передний план, текст) можно перемещать, масштабировать или удалять независимо друг от друга.

Модель обучалась на реальных PSD-файлах и уже доступна на Hugging Face и ModelScope.
qwen.ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Нейродвиж
«Топ за свои деньги» теперь и в LLM — Xiaomi выпустили модель MiMo-V2-Flash, и она неожиданно крутая 💃

— На бенчмарке SWE-Bench Verified (кодерские задачки из GitHub) 73,4% — абсолютный рекорд среди открытых моделей;
— В AIME 2025 (математика) и GPQA-Diamond (физика, химия) — топ-2 среди open source;
— А еще она нереально дешевая: всего 0,1$/0,3$ за миллион токенов — это где-то в 30 раз дешевле, чем Claude 4.5 Sonnet.

Вот что реально интересно — у китайцев там свои нейросетевые войны: разработкой моделей Xiaomi теперь занимается некий Ло Фули — один из ключевых разработчиков... DeepSeek 😁

Здесь — анонс, а модель — на Hugging Face.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Machinelearning
🌟 Z-Image Turbo взяла 1 место на Artificial Analysis Image Arena.

Детище Alibaba, которое было выпущено отдельно от команд Wan и Qwen и стоит 5 долларов за 1000 изображений на Alibaba Cloud добралась до 1 места в рейтинге Artificial Analysis Image Arena.

Это модель с 6 млрд. параметров, которая может работать на потребительском оборудовании с объемом памяти всего 16 ГБ в полной точночти, а квантованные варианты запускаются на 8 ГБ.

Z-Image Turbo дешевле всех конкурентов: FLUX.2 [dev] ($12/1 тыс. изображений), HiDream-I1-Dev ($26/1 тыс. изображений) и Qwen-Image ($20/1 тыс. изображений), доступна под открытой лицензией Apache 2.0, что позволяет использовать ее в коммерческих целях без ограничений.

Кто-нибудь, поднимите веки Stable Diffusion


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Machinelearning
⚡️ HF Learn: 11 бесплатных курсов по ИИ от HuggingFace.

В преддверии новогодних праздников платформа подготовила набор обучающих материалов по основным направлениям ИИ:

🟢LLM Course - познакомит с большими языковыми моделями и обработкой естественного языка с использованием библиотек экосистемы HF: Transformers, Datasets, Tokenizers и Accelerate.

🟢Robotics Course - проведет вас от классической робототехники к современным подходам, основанным на ML.

🟢Model Context Protocol Course - курс, созданный в партнерстве с Anthropic , научит пониманию, использованию и созданию приложений с помощью MCP.

🟢Smol-course - самый всеобъемлющий (и самый короткий) трек по тонкой настройке языковых моделей.

🟢AI Agents Course - научит разбираться и использовать самую топовую тему на сегодняшний день: создание и применение агентов ИИ.

🟢Deep RL Course - курс по самой интересной теме в области ИИ: глубокому обучению с подкреплением.

🟢Computer Vision Course - подробный разбор компьютерного зрения, созданный сообществом HF, состоящий из теории, практических занятий и увлекательных заданий.

🟢Audio Сourse - научит вас использовать Transformers для обработки звука. Вы получите представление о специфике работы с аудиоданными, изучите различные архитектуры Transformers и обучите собственные модели.

🟢ML for Games Course - узнаете как интегрировать модели ИИ в процессы разработки игр и создавать уникальные игровые впечатления.

🟢Diffusion Course - полномасштабный источник знаний и навыков по диффузии. Теория и практика: от изучения библиотеки Diffusers до создания конвейеров обработки данных.

🟢ML for 3D Course - авторский набор обучающих материалов по использованию машинного обучения в 3D от Дилана Эберта (IndividualKex) - разработчика по 3D-графике HuggingFace.

Сохраните на праздники, в этом году они длинные


@ai_machinelearning_big_data

#AI #ML #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
https://youtu.be/lNNdMavmPTw

Как и обещал - более подробное видео про Stereo Depth c камеры.
Если суммаризировать:
1) Лучшее Depth что вы сейчас можете получить с NPU
2) Лучше Depth в таком маленьком корпусе и с таким расходом энергии

При этом:
1) Depth на GPU пока лучше.
2) Depth пока что более "метрический". Они не считают в зонах перекрытия и где матрика плохо сходиться. А это может сильно увеличить зону покрытия.
🔥1