Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Компания выпустила расширение, которое напрямую связывает редактор кода со средами выполнения Google Colab. Иными словами, теперь можно работать с локальными .ipynb файлами, но выполнять код на Google Colab. Поддерживается подключение как к бесплатным средам выполнения, так и к премиум-тарифам Colab Pro.
Для начала работы достаточно установить расширение Google Colab из VS Code Marketplace. При выборе ядра для ноутбука появится опция «Colab», после чего нужно будет авторизоваться в аккаунте Google. Расширение также опубликовано в реестре Open VSX для совместимых редакторов.
developers.googleblog.com
Depth Anything 3 может предсказывает пространственно-согласованную геометрию по одному или нескольким изображениям, даже без известных параметров камеры. Ключевая особенность релиза - в радикальном упрощении архитектуры.
Под капотом единый трансформер и унифицированное представление depth-ray. Одна и та же модель теперь решает целый спектр задач: от монокулярной оценки глубины и определения поз камеры до прямой генерации 3D гауссианов для синтеза новых ракурсов.
В тестах DA3 превзошла предыдущие версии. Команда выпустила веса моделей, инструментарий CLI и WebUI на Gradio.
depth-anything-3.github.io
Компания закрыла раунд финансирования на 20 млрд. иен, в результате чего её оценка достигла около $2.635 млрд. Это сделало её самым дорогим непубличным стартапом в истории Японии. Среди инвесторов - Mitsubishi UFJ Financial Group и американские венчурные фонды.
Привлечённые средства будут направлены на разработку собственной LLM, адаптированной под особенности японского языка и культуры. Компания уже сотрудничает с MUFG и Daiwa Securities для создания специализированного ИИ для финансового сектора, а в будущем планирует расширяться в оборонную и обрабатывающую промышленность.
asia.nikkei.com
Основатель Amazon впервые после ухода с поста CEO занял операционную должность, став соруководителем ИИ-стартапа Project Prometheus. Компания привлекла $6.2 млрд, часть из которых — личные средства Безоса, что делает её одним из самых финансируемых стартапов на ранней стадии. Вторым CEO стал Вик Баджадж, физик и химик, ранее работавший в Google X над проектом Waymo.
Prometheus сфокусируется на создании ИИ-инструментов для ускорения инженерных и производственных процессов в автомобилестроении, аэрокосмической сфере и вычислительной техники. Стартап нацелен на сегмент ИИ-систем для робототехники, научные исследования и разработку материалов.
Несмотря на скрытный режим работы, команда проекта уже насчитывает около 100 специалистов, выходцев из OpenAI и DeepMind и компании Марка Цукербурга.
nytimes.com
Актёр Калум Уорти запустил ИИ-платформу 2wai, которая создаёт интерактивные цифровые копии ушедших из жизни людей. Для генерации приложению достаточно нескольких минут видеозаписи с человеком и после их оцифровки, пользователь может взаимодействовать с аватаром своего родственника, симулируя общение на разных этапах жизни.
В сети проект вызвал волну негатива и обвинение создателей в эксплуатации горя. Основные претензии сводятся к тому, что технология мешает здоровому процессу скорби и использует образы людей без их согласия.
Бета-версия приложения уже доступна в App Store. В будущем разработчики планируют ввести платную подписку и выпустить версию для Android.
Calum Worthy в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from GigaChat
Мы стремимся не замыкаться в «закрытой» технологии, а строить открытую платформу для всей страны, поэтому мы публикуем веса наших моделей
Что появилось в открытом доступе ↓
Самая мощная модель Сбера. Лучше DeepSeek V3.1 и GigaChat Max 2 в русскоязычных задачах. Подходит для бизнеса, аналитики, разработки и дообучения на своих данных
Пять моделей, которые превращают голос в текст с пунктуацией, понимают акценты, спонтанную речь и даже музыкальные запросы. Подойдут для голосовых ассистентов, контакт-центров, аналитики звонков
Лёгкая, компактная и быстрая. Конкурирует с Qwen3-4B, по скорости сравнима с Qwen3-1.7B, но намного умнее и больше по параметрам
Создание фото и видео по тексту. Внутри:
• Image Lite — делает изображения в HD, отлично понимает русский язык и культурный контекст
• Video Pro — создаёт до 10 секунд реалистичного HD-видео. Конкурирует с топовыми мировыми моделями
• Video Lite — облегчённая версия для домашней видеокарты (от 12 ГБ)
Ускорение генеративного AI. Это технологии, которые «упаковывают» картинки и видео в скрытое пространство, чтобы модели работали быстрее и требовали меньше ресурсов. Лучшие среди открытых аналогов
Код и веса этих моделей теперь доступны всем пользователям по лицензии MIT, в том числе для использования в коммерческих целях
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
Forwarded from Институт AIRI
В финальный научный день AIJ Институт AIRI представил GigaEvo — платформу для автоматизации научных экспериментов по ИИ 🔖
В отличие от существующих решений, GigaEvo использует эволюционный поиск стратегий обучения, что позволяет системе самостоятельно находить и улучшать лучшие подходы без постоянного участия специалистов.
Платформа автоматизирует подбор архитектур, оптимизацию гиперпараметров и тестирование моделей, сокращая время исследований и повышая качество результатов. GigaEvo интегрируется с AutoML и MLOps, поддерживает облачные и корпоративные среды, а также обеспечивает полный контроль над экспериментами в реальном времени.
Тесты показали, что GigaEvo успешно воспроизводит сложные математические задачи и масштабирует исследовательские процессы, которые раньше требовали дорогой инфраструктуры. В перспективе платформа поможет ускорить научные и прикладные разработки в разных сферах — от Data Science до промышленности и финансов.
Интерфейс | GitHub | ТАСС
В отличие от существующих решений, GigaEvo использует эволюционный поиск стратегий обучения, что позволяет системе самостоятельно находить и улучшать лучшие подходы без постоянного участия специалистов.
Платформа автоматизирует подбор архитектур, оптимизацию гиперпараметров и тестирование моделей, сокращая время исследований и повышая качество результатов. GigaEvo интегрируется с AutoML и MLOps, поддерживает облачные и корпоративные среды, а также обеспечивает полный контроль над экспериментами в реальном времени.
Тесты показали, что GigaEvo успешно воспроизводит сложные математические задачи и масштабирует исследовательские процессы, которые раньше требовали дорогой инфраструктуры. В перспективе платформа поможет ускорить научные и прикладные разработки в разных сферах — от Data Science до промышленности и финансов.
Интерфейс | GitHub | ТАСС
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from КПД
11 декабря в Москве пройдет встреча ML Global Recap'25, посвященная основным международным AI конференциям и главным трендам
в рекомендательных технологиях, компьютерном зрении, технологиях распознавания речи и NLP.
Список выступающих и доклады:
🔸 Алексей Гусаков, CTO Поисковых сервисов и ИИ. Откроет ивент кратким обзором NeurlPS
🔸 Борис Шелудько, руководитель команды качества звука. Расскажет про последние тренды по звуку и рассмотрит статьи с Interspeech
🔸 Николай Савушкин, руководитель команды рекомендательных технологий. Выступит с докладом про CIKM и RecSys и тренды в рекомендательных решениях
🔸 Роман Исаченко, руководитель команды анализа и изображений. Расскажет про тренды в компьютерном зрении и детально рассмотрит ICLR
🔸 Александр Юшкевич, руководитель команды развития моделей базового качества. Расскажет про тренды в NLP и поделится новостями с ICLR и ACL
📅 Когда: 11 декабря в 18:00
🏙️ Где: в Москве и онлайн
Приглашаются все желающие.
в рекомендательных технологиях, компьютерном зрении, технологиях распознавания речи и NLP.
Список выступающих и доклады:
🔸 Алексей Гусаков, CTO Поисковых сервисов и ИИ. Откроет ивент кратким обзором NeurlPS
🔸 Борис Шелудько, руководитель команды качества звука. Расскажет про последние тренды по звуку и рассмотрит статьи с Interspeech
🔸 Николай Савушкин, руководитель команды рекомендательных технологий. Выступит с докладом про CIKM и RecSys и тренды в рекомендательных решениях
🔸 Роман Исаченко, руководитель команды анализа и изображений. Расскажет про тренды в компьютерном зрении и детально рассмотрит ICLR
🔸 Александр Юшкевич, руководитель команды развития моделей базового качества. Расскажет про тренды в NLP и поделится новостями с ICLR и ACL
📅 Когда: 11 декабря в 18:00
🏙️ Где: в Москве и онлайн
Приглашаются все желающие.
Forwarded from DeepSchool
Vision-Language-Action (VLA) Models: от токенов к действиям
Современные мультимодальные модели умеют работать с визуальными данными и текстом. Следующий шаг их развития — взаимодействие с физическим миром. Для управления роботами создаются Vision-Language-Action (VLA) модели, которые переводят визуальные данные и текстовые инструкции прямо в моторные команды робота. О том, как устроены такие модели, рассказываем в новой статье. 🤖
Из неё вы узнаете:
• как устроены VLA-модели — от визуального энкодера до генератора действий
• какие архитектуры используются для предсказания движений — от дискретных токенов до диффузий и Flow Matching'а
• какие существуют подходы к дообучению систем — от полного fine-tuning'а до PEFT-методов, таких как LoRA
• с какими проблемами сталкиваются VLA в реальном мире: задержки, накопление ошибок и безопасность
Читайте новую статью по ссылке! 🚀
🪔 DeepSchool
Современные мультимодальные модели умеют работать с визуальными данными и текстом. Следующий шаг их развития — взаимодействие с физическим миром. Для управления роботами создаются Vision-Language-Action (VLA) модели, которые переводят визуальные данные и текстовые инструкции прямо в моторные команды робота. О том, как устроены такие модели, рассказываем в новой статье. 🤖
Из неё вы узнаете:
• как устроены VLA-модели — от визуального энкодера до генератора действий
• какие архитектуры используются для предсказания движений — от дискретных токенов до диффузий и Flow Matching'а
• какие существуют подходы к дообучению систем — от полного fine-tuning'а до PEFT-методов, таких как LoRA
• с какими проблемами сталкиваются VLA в реальном мире: задержки, накопление ошибок и безопасность
Читайте новую статью по ссылке! 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
DeepSchool
Vision-Language-Action (VLA) Models: от токенов к действиям - DeepSchool
Рассказываем, как устроены VLA-модели — от визуального энкодера до генератора действий.
Forwarded from Machinelearning
⚡️ Главное с Practical ML Conf 2025, если вы пропустили
27 сентября в Москве прошла Practical ML Conf 2025 - одна из самых сильных прикладных ML-конференций года.
Ничего лишнего, только практика, хардкор и опыт больших продовых команд.
Что сделало конференцию особенной
• Реальные кейсы от Яндекса, Sber AI, Т-Банка, VK и других
• Глубокие инженерные разборы ML-систем, которые работают на миллионы пользователей
• Обсуждения между практиками, а не общие презентации
• Место, где можно задать сложные вопросы тем, кто строит модели и инфраструктуру каждый день
Андрей Окуньков, лауреат Филдсовской медали, прочитал кейноут о математике и языке, и это стало одним из самых обсуждаемых событий конференции.
Онлайн-зал «Сеть»
Впервые доклады можно было смотреть в прямом эфире из любой точки мира.
Это заметно расширило аудиторию и дало возможность участвовать тем, кто не смог приехать офлайн.
Экспозона
Здесь можно было потрогать технологии руками:
• ML-сервисы Яндекса
• «Интеллект» Алисы
• SourceCraft Code Assistant
• кастомный раннер от Плюса и Фантеха
• робо-собаки и гуманоидные роботы на Leshy OS
Записи уже доступны в VK Видео и YouTube
Рекомендуем начать с:
• «Память и online-RL: опыт YandexGPT 5.1» - Алексей Колесов
• «Создание памяти для LLM на примере GigaChat» - Павел Гуляев
• «Генеративные рекомендательные технологии: что работает в Яндексе» - Николай Савушкин
Practical ML Conf снова показала, насколько быстро меняется индустрия ML.
И если хотите чувствовать тренды в реальном времени — эти доклады точно стоит посмотреть.
Реклама ООО «ЯНДЕКС» ИНН 7736207543 erid:2SDnjcR3eAT
27 сентября в Москве прошла Practical ML Conf 2025 - одна из самых сильных прикладных ML-конференций года.
Ничего лишнего, только практика, хардкор и опыт больших продовых команд.
Что сделало конференцию особенной
• Реальные кейсы от Яндекса, Sber AI, Т-Банка, VK и других
• Глубокие инженерные разборы ML-систем, которые работают на миллионы пользователей
• Обсуждения между практиками, а не общие презентации
• Место, где можно задать сложные вопросы тем, кто строит модели и инфраструктуру каждый день
Андрей Окуньков, лауреат Филдсовской медали, прочитал кейноут о математике и языке, и это стало одним из самых обсуждаемых событий конференции.
Онлайн-зал «Сеть»
Впервые доклады можно было смотреть в прямом эфире из любой точки мира.
Это заметно расширило аудиторию и дало возможность участвовать тем, кто не смог приехать офлайн.
Экспозона
Здесь можно было потрогать технологии руками:
• ML-сервисы Яндекса
• «Интеллект» Алисы
• SourceCraft Code Assistant
• кастомный раннер от Плюса и Фантеха
• робо-собаки и гуманоидные роботы на Leshy OS
Записи уже доступны в VK Видео и YouTube
Рекомендуем начать с:
• «Память и online-RL: опыт YandexGPT 5.1» - Алексей Колесов
• «Создание памяти для LLM на примере GigaChat» - Павел Гуляев
• «Генеративные рекомендательные технологии: что работает в Яндексе» - Николай Савушкин
Practical ML Conf снова показала, насколько быстро меняется индустрия ML.
И если хотите чувствовать тренды в реальном времени — эти доклады точно стоит посмотреть.
Реклама ООО «ЯНДЕКС» ИНН 7736207543 erid:2SDnjcR3eAT
Forwarded from 🦒∵ girafe.ai
Всем доброго дня! А завтра пройдет финальное открытое выступление от команды из Мегафона:
27 ноября в 18.30 коллеги расскажут про соревновательный анализ данных в проде😄: feature engineering, тюнинг гиперпараметров, стэкинг, и почему это все еще актуально.
Zoom-ссылка будет доступна завтра перед самим занятием.
Участие свободное, регистрация не требуется.
Ну и приложу ссылку на предыдущее сообщение:
Вопросы также приветствуются ;)
27 ноября в 18.30 коллеги расскажут про соревновательный анализ данных в проде😄: feature engineering, тюнинг гиперпараметров, стэкинг, и почему это все еще актуально.
Zoom-ссылка будет доступна завтра перед самим занятием.
Участие свободное, регистрация не требуется.
Ну и приложу ссылку на предыдущее сообщение:
Вопросы также приветствуются ;)
Telegram
🦒∵ girafe.ai
Всем привет! Мы продолжаем практику открытых выступлений, и в этот раз у нас в гостях будут коллеги из Мегафона с серией аж из трех выступлений.
Они планируют разобрать, как знакомые вам методы машинного обучения стакливаются с суровой реальностью. В частности:…
Они планируют разобрать, как знакомые вам методы машинного обучения стакливаются с суровой реальностью. В частности:…
Forwarded from AI VK Hub
Мы открыли доступ к датасету VK-LSVD — это ~40 млрд взаимодействий между 10 млн пользователей и 20 млн видео, плюс контентные эмбеддинги и часть анонимизированных пользовательских фичей.
По меркам открытых рекомендательных датасетов — это очень большой и редкий набор данных. Но есть ещё один важный плюс: все взаимодействия сохранены в хронологическом порядке. Это сильно упрощает разбиение на train / val / test и улучшает воспроизводимость экспериментов — настоящий подарок для исследователей RecSys.
Кому полезно:
На Хабре мы подробно рассказали:
#RecSysChallenge #RecSys #LSVD
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from AI VK Hub
На ридинг-группе 4 декабря обсудим очередную попытку разрушить классическую парадигму рекомендательных систем – фреймворк RecGPT от компании Taobao.
Китайский комбайн умеет предсказывать интент и интересы пользователя, генерировать и ранжировать айтемы-кандидаты и даже объяснять рекомендации.
Ведущим будет Александр Подвойский, ML-инженер AI VK.
🔹 4 декабря в 18:00
Zoom: ссылка
ID: 707 776 9330
Код: 464167
Параллельно запустим стрим прямо в канале AI VK Hub.
#ридинггруппа #aivk
Китайский комбайн умеет предсказывать интент и интересы пользователя, генерировать и ранжировать айтемы-кандидаты и даже объяснять рекомендации.
Ведущим будет Александр Подвойский, ML-инженер AI VK.
Zoom: ссылка
ID: 707 776 9330
Код: 464167
Параллельно запустим стрим прямо в канале AI VK Hub.
#ридинггруппа #aivk
Please open Telegram to view this post
VIEW IN TELEGRAM
Подборка каналов об ИТ, радиоэлектронике и смежных областях
SciencePub — научный ликбез без скучных лекций. Рассказываю о нейросетях, виаре, цифровых двойниках и других технологиях человеческим языком.
FPGA-Systems Events — канал для тех, кто знает што такое vhdl и veriog. Новостной канал FPGA / RTL / Verification / ASIC комунити FPGA-Systems.
Дорога в ИТ — это ваш гид в мир технологий от Татьяны, HR-эксперта с 8-летним опытом, специализирующейся на карьере в IT. Здесь вы получите практические советы, актуальные тренды, вдохновляющие истории и поддержку на пути к профессии в IT — потому что за кодом стоят живые люди со своими мечтами и интересами.
Радиотехнические системы & проектирование — посвящён изучению и проектированию радиотехнических систем. В канале обсуждается применение нейросетей для создании устройств обработки и формирования сигналов.
Computer Vision News — в канале публикуются новости о передовых технологиях в компьютерном зрении, а также информация о соревнованиях по ML. Автор канала — Дунаева Александра, старший преподаватель кафедры высокопроизводительных технологий УрФУ и методист ЦРИТО МФТИ.
LoFiCoder — вместе превращаем науку в код. От снежинки до сознания — всё, можно закодировать и запустить. Вычислительная природа реальности, пост за постом. + полезные инструменты для вашей учёбы или работы.
SciencePub — научный ликбез без скучных лекций. Рассказываю о нейросетях, виаре, цифровых двойниках и других технологиях человеческим языком.
FPGA-Systems Events — канал для тех, кто знает што такое vhdl и veriog. Новостной канал FPGA / RTL / Verification / ASIC комунити FPGA-Systems.
Дорога в ИТ — это ваш гид в мир технологий от Татьяны, HR-эксперта с 8-летним опытом, специализирующейся на карьере в IT. Здесь вы получите практические советы, актуальные тренды, вдохновляющие истории и поддержку на пути к профессии в IT — потому что за кодом стоят живые люди со своими мечтами и интересами.
Радиотехнические системы & проектирование — посвящён изучению и проектированию радиотехнических систем. В канале обсуждается применение нейросетей для создании устройств обработки и формирования сигналов.
Computer Vision News — в канале публикуются новости о передовых технологиях в компьютерном зрении, а также информация о соревнованиях по ML. Автор канала — Дунаева Александра, старший преподаватель кафедры высокопроизводительных технологий УрФУ и методист ЦРИТО МФТИ.
LoFiCoder — вместе превращаем науку в код. От снежинки до сознания — всё, можно закодировать и запустить. Вычислительная природа реальности, пост за постом. + полезные инструменты для вашей учёбы или работы.
Telegram
Ai.design
Про дизайн, разработку и просто красоту мира и путешествий.
Anatoly Ivanov — https://anatoly.design (Product design, UI/UX)
@anatoly2d
Anatoly Ivanov — https://anatoly.design (Product design, UI/UX)
@anatoly2d
🔥2
Forwarded from Machinelearning
Лонгрид материала от Main Street Autonomy, о том, как лидары видят мир, почему они прожигают камеры смартфонов и где маркетологи нас обманывают.
В отличие от обычной камеры, которая фиксирует интенсивность света, лидар - это активный сенсор. Он отправляет свет и ловит его отражение. Его цель - измерить расстояние и направление.
В результате получается облако точек, где каждая точка - это точное положение объекта в пространстве. Камеры дают разрешение и цвет, а лидары - точную геометрию.
Самый популярный - Direct time of flight. Лидар посылает лазерный импульс и засекает время, за которое он вернется. Зная скорость света, можно посчитать расстояние. Но чтобы это работало, нужны невероятно быстрые детекторы.
APD - это лавинные фотодиоды. Они надежны, работают в линейном режиме, но требуют сложной аналоговой электроники.
А вот SPAD - однофотонные лавинные диоды, это настоящий бриллиант. Они настолько чувствительны, что реагируют на единственный фотон, работая в режиме счетчика Гейгера.
Главный плюс SPAD в том, что они совместимы с CMOS-процессом. Это значит, что их можно делать на тех же кремниевых пластинах, что и процессоры, создавая огромные массивы - их называют SPAD macropixels. Это путь компаний Ouster и Sony.
Но есть и другой путь - FMCW, или частотно-модулированный лидар. Здесь лазер светит постоянно, меняя частоту, а расстояние вычисляется по сдвигу фазы вернувшегося сигнала.
С FMCW можно измерять не только дальность, но и мгновенную скорость объекта через эффект Доплера. Звучит круто, но требует дорогих лазеров.
Исторически, первым решением было просто вращать весь лидар. Старые модели на крышах машин - те самые «ведра», которые крутятся на 360 градусов. Это надежно, дает полный обзор, но механически сложно и дорого.
Современный тренд - уход от вращения всей «головы» к более хитрым методам.
MEMS mirror. Это крошечные зеркала на чипе, которые вибрируют и отклоняют луч.
Risley prisms. Две вращающиеся призмы, преломляющие луч так, что он рисует сложный узор, похожий на цветок.
Есть совсем футуристичный Baraja SpectrumScan. Они вообще отказались от движущихся зеркал в одной из плоскостей. Они меняют длину волны лазера, пропуская свет через призму. Разные цвета преломляются под разным углом и луч сканирует пространство просто за счет изменения цвета. Гениально, но требует очень качественного источника света.
Большинство лидаров работают на длине волны 905 nm. Но есть проблема: человеческий глаз фокусирует этот свет на сетчатке. Если поднять мощность, можно буквально выжечь человеку глаз. Поэтому мощность таких лидаров жестко ограничена.
1550 nm. Этот свет поглощается жидкостью в глазу и не доходит до сетчатки. И мощность можно поднимать в тысячи раз, что дает огромную дальность обнаружения.
Но для детекторов на этой частоте нужен дорогой сплав InGaAs, а в качестве источника часто используют волоконные лазеры.
И тут есть нюанс: мощный лазер 1550 nm безопасен для сетчатки, но может повредить роговицу нагревом. Более того, такие мощные лидары сжигают матрицы обычных камер и смартфонов, если те окажутся на "линии огня".
Многие лидары врут. Одна из частых проблем - рассинхрон углов лучей. Даже в знаменитом датасете KITTI находили ошибки калибровки, из-за чего плоские стены становились кривыми.
Еще одна беда - «блюминг». Если лазер попадает в дорожный знак или катафот, отраженный сигнал настолько силен, что засвечивает соседние пиксели. Лидар видит призрачные объекты там, где их нет.
Есть такой термин - "Solid State LiDAR". Производители любят называть так свои устройства, чтобы подчеркнуть надежность.
Но часто это не так. Они выглядят как цельные коробки, но внутри у них есть движущиеся части: зеркала или призмы.
Настоящий Solid State - это когда вообще ничего не движется, даже внутри. Это то, к чему стремится индустрия. Но пока механика все еще с нами.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Forwarded from Droider
Простой вопрос. Но оказывается ответа на него не было. До сих пор.
Команда профессора Сяосян Чжу из Мюнхенского технического университета собрала первый в истории 3D-каталог всех зданий планеты. Называется GlobalBuildingAtlas. Внутри — 2,75 миллиарда построек. Каждая из них с высотой и объёмом. Для сравнения: предыдущий рекорд был 1,7 миллиарда, и то в 2D.
Откуда данные? Спутниковые снимки 2019 года. Разрешение — 3 на 3 метра. Это в 30 раз детальнее, чем у похожих баз. 97% зданий (2,68 миллиарда) представлены как LoD1-модели, упрощённые 3D-формы с базовой геометрией и высотой.
Самое ценное: в каталог попали регионы, которые обычно игнорируют. Африка, Южная Америка, сельская местность. Раньше глобальные карты их просто пропускали.
Чжу с командой ввели новый индикатор — объём зданий на душу населения. Не площадь застройки, а именно объём. Он показывает реальные жилищные условия и социальное неравенство точнее любых 2D-карт.
Данные открытые и находятся на GitHub. Любой желающий может их использовать для своих проектов.
@droidergram
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1👏1
Forwarded from Заметки Computer Vision инженера
Так. Давно хотел сделать это видео.
В последние пол года я перестал понимать зачем люди выбирают Jetson. Ведь уже конкуренты почти все подмяли.
1) По чистой скорости - есть масса ускорителей, в том числе те которые были на канале.
2) По удобству - Intel с их аналогами NUC уже превосходит TensorRT. А AMD и Qualcomm дышат в затылок.
И всё это дешевле Jetson.
Jetson Thor? Я так его и не понял. Какие юзкейсы для него:
1) Где нельзя поставить полноценную GPU?
2) Где нельзя застримить видео на соседний сервак?
3) Где можно выжигать 120W потребления
4) Где цена под 4к бачей нормальна.
В теории роботы, но кажется что 1/2 - более дешевые и простые конкуренты, 90% кейсов закрывают. 3/4 блокируют остальные 50% применений.
Чуть более подробно - в видео https://youtu.be/AFMoMB74Ogo
В последние пол года я перестал понимать зачем люди выбирают Jetson. Ведь уже конкуренты почти все подмяли.
1) По чистой скорости - есть масса ускорителей, в том числе те которые были на канале.
2) По удобству - Intel с их аналогами NUC уже превосходит TensorRT. А AMD и Qualcomm дышат в затылок.
И всё это дешевле Jetson.
Jetson Thor? Я так его и не понял. Какие юзкейсы для него:
1) Где нельзя поставить полноценную GPU?
2) Где нельзя застримить видео на соседний сервак?
3) Где можно выжигать 120W потребления
4) Где цена под 4к бачей нормальна.
В теории роботы, но кажется что 1/2 - более дешевые и простые конкуренты, 90% кейсов закрывают. 3/4 блокируют остальные 50% применений.
Чуть более подробно - в видео https://youtu.be/AFMoMB74Ogo
YouTube
Is Nvidia Jetson dying?
00:00:00 - Intro
00:03:51 - Reasons for Jetson in 2026?
00:04:06 - Accelerators alternatives: Axelera, Sima, Saphon, etc.
00:04:30 - The Second advantage of Jetson alternatives
00:04:51 - Intel, Qualcomm, AMD
00:06:33 - Jetson Thor (?)
00:09:10 - Nvidia containers?…
00:03:51 - Reasons for Jetson in 2026?
00:04:06 - Accelerators alternatives: Axelera, Sima, Saphon, etc.
00:04:30 - The Second advantage of Jetson alternatives
00:04:51 - Intel, Qualcomm, AMD
00:06:33 - Jetson Thor (?)
00:09:10 - Nvidia containers?…
🔥1
ИИ-команда Марка Цукерберга расширила линейку Segment Anything: новая модель SAM Audio способна извлекать звуковые дорожки из сложных аудио-визуальных миксов с помощью мультимодальной системы промптов.
Выделить голос, музыкальный инструмент или фоновый шум можно 3 способами: текстовым описанием, выделением временного отрезка или визуально - просто кликнув на объект в кадре видео.
Код для инференса и веса модели в 3-х вариантах (
small, base и large) уже опубликованы на GitHub и Hugging Face под лицензией SAM, а протестировать возможности можно в официальном Playground.github.com
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - facebookresearch/sam-audio: The repository provides code for running inference with the Meta Segment Anything Audio Model…
The repository provides code for running inference with the Meta Segment Anything Audio Model (SAM-Audio), links for downloading the trained model checkpoints, and example notebooks that show how t...
🔥1
Qwen релизнула Qwen-Image-Layered - диффузионную модель, которая разбивает изображения на отдельные семантические слои с прозрачностью.
Инструмент переводит работу с генеративной графикой из плоского растра в формат, где каждый элемент (фон, передний план, текст) можно перемещать, масштабировать или удалять независимо друг от друга.
Модель обучалась на реальных PSD-файлах и уже доступна на Hugging Face и ModelScope.
qwen.ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Нейродвиж
«Топ за свои деньги» теперь и в LLM — Xiaomi выпустили модель MiMo-V2-Flash, и она неожиданно крутая 💃
— На бенчмарке SWE-Bench Verified (кодерские задачки из GitHub) 73,4% — абсолютный рекорд среди открытых моделей;
— В AIME 2025 (математика) и GPQA-Diamond (физика, химия) — топ-2 среди open source;
— А еще она нереально дешевая: всего 0,1$/0,3$ за миллион токенов — это где-то в 30 раз дешевле, чем Claude 4.5 Sonnet.
Вот что реально интересно — у китайцев там свои нейросетевые войны: разработкой моделей Xiaomi теперь занимается некий Ло Фули — один из ключевых разработчиков... DeepSeek😁
Здесь — анонс, а модель — на Hugging Face.
— На бенчмарке SWE-Bench Verified (кодерские задачки из GitHub) 73,4% — абсолютный рекорд среди открытых моделей;
— В AIME 2025 (математика) и GPQA-Diamond (физика, химия) — топ-2 среди open source;
— А еще она нереально дешевая: всего 0,1$/0,3$ за миллион токенов — это где-то в 30 раз дешевле, чем Claude 4.5 Sonnet.
Вот что реально интересно — у китайцев там свои нейросетевые войны: разработкой моделей Xiaomi теперь занимается некий Ло Фули — один из ключевых разработчиков... DeepSeek
Здесь — анонс, а модель — на Hugging Face.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Machinelearning
Детище Alibaba, которое было выпущено отдельно от команд Wan и Qwen и стоит 5 долларов за 1000 изображений на Alibaba Cloud добралась до 1 места в рейтинге Artificial Analysis Image Arena.
Это модель с 6 млрд. параметров, которая может работать на потребительском оборудовании с объемом памяти всего 16 ГБ в полной точночти, а квантованные варианты запускаются на 8 ГБ.
Z-Image Turbo дешевле всех конкурентов: FLUX.2 [dev] ($12/1 тыс. изображений), HiDream-I1-Dev ($26/1 тыс. изображений) и Qwen-Image ($20/1 тыс. изображений), доступна под открытой лицензией Apache 2.0, что позволяет использовать ее в коммерческих целях без ограничений.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Machinelearning
В преддверии новогодних праздников платформа подготовила набор обучающих материалов по основным направлениям ИИ:
@ai_machinelearning_big_data
#AI #ML #HuggingFace
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Заметки Computer Vision инженера
https://youtu.be/lNNdMavmPTw
Как и обещал - более подробное видео про Stereo Depth c камеры.
Если суммаризировать:
1) Лучшее Depth что вы сейчас можете получить с NPU
2) Лучше Depth в таком маленьком корпусе и с таким расходом энергии
При этом:
1) Depth на GPU пока лучше.
2) Depth пока что более "метрический". Они не считают в зонах перекрытия и где матрика плохо сходиться. А это может сильно увеличить зону покрытия.
Как и обещал - более подробное видео про Stereo Depth c камеры.
Если суммаризировать:
1) Лучшее Depth что вы сейчас можете получить с NPU
2) Лучше Depth в таком маленьком корпусе и с таким расходом энергии
При этом:
1) Depth на GPU пока лучше.
2) Depth пока что более "метрический". Они не считают в зонах перекрытия и где матрика плохо сходиться. А это может сильно увеличить зону покрытия.
YouTube
Neural Stereo Depth estimation with OAK 4D (LENS network)
Here is the article from Luxonis, which is interesting IMHO - https://discuss.luxonis.com/blog/6553-neural-stereo-depth-estimation-with-lens
00:00:00 - Intro
00:01:15 - Usual problems with NPU stereo Depth estimation
00:03:00 - Qualcomm NPU. Why is this…
00:00:00 - Intro
00:01:15 - Usual problems with NPU stereo Depth estimation
00:03:00 - Qualcomm NPU. Why is this…
🔥1