Хабр / ML & AI
478 subscribers
5.47K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Фотоаппарат без объектива: как Stable Diffusion снимает реальность

Наконец-то можно покупать камеру без объектива, не выставлять адекватное ISO, выдержку и просто наблюдать за результатами.  

Сегодня рынок AI-продуктов переполнен самыми разнообразными копиями генеративных нейронок, а умельцы телеграм-рынка пилят тысячи, если не десятки тысяч ботов, с подключенными GPT. Но, из самых “ленивых” разработок, этот выделился своей идеей…  Если загуглить название самого устройства – можно найти список из двух страниц поисковых выдач с новостью о новом фотоаппарате, который “генерирует реальность”. 

Камера Paragraphica – устройство 2023 года от Нидерландского умельца, которое через алгоритмы искусственного интеллекта и данных о местоположении генерит “фотографии”... 

Но в чем подвох?

Читать далее

#stable_diffusion #rassberypi #python #машинное_обучение #computervision #генеративное_ии #нейросети #стартап #фото_и_нейронки | @habr_ai
Компьютерное зрение и магия перспективы: от пикселей к реальным размерам

В этой статье я поделюсь опытом решения интересной практической задачки: определения линейных размеров объектов в кадре. Решение такой задачи оказалось полезным для множества приложений в компьютерном зрении и может быть использовано в картографировании, планировании, навигации, распознавании объектов, 3D-реконструкции и редактировании изображений.

Определения линейных размеров

#computervision #depth_estimation #deeplearning | @habr_ai
Сегментация изображений с дефектами для промышленности на основе Unet и TensorFlow

В процессе работы над проектом я решил продолжить решение задачи, которую мы начали на хакатоне от компании «Норникель». Несмотря на то, что в команде не удалось отправить решение из-за технических проблем с фреймворком, я вернулся к задаче и решил её самостоятельно. Это было для меня полезным опытом, так как редко удается поработать с реальными данными с производственного процесса, и я хотел приобрести дополнительные навыки в решении подобных задач.

Читать далее

#computervision #ml #ds #tensorflow #hackathon | @habr_ai
Virtual Ads или как прорекламировать Adidas в CS:GO

Всем привет, меня зовут Евгений Мунин. Я Senior ML Engineer в Ad Tech в платформе ставок для рекламы и автор ТГ канала ML Advertising. В данной статье мы поговорим об одном из способов повышения узнаваемости брендов в спорте, а точнее виртуальной рекламе. Разберем размещение рекламных баннеров на видео и напишем пример на Python и OpenCV, где разместим логотип Adidas с использованием алгоритма детектирования ключевых точек SIFT и гомографии для искажения баннера под перспективу.

Читать далее

#computer_vision #keypoint_detectors #opencv #компьютерное_зрение #рекламные_технологии #ai #computervision | @habr_ai
CLIP или SigLIP. База по Computer vision собеседованиям. Middle/Senior

Вопросы о CLIP-моделях встречаются почти на каждом техническом собеседовании.

Неважно, занимаетесь ли вы видеоаналитикой, создаёте генеративные модели или работаете над поиском по изображениям — CLIP и его потомки (BLIP , SigLIP ) стали стандартом де-факто в задачах связи визуальных и текстовых данных. Почему? Потому что они позволяют решать задачи, которые ранее требовали значительных усилий Читать далее

#clip #siglip #компьютерное_зрение #computervision #ml #машинное_обучение #собеседование_вопросы #собеседование_в_it #comfyui | @habr_ai
[Перевод] Reasoning CV-модели OpenAI не смогли посчитать монеты

Новые мультимодальные модели OpenAI o3 и o4-mini позиционируются как "разумные". Однако качественное тестирование на практических задачах вроде подсчета объектов и распознавания текста выявило неожиданные пробелы в их производительности, в некоторых случаях уступающие даже не-reasoning моделям.

Узнайте, какие именно тесты провалили новинки и где показали уверенный результат. Читать далее

#ai #computervision #multimodal_llm #openai #llm #testing #evaluation #vqa #ocr | @habr_ai
Один кадр против спуфинга: как мы определяем фейковые лица без видео и биометрии

Иногда пользователи пытаются пройти биометрическую верификацию не совсем честно. Иногда — совсем нечестно. Кто-то показывает фото на экране другого телефона, кто-то — печатает лицо на бумаге и машет им в камеру. 

Всё это — спуфинг, и он давно вышел из лабораторий и научных статей в суровую продакшен-практику. А задача при этом, казалось бы, простая: по одному кадру понять, есть ли перед камерой живой человек. Ни видео, ни поведенческой биометрии, ни инфракрасных сенсоров. Просто JPEG. Просто ад.

Все о спуфинге и методах борьбы с ним знает наш разработчик Александр. Он работает над проектом антиспуфинг-системы, способной по изображению с фронталки отличать живого человека от картинки.

В этой статье мы расскажем, как он научил систему это делать. Без волшебства: только кастомный датасет, ансамбль CNN и несколько костылей — куда без них. Читать далее

#ии #икусственный_интеллект #спуфинг #спуфинг_атаки #анти_спуфинг #компьютерное_зрение #cv #computervision #computer_vision | @habr_ai
Часть 2: Vision Transformer (ViT) — Когда трансформеры научились видеть

Представьте, что лингвист внезапно стал экспертом по живописи. Именно это произошло в 2020 году, когда архитектура для обработки текста — трансформеры — научилась "видеть" изображения. Vision Transformer (ViT) доказал: для понимания картинок не обязательны свёртки! Разберем "на пальцах" как она устроена и как изображения превращаются в предсказания. Читать далее

#visual_transformer #vit #transformer #computervision #разбор_статьи | @habr_ai
Как понять что свинюшка готова к любви? Определяем через ML

Привет! Я Ярослав Шмулев, датасаентист, выпускник МФТИ и технический директор студии R77. Мы внедряем AI в корпорации, а сегодня я расскажу, как мы анализировали поведение свинок с помощью ML, чтобы выявить идеальный момент для их оплодотворения. Читать далее

#ml #computervision #ai | @habr_ai
Как приручить AI-пиксель-арт

За последние пару лет генеративные нейросети стали волшебной кисточкой для всего: концепт-артов, иконок, иллюстраций, обложек, аватаров, спрайтов… Особенно - пиксель-арта. В Midjourney, Stable Diffusion, Dall-E, Image-1 и в других моделях можно просто вбить:

“Pixel art goose with goggles in the style of SNES” — и получить шикарного пиксельного гуся за 10 секунд.

Но если ты пробовал вставить такого гуся в игру — ты уже знаешь боль.

Я решил вкопаться в эту тему поглубже и сделать open‑source‑инструмент, который автоматизирует превращение AI‑generated pixel art в pixel‑perfect pixel art. Читать далее

#pixel_art #opencv #tools #ai_art #computervision #gamedev | @habr_ai
Случайный ИИ успех: Как мы встроили нейросеть в приложение для автосервисов и сорвали куш с подписками

Привет, чемпионы! Сегодня хочу разобрать на реальном примере, как иногда самые неочевидные идеи те, что в момент презентации заставляют тимлидов молча поправлять очки, а менеджеров ёрзать на стуле могут не просто выстрелить, а полностью перевернуть продукт. Это история не про гениальный прорыв, а скорее про настойчивость, готовность к экспериментам и немного удачи. Всё началось с того, что мы упёрлись в классический потолок роста в, казалось бы, совершенно непримечательной нише мобильном приложении для поиска и записи в автосервисы.

У нас был стандартный, почти шаблонный продукт: каталог услуг со средними по рынку ценами, модуль онлайн записи, карта с геолокацией мастерских, даже отзывы и рейтинги. Всё как у людей. Но проблема была в том, что мы были как все. А в условиях, когда на каждом углу есть аналоги, конкуренция идёт не за функционал, а за доверие и внимание пользователя. Люди заходили, смотрели прайс, звонили в пару мест и уходили. Удержание было низким, монетизация ещё ниже. Нужен был крючок. Не просто ещё одна кнопка в интерфейсе, а что то, что давало бы мгновенную, осязаемую пользу и решало реальную боль.

И вот на одной из планерок, где мы в очередной раз ломали голову над тем, как увеличить конверсию, я бросила: «А что, если сделать так, чтобы пользователь мог просто сфоткать свою проблему потёкшее масло, скрипящие тормоза, вмятину на бампере а мы ему примерно назовём поломку и прикинем, во сколько это выльется?». В комнате повисла тишина. Послышалось что то вроде «нейросеть?», «а обучающая выборка?», «а точность?», «юридические риски». Но решили взяться, так как я была уверена в бомбовом результате. И понеслась. Читать далее

#ai #rag #rag_pipeline #nlp #автосервис #компьютерное_зрение #computervision #подписки #искуственный_интеллект #монетизация | @habr_ai