Хабр / ML & AI
475 subscribers
5.44K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Kandinsky 3.1: искусство, созданное словами

2023 год можно смело называть годом бурного развития генеративного искусственного интеллекта. Это касается не только привычной нам модальности изображений (Kandinsky 2.1, 2.2, 3.0, Stable Diffusion XL, IF, Шедеврум и др.), но и текстовой (ChatGPT, GPT-4, LLaMA, Falcon, GigaChat и др.), аудио (VALL-E, MusicLM и др.), 3D (Magic3D и др.), и даже модальности видео (Kandinsky Video, Gen-2, CogVideo и др.). В 2024 всё движется ещё более впечатляющими темпами: картинки (SD3), видео (Sora), музыка (Suno) и т. д. При этом все основные игроки стараются равномерно двигаться вперёд и повышать качество синтеза. Текстовые чат‑боты научились взаимодействовать с внешними системами посредством плагинов, синтез изображений вышел на уровень фотореалистичных генераций, длина генерируемых видео постепенно увеличивается с сохранением сюжетной связности между кадрами. И такой прогресс обусловлен уже не только наращиванием вычислительных мощностей, но и большим числом неординарных архитектурных решений, которые позволяют добиваться лучшего качества, а также сложными технологиями инженерии данных, позволяющими создавать огромные и в то же время очень качественные наборы данных для обучения моделей.

В ноябре прошлого года, на конференции AI Journey, наша команда также представила новое поколение text-to-image-модели Kandinsky 3.0. В целом упростив архитектуру и взяв более мощный текстовый кодировщик по сравнению с семейством моделей Kandinsky 2.x, нам удалось добиться значительного роста в качестве изображений с точки зрения реалистичности и детализации, улучшить понимание текста и побить качество модели SDXL на side-by-side-сравнении с точки зрения человеческих предпочтений, что является наиболее показательной метрикой качества в задаче генерации. Подробнее о модели Kandinsky 3.0 можно прочитать в этой статье статье. Также, на базе этой модели в том же ноябре мы выпустили первую российскую модель генерации видео по тексту Kandinsky Video, о которой можно больше узнать здесь.

Читать далее

#kandinsky_3_1 #multimodality #sberai #sberdevices #airi #generative_models #kandinsky #computervision #text_to_image | @habr_ai
Мечтает ли GPT-4o о сегментации картинок...?

Всем привет, Меня зовут Богдан, Я фаундер Vibe AI – это AI Dating Copilot для парней и девушек, который помогает в переписке на сайтах знакомств и в мессенджерах (в сервисе зарегистрировано уже 13,000+ пользователей).

Сегодня Я расскажу, как мы заставили GPT-4o работать с детекцией объектов на изображении (выделять координаты объекта на изображении) на примере задачи распознавания сообщений по скриншоту, которая лежит в основе нашего приложения.

Обсудим, какие ограничения у Vision-модулей в языковых моделях, как происходит обработка картинок, где теряется информация и как преодолеть эти лимиты.

Читать далее

#ocr #computervision #llm #ai #gpt_4o #dating #messenger #openai | @habr_ai
AI фэшн-стилист-колорист или как научить модель различать 16,7 млн оттенков без их текстового представления

Небольшое интро, в котором многие себя узнают

Как часто, листая продуктовый каталог в интернет-магазине одежды, вы не находили товар нужного вам оттенка?

Наткнувшись на юбку мечты, вы перебираете в уме все имеющиеся в арсенале аксессуары и понимаете, что ничего подходящего нет. Нужно срочно искать нечто как минимум идеальное для этого образа! Но как перебирать товары вручную? Как отфильтровать их по ограниченному набору предлагаемых цветов? 

А теперь представьте, что вас пригласили на свадьбу с заранее определенной палитрой желательных цветов для костюма. Согласитесь, вероятность успеха в поисках не так велика в условиях, если нужно подобрать, например, светло-пурпурный.

И вопрос работы с оттенками является важным не только при подборе гардероба.

Сфера интерьерного дизайна неразрывно связана с цветовыми решениями при согласовании элементов декора, выборе краски, обоев и отделочных материалов;

Цифровой дизайн работает с логотипами, баннерами, интерфейсами, в которых также важна колористика;

Индустрия красоты: подбор оттенков косметики, которые будут гармонировать с кожей и одеждой клиента;

Искусство: анализ цветовой палитры произведений искусства, реставрация картин, создание новых произведений с учетом цветовых гармоний;

Реклама: создание ярких и запоминающихся  материалов с учетом психологии восприятия цвета;

Автомобили и мотоциклы: поиск краски для маскировки царапин или полной перекраски, чтобы цвет точно соответствовал оригиналу; выбор аксессуаров  — диски, накладки, коврики и чехлы, которые соответствуют цвету транспортного средства.

Читать далее

#neoflex #datascience #computervision #deeplearning #keras #tensorflow #tripletloss #neuralnetworks #sklearn #python | @habr_ai
Фотоаппарат без объектива: как Stable Diffusion снимает реальность

Наконец-то можно покупать камеру без объектива, не выставлять адекватное ISO, выдержку и просто наблюдать за результатами.  

Сегодня рынок AI-продуктов переполнен самыми разнообразными копиями генеративных нейронок, а умельцы телеграм-рынка пилят тысячи, если не десятки тысяч ботов, с подключенными GPT. Но, из самых “ленивых” разработок, этот выделился своей идеей…  Если загуглить название самого устройства – можно найти список из двух страниц поисковых выдач с новостью о новом фотоаппарате, который “генерирует реальность”. 

Камера Paragraphica – устройство 2023 года от Нидерландского умельца, которое через алгоритмы искусственного интеллекта и данных о местоположении генерит “фотографии”... 

Но в чем подвох?

Читать далее

#stable_diffusion #rassberypi #python #машинное_обучение #computervision #генеративное_ии #нейросети #стартап #фото_и_нейронки | @habr_ai
Компьютерное зрение и магия перспективы: от пикселей к реальным размерам

В этой статье я поделюсь опытом решения интересной практической задачки: определения линейных размеров объектов в кадре. Решение такой задачи оказалось полезным для множества приложений в компьютерном зрении и может быть использовано в картографировании, планировании, навигации, распознавании объектов, 3D-реконструкции и редактировании изображений.

Определения линейных размеров

#computervision #depth_estimation #deeplearning | @habr_ai
Сегментация изображений с дефектами для промышленности на основе Unet и TensorFlow

В процессе работы над проектом я решил продолжить решение задачи, которую мы начали на хакатоне от компании «Норникель». Несмотря на то, что в команде не удалось отправить решение из-за технических проблем с фреймворком, я вернулся к задаче и решил её самостоятельно. Это было для меня полезным опытом, так как редко удается поработать с реальными данными с производственного процесса, и я хотел приобрести дополнительные навыки в решении подобных задач.

Читать далее

#computervision #ml #ds #tensorflow #hackathon | @habr_ai
Virtual Ads или как прорекламировать Adidas в CS:GO

Всем привет, меня зовут Евгений Мунин. Я Senior ML Engineer в Ad Tech в платформе ставок для рекламы и автор ТГ канала ML Advertising. В данной статье мы поговорим об одном из способов повышения узнаваемости брендов в спорте, а точнее виртуальной рекламе. Разберем размещение рекламных баннеров на видео и напишем пример на Python и OpenCV, где разместим логотип Adidas с использованием алгоритма детектирования ключевых точек SIFT и гомографии для искажения баннера под перспективу.

Читать далее

#computer_vision #keypoint_detectors #opencv #компьютерное_зрение #рекламные_технологии #ai #computervision | @habr_ai
CLIP или SigLIP. База по Computer vision собеседованиям. Middle/Senior

Вопросы о CLIP-моделях встречаются почти на каждом техническом собеседовании.

Неважно, занимаетесь ли вы видеоаналитикой, создаёте генеративные модели или работаете над поиском по изображениям — CLIP и его потомки (BLIP , SigLIP ) стали стандартом де-факто в задачах связи визуальных и текстовых данных. Почему? Потому что они позволяют решать задачи, которые ранее требовали значительных усилий Читать далее

#clip #siglip #компьютерное_зрение #computervision #ml #машинное_обучение #собеседование_вопросы #собеседование_в_it #comfyui | @habr_ai
[Перевод] Reasoning CV-модели OpenAI не смогли посчитать монеты

Новые мультимодальные модели OpenAI o3 и o4-mini позиционируются как "разумные". Однако качественное тестирование на практических задачах вроде подсчета объектов и распознавания текста выявило неожиданные пробелы в их производительности, в некоторых случаях уступающие даже не-reasoning моделям.

Узнайте, какие именно тесты провалили новинки и где показали уверенный результат. Читать далее

#ai #computervision #multimodal_llm #openai #llm #testing #evaluation #vqa #ocr | @habr_ai
Один кадр против спуфинга: как мы определяем фейковые лица без видео и биометрии

Иногда пользователи пытаются пройти биометрическую верификацию не совсем честно. Иногда — совсем нечестно. Кто-то показывает фото на экране другого телефона, кто-то — печатает лицо на бумаге и машет им в камеру. 

Всё это — спуфинг, и он давно вышел из лабораторий и научных статей в суровую продакшен-практику. А задача при этом, казалось бы, простая: по одному кадру понять, есть ли перед камерой живой человек. Ни видео, ни поведенческой биометрии, ни инфракрасных сенсоров. Просто JPEG. Просто ад.

Все о спуфинге и методах борьбы с ним знает наш разработчик Александр. Он работает над проектом антиспуфинг-системы, способной по изображению с фронталки отличать живого человека от картинки.

В этой статье мы расскажем, как он научил систему это делать. Без волшебства: только кастомный датасет, ансамбль CNN и несколько костылей — куда без них. Читать далее

#ии #икусственный_интеллект #спуфинг #спуфинг_атаки #анти_спуфинг #компьютерное_зрение #cv #computervision #computer_vision | @habr_ai
Часть 2: Vision Transformer (ViT) — Когда трансформеры научились видеть

Представьте, что лингвист внезапно стал экспертом по живописи. Именно это произошло в 2020 году, когда архитектура для обработки текста — трансформеры — научилась "видеть" изображения. Vision Transformer (ViT) доказал: для понимания картинок не обязательны свёртки! Разберем "на пальцах" как она устроена и как изображения превращаются в предсказания. Читать далее

#visual_transformer #vit #transformer #computervision #разбор_статьи | @habr_ai
Как понять что свинюшка готова к любви? Определяем через ML

Привет! Я Ярослав Шмулев, датасаентист, выпускник МФТИ и технический директор студии R77. Мы внедряем AI в корпорации, а сегодня я расскажу, как мы анализировали поведение свинок с помощью ML, чтобы выявить идеальный момент для их оплодотворения. Читать далее

#ml #computervision #ai | @habr_ai
Как приручить AI-пиксель-арт

За последние пару лет генеративные нейросети стали волшебной кисточкой для всего: концепт-артов, иконок, иллюстраций, обложек, аватаров, спрайтов… Особенно - пиксель-арта. В Midjourney, Stable Diffusion, Dall-E, Image-1 и в других моделях можно просто вбить:

“Pixel art goose with goggles in the style of SNES” — и получить шикарного пиксельного гуся за 10 секунд.

Но если ты пробовал вставить такого гуся в игру — ты уже знаешь боль.

Я решил вкопаться в эту тему поглубже и сделать open‑source‑инструмент, который автоматизирует превращение AI‑generated pixel art в pixel‑perfect pixel art. Читать далее

#pixel_art #opencv #tools #ai_art #computervision #gamedev | @habr_ai
Случайный ИИ успех: Как мы встроили нейросеть в приложение для автосервисов и сорвали куш с подписками

Привет, чемпионы! Сегодня хочу разобрать на реальном примере, как иногда самые неочевидные идеи те, что в момент презентации заставляют тимлидов молча поправлять очки, а менеджеров ёрзать на стуле могут не просто выстрелить, а полностью перевернуть продукт. Это история не про гениальный прорыв, а скорее про настойчивость, готовность к экспериментам и немного удачи. Всё началось с того, что мы упёрлись в классический потолок роста в, казалось бы, совершенно непримечательной нише мобильном приложении для поиска и записи в автосервисы.

У нас был стандартный, почти шаблонный продукт: каталог услуг со средними по рынку ценами, модуль онлайн записи, карта с геолокацией мастерских, даже отзывы и рейтинги. Всё как у людей. Но проблема была в том, что мы были как все. А в условиях, когда на каждом углу есть аналоги, конкуренция идёт не за функционал, а за доверие и внимание пользователя. Люди заходили, смотрели прайс, звонили в пару мест и уходили. Удержание было низким, монетизация ещё ниже. Нужен был крючок. Не просто ещё одна кнопка в интерфейсе, а что то, что давало бы мгновенную, осязаемую пользу и решало реальную боль.

И вот на одной из планерок, где мы в очередной раз ломали голову над тем, как увеличить конверсию, я бросила: «А что, если сделать так, чтобы пользователь мог просто сфоткать свою проблему потёкшее масло, скрипящие тормоза, вмятину на бампере а мы ему примерно назовём поломку и прикинем, во сколько это выльется?». В комнате повисла тишина. Послышалось что то вроде «нейросеть?», «а обучающая выборка?», «а точность?», «юридические риски». Но решили взяться, так как я была уверена в бомбовом результате. И понеслась. Читать далее

#ai #rag #rag_pipeline #nlp #автосервис #компьютерное_зрение #computervision #подписки #искуственный_интеллект #монетизация | @habr_ai