Хабр / ML & AI
483 subscribers
5.47K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Нужен ли продакт в ML-команде? Мнение изнутри
Пять лет назад из обычного продакт-менеджмента я перешла в команду с дата-сайентистами. И весь процесс моей работы сильно изменился. Раньше после определения потребностей пользователя я приходила к команде разработки с готовой задачей и дизайн-макетами. А после разработки забирала готовый продукт, чтобы отдать его в A/B-тест.В ML все работает иначе. Команда включается уже на этапе исследования, погружается в бизнес-цели и техническую постановку задачи. Именно исследования занимают львиную долю времени дата-сайентистов, и только после начинается разработка. Ну, или не начинается. Или разработка начинается, но совсем не той идеи, которая была вначале.Я — Саша Пургина, руковожу развитием продуктов на основе данных в Lamoda Tech. В этой статье я расскажу на примере Lamoda, почему разработка ML-продуктов — это сложность и риск. И приведу примеры ошибок, когда хороший продакт в команде может увеличить шансы на успех, имея определенные знания и навыки.Серебряной пули не ждите, но пара интересных мыслей должна найтись! Читать далее

#продакт_менеджмент #продакт #разработка #карьера_в_it #командообразование #product_management #product_owner #ml #datascience #it_компании | @habr_ai
Как рассчитать CLTV с помощью машинного обучения и как нам в этом помогает Feature Store

Условия задачи: дано число клиентов банка N, число банковских продуктов М, горизонт времени прогноза Т. Нужно посчитать ( Pij ).

Привет, меня зовут Игорь Дойников, в Альфе я CDS — Chief Data Scientist в Розничном Бизнесе. Моя команда строит модели машинного обучения для розничного бизнеса Альфа-Банка. В статье я расскажу как, собственно, эту задачу решать и зачем. Сначала пройдёмся по CLTV, как бизнес постановки задачи мы перешли к задаче машинного обучения, какие при этом возникали проблемы и как мы их решали. А главное — что такое Feature Store и как этот инструмент помогает нам решать задачи СLTV.

Читать далее

#cltv #машинное_обучение #feature_store #mlops #automl #datascience #machinelearning | @habr_ai
AI фэшн-стилист-колорист или как научить модель различать 16,7 млн оттенков без их текстового представления

Небольшое интро, в котором многие себя узнают

Как часто, листая продуктовый каталог в интернет-магазине одежды, вы не находили товар нужного вам оттенка?

Наткнувшись на юбку мечты, вы перебираете в уме все имеющиеся в арсенале аксессуары и понимаете, что ничего подходящего нет. Нужно срочно искать нечто как минимум идеальное для этого образа! Но как перебирать товары вручную? Как отфильтровать их по ограниченному набору предлагаемых цветов? 

А теперь представьте, что вас пригласили на свадьбу с заранее определенной палитрой желательных цветов для костюма. Согласитесь, вероятность успеха в поисках не так велика в условиях, если нужно подобрать, например, светло-пурпурный.

И вопрос работы с оттенками является важным не только при подборе гардероба.

Сфера интерьерного дизайна неразрывно связана с цветовыми решениями при согласовании элементов декора, выборе краски, обоев и отделочных материалов;

Цифровой дизайн работает с логотипами, баннерами, интерфейсами, в которых также важна колористика;

Индустрия красоты: подбор оттенков косметики, которые будут гармонировать с кожей и одеждой клиента;

Искусство: анализ цветовой палитры произведений искусства, реставрация картин, создание новых произведений с учетом цветовых гармоний;

Реклама: создание ярких и запоминающихся  материалов с учетом психологии восприятия цвета;

Автомобили и мотоциклы: поиск краски для маскировки царапин или полной перекраски, чтобы цвет точно соответствовал оригиналу; выбор аксессуаров  — диски, накладки, коврики и чехлы, которые соответствуют цвету транспортного средства.

Читать далее

#neoflex #datascience #computervision #deeplearning #keras #tensorflow #tripletloss #neuralnetworks #sklearn #python | @habr_ai
Aqueduct: Как мы экономим железо для МЛ-вычислений

Привет! Меня зовут Олег Бугримов, я руковожу разработкой в команде Data Science SWAT в Авито. Мы занимаемся инженерией для машинного обучения. Одно из направлений - это оптимизация продового инференса. Наша задача чтобы модельки работали быстро и не потребляли безумное количество ресурсов. Так вот, мы дооптимизировались до того, что реализовали инструмент который позволяет сэкономить 30% железа. Вы видите реальный график нагрузки GPU-процессора

Читать далее

#ml #datascience #gpu #python #inference | @habr_ai
Графовые сети в рекомендательных системах

Всем привет! Меня зовут Александр Тришин, я работаю DS в команде персональных рекомендаций Wildberries и занимаюсь графовыми нейросетями.

Это был мой первый опыт работы с графовыми сетями, и мне пришлось погрузиться в изучение статей и проведение собственных экспериментов. В процессе я нашел много интересного и полезного, поэтому решил поделиться своими находками с вами. В результате графовая нейросеть используется в качестве кандидатной модели для увеличения exploration.

В этой публикации я расскажу вам о LightGCN и не только. Вспомним, что такое сверточные графовые сети, их основные компоненты и принципы работы: подробно разберем модель на user-item графе, после перейдём к item-item графу. Затем познакомимся с моделью LightGCN: рассмотрим архитектуру, процесс обучения, недостатки (медленная сходимость и смещение в популярное) и варианты их устранения. А в конце посмотрим, как это всё применять на практике: обучим сетку на датасете Movielens-25m, замерим метрики, столкнёмся с проблемами LightGCN и вместе их решим! Ноутбук прилагается 🤓

Читать далее

#recsys #datascience #data_science #lightgcn #графовые_нейросети #рекомендательные_системы #рекомендации #neuralnetworks #neural_network #wildberries | @habr_ai
👍1
Создание голосового ассистента на Python с классификацией пользователей на основе нейронных сетей (аналог FaceID)

Всем привет!

Возвращаюсь к теме применения нейронных сетей в личных целях. На этот раз будем запускать долгий проект, по созданию голосового ассистента (ГА). Создать свою Алису или Siri довольно просто, есть уже много статей на Хабр (и не только), которые подробно описывают основные принципы, но чтобы было действительно профессионально и интересно мы углубимся в эту тему и «прикрутим» нейронные сети к нашему ГА. И в первой части начнем с того, что научим нашего голосового ассистента распознавать человека, который в данный момент пользуется компьютером.

Такой проект отлично будет смотреть в любом портфолио, тут будет присутствовать, как и общее программирование на Python, так и взаимодействие с нейронными сетями. Я считаю, что любой начинающий или практикующий питонист (аналитик, специалист по машинному обучению) разобрав, поняв, доработав (нужное подчеркнуть) данный проект, отлично прокачает свои навыки.

Первую часть нашего большого проекта поделим на несколько этапов:

Читать далее

#computer_vision #neural_networks #python #datascience #искусственный_интеллект | @habr_ai
Переводчик с языка, на котором нельзя говорить и писать

Привет, Хабр! Это Александр Капитанов и Александр Нагаев из Sber Devices. Мы занимаемся задачами компьютерного зрения: генерацией, матированием и редактированием изображений, сегментацией, портретной гармонизацией, заменой лиц, распознаванием жестов. А с недавних пор ещё и распознаваниtv русского жестового языка.

Поговорим о том, что заставило нас решать данную проблему. Затронем теорию жестового языка — подозреваю, что мало кто с ней знаком. Расскажем, как мы собирали собственный датасет для распознавания русского жестового языка и затронем тему обучения моделей для решения данной задачи. Также поделимся с вами результатом и немного расскажем про семейство наших моделей signflow. 

Читать далее

#жестовый_язык #нейронные_сети #машинное_обучение #datascience #искуственный_интеллект #дактиль #датасет #sign_flow #прямой_перевод #waveform | @habr_ai
Развертывание Marco o1 на локальном PC. Языковая модель рассуждений

Недавно я запускал и тестировал Marco o1. Это одна из первых опенсорсных языковых моделей с многоступенчатой логикой, эта модель использует Chain-of-Thoughts и некоторые другие алгоритмы, которые помогают с решением задач на математику, логику и кодинг. Marco-o1 названа по аналогии с OpenAI o1, благодаря которой Chain-of-Thoughts промптинг и файнтюнинг получил особую популярность в GenAI индустрии.

В последнее время разные компании, в основном из Китая, стремятся повторить возможности o1. Самые впечатляющие результаты - у DeepSeek-R1-Lite-Preview, но веса этой модели не были опубликованы на момент проведения моих тестов. Однако разработчики DeepSeek R1 Lite обещали открыть доступ в свое время, и это будет очень интересно для нас.

А пока я решил поиграть с весами Marco-o1, модели хотя и легковесной, но реализующей те продвинутые алгоритмы, которые стоят за удивительными возможностями оригинальной o1. Как видно из карточки модели на HuggingFace, она создана путем файнтюнинга Qwen 2 7B на Chain-of-Thoughts датасете. Это комбинация датасетов Open-O1 и двух дополнительных наборов данных, которые разработчики из Alibaba Cloud сгенерировали, используя разные стратегии промптинга - Chain of Thoughts и обычные инструкции. Опубликована, к сожалению, только часть данных, но по ним ясно видно, какой формат использовали для файнтюнинга Chain-of-Thoughts:

Читать далее

#языковые_модели #marco #datascience #ai #machinelearning #deeplearning #neuralnetworks #nlp #bigdata #artificial_intelligence | @habr_ai
👍1
Не окей, гугл: как сделать поисковик для работы с служебными презентациями

Привет, Хабр! Это снова команда «МосТрансПроекта». Мы постоянно работаем с информацией и знаниями, которые храним в служебных презентациях. Чтобы ими было удобней пользоваться и извлекать данные, мы решили создать удобный сервис хранения документов с поиском. Задача оказалась непростой, и в этой статье мы расскажем, как её решили. Текст будет интересен всем, кто занимается структурированием данных, поисковыми машинами и ИИ.

Читать далее

#искусственный_интеллект #ai #презентации #транспорт #хранение_данных #хранение_информации #llm #datascience #bigdata #векторный_поиск | @habr_ai