Хабр / ML & AI
483 subscribers
5.48K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Сегментация данных — это не больно. Применяем ML-модели в аналитике

Как именно пол, возраст или семейное положение пользователей влияют на наши продуктовые метрики? 

Ответить на подобные вопросы помогает решение задач в духе «сегментация чего-либо по имеющимся данным».

Классические подходы аналитиков (анализ зависимостей отдельных переменных, группировка по всем потенциальным переменным) в таких случаях могут быть сложны и требовать больших трудозатрат. 

Альтернативный вариант — использовать собственный инструмент сегментирования, созданный на базе ML-модели под конкретный набор задач. 

Под катом рассказываем о том, как у нас в Сравни устроен подобный сервис, принципах его работы и деталях технической реализации.

Читать далее

#python3 #analytics #ml_модель #решающие_деревья #аналитика #streamlit #polars #сегментация #дашборды | @habr_ai
Экосистема для разработки и применения Computer Vision (CV) в промышленности

В этой статье мы хотим поделиться опытом разработки экосистемы (если есть слово поудачнее, то обязательно поделитесь в комментариях) сервисов для упрощения процесса разработки моделей и решений по CV. Идея написать статью укрепилась после того как мы пообщались со специалистами из разных промышленных компаний и поняли, что опыт у всех довольно разный, а средний уровень зрелости еще не такой высокий.

В данной статье сделаем акцент не на получающиеся ML-модели, их интеграцию и бизнес кейсы, а на обычно скрытый от глаз процесс разработки решений с ML (и CV в частности) в промышленности. Читать далее

#computer_vision #промышленность #mlops #streamlit #разметка_данных #machine_learning | @habr_ai
Замена Langchain, как OpenAI Agents SDK справляется с глубоким поиском?

Агенты супер багованы. В своих проектах в компании мы заметили, что Langchain стал работать хуже. В мультиагентных системах агенты зачастую циклятся, так как не понимают, когда они выполнили финальное действие, не вызывают друг друга когда надо, или же просто возвращают данные в битом формате JSON. Короче говоря, создать агентную систему стало не так то просто, и мы даже стали задумываться об упрощении систем, избавляясь от кучи агентов. И вот неделю назад OpenAI обновили SDK для создания агентов, а еще выкатили доступ к новым тулзам по API. Ну и я пошел тестить. Читать далее

#llm #rag #agents #openai_api #sdk #websearch #file_search #python #streamlit #openai_бот | @habr_ai
Собираем MVP product search: дообучение E5 и веб-сервис для сравнения поисковых выдач

Что важнее: создать продукт, или доставить его до пользователя? Оба этапа необходимы. Сегодня обсудим второй. Как нам построить поисковую e-com систему.

Покажем, что в слово логистика товара входят сложные задачи не только: перевезти наушники из Китая в Америку, но и настройка поисковой выдачи по запросу.

Быстро соберем поисковой MVP-сервис. Дообучим модель E5 на реальных данных от Amazon. Определим метрики качества и сравним BM25, pretrain E5 и fine-tune E5. Так же взглянем глазами с отладочной информацией и проанализируем изменения поисковых выдач.

И под конец обсудим каких технологий еще не хватает и можно добавить, если возникают соответствующие трудности. Погрузиться в семантический поиск →

#machine_learning #information_retrieval #semantic_search #huggingface #pytorch #nlp #e5 #streamlit #mvp #дообучение_моделей | @habr_ai
Собираем MVP product search: дообучение E5 и веб-сервис для сравнения поисковых выдач

Что важнее: создать продукт, или доставить его до пользователя? Оба этапа необходимы. Сегодня обсудим второй. Как нам построить поисковую e-com систему.

Покажем, что в слово логистика товара входят сложные задачи не только: перевезти наушники из Китая в Америку, но и настройка поисковой выдачи по запросу.

Быстро соберем поисковой MVP-сервис. Дообучим модель E5 на реальных данных от Amazon. Определим метрики качества и сравним BM25, pretrain E5 и fine-tune E5. Так же взглянем глазами с отладочной информацией и проанализируем изменения поисковых выдач.

И под конец обсудим каких технологий еще не хватает и можно добавить, если возникают соответствующие трудности. Погрузиться в семантический поиск →

#machine_learning #information_retrieval #semantic_search #huggingface #pytorch #nlp #e5 #streamlit #mvp #дообучение_моделей | @habr_ai