Хабр / ML & AI

Быстрая Data Quality проверка на базе алгоритма adversarial validation

Привет, Хабр! Всем привет, меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation с использованием spark user defined function. В частности, я расскажу, почему такой подход хорошо масштабируется и может быть успешно применен к различным типам данных, становясь универсальным инструментом для встраивания в ваши продуктовые процессы. Все подробности — под катом.

Читать далее

#psi #adversarial_validation #data_quality #spark #udf | @habr_ai

Хабр

Быстрая Data Quality проверка на базе алгоритма adversarial validation

Привет, Хабр! Меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation...

43 views15:45

Хабр / ML & AI

Есть ли жизнь до fit/predict?

Всем привет! Меня зовут Даниил Карпов, я старший NLP-разработчик в MTS AI. В эпоху LLM и огромных датасетов, вмещающих в себя весь интернет, кажется, что качество самих данных ушло немного на второй план: чем больше данных/параметров, тем лучше. Однако экстенсивный рост рано или поздно упирается в ограничения, когда становится уже слишком дорого/невозможно его продолжать. Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой. Здесь я расскажу о некоторых из таких методов, которые использовались в процессе подготовки данных. Читать далее

#nlp #dataset_cartography #v_information #deduplication #d4 #semdedup #ssl_prototypes #data_quality #dataset_difficulty #подготовка_данных | @habr_ai

Хабр

Есть ли жизнь до fit/predict?

Всем привет! Меня зовут Даниил Карпов, я старший NLP-разработчик в MTS AI. В эпоху LLM и огромных датасетов, вмещающих в себя весь интернет, кажется, что качество самих данных ушло немного на второй...

24 views12:44

Хабр / ML & AI

Как LLM может валидировать данные

Привет! Меня зовут Мира и я работаю DQE (Data Quality Engineer) в крупной международной компании.

В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и разработать продукт, который генерирует тесты автоматически на любой source.

Всё началось с того, что в компании зародилась новая команда, целью которой было построить качественное хранилище данных. Хранилище, которому можно доверять «без угрызения совести». И, конечно же, без DQ здесь не обойтись.

Читать далее

#data_quality #dq #llm #ml #mashine_learning | @habr_ai

Хабр

Как LLM может валидировать данные

Привет! Меня зовут Мира Терехова и я работаю DQE (Data Quality Engineer) в крупной международной компании. В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и...

30 views08:12

Хабр / ML & AI

Порядок работы с устареванием ML моделей. Шаг 1: Понимание устаревания

Под устареванием моделей понимается их постепенная потеря точности из-за изменения данных, на которых они были обучены. Если проще: модель начинает хуже предсказывать.

Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага.

В этой части мы начнем с первого и самого важного шага – понимание устаревания в ML-моделях.

Мы выясним, что такое устаревание моделей на практике, и определим, в каких случаях эта проблема требует внимания, а в каких нет.

Читать далее

#data_science #data_mining #машинное_обучение #machine_learning #статистика #statistics #data_quality #устаревание_моделей | @habr_ai

Хабр

Порядок работы с устареванием ML моделей. Шаг 1: Понимание устаревания

Введение Под устареванием моделей понимается постепенная потеря их точности из-за изменения данных, на которых они были обучены. Если модель устарела, ее следует переобучить, чтобы восстановить ее...

31 views10:11

Хабр / ML & AI

Как меняется рынок и зачем нужны конференции по Ai

Привет, Хабр! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного обучения — и с каждым годом убеждаюсь, что реальность всегда сложнее любых представлений о ней. Поэтому и конференции, на которых можно обсудить практические кейсы, современные подходы и новые вызовы особенно ценны для индустрии. Читать далее

#конференция #ai #ии #ии_ассистенты #ai_агенты #качество_данных #data_quality #data_quality_management #геоданные #llm_модели | @habr_ai

Хабр

Как меняется рынок и зачем нужны конференции по Ai

Привет, Хабр! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного...

60 views09:59

About

Blog

Apps

Platform