Быстрая Data Quality проверка на базе алгоритма adversarial validation
Привет, Хабр! Всем привет, меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation с использованием spark user defined function. В частности, я расскажу, почему такой подход хорошо масштабируется и может быть успешно применен к различным типам данных, становясь универсальным инструментом для встраивания в ваши продуктовые процессы. Все подробности — под катом.
Читать далее
#psi #adversarial_validation #data_quality #spark #udf | @habr_ai
Привет, Хабр! Всем привет, меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation с использованием spark user defined function. В частности, я расскажу, почему такой подход хорошо масштабируется и может быть успешно применен к различным типам данных, становясь универсальным инструментом для встраивания в ваши продуктовые процессы. Все подробности — под катом.
Читать далее
#psi #adversarial_validation #data_quality #spark #udf | @habr_ai
Хабр
Быстрая Data Quality проверка на базе алгоритма adversarial validation
Привет, Хабр! Меня зовут Максим Шаланкин, я Data Science Team Lead в команде Финтеха Big Data МТС. Из этой статьи вы узнаете, как оценивать качество данных при помощи алгоритма adversarial validation...
Есть ли жизнь до fit/predict?
Всем привет! Меня зовут Даниил Карпов, я старший NLP-разработчик в MTS AI. В эпоху LLM и огромных датасетов, вмещающих в себя весь интернет, кажется, что качество самих данных ушло немного на второй план: чем больше данных/параметров, тем лучше. Однако экстенсивный рост рано или поздно упирается в ограничения, когда становится уже слишком дорого/невозможно его продолжать. Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой. Здесь я расскажу о некоторых из таких методов, которые использовались в процессе подготовки данных. Читать далее
#nlp #dataset_cartography #v_information #deduplication #d4 #semdedup #ssl_prototypes #data_quality #dataset_difficulty #подготовка_данных | @habr_ai
Всем привет! Меня зовут Даниил Карпов, я старший NLP-разработчик в MTS AI. В эпоху LLM и огромных датасетов, вмещающих в себя весь интернет, кажется, что качество самих данных ушло немного на второй план: чем больше данных/параметров, тем лучше. Однако экстенсивный рост рано или поздно упирается в ограничения, когда становится уже слишком дорого/невозможно его продолжать. Роль хороших данных не стоит недооценивать, грамотный отбор может помочь значительно ускорить и удешевить обучение с одной стороны, тогда как отбраковка откровенно плохой разметки поможет улучшить качество с другой. Здесь я расскажу о некоторых из таких методов, которые использовались в процессе подготовки данных. Читать далее
#nlp #dataset_cartography #v_information #deduplication #d4 #semdedup #ssl_prototypes #data_quality #dataset_difficulty #подготовка_данных | @habr_ai
Хабр
Есть ли жизнь до fit/predict?
Всем привет! Меня зовут Даниил Карпов, я старший NLP-разработчик в MTS AI. В эпоху LLM и огромных датасетов, вмещающих в себя весь интернет, кажется, что качество самих данных ушло немного на второй...
Как LLM может валидировать данные
Привет! Меня зовут Мира и я работаю DQE (Data Quality Engineer) в крупной международной компании.
В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и разработать продукт, который генерирует тесты автоматически на любой source.
Всё началось с того, что в компании зародилась новая команда, целью которой было построить качественное хранилище данных. Хранилище, которому можно доверять «без угрызения совести». И, конечно же, без DQ здесь не обойтись.
Читать далее
#data_quality #dq #llm #ml #mashine_learning | @habr_ai
Привет! Меня зовут Мира и я работаю DQE (Data Quality Engineer) в крупной международной компании.
В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и разработать продукт, который генерирует тесты автоматически на любой source.
Всё началось с того, что в компании зародилась новая команда, целью которой было построить качественное хранилище данных. Хранилище, которому можно доверять «без угрызения совести». И, конечно же, без DQ здесь не обойтись.
Читать далее
#data_quality #dq #llm #ml #mashine_learning | @habr_ai
Хабр
Как LLM может валидировать данные
Привет! Меня зовут Мира Терехова и я работаю DQE (Data Quality Engineer) в крупной международной компании. В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и...
Порядок работы с устареванием ML моделей. Шаг 1: Понимание устаревания
Под устареванием моделей понимается их постепенная потеря точности из-за изменения данных, на которых они были обучены. Если проще: модель начинает хуже предсказывать.
Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага.
В этой части мы начнем с первого и самого важного шага – понимание устаревания в ML-моделях.
Мы выясним, что такое устаревание моделей на практике, и определим, в каких случаях эта проблема требует внимания, а в каких нет.
Читать далее
#data_science #data_mining #машинное_обучение #machine_learning #статистика #statistics #data_quality #устаревание_моделей | @habr_ai
Под устареванием моделей понимается их постепенная потеря точности из-за изменения данных, на которых они были обучены. Если проще: модель начинает хуже предсказывать.
Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага.
В этой части мы начнем с первого и самого важного шага – понимание устаревания в ML-моделях.
Мы выясним, что такое устаревание моделей на практике, и определим, в каких случаях эта проблема требует внимания, а в каких нет.
Читать далее
#data_science #data_mining #машинное_обучение #machine_learning #статистика #statistics #data_quality #устаревание_моделей | @habr_ai
Хабр
Порядок работы с устареванием ML моделей. Шаг 1: Понимание устаревания
Введение Под устареванием моделей понимается постепенная потеря их точности из-за изменения данных, на которых они были обучены. Если модель устарела, ее следует переобучить, чтобы восстановить ее...
Как меняется рынок и зачем нужны конференции по Ai
Привет, Хабр! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного обучения — и с каждым годом убеждаюсь, что реальность всегда сложнее любых представлений о ней. Поэтому и конференции, на которых можно обсудить практические кейсы, современные подходы и новые вызовы особенно ценны для индустрии. Читать далее
#конференция #ai #ии #ии_ассистенты #ai_агенты #качество_данных #data_quality #data_quality_management #геоданные #llm_модели | @habr_ai
Привет, Хабр! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного обучения — и с каждым годом убеждаюсь, что реальность всегда сложнее любых представлений о ней. Поэтому и конференции, на которых можно обсудить практические кейсы, современные подходы и новые вызовы особенно ценны для индустрии. Читать далее
#конференция #ai #ии #ии_ассистенты #ai_агенты #качество_данных #data_quality #data_quality_management #геоданные #llm_модели | @habr_ai
Хабр
Как меняется рынок и зачем нужны конференции по Ai
Привет, Хабр! Меня зовут Роман Поборчий, я член программного комитета AiConf Х, которая пройдет 26 сентября 2025 в Москве. Много лет занимался сбором и организацией разметки данных для машинного...