Суммаризация обратной связи клиентов
Альфа собирает в проактивном режиме до полумиллиона отзывов клиентов о своей работе. Обратная связь клиентов - ценный инструмент для поиска точек роста по оптимизации бизнес-процессов, условий по продуктам и улучшению сервиса. В ручном режиме обработка такого объема требует больших затрат времени или содержание огромного штата сотрудников.
Мы разработали подход для суммаризации обратной связи, который ускорил в три раза процесс ее обработки. За первые три месяца проекта мы построили десятки суммаризаций для различных групп отзывов и установили доверие аналитиков к инструменту. Затем избавились от рутины: обернули подход в вэб-приложение и обучили аналитиков им пользоваться. В итоге, дата сайентист и аналитик теперь занимаются более интеллектуальной работой.
Сегодня в 18:00 Эдуард Янаков расскажет подробнее о методике сбора ОС, разработанном подходе суммаризации и вэб-сервисе.
Другие доклады Data Science MeetUp:
📈Прогнозирование спроса — работа и проблемы в продакшене
Максим Павлов, Руководитель направления мультивариативного анализа в Х5
📲Склонностные модели транзакционной активности
Алексей Запольский, Старший специалист по созданию новых признаков в Альфа-Банке
💰Определение дохода зарплатного клиента до получения первой зарплаты для целей раннего cross-sale
Евгения Дзюба, Младший специалист по интеллектуальному анализу данных в Альфа-Банке
Зарегистрироваться на Data Science MeetUP, онлайн формат.
#митапы #nlp
Альфа собирает в проактивном режиме до полумиллиона отзывов клиентов о своей работе. Обратная связь клиентов - ценный инструмент для поиска точек роста по оптимизации бизнес-процессов, условий по продуктам и улучшению сервиса. В ручном режиме обработка такого объема требует больших затрат времени или содержание огромного штата сотрудников.
Мы разработали подход для суммаризации обратной связи, который ускорил в три раза процесс ее обработки. За первые три месяца проекта мы построили десятки суммаризаций для различных групп отзывов и установили доверие аналитиков к инструменту. Затем избавились от рутины: обернули подход в вэб-приложение и обучили аналитиков им пользоваться. В итоге, дата сайентист и аналитик теперь занимаются более интеллектуальной работой.
Сегодня в 18:00 Эдуард Янаков расскажет подробнее о методике сбора ОС, разработанном подходе суммаризации и вэб-сервисе.
Другие доклады Data Science MeetUp:
📈Прогнозирование спроса — работа и проблемы в продакшене
Максим Павлов, Руководитель направления мультивариативного анализа в Х5
📲Склонностные модели транзакционной активности
Алексей Запольский, Старший специалист по созданию новых признаков в Альфа-Банке
💰Определение дохода зарплатного клиента до получения первой зарплаты для целей раннего cross-sale
Евгения Дзюба, Младший специалист по интеллектуальному анализу данных в Альфа-Банке
Зарегистрироваться на Data Science MeetUP, онлайн формат.
#митапы #nlp
Памятка дата сайентисту при обучении на размеченных данных
Вождению меня учили два специалиста: инструктор из автошколы и батя. Знаете, методы обучения и программа у них сильно отличались. Не все навыки из автошколы были одобрены отцом как и его многолетняя практика на частных уроках. Инспектор, принимающий экзамен, имел свое мнение и обычно не снимал баллы в объектах согласованности моих учителей.
Модели машинного обучения на размеченных данных ведут себя как ученик в автошколе. Они учатся не более чем повторять за учителем. Во время обучения они одинаково доверяют всем размечанным примерам, если дата сайентист не выставил веса сэмплов. Качество их работы, как на контрольной, проверяют другие учителя. Экзаменатором выступает конечный пользователь, который может иметь свое представление о правильных ответах.
#личный_опыт #nlp
Вождению меня учили два специалиста: инструктор из автошколы и батя. Знаете, методы обучения и программа у них сильно отличались. Не все навыки из автошколы были одобрены отцом как и его многолетняя практика на частных уроках. Инспектор, принимающий экзамен, имел свое мнение и обычно не снимал баллы в объектах согласованности моих учителей.
Модели машинного обучения на размеченных данных ведут себя как ученик в автошколе. Они учатся не более чем повторять за учителем. Во время обучения они одинаково доверяют всем размечанным примерам, если дата сайентист не выставил веса сэмплов. Качество их работы, как на контрольной, проверяют другие учителя. Экзаменатором выступает конечный пользователь, который может иметь свое представление о правильных ответах.
#личный_опыт #nlp
В задачах обучения с учителем в первую очередь нужно инвестировать ресурсы в качество разметки. Иначе самая классная модель будет стремиться аппроксимировать шум вместо реальной задачи. Качество вы тоже будете оценивать на шумной разметке. В результате эксперименты от смены архитектуры не всегда будут трансформироваться в бизнес-метрики. Короче говоря, первым делом разметка, ну а выбор архитектуры и гиперпараметров потом. На практике же часто пренебрегают этим правилом.
Точность вашей модели ограничивается не только ее обобщающей способностью, но и погрешностью работы асессоров. По определению, асессоры - эксперты в предметной областью. По факту в большинстве случаев - сотрудники, которые не могут выполнять более квалифицированную работу. В виду этого обстоятельства, первым шагом при решении задач на размеченных данных следует оценить согласованность и качество работы асессоров и не принимать на веру слова их руководителей о «высоких стандартах».
#личный_опыт #nlp
Точность вашей модели ограничивается не только ее обобщающей способностью, но и погрешностью работы асессоров. По определению, асессоры - эксперты в предметной областью. По факту в большинстве случаев - сотрудники, которые не могут выполнять более квалифицированную работу. В виду этого обстоятельства, первым шагом при решении задач на размеченных данных следует оценить согласованность и качество работы асессоров и не принимать на веру слова их руководителей о «высоких стандартах».
#личный_опыт #nlp
Низкое качество может быть следствием ряда факторов, на прямую независящих от асессоров. В первую очередь следует внимательно изучить инструкцию, если она конечно есть. В идеале, она должна содержать описание каждого класса, репрезентативные примеры и разборы сложных кейсов, а не просто название из двух-трех слов. Важность ее детальной проработки растет экспоненциально от количества классов.
Нередко в задачах обработки естественного языка, нацеленных на автоматическое обслуживание клиентов, число классов измеряется сотнями, а иногда и тысячами. Классы могут быть выбраны исходя из житейской мудрости, а не статистического анализа. Бедный асессор в таком случае, как и автор каталога, не сможет ни при каких условиях в одиночку размечать данные с высоким качеством. Помочь ему смогут другие асессоры в процессе кросс-разметки. В результате такой разметки, можно брать для обучения сэмплы из области множественной согласованности. Сложные же примеры брать количеством и качеством, за счет лучших разметчиков. Классы, которые асессоры часто путают между собой следует либо выкинуть, либо объединить с другими или дополнить инструкцию разборами сложных кейсов и ввести возможность мультилейбл разметки.
Не стоит забывать и про иерархию классов, она обязательно пригодиться, например, при реализации механизма доспрашивания в чат-боте.
Удобство интерфейса играет не малую роль в качестве и скорости разметки. Вы можете использовать open source решения, такие как Label Studio и Dokana, вместо интерфейса excel-таблиц. Специализированные инструменты помогут осуществлять контроль качества на эталонной разметке, проводить входное тестирование, организовать кросс-разметку, логирование результатов и артефактов процесса разметки.
В случае сложных задач крайне желательно вводить входное тестирование. При кросс-разметке важно чтоб асессоры действовали независимо и не скидывали «правильно» размеченные примеры в общий чат)
В итоге, на качество разметки данных влияют: качество инструкции, предварительное обучение и мотивация асессоров, кросс-разметка, количество и иерархия классов, а также удобство интерфейса.
P.S. Совсем забыл сказать, структура классов может меняться в процессе разметки)
#личный_опыт #nlp
Нередко в задачах обработки естественного языка, нацеленных на автоматическое обслуживание клиентов, число классов измеряется сотнями, а иногда и тысячами. Классы могут быть выбраны исходя из житейской мудрости, а не статистического анализа. Бедный асессор в таком случае, как и автор каталога, не сможет ни при каких условиях в одиночку размечать данные с высоким качеством. Помочь ему смогут другие асессоры в процессе кросс-разметки. В результате такой разметки, можно брать для обучения сэмплы из области множественной согласованности. Сложные же примеры брать количеством и качеством, за счет лучших разметчиков. Классы, которые асессоры часто путают между собой следует либо выкинуть, либо объединить с другими или дополнить инструкцию разборами сложных кейсов и ввести возможность мультилейбл разметки.
Не стоит забывать и про иерархию классов, она обязательно пригодиться, например, при реализации механизма доспрашивания в чат-боте.
Удобство интерфейса играет не малую роль в качестве и скорости разметки. Вы можете использовать open source решения, такие как Label Studio и Dokana, вместо интерфейса excel-таблиц. Специализированные инструменты помогут осуществлять контроль качества на эталонной разметке, проводить входное тестирование, организовать кросс-разметку, логирование результатов и артефактов процесса разметки.
В случае сложных задач крайне желательно вводить входное тестирование. При кросс-разметке важно чтоб асессоры действовали независимо и не скидывали «правильно» размеченные примеры в общий чат)
В итоге, на качество разметки данных влияют: качество инструкции, предварительное обучение и мотивация асессоров, кросс-разметка, количество и иерархия классов, а также удобство интерфейса.
P.S. Совсем забыл сказать, структура классов может меняться в процессе разметки)
#личный_опыт #nlp
Мы начинаем разработку бота-суфлера, чтобы помогать операторам быстрее и качественнее обслуживать клиентов. Перед стартом нам нужно было ответить на ряд вопросов:
Как устроена работа оператора? Какие именно операции возможно автоматизировать? Автоматизация чего принесет наибольший профит? Какой дизайн должен быть у системы-помощника?
Можно долго пытаться ответить на эти вопросы самостоятельно. В результате, помогут ли наши идеи на практике или останутся плодом нашей больной фантазии?
Получить ответы на эти вопросы нам помогла командировка в колл-центр в Барнауле. Во время поездки мы внимательно изучили процесс обслуживания клиентов, ознакомились с интерфейсами и главное получили мгновенный фидбэк по нашим идеям. В итоге, нащупали такое решение, которое будет удовлетворять не наши фантазии, а конечного пользователя.
Какие исследования проводите вы перед разработкой новой модели или основанного на ml продукта?
P.S. на фото мы довольны результатом, но огорчены недостатком сна.
#mlsysdesign #nlp
Как устроена работа оператора? Какие именно операции возможно автоматизировать? Автоматизация чего принесет наибольший профит? Какой дизайн должен быть у системы-помощника?
Можно долго пытаться ответить на эти вопросы самостоятельно. В результате, помогут ли наши идеи на практике или останутся плодом нашей больной фантазии?
Получить ответы на эти вопросы нам помогла командировка в колл-центр в Барнауле. Во время поездки мы внимательно изучили процесс обслуживания клиентов, ознакомились с интерфейсами и главное получили мгновенный фидбэк по нашим идеям. В итоге, нащупали такое решение, которое будет удовлетворять не наши фантазии, а конечного пользователя.
Какие исследования проводите вы перед разработкой новой модели или основанного на ml продукта?
P.S. на фото мы довольны результатом, но огорчены недостатком сна.
#mlsysdesign #nlp
Семантический анализ коллекций текстовых документов
💬 «Это было очень больно читать» - честный отзыв научрука на мою бакалаврскую работу. Так случилось, что на тему «Суммаризация тем в вероятностных тематических моделях» никто не закупает трафик, поэтому вы сможете найти слайды с защиты по первой ссылке в гугле. Спасибо поисковику, что текст диплома не запомнил.
💬 «Это первая статья на Хабр, которую я прочитал от начала и до конца))) Спасибо, Эдик!» - честный отзыв на новую публикацию от Лаборатории на Хабре. В основе статьи лежит все тот же подход, разработанный более шести лет назад. Думаю, теперь этим можно смело поделиться, расскажу подробнее об этой работе.
🤔 Тематические модели на практике чаще всего используются для ответа на вопрос: «Какая информация содержится в этой коллекции документов?». В этом помогает модель, которая получает на вход множество документов, а на выходе выплевывает список тематик, по которому пользователю предлагается составить свое представление о семантике документов. В этот момент остро встает вопрос интерпретации результата.
🤔 Все пакеты тематического моделирования, по умолчанию, предлагают семантический анализ по топ-словам из тематик. Некоторые идут чуть дальше и строят модели на коллокациях. Этого недостаточно, судя по личному опыту. Разработчик и одновременно пользователь может очень сильноупороться переобучиться после пары дней попыток интерпретации результатов и начинать придумывать сложные правила, объединяющие топ-слова в семантические группы. Достаточно обременённые таким опытом, в этой работе мы пошли еще дальше и отобрали топ-предложений из документов для каждой из тематик и накинули поверх алгоритм выделения спектра для повышения репрезентативности результата. Метрика интерпретируемости тематик выросла в дипломной работе, но рабочая задача на этом не закончилась.
👨💼 «Как и зачем мы начали искать бизнес-инсайты в отзывах клиентов с помощью машинного обучения» - название статьи точно передает бизнес-задачу. Сначала дата сайентист применял алгоритм тематической суммаризации самостоятельно в jupyter-ноутбуке. После пары десятков однотипных задач, его терпению пришел конец. Он написал сервис и научил аналитика им пользоваться. В результате, оба стали выполнять более интересную работу: аналитик – начал проводить семантический анализ в вэб-сервисе вместо чтения отзывов в эксельке, дата сайенстист - улучшать мозги сервиса. Так, например, недавно в сервис заехал BertTopic, который помог лучше с текстами, содержащими опечатки.
📈 Новые задачи по семантическому анализу текстов стали приводть к нам новых пользователей в сервис. Наш проект позволил избавится от рутины Альфе, ускорил поиск инсайтов и 🚀 попал в топ лучших проектов за 2021 год. Подробнее читайте на Хабре.
P.S. на Хабре все-таки есть ссылка на текст дипломной работы 😩
#статьи #nlp
💬 «Это было очень больно читать» - честный отзыв научрука на мою бакалаврскую работу. Так случилось, что на тему «Суммаризация тем в вероятностных тематических моделях» никто не закупает трафик, поэтому вы сможете найти слайды с защиты по первой ссылке в гугле. Спасибо поисковику, что текст диплома не запомнил.
💬 «Это первая статья на Хабр, которую я прочитал от начала и до конца))) Спасибо, Эдик!» - честный отзыв на новую публикацию от Лаборатории на Хабре. В основе статьи лежит все тот же подход, разработанный более шести лет назад. Думаю, теперь этим можно смело поделиться, расскажу подробнее об этой работе.
🤔 Тематические модели на практике чаще всего используются для ответа на вопрос: «Какая информация содержится в этой коллекции документов?». В этом помогает модель, которая получает на вход множество документов, а на выходе выплевывает список тематик, по которому пользователю предлагается составить свое представление о семантике документов. В этот момент остро встает вопрос интерпретации результата.
🤔 Все пакеты тематического моделирования, по умолчанию, предлагают семантический анализ по топ-словам из тематик. Некоторые идут чуть дальше и строят модели на коллокациях. Этого недостаточно, судя по личному опыту. Разработчик и одновременно пользователь может очень сильно
👨💼 «Как и зачем мы начали искать бизнес-инсайты в отзывах клиентов с помощью машинного обучения» - название статьи точно передает бизнес-задачу. Сначала дата сайентист применял алгоритм тематической суммаризации самостоятельно в jupyter-ноутбуке. После пары десятков однотипных задач, его терпению пришел конец. Он написал сервис и научил аналитика им пользоваться. В результате, оба стали выполнять более интересную работу: аналитик – начал проводить семантический анализ в вэб-сервисе вместо чтения отзывов в эксельке, дата сайенстист - улучшать мозги сервиса. Так, например, недавно в сервис заехал BertTopic, который помог лучше с текстами, содержащими опечатки.
📈 Новые задачи по семантическому анализу текстов стали приводть к нам новых пользователей в сервис. Наш проект позволил избавится от рутины Альфе, ускорил поиск инсайтов и 🚀 попал в топ лучших проектов за 2021 год. Подробнее читайте на Хабре.
P.S. на Хабре все-таки есть ссылка на текст дипломной работы 😩
#статьи #nlp
Хабр
Как и зачем мы начали искать бизнес-инсайты в отзывах клиентов с помощью машинного обучения
Естественный источник обратной связи для любой компании — отзывы их клиентов. И Альфа-Банк не исключение: за год мы собираем больше 100 млн оценок по различным каналам и продуктам. Но среди этих...
Советую подключиться сегодня к Яндекс Data Day 😉 чтобы не пропустить три классных доклада и одну лекцию-воркшоп.
Как мы выделили структуру в 100 миллионов чеков и не сошли с ума 🕐 13:20 👊 @xterrafunny Демид Гаибов, Лаборатория машинного обучения:
🤔 Зачем банкам данные чеков ОФД?
🧩 Как структурировать этот крайне сырой источник данных?
🤓 Как определить базис в пространстве чеков и одновременно повысить эффективность процесса разметки?
🗃 Путь к модели данных для ежедневного апдейта 100 прошлых дней 🕙 11:10 👨💻 Максим Стаценко, 👩💻Татьяна Колмакова, Яндекс
🤝 Как мы подружили Big Data и менеджеров клиентов 🕛 11:50 👨💻 Илья Шишов, Яндекс
📝 Лекция-воркшоп «Art&Science: как арт-проекты обсуждают вопросы настоящего и решают проблемы будущего» 🕙11:10 👩💻Екатерина Юдаева, Центр Art & Science Университета ИТМО
Регистрация на событие.
💬 P.S. если сможете принять участие в офлайн формате, то вас ждет не только вкусная еда и нетворкинг, но и экскурсия в музей Яндекса.
#митап #nlp #видео
Как мы выделили структуру в 100 миллионов чеков и не сошли с ума 🕐 13:20 👊 @xterrafunny Демид Гаибов, Лаборатория машинного обучения:
🤔 Зачем банкам данные чеков ОФД?
🧩 Как структурировать этот крайне сырой источник данных?
🤓 Как определить базис в пространстве чеков и одновременно повысить эффективность процесса разметки?
🗃 Путь к модели данных для ежедневного апдейта 100 прошлых дней 🕙 11:10 👨💻 Максим Стаценко, 👩💻Татьяна Колмакова, Яндекс
🤝 Как мы подружили Big Data и менеджеров клиентов 🕛 11:50 👨💻 Илья Шишов, Яндекс
📝 Лекция-воркшоп «Art&Science: как арт-проекты обсуждают вопросы настоящего и решают проблемы будущего» 🕙11:10 👩💻Екатерина Юдаева, Центр Art & Science Университета ИТМО
Регистрация на событие.
💬 P.S. если сможете принять участие в офлайн формате, то вас ждет не только вкусная еда и нетворкинг, но и экскурсия в музей Яндекса.
#митап #nlp #видео
Масштаб проектов Junior NLP DS в Лаборатории
📝 Про развитие чат-бота в Альфе вышла статья, где техническая часть с моих слов адаптирована под широкую аудиторию.
💪 Перечислю наши ключевые достижения:
- Разработали и внедрили свое решение, включающее порядка десятка моделей для различных направлений бизнеса. В течении этого года менялась инфраструктура для исполнения моделей, поэтому работу пришлось дублировать и быть первопроходцами на новой инфраструктуре.
- Показали лучшее качество по результатам а/б-теста по сравнению со внешним решением.
- Построили совместно с бизнесом с нуля процесс разметки данных, предварительно убедив банк в его необходимости.
🤔 К сожалению, без взятия дополнительной ответственности не обошлось. При обслуживании большого количества клиентов, для банка крайне важна стабильность решения. Сейчас мы дублируем инфраструктуру и выстроили несколько линий поддержки решения. Однако, в момент тестирования и перехода со внешнего решения на внутреннее этого ничего не было. Дата сайентист вместе с выделенным MLOPs на протяжении трех месяцев аккумулировали на себе задачи команды сопровождения. Благодаря нашей бизнес-ориентированности, мы становимся первым выбором для внутреннего заказчика в задачах обработки естественного языка.
👶 Как вы могли догадаться, всю техническую часть затащил всего один Junior DS. Впереди нас еще ждет огромный пласт работ, после выполнения которого, нам действительно будет не за что краснеть.
🗣 В этом году мы будем часто рассказывать про результаты работы nlp-направления: чат-боты, голосовые роботы, помощники операторам, работа с обратной связью клиентов и артефактами коммуникации с ними.
👋 Более того, мы будем масштабироваться и искать будущих лидеров в нашу команду.
💬 Набросьте нам в комментариях, что бы вы улучшили в нашем чат-боте.
#nlp #ML_Lab
📝 Про развитие чат-бота в Альфе вышла статья, где техническая часть с моих слов адаптирована под широкую аудиторию.
💪 Перечислю наши ключевые достижения:
- Разработали и внедрили свое решение, включающее порядка десятка моделей для различных направлений бизнеса. В течении этого года менялась инфраструктура для исполнения моделей, поэтому работу пришлось дублировать и быть первопроходцами на новой инфраструктуре.
- Показали лучшее качество по результатам а/б-теста по сравнению со внешним решением.
- Построили совместно с бизнесом с нуля процесс разметки данных, предварительно убедив банк в его необходимости.
🤔 К сожалению, без взятия дополнительной ответственности не обошлось. При обслуживании большого количества клиентов, для банка крайне важна стабильность решения. Сейчас мы дублируем инфраструктуру и выстроили несколько линий поддержки решения. Однако, в момент тестирования и перехода со внешнего решения на внутреннее этого ничего не было. Дата сайентист вместе с выделенным MLOPs на протяжении трех месяцев аккумулировали на себе задачи команды сопровождения. Благодаря нашей бизнес-ориентированности, мы становимся первым выбором для внутреннего заказчика в задачах обработки естественного языка.
👶 Как вы могли догадаться, всю техническую часть затащил всего один Junior DS. Впереди нас еще ждет огромный пласт работ, после выполнения которого, нам действительно будет не за что краснеть.
🗣 В этом году мы будем часто рассказывать про результаты работы nlp-направления: чат-боты, голосовые роботы, помощники операторам, работа с обратной связью клиентов и артефактами коммуникации с ними.
👋 Более того, мы будем масштабироваться и искать будущих лидеров в нашу команду.
💬 Набросьте нам в комментариях, что бы вы улучшили в нашем чат-боте.
#nlp #ML_Lab
vc.ru
Как в Альфа-Банке создали чат-бот, который понимает и отвечает, словно человек — Альфа-Банк на vc.ru
Это был абсолютный тупик. Осенью 2021 года команда чат-бота пыталась найти решение: уже третий месяц автоматизация запросов клиентов в приложении Альфа-Банка и в мобильном банке Альфа-Онлайн плавала между 38-40% и никак не хотела повышаться. Вдобавок другие…
Освобождаем операторов колл-центра от рутины
📺 Сейчас начинается митап от X5 Tech.
🙀 @andrew_son расскажет про задачу, которую мы научились решать лучше человека.
🕖 Выступление Андрея в 19:00.
📡 Подключайтесь к трансляции и вы узнаете:
⁃ Зачем Альфа-Банку нужен классификатор на 1000+ классов.
⁃ Как построить процесс разметки данных с нуля, а главное как убедить бизнес в необходимости этого процесса.
⁃ Какую архитектуру нейронной сети мы использовали.
⁃ Как решение работает в продакшне.
⁃ В каких случаях нейронки могут решать задачу лучше человека.
💬 Задавайте вопросы Андрею в чате трансляции для ответа в режиме онлайн или в комментариях, если не успеваете и будете смотреть в записи.
#nlp #видео
📺 Сейчас начинается митап от X5 Tech.
🙀 @andrew_son расскажет про задачу, которую мы научились решать лучше человека.
🕖 Выступление Андрея в 19:00.
📡 Подключайтесь к трансляции и вы узнаете:
⁃ Зачем Альфа-Банку нужен классификатор на 1000+ классов.
⁃ Как построить процесс разметки данных с нуля, а главное как убедить бизнес в необходимости этого процесса.
⁃ Какую архитектуру нейронной сети мы использовали.
⁃ Как решение работает в продакшне.
⁃ В каких случаях нейронки могут решать задачу лучше человека.
💬 Задавайте вопросы Андрею в чате трансляции для ответа в режиме онлайн или в комментариях, если не успеваете и будете смотреть в записи.
#nlp #видео
Как научить нейронку решать задачу лучше специалиста?
Рассмотрим процесс, в котором решение принимает специалист в предметной области. Например, это может быть врач, ставящий диагноз по ЭКГ или флюорограмме, оператор колл-центра, обслуживающий клиентов, или даже дата сайентист, обучающий модели.
🤔 Как разработать модели, которые будут работать лучше этих специалистов?
👉 Пойдем по стандартному алгоритму работы DSа:
1. Начнем с глубокого интервью со специалистом, где выясним на основании каких данных и какие он принимает решения.
2. Переведем задачу в термины машинного обучения.
3. Соберем данные, необходимые для принятия решения, и целевую переменную.
4. Замеряем качество работы специалиста при помощи кросс-разметки.
Отлично, задачу поставили, данные собрали, качество замеряли.
👉 Минуточку, модели машинного обучения - это не искусственный интеллект, они всего лишь учатся восстанавливать параметрическую зависимость между данными и целевой переменной и делают это с погрешностью.
😓 Получается, модель всегда будет работать хуже человека за счет наличия погрешности?
Действительно модели будут в среднем работать хуже специалиста, но есть выход:
1. Обучаться на примерах, в которых согласованы несколько специалистов.
2. Использовать в обучении примеры лучших специалистов/экспертов.
📈 Комбинация из этих подходов позволит работать лучше, чем плохой специалист и средний специалист. Лучших специалистов получится превзойти, если обучаться на разметке комитета лучших специалистов и запрещать им объединяться на практике)
🤔 Не стоит забывать про еще один тип погрешности, связанный с неточностью постановки задачи. Например, в случаях классификации на 1000+ классов авторы каталога классов могут заложить в него заведомо неразделимые для экспертов классы.
👉 В итоге, точность работы в модели в бизнес-процессе ограничивается комбинаций модельной ошибки, погрешностью в разметке и погрешностью в постановке задачи.
💬 Как бы вы поставили задачу по оптимизации работы дата сайентистов?)
#mlsysdesign #nlp
Рассмотрим процесс, в котором решение принимает специалист в предметной области. Например, это может быть врач, ставящий диагноз по ЭКГ или флюорограмме, оператор колл-центра, обслуживающий клиентов, или даже дата сайентист, обучающий модели.
🤔 Как разработать модели, которые будут работать лучше этих специалистов?
👉 Пойдем по стандартному алгоритму работы DSа:
1. Начнем с глубокого интервью со специалистом, где выясним на основании каких данных и какие он принимает решения.
2. Переведем задачу в термины машинного обучения.
3. Соберем данные, необходимые для принятия решения, и целевую переменную.
4. Замеряем качество работы специалиста при помощи кросс-разметки.
Отлично, задачу поставили, данные собрали, качество замеряли.
👉 Минуточку, модели машинного обучения - это не искусственный интеллект, они всего лишь учатся восстанавливать параметрическую зависимость между данными и целевой переменной и делают это с погрешностью.
😓 Получается, модель всегда будет работать хуже человека за счет наличия погрешности?
Действительно модели будут в среднем работать хуже специалиста, но есть выход:
1. Обучаться на примерах, в которых согласованы несколько специалистов.
2. Использовать в обучении примеры лучших специалистов/экспертов.
📈 Комбинация из этих подходов позволит работать лучше, чем плохой специалист и средний специалист. Лучших специалистов получится превзойти, если обучаться на разметке комитета лучших специалистов и запрещать им объединяться на практике)
🤔 Не стоит забывать про еще один тип погрешности, связанный с неточностью постановки задачи. Например, в случаях классификации на 1000+ классов авторы каталога классов могут заложить в него заведомо неразделимые для экспертов классы.
👉 В итоге, точность работы в модели в бизнес-процессе ограничивается комбинаций модельной ошибки, погрешностью в разметке и погрешностью в постановке задачи.
💬 Как бы вы поставили задачу по оптимизации работы дата сайентистов?)
#mlsysdesign #nlp
Соревнование по структуризации чеков ОФД
👨💻 Длинные выходные - отличная возможность вкатиться в соревнование по Data Science.
📈 Соревнование поможет вам закрепить навыки по построению NER + NEL-моделей.
💪 Уникальный формат позволит на последнем этапе сконцентрироваться на выборе примеров для доразметки, а не выбивании десятысячных долей метрики.
🤔 Не знаете с чего начать?
🚀 Запустите бейзлайн и засабмитьте результат на лидерборд.
💸 Далее, призовой фонд в 800к рублей и чувство товарищеского локтя 🫂 помогут сделать следующие сабмиты.
🤔 Недостаточно материалов?
📺 Посмотрите видео из трека NLP in practice: выбор класса моделей в NLP, опыт структуризации чеков ОФД в 🅰️, запуск этого соревнования, применение чеков в кредитном скоринге.
📑 Почитайте cтатьи на хабре по теме: классификация чеков ОФД, применение чеков в задачах банка.
🔜 Приходите на следующей неделе на разбор бейзлайна. Вступайте в чат соревнования чтобы не пропустить анонс.
🚨 Обратите внимание!
👉 Соревнование проходит в три этапа.
👉 Каждый этап является отборочных для последующего.
👉 В результате, вписаться в соревнование получится только до конца первого этапа в июне.
🎁 Датасет из соревнования можно переиспользовать для защиты дипломных и курсовых работ.
P.S. пишите в ЛС, если вы преподаете анализ данных и желаете использовать датасет для учебных целей ваших студентов.
#соревнования #nlp
👨💻 Длинные выходные - отличная возможность вкатиться в соревнование по Data Science.
📈 Соревнование поможет вам закрепить навыки по построению NER + NEL-моделей.
💪 Уникальный формат позволит на последнем этапе сконцентрироваться на выборе примеров для доразметки, а не выбивании десятысячных долей метрики.
🤔 Не знаете с чего начать?
🚀 Запустите бейзлайн и засабмитьте результат на лидерборд.
💸 Далее, призовой фонд в 800к рублей и чувство товарищеского локтя 🫂 помогут сделать следующие сабмиты.
🤔 Недостаточно материалов?
📺 Посмотрите видео из трека NLP in practice: выбор класса моделей в NLP, опыт структуризации чеков ОФД в 🅰️, запуск этого соревнования, применение чеков в кредитном скоринге.
📑 Почитайте cтатьи на хабре по теме: классификация чеков ОФД, применение чеков в задачах банка.
🔜 Приходите на следующей неделе на разбор бейзлайна. Вступайте в чат соревнования чтобы не пропустить анонс.
🚨 Обратите внимание!
👉 Соревнование проходит в три этапа.
👉 Каждый этап является отборочных для последующего.
👉 В результате, вписаться в соревнование получится только до конца первого этапа в июне.
🎁 Датасет из соревнования можно переиспользовать для защиты дипломных и курсовых работ.
P.S. пишите в ЛС, если вы преподаете анализ данных и желаете использовать датасет для учебных целей ваших студентов.
#соревнования #nlp
Как ChatGPT изменит Data Science?
Провели дискуссию с экспертами Альфы, Тинькофф @anatoliipotapov, Huawei @madrugado и Сбер/AIRI @lizagonch о будущем NLP после ChatGPT🔥
📌 Какие NLP модели применяют в продакшене больших компаний, где в индустрии будут применять GPT и что не получится заменить генеративными моделями?
📌 Когда GPT заменит джунов-программистов и что изучать молодым специалистам, чтобы выдержать конкуренцию с нейросетями?
📌 В чем фундаментальная разница искусственного интеллекта и естественного? В чем естественный интеллект будет проигрывать?
📌 Research – это только 🌿 -архитектуры, или даже в исследованиях применяют регулярки? Как убеждать бизнес инвестировать в исследования?
📌 Почему современные трансформеры все еще недообучены? Где брать данные для обучения больших языковых моделей, когда весь интернет будет сгенерирован нейросетями?
📌 Куда копать участникам нашего соревнования NER на чеках ОФД? 🤫
🤔 Общественность часто считает искусственный интеллект неким сверхразумом. В этом момент почему-то все забывают, что он обучается копировать естественный интеллект, который очень далек от совершенства.
#митап #nlp #видео
Провели дискуссию с экспертами Альфы, Тинькофф @anatoliipotapov, Huawei @madrugado и Сбер/AIRI @lizagonch о будущем NLP после ChatGPT
🤔 Общественность часто считает искусственный интеллект неким сверхразумом. В этом момент почему-то все забывают, что он обучается копировать естественный интеллект, который очень далек от совершенства.
#митап #nlp #видео
Please open Telegram to view this post
VIEW IN TELEGRAM
📺 Не знакомы с методами древних и предпочитаете видео-контент? Не смог убедить, в итоге, вас интересуют только лучшие стратегии тюнинга BERTа? Смотрите Моделирование на практике из трека NLP in Practice.
💬 Что у вас крутится в проде?)
#mlsysdesign #nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
Как преодолеть последнюю милю в NLP?
🤔 Комплекс моделей для платформы ботов Альфы уже сейчас работает с высокой точностью порядка девяносто процентов. Тем не менее, до ста процентов еще остается значительный гэп, о чем вам скажут даже диванные аналитики, освоившие курс арифметики. Как гэп обычно преодолевают в Data Science?
🏆 В соревнованиях по анализу данных мы регулярно проходим последнюю милю, борясь за десятысячные целевой метрики. На вооружение берутся ансамбли из разных классов моделей, стакаются сотни вариантов, отыскиваются лики в данных для оптимизации своей позиции на лидерборде. Однако не помню, чтобы в соревнованиях выбивали максимальное значение метрики при условии, что разметка тестового датасета не лежала на просторах интернета.
😩 На практике все гораздо сложнее. Во-первых, мы оптимизируем продуктовые метрики, а модельные лишь выполняют роль прокси. Во-вторых, мы можем и должны исправлять качество размеченных данных, а не переобучаться под смещенное распределение. Хакнуть продовые метрики, увы, не получится, ведь машину времени еще не изобрели, что значительно мешает в получении данных из будущего аб-теста на этапе разработки модели.
🏃 Пройти последнюю милю можно через оптимизацию компонент непрерывного цикла улучшения моделей: аналитика качества моделей, разметка данных, моделирование и аб-тестирование.
Подключайтесь завтра к секции "Современные тренды в NLP", расскажу подробнее 😉
#митап #nlp
🤔 Комплекс моделей для платформы ботов Альфы уже сейчас работает с высокой точностью порядка девяносто процентов. Тем не менее, до ста процентов еще остается значительный гэп, о чем вам скажут даже диванные аналитики, освоившие курс арифметики. Как гэп обычно преодолевают в Data Science?
🏆 В соревнованиях по анализу данных мы регулярно проходим последнюю милю, борясь за десятысячные целевой метрики. На вооружение берутся ансамбли из разных классов моделей, стакаются сотни вариантов, отыскиваются лики в данных для оптимизации своей позиции на лидерборде. Однако не помню, чтобы в соревнованиях выбивали максимальное значение метрики при условии, что разметка тестового датасета не лежала на просторах интернета.
😩 На практике все гораздо сложнее. Во-первых, мы оптимизируем продуктовые метрики, а модельные лишь выполняют роль прокси. Во-вторых, мы можем и должны исправлять качество размеченных данных, а не переобучаться под смещенное распределение. Хакнуть продовые метрики, увы, не получится, ведь машину времени еще не изобрели, что значительно мешает в получении данных из будущего аб-теста на этапе разработки модели.
🏃 Пройти последнюю милю можно через оптимизацию компонент непрерывного цикла улучшения моделей: аналитика качества моделей, разметка данных, моделирование и аб-тестирование.
Подключайтесь завтра к секции "Современные тренды в NLP", расскажу подробнее 😉
#митап #nlp
🔎 Навигация по каналу Нескучный Data Science
🚀 Нескучный Data Science читают уже больше 10000 человек. В канале уже опубликовано порядка 200 постов и уверен, новичкам сложно ориентироваться в нем, поэтому настало время структуризировать контент.
О чем этот канал?
1️⃣ #карьера - полезные советы по построению и развития карьеры в Data Science.
2️⃣ #статьи, #курсы, #митапы, #соревнования, #видео - образовательные материалы для развития ваших hard-скиллов.
3️⃣ #личный_опыт, #подкасты, #мини_интервью - жизненные опыт меня в текстовом, аудио и видео-форматах.
4️⃣ #mlsysdesign - особенности разработки и внедрения Data Science на практике.
5️⃣ #dl_in_finance - посты про применения нейронных сетей в задачах финтеха.
7️⃣ #nlp - посты про решения задач по обработке естественного языка.
8️⃣ #ML_Lab - про команду Лаборатории машинного обучения.
🤝 Спасибо каждому из вас за подписку, буду стараться делиться с вами и дальше полезным контентом!
💬 Напишите, пожалуйста, в комментариях какого контента вам хотелось бы побольше, какие тематики стоит добавить, а от чего лучше отказаться.
🚀 Нескучный Data Science читают уже больше 10000 человек. В канале уже опубликовано порядка 200 постов и уверен, новичкам сложно ориентироваться в нем, поэтому настало время структуризировать контент.
О чем этот канал?
🤝 Спасибо каждому из вас за подписку, буду стараться делиться с вами и дальше полезным контентом!
💬 Напишите, пожалуйста, в комментариях какого контента вам хотелось бы побольше, какие тематики стоит добавить, а от чего лучше отказаться.
Please open Telegram to view this post
VIEW IN TELEGRAM