Bayesian Noise

Около недели назад посетил https://datafest.by в Минске, некоторые заметки по этому поводу.

Доклады мне понравились, было 2 трека, один более практический, то, что нужно в продакшене, а другой больше про разные новые идеи.

В основном слушал доклады со второго трека (видео со второго трека пока не опубликованы, с первого уже доступны).

Чтобы организовать работу команды data science, нужно подумать о том, как контролировать версии моделей, данных и пайплайнов и иметь возможность повторять эксперименты. Про это первых 2 доклада.

1. Создание Data Science архитектуры на базе Apache Airflow - узнал про https://azkaban.github.io/ и https://airflow.apache.org/, так же был упомянут шаблон data science проекта, с которого мы тоже когда-то начинали https://drivendata.github.io/cookiecutter-data-science/ - в целом доклад суховат, и больше про пайплайны, а не про управление экспериментами.

2. Начните с контроля версий и управления экспериментами в ML проектах. Доклад про DVC и он как раз более интересный и полезный для начинающей ML команды. В нём разбирается переход от простого, к более сложному проекту, показывая какие подходы и инструменты позволяют улучшить проект. Про https://dvc.org/ знал давно, похоже пока это лучший инструмент, хоть и не лишён недостатков. Из доклада узнал про https://mlflow.org/, мне этот инструмент кажется довольно интересным.

3. Эксплуатация ML в Почте Mail.ru - думал доклад не очень интересный, но вынес для себя много полезных трюков для дообучения моделей. Как использовать эмбеддинги сети и решающие деревья вместе. Конечно всё это не новые техники, но именно это уже давно используется в продакшене.

4. Откуда, куда и как быстро бежит NLP. - последовательное изложение достижений NLP от более простого к SOTA на данный момент решениям - если вы только начали работать с NLP будет очень полезно, но если вы знаете о Transformer и BERT, думаю вы и так всё знаете.

5. Экспертная оценка текстовой информации ML и NLP методами.Не всем этот доклад понравился, мало крутого машинного обучения, много разных трюков, и слабая валидация результатов. Всё же для себя я отметил большой набор идей и алгоритмов, которые мне нужны для решения задач.

В докладе показывали такую карту сентимента новостей https://krimmkr.carto.com/builder/e211c628-c0b7-4877-8cae-b4832d93c75c/embed

Также были затронуты некоторые рюки с эмбедингами и LDA для выделения похожих категорий текста, knn для того, чтобы удалить мусорные топики. Извлечение паттернов с помощью обычных морфологических шаблонов.

Дальше я переместился в трек 1

6. Полностью генеративные ответы на вопросы в Поддержку ВКонтакте - доклад не зашёл, мои ожидания были выше, того, что я узнал.

7. Анализ реплеев компьютерных игр. Кажется что доклад про игры,как предсказывать победителя по поведению в игре. Но он глубже чем кажется, подумайте о том, как можно использовать эту информацию, просто замените слово "Dota" на любой домен где есть некая динамика - поведение человека, история использования гаджетом и т.д.

8. Как понять пешеходов - действительно, как? Доклад традиционно рассказывает о проблемах, и почему простые методы не работают, слушать увлекательно, решения интересные - в очередной раз хочу сказать, что Deep Learning + творческое мышление = интересный результат.

9. От простого к сложному в аналитике рука об руку с бизнесом. Критически важный доклад, для использования ML в продакшене. Нужно помнить, что информацию нужно правильно преподносить бизнес-стейкхолдерам, и нужно переводить их требования в аналитические задачи, и тогда у вас будут интересные задачи, полезные бизнесу.

#ml #datafest #summary

datafest.by

Data Fest

Крупнейшие Data Science конференции в Беларуси

58 views19:12

About

Blog

Apps

Platform