Около недели назад посетил https://datafest.by в Минске, некоторые заметки по этому поводу.
Доклады мне понравились, было 2 трека, один более практический, то, что нужно в продакшене, а другой больше про разные новые идеи.
В основном слушал доклады со второго трека (видео со второго трека пока не опубликованы, с первого уже доступны).
Чтобы организовать работу команды data science, нужно подумать о том, как контролировать версии моделей, данных и пайплайнов и иметь возможность повторять эксперименты. Про это первых 2 доклада.
1. Создание Data Science архитектуры на базе Apache Airflow - узнал про https://azkaban.github.io/ и https://airflow.apache.org/, так же был упомянут шаблон data science проекта, с которого мы тоже когда-то начинали https://drivendata.github.io/cookiecutter-data-science/ - в целом доклад суховат, и больше про пайплайны, а не про управление экспериментами.
2. Начните с контроля версий и управления экспериментами в ML проектах. Доклад про DVC и он как раз более интересный и полезный для начинающей ML команды. В нём разбирается переход от простого, к более сложному проекту, показывая какие подходы и инструменты позволяют улучшить проект. Про https://dvc.org/ знал давно, похоже пока это лучший инструмент, хоть и не лишён недостатков. Из доклада узнал про https://mlflow.org/, мне этот инструмент кажется довольно интересным.
3. Эксплуатация ML в Почте Mail.ru - думал доклад не очень интересный, но вынес для себя много полезных трюков для дообучения моделей. Как использовать эмбеддинги сети и решающие деревья вместе. Конечно всё это не новые техники, но именно это уже давно используется в продакшене.
4. Откуда, куда и как быстро бежит NLP. - последовательное изложение достижений NLP от более простого к SOTA на данный момент решениям - если вы только начали работать с NLP будет очень полезно, но если вы знаете о Transformer и BERT, думаю вы и так всё знаете.
5. Экспертная оценка текстовой информации ML и NLP методами.Не всем этот доклад понравился, мало крутого машинного обучения, много разных трюков, и слабая валидация результатов. Всё же для себя я отметил большой набор идей и алгоритмов, которые мне нужны для решения задач.
В докладе показывали такую карту сентимента новостей https://krimmkr.carto.com/builder/e211c628-c0b7-4877-8cae-b4832d93c75c/embed
Также были затронуты некоторые рюки с эмбедингами и LDA для выделения похожих категорий текста, knn для того, чтобы удалить мусорные топики. Извлечение паттернов с помощью обычных морфологических шаблонов.
Дальше я переместился в трек 1
6. Полностью генеративные ответы на вопросы в Поддержку ВКонтакте - доклад не зашёл, мои ожидания были выше, того, что я узнал.
7. Анализ реплеев компьютерных игр. Кажется что доклад про игры,как предсказывать победителя по поведению в игре. Но он глубже чем кажется, подумайте о том, как можно использовать эту информацию, просто замените слово "Dota" на любой домен где есть некая динамика - поведение человека, история использования гаджетом и т.д.
8. Как понять пешеходов - действительно, как? Доклад традиционно рассказывает о проблемах, и почему простые методы не работают, слушать увлекательно, решения интересные - в очередной раз хочу сказать, что Deep Learning + творческое мышление = интересный результат.
9. От простого к сложному в аналитике рука об руку с бизнесом. Критически важный доклад, для использования ML в продакшене. Нужно помнить, что информацию нужно правильно преподносить бизнес-стейкхолдерам, и нужно переводить их требования в аналитические задачи, и тогда у вас будут интересные задачи, полезные бизнесу.
#ml #datafest #summary
Доклады мне понравились, было 2 трека, один более практический, то, что нужно в продакшене, а другой больше про разные новые идеи.
В основном слушал доклады со второго трека (видео со второго трека пока не опубликованы, с первого уже доступны).
Чтобы организовать работу команды data science, нужно подумать о том, как контролировать версии моделей, данных и пайплайнов и иметь возможность повторять эксперименты. Про это первых 2 доклада.
1. Создание Data Science архитектуры на базе Apache Airflow - узнал про https://azkaban.github.io/ и https://airflow.apache.org/, так же был упомянут шаблон data science проекта, с которого мы тоже когда-то начинали https://drivendata.github.io/cookiecutter-data-science/ - в целом доклад суховат, и больше про пайплайны, а не про управление экспериментами.
2. Начните с контроля версий и управления экспериментами в ML проектах. Доклад про DVC и он как раз более интересный и полезный для начинающей ML команды. В нём разбирается переход от простого, к более сложному проекту, показывая какие подходы и инструменты позволяют улучшить проект. Про https://dvc.org/ знал давно, похоже пока это лучший инструмент, хоть и не лишён недостатков. Из доклада узнал про https://mlflow.org/, мне этот инструмент кажется довольно интересным.
3. Эксплуатация ML в Почте Mail.ru - думал доклад не очень интересный, но вынес для себя много полезных трюков для дообучения моделей. Как использовать эмбеддинги сети и решающие деревья вместе. Конечно всё это не новые техники, но именно это уже давно используется в продакшене.
4. Откуда, куда и как быстро бежит NLP. - последовательное изложение достижений NLP от более простого к SOTA на данный момент решениям - если вы только начали работать с NLP будет очень полезно, но если вы знаете о Transformer и BERT, думаю вы и так всё знаете.
5. Экспертная оценка текстовой информации ML и NLP методами.Не всем этот доклад понравился, мало крутого машинного обучения, много разных трюков, и слабая валидация результатов. Всё же для себя я отметил большой набор идей и алгоритмов, которые мне нужны для решения задач.
В докладе показывали такую карту сентимента новостей https://krimmkr.carto.com/builder/e211c628-c0b7-4877-8cae-b4832d93c75c/embed
Также были затронуты некоторые рюки с эмбедингами и LDA для выделения похожих категорий текста, knn для того, чтобы удалить мусорные топики. Извлечение паттернов с помощью обычных морфологических шаблонов.
Дальше я переместился в трек 1
6. Полностью генеративные ответы на вопросы в Поддержку ВКонтакте - доклад не зашёл, мои ожидания были выше, того, что я узнал.
7. Анализ реплеев компьютерных игр. Кажется что доклад про игры,как предсказывать победителя по поведению в игре. Но он глубже чем кажется, подумайте о том, как можно использовать эту информацию, просто замените слово "Dota" на любой домен где есть некая динамика - поведение человека, история использования гаджетом и т.д.
8. Как понять пешеходов - действительно, как? Доклад традиционно рассказывает о проблемах, и почему простые методы не работают, слушать увлекательно, решения интересные - в очередной раз хочу сказать, что Deep Learning + творческое мышление = интересный результат.
9. От простого к сложному в аналитике рука об руку с бизнесом. Критически важный доклад, для использования ML в продакшене. Нужно помнить, что информацию нужно правильно преподносить бизнес-стейкхолдерам, и нужно переводить их требования в аналитические задачи, и тогда у вас будут интересные задачи, полезные бизнесу.
#ml #datafest #summary
datafest.by
Data Fest
Крупнейшие Data Science конференции в Беларуси