Sberloga
2.53K subscribers
145 photos
14 videos
5 files
217 links
Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot
Чат - @sberlogadataclub
Download Telegram
Ребята,
Залили для вас видео с прошедшего семинара Ирины ☝️
"Нейронные сети для оценки атмосферных искажений в астрофизических наблюдениях"
Получили много хороших отзывов, за что вам большое спасибо 🤗

Youtube
Слайды

Приятного просмотра!
@sberloga
Доклад Антона Цицулина (@xgfsru) не состоявшийся 4 марта будет 18 марта.
https://t.me/sberloga/35
🚀 Обсуждение курса "Графы знаний"
⌚️ Понедельник 22 марта, 19.00 по Москве
👨‍🔬Просмотр и обсуждение второй половины лекции 4 - валидация графов знаний. Мы посмотрим на механизмы того, как проверять качество графов знаний. Также обсудим домашние задания с предыдущих лекций.

В предыдущий раз у нас было знакомство сразу с несколькими реализациями механизма реификации в графах знаний. Реификация - превращение предиката в объект - позволяет избегать противоречий в графе знаний, облегчает работу механизмов поиска и логического вывода на графе знаний. Также мы подробно рассмотрели модель данных Wikidata - особенности реализации и соглашения о наименованиях вершин в графе.

Ссылка на зум будет доступна через чат тг чат https://t.me/kg_course ближе к началу доклада
Ребята,

Выложили новое видео с докладом Антона Цицулина - "Расстояния между графами"

Посмотрев видео можно узнать о том, какие подходы сравнения графов существуют и увидеть разбор подходов оценки из разных семейств – графовые ядра, спектральные подходы и современные deep learning методы.

Youtube
Слайды

Приятного просмотра!
@sberloga
🚀 Обсуждение курса "Графы знаний"
⌚️ Понедельник 29 марта, 19.00 по Москве
👨‍🔬Просмотр и обсуждение лекции 5.

Это последняя лекция первой части курса (работа с символьным представлением графов знаний). Мы начнем знакомство с методами сбора графов из различных источников данных. Эти методы также известны как интеграция данных и мы сосредоточимся на сборке графов из структурированных и полуструктурированных источников. Методики, с которыми мы познакомимся, часто используются в составе ETL-пайплайнов для обработки данных с использованием алгоритмов машинного обучения на графах.

Мы возьмем первые 2/3 лекции.
20:52 - заканчиваем семантическую интеграцию данных
40:47 - заканчиваем с физической интеграцией ETL

Предыдущее обсуждение и разбор домашних заданий, доступны на youtube
Курс Knowledge Graphs - Обсуждение Лекции 4 часть 2
https://youtu.be/BJe8TwDjGgE

Ссылка на зум будет доступна через чат тг чат https://t.me/kg_course ближе к началу доклада
🚀 "SBERLOGA" открывает серию докладов по теме фреймворков для Data Science проектов
👨‍🔬 Доклад Андрея Лукьяненко : "Использование Hydra для работы с конфигами в Python"
Четверг 1 апреля, 19.00 по Москве

Установка константных значений и управление изменяемыми параметрами - неотъемлемая часть многих проектов, особенно связанных с машинным обучением. Один из самых популярных вариантов для изменения значения параметров - стандартная библиотека argparse; однако, в последнее время все больше проектов используют конфигурационные файлы для хранения значений переменных.
Hydra (в основе которой лежит OmegaConf) - фреймворк для управления конфигами. Он позволяет динамически комбинировать иерархические конфиги, и менять любые значения с помощью командной строки.
В этом докладе Андрей расскажет о возможностях Hydra и покажет несколько примеров использования этого фреймворка.

Ссылка на зум будет доступна ближе к началу доклада через чат @sberlogadataclub
Записи докладов на ютубе https://www.youtube.com/c/SBERLOGA

На следующих докладах планируются доклады об использовании фрейворков sacred и mlflow
Следите за объявлениями в
@sberloga

Looking for speakers - Мы постоянно проводим небольшие семинары, где можно поделиться своими знаниями по теме Data Science/Data Engineering. Чтобы обсудить тему вашего доклада нужно написать - @boyadzhi или @Alexander_V_C
https://youtu.be/T_UyGSUUDKc
Ребята, в прошедший четверг прошёл отличный семинар, по использованию фреймворка hydra
Андрей Лукьяненко (@Erlemar) рассказал о его возможностях, поделился своим опытом использования и различными кейсами применения
Так же по ссылке можно найти шаблон hydra для DL моделей
https://slides.com/andreylukyanenko/deck-5cbd53
https://github.com/Erlemar/sberloga_hydra_demo

@sberloga
🚀 Обсуждение курса "Графы знаний"
⌚️ Вторник 6 апреля, 19.00 по Москве
👨‍🔬Просмотр и обсуждение лекции 5, разбор заданий.

В прошлый вторник мы начали разбор 5-ой лекции KG Course. Лекция посвящена построению графов по данным и подготовке графов для дальнейшего использования алгоритмов машинного обучения.
Сегодня, 6.04 мы планируем завершить 5-ую лекцию Semantic Data Integration и разобрать накопившиеся домашние работы за 4-ую и 5-ую лекции.

Предыдущее обсуждение и разбор домашних заданий, доступны на youtube.
Видео с обсуждением первой части 5й лекции можно посмотреть тут https://youtu.be/bziL9a9wyhA

Ссылка на зум будет доступна через чат тг чат https://t.me/kg_course ближе к началу доклада.
🚀 "SBERLOGA" продолжает серию докладов по теме фреймворков для Data Science проектов
👨‍🔬 Доклад Никиты Варганова: "Sacred как инструмент планирования ML-экспериментов"
Четверг 8 апреля, 19.00 по Москве

На клиентском пути разработки AI-решения, Data Scientist проводит много времени за экспериментами и тестированием гипотез. Типичные эксперименты включают в себя определение того, какой класс моделей использовать, какие признаки следует включить в модель, сколько данных требуется для обучения модели. Такие эксперименты на выходе порождают большое количество артефактов. Без стандартизированного способа управления полученными артефактами Data-Scientist’ам, сложно воспроизводить результаты своей работы и сравнивать результаты разных экспериментов. Чтобы достичь воспроизводимости и сопоставимости экспериментов в машинном обучении, DS необходимо хранить экспериментальные метаданные.

В ближайшем вебинаре SberLoga пойдет речь о таком инструменте планирования ML-экспериментов, как Sacred. Мы обсудим, какие артефакты существуют и какие артефакты требуется сохранять, почему это важно. Мы рассмотрим исходный код нескольких решений и артефакты, сгенерированные в процессе обучения моделей. Таким образом, мы получим шаблон, который участники вебинара смогут адаптировать к своим экспериментам в области машинного обучения. Приходите, будет интересно! 🙂

Ссылка на зум будет доступна ближе к началу доклада через чат @sberlogadataclub
Записи докладов на ютубе https://www.youtube.com/c/SBERLOGA

Следите за объявлениями в
@sberloga

Looking for speakers - Мы постоянно проводим небольшие семинары, где можно поделиться своими знаниями по теме Data Science/Data Engineering. Чтобы обсудить тему вашего доклада нужно написать - @boyadzhi или @Alexander_V_C
🚀 "SBERLOGA"
👨‍🔬 Доклад Прохор Гладких, Семен Сорокин, Даниил Водолазский, SberIDP: "NER using Efficient Attention"
Пятница 9 апреля, 18:00 по Москве

Обсудим
* Обзор идей Efficient Attention
* Подробно о Longformer. Эксперименты Longformer + NER
* Подробно о Linear Transformer. Эксперименты Linear Transformer + NER

Ссылка на зум будет доступна ближе к началу доклада через чат @sberlogadataclub
Записи докладов на ютубе https://www.youtube.com/c/SBERLOGA

Looking for speakers - Мы постоянно проводим небольшие семинары, где можно поделиться своими знаниями по теме Data Science/Data Engineering. Чтобы обсудить тему вашего доклада нужно написать - @boyadzhi или @Alexander_V_C

Следите за объявлениями в
@sberloga
Ребята,
Прошедшая неделя была очень насыщенная. Провели аж 3 доклада и все они вышли прям огонь 🔥
Sacred, NER, Knowledge Graphs - темы на любой вкус 😎 ниже можно подробнее почитать и посмотреть видео

А на этой неделе планируем продолжить серию с докладами по фреймворкам ML разработки - ждем доклад про Трекинг экспериментов с использованием MLFlow. Как всегда в четверг 19:00 ждем в гостях. Более подробно напишем позже 🙂

Никита Варганова - Sacred как инструмент планирования ML-экспериментов
Какие артефакты существуют и какие артефакты требуется сохранять, почему это важно.
Рассмотрели исходный код нескольких решений и артефакты, сгенерированные в процессе обучения моделей.
Таким образом, получен шаблон, который участники вебинара смогут адаптировать к своим экспериментам в области машинного обучения.

Прохор Гладких, Семен Сорокин, Даниил Водолазский (SberIDP) - NER using Efficient Attention
* Обзор идей Efficient Attention
* Подробно о Longformer. Эксперименты Longformer + NER
* Подробно о Linear Transformer. Эксперименты Linear Transformer + NER

Курс Knowledge Graphs - Обсуждение Лекции 5 часть 2 - Semantic Data Integration + HW
Лекция посвящена построению графов по данным и подготовке графов для дальнейшего использования алгоритмов машинного обучения.
Видео с обсуждением второй части 5-й лекции Semantic Data Integration с разобом накопившихся домашних работ за 4-ую и 5-ую лекции.

@sberloga
🚀 Обсуждение курса "Графы знаний"
⌚️ Вторник 13 апреля, 19.00 по Москве
👨‍🔬Просмотр и обсуждение лекции 6

Для тех, кто хочет присоединиться к обсуждению курса, сегодня - самое удачно место. Мы прошли первую половину курса по графам знаний, и сегодня начинаем вторую половину, которая несколько отделена логически от предыдущего материала, в целом она больше посвящена методам машинного обучения в применении к графам. (В первой половине акценты были больше на более классические "логические" аспекты теории графов знаний).
Лекция 6 - от Вадима Сафронова (@VadymSafronov) - возможные применения и основы теории графов - https://www.youtube.com/watch?v=2NemwwyK9x4 - присоединяйтесь !

Ссылка на зум будет доступна через тг чат https://t.me/kg_course ближе к началу доклада.
🚀 DS доклад "SBERLOGA"
👨‍🔬 Инсаф Ашрапов: "TabGAN или как использовать ганы для табличных данных"
Пятница 16 апреля, 19.00 по Москве

Ганы хорошо себя зарекомендовали себя в генерации изображений, их широко применяются и для генерации музыки и видео. В рамках же доклада попробуем рассмотреть табличные ганы. Начнем с двух публикаций TGAN и CTGAN. Далее рассмотрим, как можно приметь эти ганы для генерации данных в случае сильного смещения трейна относительно теста. И попробуем все это применить для одного датасета.

Ссылка на зум будет доступна ближе к началу доклада через чат @sberlogadataclub
Записи докладов на ютубе https://www.youtube.com/c/SBERLOGA

@sberloga
🚀 Обсуждение курса "Графы знаний"
⌚️ Вторник 20 апреля, 19.00 по Москве
👨‍🔬Просмотр и обсуждение лекции 6.

Рекомендуем всем лекцию Вадима Сафронова (@VadymSafronov) - https://www.youtube.com/watch?v=2NemwwyK9x4 - она содержит (в том числе) краткий дайджест многих моментов известного стенфордского курса cs224w (от Лесковича) .
Сегодня мы продолжим ее просмотр и обсуждение - присоединяйтесь !
Мы обсудим машинное обучение на графах.

Ссылка на зум будет доступна через чат тг чат https://t.me/kg_course ближе к началу доклада.
🚀 "SBERLOGA" продолжает серию докладов по теме фреймворков для Data Science проектов
👨‍🔬 Доклад Сергея Лаврикова: "Трэкинг экспериментов в MLFlow"
Четверг 22 апреля, 18:00 по Москве

Наступает то время, когда MLops проникает в работу DS/DE/ML специалистов. Этот процесс можно сделать не слишком болезненным со специализированными инструментами, такими как MLflow - open source платформа для организации жизненного цикла ML. Она позволяет трекать эксперименты, хранить модели централизованно, создавать воспроизводимые и переносимые окружения, деплоить. И да - у нее есть UI.
Обсудим:
* как с помощью MLflow привнести в команду порядок в проведении ML экспериментов и какие от этого плюсы;
* общий обзор возможностей фреймворка;
* наглядная демонстрация real time.

Ссылка на зум будет доступна ближе к началу доклада через чат @sberlogadataclub
Записи докладов на ютубе https://www.youtube.com/c/SBERLOGA

Looking for speakers - Мы постоянно проводим небольшие семинары, где можно поделиться совими знаниями по теме Data Science/Data Engineering. Чтобы обсудить тему вашего доклада нужно написать - @boyadzhi или @Alexander_V_C

@sberloga
Ребята,
Не пропустите сегодняшний доклад в 18:00 Сергея Лаврикова: "Трэкинг экспериментов в MLFlow", ссылка на зум будет в @sberlogadataclub
Обсудим:
* как с помощью MLflow привнести в команду порядок в проведении ML экспериментов и какие от этого плюсы;
* общий обзор возможностей фреймворка;
* наглядная демонстрация real time.

Также выложили видео с докладов на прошлой неделе:

Инсаф Ашрапов: "TabGAN или как использовать ганы для табличных данных"
Ганы хорошо себя зарекомендовали себя в генерации изображений, их широко применяются и для генерации музыки и видео. В рамках же доклада попробуем рассмотреть табличные ганы. Начнем с двух публикаций TGAN и CTGAN. Далее рассмотрим, как можно приметь эти ганы для генерации данных в случае сильного смещения трейна относительно теста. И попробуем все это применить для одного датасета.

Курс Knowledge Graphs - Обсуждение Лекции 6 часть 1
Рекомендуем всем лекцию Вадима Сафронова (@VadymSafronov) - https://www.youtube.com/watch?v=2NemwwyK9x4 - она содержит (в том числе) краткий дайджест многих моментов известного стенфордского курса cs224w (от Лесковича) .
Сегодня мы продолжим ее просмотр и обсуждение - присоединяйтесь !
Мы обсудим машинное обучение на графах.
Ребята,
Кто меня знает, уже наверное в курсе, что я часто принимаю участие в забегах, учусь плавать и вообще спорту я уделяю много времени
Не так давно я для себя открыл движение parkrun
Паркраны проводятся каждую субботу в 9:00 - это бесплатные еженедельные забеги (5км), которые проводятся сообществом волонтеров по всему миру.
Причем это не соревнование, а именно дружественный забег.
Впервые я участвовал в нем 2 недели назад и там даже бабушка участвовала которая на палочках ходила 💪 надеюсь, в таком возрасте я тоже буду в состоянии заставить себя в субботу побегать 😅 сильно вдохновляет и радует когда такое видишь
На таких мероприятиях царит дружественная атмосфера и там можно познакомиться с кучей хороших людей, которые в том числе увлекаются спортом
Знаю много людей, которые почти всегда посещают новые паркраны, собирая уникальные локации. Причем даже в отпуск можно запланировать небольшую пробежку в новом месте 👍

Для участия требуется зарегистрироваться(форма) и распечатать штрихкод (можно сохранить на телефоне скрин) - его будут сканировать на финише чтобы ваш результат зачли

Если вы из Москвы - приглашаю вас завтра пробежать паркран в Мытищах
https://www.parkrun.ru/mytishchicentralpark/course/

🗺Предлагаю встретиться e Место старта - Старт у фонтана в центре парка
Около 8:30
📸 Сделаем Сберложную фотку

Если вы из другого города или страны - не беда, можно посмотреть ближайший паркран на карте (в россии проводится 94 parkrun, но это довольно скромно по сравнению с другими странами 🙃)

@sberlogasportsclub - чатик о спорте, заходите в нашу семью
Скидывайте свои фотки с забегов, делитесь впечатлениями, мы всем рады 🤗
Александр Рыжков (@RyzhkovAlex) и его коллеги по Sber AI Lab запускают практический курс по 🎓 LightAutoML - фреймворк для автоматического построения моделей машинного обучения. Фреймворк полностью открытый, так как opensource, работает пока на табличных данных, однако на этот год у нас достаточно плотный roadmap. Курс будут читать авторы и разработчики фреймворка - маcтера и градмастер Kaggle🥇🥇🎖. В конце всех лекций вас ждут лайфхаки и байки лучших практик Kaggle и анонс inclass-соревнования для слушателей курса🎁! Курс состоит из 9 вебинаров 🧑‍💻, будет проходить еженедельно по средам с 28 апреля в 19.00 по Мск. Регистрация по ссылке


Уверен, многие знают Андрея Лукьяненко (@erlemar) по его отличным кернелам на каггле (Андрей занимал топ 1 позицию по кернелам), а также по тому, что Андрей всегда рад делится своими знаниями и опытом. В прошедшем году Андрей получил награду одс по менторству и вот теперь в статье он делится своим опытом на эту тему :
https://andlukyane.com/blog/mentoring-experience
🚀 "SBERLOGA" представляет необычнейший доклад - дата сайнс (NLP, граф-мл) и философия - присоединяйтесь.
👨‍🔬 Антон Костин (МФТИ) "Философия на графах"
⌚️ Вторник 27 апреля, 19.00 по Москве

Разберем блокнот с кодом построения графа поверх текстовых эмбеддингов (fasttext).
На примере Louvain посмотрим, как алгоритмы модульности находят философские школы.
В задаче Link Prediction подумаем над неочевидными связями между разными школами и философами.
А также обсудим, будут ли студенты ВУЗов делать домашку по философии с использованием NLP
и дискретной математики (спойлер: на Физтехе уже начали)? Рассказывает преподаватель философии.

Ноутбуки и данные доступы на каггле:
https://www.kaggle.com/visualcomments/philosophy-ru-large
Ваши апвоут, конечно, приветствуются.

Ссылка на зум будет доступна через чат тг чат https://t.me/kg_course ближе к началу доклада.
🚀 Онлайн DS доклад
👨‍🔬 Александр Пономаренко (ВШЭ, ИПФ РАН) "Поиск перекрывающихся кластеров на графах"
⌚️ Четверг 6 мая, 18.00 по Москве

На докладе расскажем про метод поиска перекрывающихся кластеров в графе (Link Partitioning Around Mediods) https://arxiv.org/abs/1907.08731, https://github.com/aponom84/lpam-clustering
Суть метода: кластеризуются рёбра, а не вершины. Мы считаем, что вершина принадлежит нескольким сообществам, если она смежна с рёбрами из разных кластеров. Для кластеризации рёбер строится линейный графа, и на нём решается задача о p-медианах (facility location problem). Мы изучили как работает этот метод главным образом с двумя функциями расстояния: commute distance и с одиним из вариантов её коррекции – amplified commute distance.
Одно из преимущество метода – интуитивно понятный результат. Рёбра группируются вокруг некоторых центров.

Ссылка на зум будет доступна через тг чат https://t.me/sberlogawithgraphs ближе к началу доклада.
Ребята привет,
Майские "не рабочие" закончились и мы снова начинаем организовывать доклады по DataScience тематикам 👍 Скоро будет анонс 🥳
А пока можете ознакомиться с видео последних докладов:

Сергей Лавриков - Трэкинг экспериментов в MLFlow
Обсудили:
* как с помощью MLflow привнести в команду порядок в проведении ML экспериментов и какие от этого плюсы;
* общий обзор возможностей фреймворка;
* наглядная демонстрация real time.

Александр Пономаренко - Поиск перекрывающихся кластеров на графах
На докладе обсуждали метод поиска перекрывающихся кластеров в графе (Link Partitioning Around Mediods) https://arxiv.org/abs/1907.08731, https://github.com/aponom84/lpam-clustering
Суть метода: кластеризуются рёбра, а не вершины. Мы считаем, что вершина принадлежит нескольким сообществам, если она смежна с рёбрами из разных кластеров. Для кластеризации рёбер строится линейный графа, и на нём решается задача о p-медианах (facility location problem). Мы изучили как работает этот метод главным образом с двумя функциями расстояния: commute distance и с одиним из вариантов её коррекции – amplified commute distance.
Одно из преимущество метода – интуитивно понятный результат. Рёбра группируются вокруг некоторых центров.

Антон Костин - Философия на графах
Разбирали блокнот с кодом построения графа поверх текстовых эмбеддингов (fasttext).
На примере Louvain посмотрим, как алгоритмы модульности находят философские школы.
В задаче Link Prediction подумаем над неочевидными связями между разными школами и философами.
А также обсудим, будут ли студенты ВУЗов делать домашку по философии с использованием NLP
и дискретной математики (спойлер: на Физтехе уже начали)? Рассказывает преподаватель философии.
Ноутбуки и данные доступы на каггле:
https://www.kaggle.com/visualcomments/philosophy-ru-large

Курс Knowledge Graphs - Обсуждение Лекции 6 часть 2
Рекомендуем всем лекцию Вадима Сафронова (@VadymSafronov) - https://www.youtube.com/watch?v=2NemwwyK9x4 - она содержит (в том числе) краткий дайджест многих моментов известного стенфордского курса cs224w (от Лесковича)

@sberloga