Sberloga
2.54K subscribers
133 photos
11 videos
5 files
209 links
Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot
Чат - @sberlogadataclub
Download Telegram
https://github.com/EulerSearch/embedding_studio
Знакомые знакомых сделали open-source либу на тему эмбедингов
Поставьте звездочку как откроете почитать о ней. Ребятам приятно будет. Если будут вопросы или комментарии - пишите обязательно 👍

PS присылайте мне в личку cвои библиотеки которые не стыдно показать и рассказать, напишу о них (@boyadzhi )
С наступающим! В последний рабочий день рекомендую посмотреть на еще одну либу наших друзей:

Augmentex - твой карманный аугментер текста.

Мы недавно вместе с коллегами опубликовали супер-либ SAGE. И зовётся супер-либ не случайно, тк состоит из генеративной части и нашей библиотеки Augmentex.

Если вы хотите получить возможность аугментации текстов на основе добавления опечаток, перестановок и др. и вам не нужны механики генеративной аугментации или custom имитации ошибок- это ваш выбор. Иначе юзайте SAGE.

Например, Augmentex работает на CPU и умеет, на основе general частот ngramm, заменять корректные символы/наборы символов на их комплиментарные ошибки. Тоже самое можно делать и на уровне слов. Встроена возможность добавлять пробелы между символами или склеивать слова и многое другое, см. мануал в репо.

Мы уже поддерживаем 2 языка - русский и английский, а также имитации general ошибок ввода с ПК и мобильной (поддержка Android/IOS раскладок) клавиатур.

Также мы планируем добавить наши bbox атаки , о которых я говорил в своих постах и на выступлениях. Атаки включают и encoders и LLM дискриминацию. Следите за обновлениями!

P. S. Использование атак в генерации батча при обучении наших моделей, добавляет устойчивости и апает метрики качества на 2-5%.
@dealerAI

Ставьте звездочки и присылайте свои либы о которых хотите рассказать (@boyadzhi)
Forwarded from LightAutoML framework (Alex Ryzhkov)
Коллеги, всем привет!

Давно мы не сообщали об обновлениях LightAutoML, но все это время мы не сидели сложа руки - сегодня ночью на PyPI появился релиз LAMA 0.3.8.1 с множеством полезных обновлений:

1) Теперь из коробки вам доступны 9 SOTA архитектур табличных нейросетей таких как MLP, DenseNet, DenseLight, ResNet, SNN, TabNet, NODE, FTTransformer и AutoInt++. Также были добавлены SOTA методы кодирования признаков - PLR и SoftEmb.

2) По многочисленным заявкам в LightAutoML был добавлен алгоритм SSWARM для расчета Shapely значений итоговой модели. Алгоритм позволяет работать с произвольной итоговой моделью (состоящей не только из бустингов) и если сравнивать его с KernelExplainer из SHAP, то удается получить нужные значения на 2-4 порядка быстрее (примерно на уровне TreeExplainer, который поддерживает только бустинги).

3) Всеми любимые отчеты о разработке моделей теперь можно строить для TabularUtilizedAutoML пресета

4) В новой версии LightAutoML поддерживает версии питона 3.8 - 3.11 включая оба конца, что позволяет использовать ее как на Kaggle, так и в Google Colab

5) Исправлено большое количество добавленных ранее багов и проблем с зависимостями (так, например, решена проблема с версией scikit-learn - теперь случайный лес работает в мультиаутпут задачах и временных рядах) 🙃

С примерами использования нововведений можно ознакомиться в нашем обновленном туториале и в кернелах (Tabular_NN, SSWARM_SHAP) на Kaggle.

Будем рады услышать ваш фидбек, а также вопросы/замечания/предложения по работе LightAutoML
Forwarded from Daniel
Митап Победителей в Лотерею 27 февраля!

Всем привет! Как вы, возможно, знаете Гипотеза Лотерейного Билета предполагает, что в нейросетях можно найти мощные подсети, способные обучаться не хуже полных сетей. Наши друзья погрузились в тему и хотят рассказать об этом. Приходите на наш митап, чтобы узнать о том, как можно выявить и оптимизировать такие подсети, и как это открывает двери к нейросетям следующего поколения. 🚀

🔍 Что будет на митапе:
- Узнаем какой прогресс по этой теме существует в мире.
- Посмотрим на работу с подсетью MobileNet_V3, потерявшей половину весов и менее 1% accuracy без дообучения весов.
- Откроем черный ящик нейросетей и разберемся, что происходит внутри.
- Поговорим про перспективы и возможности для разработки совсем иных нейросетей с меньшим количеством параметров, но с гораздо большими возможностями.

На мероприятии выступят:
- Голощапов Владислав (независимый исследователь)
- Денис Кузнеделев (Сколтех, Центр технологий искусственного интеллекта, Резидент исследовательского отдела ООО «ЯНДЕКС», лауреат Yandex ML Prize) 🌟

Доклады:
1. Ансамбль синапсов – структурная единица нейронной сети (Влад Голощапов)
2. История Оптимального хирурга для спарсификации нейронных сетей, в теории и на практике (Денис Кузнеделев)
3. Глубокий анализ полезности весов - путь к успешному прунингу (Влад Голощапов)
4. Как извлечь пользу из прунинга. Нейросети с адаптивно обучаемой архитектурой (Влад Голощапов)

Обязательная регистрация по ссылке

📅 27.02.2024
🕓 18:00 - 22:00
📍 Точка кипения

ODS Moscow
🔎 Ищешь работу в сфере аналитики, датасаенса или дата инженерии? Тогда подписывайся на канал в Telegram - Sberlogajobs!

📊 У нас публикуются только актуальные вакансии от ведущих компаний. Мы поможем тебе найти работу мечты!

💼 Подписывайся прямо сейчас: https://t.me/sberlogajobs

Не упусти свой шанс на успешное трудоустройство! 😉 #vacancy #jobsearch #analytics #datascience #dataengineering
💻 Улучшаем навыки программирования!

💬 Уже занимаюсь DS наверное лет 10, еще с тех пор когда слова "Data Science" даже не употреблялись. И, как мне видится, за все это время мало что изменилось с точки зрения написания кода - сложно читаемый, не воспроизводимый и непригодный для использования в production-системах. Кроме этого выявляются многочисленные проблемы, такие как нарушение логики, лики, ошибки реализации тех или иных функций которые в конечном счете влияют на результат.

💬 Хочу поговорить о том как можно улучшить свои скилы в плане написания production ready кода.
Ниже представлены несколько ресурсов, которые помогут систематизировать информацию, понять текущие пробелы в знаниях и начать их изучение:

1⃣ https://goodresearch.dev/
Сайт с базовыми знаниями о том как создавать и вести любой научный проект. От создания структуры проекта, работы с git, написание кода, документации, тестов и т.д. Кратко, понятно, а главное все по делу. Где нужно - есть дополнительные ссылки с более детальной информацией.
В общем если вы видели в своей жизни только jupyter notebook и не знаете с чего начать более сложный проект - начните с этого сайта.

2⃣ https://refactoring.guru/
Паттерны проектирования - нужно знать. Вы же на python код пишите все-таки. Кроме этого есть отдельный раздел по рефакторингу кода, который содержит типичные ошибки при написании кода и принципы которые помогут избегать их.
У меня сложная история с изучением этого материала, связанная с написанием проекта по парсингу документов судебных решений. История полная боли, ошибок, самоосознания насколько фиговый код я пишу, и в итоге - переписыванием кода с нуля, причем 2 или 3 раза. После переработки, код стал чище, понятнее, а главное - можно было легко его доработать.
Мой совет - изучите тему, даже если не все запомните, при реализации проекта вам будут приходить правильные мысли и возможно не потратите уйму времени на переписывание собственного кода.

3⃣ Lott Phillips - Python Object Oriented Programming 4th Edition (2021, Packt)
ООП в python
. Конечно я считаю, что посмотрев 2 скринкаста ниже можно основную информацию подчерпнуть сразу потратив всего 2 часа
https://www.youtube.com/watch?v=r1Y7m5bB7l8
https://www.youtube.com/watch?v=Eetg5HIxNow
Прочитать книгу все равно рекомендую если вы хотите улучшить свои хард скилы

4⃣ Luciano Ramalho - Fluent Python- Clear, Concise, and Effective Programming (2022, O'Reilly Media)
Думаю эта книга станет отличным дополнением для людей которые уже знают python и хотят узнать что-то новое. Там с первых строк будет понятно, что книга не для новичка - concurrency, async, метапрограммирование, датаклассы, ООП, функции, структуры данных. Вас ждет погружение в мир Python на максималках

🧑‍💻 Напишите в комментах свои рекомендации и чем вы пользовались
Forwarded from Reliable ML
Секция Career от Reliable ML на Data Fest 2024
25 мая в офисе VK, Москва

Всем привет!

Есть у нас с Димой такая традиция, каждый год в конце мая мы организуем секцию Reliable ML на Data Fest. А в этом году делаем аж три секции.

А все почему? Потому что очень много крутых докладов. Приходите послушать и обсудить!

Публикуем расписание секции Карьера, которая пройдет 25 мая офлайн в офисе VK в Москве.

Сначала поговорим с вами о рынке труда и карьерных вопросах со стороны работника/кандидата, а потом - со стороны руководителей команд.

Регистрация на площадку на 25 мая тут.

В этот же день после обеда будет вторая наша офлайн секция - Data Strategy. Расписание опубликуем чуть позже.

Ваш @Reliable ML

#datafest #offline #ods #career #reliable_ml #business
Друг из сообщества написал статью о том как начать работать с GNN для временных рядов. В комментариях можно найти ссылки на статьи, книги, доки. 👏

Лайк, репост статьи приветствуются 👍

https://www.linkedin.com/posts/nikita-iserson_graphneuralnetworks-gnn-timeseriesforecasting-activity-7199312050571866113-kImK

Так же у нас есть чатик для обсуждения графов
https://t.me/sberlogawithgraphs на случай если вы захотите в эту тему погрузиться и нужна будет помощь 💪
🤪 Это уже AGI?
Уже не новость, что
Docker hub перестал работать в России
И сразу же начали появляться зеркала, чтобы все работало, например
хуёкер.io
В принципе какое решение, такое и название🤣

А вот чего я еще не встречал, так это российские аналоги докера:
Коробки — российский аналог Docker

Ну что, на Коробки переходим? 🤣
Please open Telegram to view this post
VIEW IN TELEGRAM
Подборка статей от друга сообщества

Лайк, репост статьи приветствуются 👍

🔍 How to Detect Causal Lead-Lag Relationship in Multivariate Time-Series
ht
tps://www.linkedin.com/posts/nikita-iserson_causality-leadlag-finance-activity-7201121191581900800-P9Qa
про lead-lag зависимости во временных рядах

🔍 Large Language Models for Alternative Financial Data Extraction
h
ttps://www.linkedin.com/posts/nikita-iserson_topicmodeling-namedentityrecognition-relationextraction-activity-7208718110554566656-5Owl
про всякие последние подходы / библиотеки экстракции финансовых данных из текста (NER, REL, ABSA) с помощью LLM.

🔍 How to Avoid Overfitting and Spurious Correlations with Domain Knowledge?
ht
tps://www.linkedin.com/posts/nikita-iserson_benignoverfitting-spuriouscorrelations-domainknowledge-activity-7202199071636307969-t8oR
про монотонные ограничения в разных типах моделей, упомянул AutoWOE
Forwarded from AIRI Institute
Открыт прием заявок на Лето с AIRI!⚡️

В этом году мы запускаем Школу совместно с Передовой Инженерной Школой ИТМО. Программа пройдет в Санкт-Петербурге с 20 по 30 августа.

🗓 Подать заявку можно по ссылке до 23:59 14 июля 2024 года.

Школа включает в себя лекции, семинары и практическую работу по направлениям:

— Мультимодальные архитектуры и генеративный ИИ в промышленности
— Модели воплощенного ИИ и обучение с подкреплением в робототехнике
— Искусственный интеллект и химия
— Доверенный искусственный интеллект

📍Питание, обучение и проживание бесплатное, оплатить самим нужно будет только проезд.

Подавайте заявки и делитесь постом с друзьями и коллегами!
Кейсы ML system design

📖 На прошлой неделе провёл занятие со студентами шад мтс по кейсам ml system design. Тема была очень интересной, и мне даже понравилось в новой роли! В будущем обязательно расскажу об этом опыте подробнее.

🔍 Кстати, если вы планируете проходить собеседование на позицию специалиста по Data Science, то вам точно стоит разобраться в этой теме. Вот несколько причин, почему:

1️⃣ Вы узнаете разные подходы к решению задач (рексис, поиск, прайсинг). Это поможет вам поддержать разговор на собеседовании в соответствующую команду и ответить на вопросы.

2️⃣ Систематизация
Все ML системы строятся по определённому паттерну, и важно понимать, с чего начинать работу над проектом.

3️⃣ Новые знания
Разбираться в том, как работают другие команды, всегда интересно и полезно. Даже если вы никогда не будете заниматься поиском, всё равно стоит узнать, как решают проблемы в их отрасли

✅️ В общем, перед собеседованием посмотрите несколько кейсов ml system design, которые касаются команды куда идете и читайте больше литературы по этому вопросу.

Успехов на собеседовании!
❤️
https://job.mts.ru/vacancies
А тут можно наши вакансии
посмотреть.
В поиске вбить data scientist и выбрать продуктовый блок = BigData