Sberloga
2.53K subscribers
145 photos
14 videos
5 files
217 links
Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot
Чат - @sberlogadataclub
Download Telegram
Forwarded from Salute AI (Alexander Gavrilov)
⚡️ MERA – Multimodal Evaluation for Russian-language Architectures

В рамках AI Journey Алена Феногенова (SberDevices) и Денис Димитров (Sber AI) рассказали о новом открытом бенчмарке для русского языка для оценки фундаментальных моделей.

▪️ С помощью сложнейших для языковых моделей задач, MERA тестирует всё – от знаний о мире до этики и логики. Теперь оценить возможности таких гигантов, как ChatGPT, GigaChat, YandexGPT и LLAMA, можно в единых экспериментальных условиях.

Подробнее в статье на Хабре

Участники проекта – Альянс ИИ, SberDevices, Sber AI, MTS AI, Skoltech, НИУ ВШЭ и другие.

🌐 Новый бенчмарк MERA
🤗 Датасеты бенчмарка
🌐 Репозиторий проекта

Подписывайтесь 👉 Salute AI

#конференция_AI_Journey #MERA
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Nikita Zelinsky
Друзья, мы решили тоже попробовать в опенсорс по графам.
Библиотек сейчас много, обычно они поверх PyG или Torch Spatiotemporal.
Часто они заточены под конкретные задачи и требуют хорошей теоретической базы.
Мы же заметили что DS обычно (вряд ли в правда именно в этой группе) неохотно пробуют графовые сетки, не зная с чего начать.
Поэтому, чтобы снизить порог входа и, например, быстро проверить — дадут ли графовые данные прибавку именно в вашей задаче (например, если нужно принять решение о закупке) мы собрали из наших наработок небольшую библиотеку.
Пара слоев с парой типов графовых сверток (с фичами ребер и без), optuna для подбора архитектуры, функций активации и параметров и mlflow опционально для трекинга экспериментов + небольшие плюшки типа автоподбор размера батча. Реально не замахиваемся на великое и вечное, просто инструмент для быстрого старта. Если найдете время попробовать — будем очень признательны за фидбек и обязательно отработаем. Если поправите ошибок — будем долго вспоминать добрыми словами, поставите звезду — выпьем за ваше здоровье.
Если просто возникнет желание потроллить / набросить — тоже велкам, а то чет чат умирает )
https://github.com/MobileTeleSystems/CoolGraph
Forwarded from Pavel Bogomolov
Салют, GigaChat!
Речевые технологии и большие языковые модели

4 декабря приглашаем ML-разработчиков и Data Science-специалистов на встречу с командами разработки продакшн GigaChat и речевых технологий.
На митапе SberDevices ведущие разработчики GigaChat расскажут о новой модели, поделятся деталями сбора данных для предобучения и метриках, которых достигают 7B и 29B модели, лежащие в основе GigaChat.
Мы также поговорим о наших подходах в разработке речевых технологий (ASR/TTS):
— создание моделей распознавания речи;
— дообучение для задач распознавания речи и эмоций;
— какие модификации мы сделали в обучении, архитектуре и инференсе моделей TTS, чтобы победить прод и научить модель разговаривать лучше и др.

В программе:

Федор Минькин, технический директор GigaChat — «Открытие митапа, о команде, обзор разработки GigaChat»
Григорий Лелейтнер (команда GigaChat) — «Что мы улучшили в процессе pre-training LLM»
Эмиль Шакиров и Никита Сидоров (команда GigaChat) — «Наш путь в процессе Alignment для совершенства моделей глубокого обучения»
Александр Максименко (команда Speech) — «Speech-only Pre-training: обучение универсального аудиоэнкодера»
Григорий Федоров (команда Speech) — «Intended Query Detection: распознаем только нужные запросы»
Гриша Стерлинг (команда Speech) — «Как мы заставили модель синтеза речи 2023 года говорить лучше модели 2018 года»

Участвуйте в дискуссиях с другими участниками митапа и задавайте вопросы спикерам во время докладов.

Количество мест в офлайне ограничено. Для участия необходимо зарегистрироваться на сайте https://sberdevices-meetup.jugru.org/
Forwarded from Salute AI (Alexander Gavrilov)
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Boi diaries
DeepMind, возможно, снова резко пнули кинули двинули (!) науку вперёд (как с AlphaFold):
представили GNoME (Graph Networks for Material Exploration)

1) Это графовая сетка, способная не только предсказывать кристаллические структуры материалов, но и их стабильность
2) Все найденные материалы (а их уже, по словам ДМ, 380,000 - стабильных, и 2.2 млн всего) будут выложены в открытый доступ
3) За последнеи десять лет вычислительным путём было найдено около 28 тысяч стабильных кристаллических структур ⇒ то есть DM, по их подсчётам, набросал эквивалент ~800 лет ресерча
4) Среди обнаруженного - 52,000 потенциально новых структур графен-подобных материалов (сверхпроводники), 528 аналогов литиевых проводников (аккумуляторы)
5) Состоит из двух путей: структурного (аналоги известных материалов) и композиционного (~рандомная генерация) ➟ проверка на стабильность ➟ дальнейшая проверка (Density Functional Theory)

📚 Папира
🎥 Минутный видос - дашборд, как люди заходили и использовали БД с материалами (чут чут кусат завораживает)
📚 Беркли делает лабу для автономного синтеза материалов. Выглядит модно, и за 17 дней эксперимента насинтезировала 41/58 материалов - для сравнения, человеку могут потребоваться недели-месяцы на один материал (особенно когда нет финансирования...)
Forwarded from Reliable ML
Mattermost ODS

После отключения ods.ai в slack сообщество разбежалось по разным каналам, чатам и мессенджерам. Кто-то кого-то банил, кто-то с кем-то спорил, где-то все тормозило и так далее.
Все это время нас регулярно спрашивали о площадке для общения сообщества, есть ли что-то "как раньше".
"Как раньше" уже не будет никогда, но мы подняли сервер Mattermost, на который может зайти любой, имеющий аккаунт на ods.ai.

Технические детали:
Авторизация сделана через OAuth, на бесплатной версии mattermost это работает только через Gitlab. Поэтому мы подняли сервер авторизации, который притворяется Gitlab сервером, а сам берет доступы с сайта ods.ai. Это объясняет, почему авторизация на сервере такая кривая ;-) Потихоньку прикрутим прямее.

Инструкция по подключению - здесь.

Ваш @Reliable ML

#ods #mattermost
Forwarded from NLP Core Team (Denis Kokosinskiy)
📊 Опубликовали бенчмарк RealCode_eval

https://github.com/NLP-Core-Team/RealCode_eval

RealCode_eval - наш новый бенчмарк по оценке возможностей генерации кода языковыми моделями. Задача для модели состоит в генерации тела для функции (или метода) в реальных репозиториях с гитхаба. Популярные существующие бенчмарки по генерации кода, такие как HumanEval, MBPP или AlphaCode, состоят из задач соревновательного программирования, таких как на LeetCode или CodeForces. RealCode же проверяет модели в условиях реальной разработки. Функции взяты из репозиториев на питоне, опубликованных летом 2023 года. Это означает, что популярные открытые модели Codellama и Starcoder этих репозиториев не видели.

Для оценки сгенерированных функций используем execution-based подход: подставляем сгенерированное тело функции в файл, запускаем тесты репозитория и сравниваем количество пройденных тестов между сгенерированным и настоящим телом функции.
https://github.com/EulerSearch/embedding_studio
Знакомые знакомых сделали open-source либу на тему эмбедингов
Поставьте звездочку как откроете почитать о ней. Ребятам приятно будет. Если будут вопросы или комментарии - пишите обязательно 👍

PS присылайте мне в личку cвои библиотеки которые не стыдно показать и рассказать, напишу о них (@boyadzhi )
С наступающим! В последний рабочий день рекомендую посмотреть на еще одну либу наших друзей:

Augmentex - твой карманный аугментер текста.

Мы недавно вместе с коллегами опубликовали супер-либ SAGE. И зовётся супер-либ не случайно, тк состоит из генеративной части и нашей библиотеки Augmentex.

Если вы хотите получить возможность аугментации текстов на основе добавления опечаток, перестановок и др. и вам не нужны механики генеративной аугментации или custom имитации ошибок- это ваш выбор. Иначе юзайте SAGE.

Например, Augmentex работает на CPU и умеет, на основе general частот ngramm, заменять корректные символы/наборы символов на их комплиментарные ошибки. Тоже самое можно делать и на уровне слов. Встроена возможность добавлять пробелы между символами или склеивать слова и многое другое, см. мануал в репо.

Мы уже поддерживаем 2 языка - русский и английский, а также имитации general ошибок ввода с ПК и мобильной (поддержка Android/IOS раскладок) клавиатур.

Также мы планируем добавить наши bbox атаки , о которых я говорил в своих постах и на выступлениях. Атаки включают и encoders и LLM дискриминацию. Следите за обновлениями!

P. S. Использование атак в генерации батча при обучении наших моделей, добавляет устойчивости и апает метрики качества на 2-5%.
@dealerAI

Ставьте звездочки и присылайте свои либы о которых хотите рассказать (@boyadzhi)
Forwarded from LightAutoML framework (Alex Ryzhkov)
Коллеги, всем привет!

Давно мы не сообщали об обновлениях LightAutoML, но все это время мы не сидели сложа руки - сегодня ночью на PyPI появился релиз LAMA 0.3.8.1 с множеством полезных обновлений:

1) Теперь из коробки вам доступны 9 SOTA архитектур табличных нейросетей таких как MLP, DenseNet, DenseLight, ResNet, SNN, TabNet, NODE, FTTransformer и AutoInt++. Также были добавлены SOTA методы кодирования признаков - PLR и SoftEmb.

2) По многочисленным заявкам в LightAutoML был добавлен алгоритм SSWARM для расчета Shapely значений итоговой модели. Алгоритм позволяет работать с произвольной итоговой моделью (состоящей не только из бустингов) и если сравнивать его с KernelExplainer из SHAP, то удается получить нужные значения на 2-4 порядка быстрее (примерно на уровне TreeExplainer, который поддерживает только бустинги).

3) Всеми любимые отчеты о разработке моделей теперь можно строить для TabularUtilizedAutoML пресета

4) В новой версии LightAutoML поддерживает версии питона 3.8 - 3.11 включая оба конца, что позволяет использовать ее как на Kaggle, так и в Google Colab

5) Исправлено большое количество добавленных ранее багов и проблем с зависимостями (так, например, решена проблема с версией scikit-learn - теперь случайный лес работает в мультиаутпут задачах и временных рядах) 🙃

С примерами использования нововведений можно ознакомиться в нашем обновленном туториале и в кернелах (Tabular_NN, SSWARM_SHAP) на Kaggle.

Будем рады услышать ваш фидбек, а также вопросы/замечания/предложения по работе LightAutoML
Forwarded from Daniel
Митап Победителей в Лотерею 27 февраля!

Всем привет! Как вы, возможно, знаете Гипотеза Лотерейного Билета предполагает, что в нейросетях можно найти мощные подсети, способные обучаться не хуже полных сетей. Наши друзья погрузились в тему и хотят рассказать об этом. Приходите на наш митап, чтобы узнать о том, как можно выявить и оптимизировать такие подсети, и как это открывает двери к нейросетям следующего поколения. 🚀

🔍 Что будет на митапе:
- Узнаем какой прогресс по этой теме существует в мире.
- Посмотрим на работу с подсетью MobileNet_V3, потерявшей половину весов и менее 1% accuracy без дообучения весов.
- Откроем черный ящик нейросетей и разберемся, что происходит внутри.
- Поговорим про перспективы и возможности для разработки совсем иных нейросетей с меньшим количеством параметров, но с гораздо большими возможностями.

На мероприятии выступят:
- Голощапов Владислав (независимый исследователь)
- Денис Кузнеделев (Сколтех, Центр технологий искусственного интеллекта, Резидент исследовательского отдела ООО «ЯНДЕКС», лауреат Yandex ML Prize) 🌟

Доклады:
1. Ансамбль синапсов – структурная единица нейронной сети (Влад Голощапов)
2. История Оптимального хирурга для спарсификации нейронных сетей, в теории и на практике (Денис Кузнеделев)
3. Глубокий анализ полезности весов - путь к успешному прунингу (Влад Голощапов)
4. Как извлечь пользу из прунинга. Нейросети с адаптивно обучаемой архитектурой (Влад Голощапов)

Обязательная регистрация по ссылке

📅 27.02.2024
🕓 18:00 - 22:00
📍 Точка кипения

ODS Moscow
🔎 Ищешь работу в сфере аналитики, датасаенса или дата инженерии? Тогда подписывайся на канал в Telegram - Sberlogajobs!

📊 У нас публикуются только актуальные вакансии от ведущих компаний. Мы поможем тебе найти работу мечты!

💼 Подписывайся прямо сейчас: https://t.me/sberlogajobs

Не упусти свой шанс на успешное трудоустройство! 😉 #vacancy #jobsearch #analytics #datascience #dataengineering
💻 Улучшаем навыки программирования!

💬 Уже занимаюсь DS наверное лет 10, еще с тех пор когда слова "Data Science" даже не употреблялись. И, как мне видится, за все это время мало что изменилось с точки зрения написания кода - сложно читаемый, не воспроизводимый и непригодный для использования в production-системах. Кроме этого выявляются многочисленные проблемы, такие как нарушение логики, лики, ошибки реализации тех или иных функций которые в конечном счете влияют на результат.

💬 Хочу поговорить о том как можно улучшить свои скилы в плане написания production ready кода.
Ниже представлены несколько ресурсов, которые помогут систематизировать информацию, понять текущие пробелы в знаниях и начать их изучение:

1⃣ https://goodresearch.dev/
Сайт с базовыми знаниями о том как создавать и вести любой научный проект. От создания структуры проекта, работы с git, написание кода, документации, тестов и т.д. Кратко, понятно, а главное все по делу. Где нужно - есть дополнительные ссылки с более детальной информацией.
В общем если вы видели в своей жизни только jupyter notebook и не знаете с чего начать более сложный проект - начните с этого сайта.

2⃣ https://refactoring.guru/
Паттерны проектирования - нужно знать. Вы же на python код пишите все-таки. Кроме этого есть отдельный раздел по рефакторингу кода, который содержит типичные ошибки при написании кода и принципы которые помогут избегать их.
У меня сложная история с изучением этого материала, связанная с написанием проекта по парсингу документов судебных решений. История полная боли, ошибок, самоосознания насколько фиговый код я пишу, и в итоге - переписыванием кода с нуля, причем 2 или 3 раза. После переработки, код стал чище, понятнее, а главное - можно было легко его доработать.
Мой совет - изучите тему, даже если не все запомните, при реализации проекта вам будут приходить правильные мысли и возможно не потратите уйму времени на переписывание собственного кода.

3⃣ Lott Phillips - Python Object Oriented Programming 4th Edition (2021, Packt)
ООП в python
. Конечно я считаю, что посмотрев 2 скринкаста ниже можно основную информацию подчерпнуть сразу потратив всего 2 часа
https://www.youtube.com/watch?v=r1Y7m5bB7l8
https://www.youtube.com/watch?v=Eetg5HIxNow
Прочитать книгу все равно рекомендую если вы хотите улучшить свои хард скилы

4⃣ Luciano Ramalho - Fluent Python- Clear, Concise, and Effective Programming (2022, O'Reilly Media)
Думаю эта книга станет отличным дополнением для людей которые уже знают python и хотят узнать что-то новое. Там с первых строк будет понятно, что книга не для новичка - concurrency, async, метапрограммирование, датаклассы, ООП, функции, структуры данных. Вас ждет погружение в мир Python на максималках

🧑‍💻 Напишите в комментах свои рекомендации и чем вы пользовались
Forwarded from Reliable ML
Секция Career от Reliable ML на Data Fest 2024
25 мая в офисе VK, Москва

Всем привет!

Есть у нас с Димой такая традиция, каждый год в конце мая мы организуем секцию Reliable ML на Data Fest. А в этом году делаем аж три секции.

А все почему? Потому что очень много крутых докладов. Приходите послушать и обсудить!

Публикуем расписание секции Карьера, которая пройдет 25 мая офлайн в офисе VK в Москве.

Сначала поговорим с вами о рынке труда и карьерных вопросах со стороны работника/кандидата, а потом - со стороны руководителей команд.

Регистрация на площадку на 25 мая тут.

В этот же день после обеда будет вторая наша офлайн секция - Data Strategy. Расписание опубликуем чуть позже.

Ваш @Reliable ML

#datafest #offline #ods #career #reliable_ml #business
Друг из сообщества написал статью о том как начать работать с GNN для временных рядов. В комментариях можно найти ссылки на статьи, книги, доки. 👏

Лайк, репост статьи приветствуются 👍

https://www.linkedin.com/posts/nikita-iserson_graphneuralnetworks-gnn-timeseriesforecasting-activity-7199312050571866113-kImK

Так же у нас есть чатик для обсуждения графов
https://t.me/sberlogawithgraphs на случай если вы захотите в эту тему погрузиться и нужна будет помощь 💪
🤪 Это уже AGI?
Уже не новость, что
Docker hub перестал работать в России
И сразу же начали появляться зеркала, чтобы все работало, например
хуёкер.io
В принципе какое решение, такое и название🤣

А вот чего я еще не встречал, так это российские аналоги докера:
Коробки — российский аналог Docker

Ну что, на Коробки переходим? 🤣
Please open Telegram to view this post
VIEW IN TELEGRAM