Data Secrets
78.8K subscribers
6.42K photos
667 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Метрики в задачах регрессии

Вы просили и мы сделали: функции потерь для регрессии. Собрали все метрики от мала до велика: тут и всем известная MSE, и непопулярный Huber loss. Для каждой метрики привели формулу, рассказали о плюсах и минусах и объяснили, когда и что лучше использовать.

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58🔥146❤‍🔥1🏆1😇1
Все, что у нас есть по ICML к этому моменту

ICML – одна из трёх крупнейших международных конференций по машинному обучению. Как раз сейчас она в самом разгаре на Гавайях, США. Некоторые российские резерчеры тоже поехали принять участие и делиться материалами:

– Презентации по RLHF от HuggingFace и обучению agent-centric латентных репрезентаций динамики в RL’e и от ребят из Желтый AI.
Рассказ про Tensorflow-GNN и избранные постеры с конференции от Антона epsilon correct

Может кто-то из наших подписчиков тоже принимает участие? Делитесь в комментариях!

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
13🔥4👍3
Media is too big
VIEW IN TELEGRAM
Стрит-гейм How (not) to get hit by a self-driving car

В британском центре инноваций MyWorld придумали и воплотили в жизнь игру, в которой нужно добраться до финиша, при этом не попавшись ИИ-детектору. На большом экране отображается "процент распознавания", и, как только он превышает порог, game over. Можно использовать любые подручные предметы (в видео кто-то пытается прикрываться колясками и дорожными конусами).

В детектор вшит алгоритм Single Shot Detector (SSD), обученный на биг дате. Пока данных о том, какому проценту игроков удается обыграть ИИ, нет, но после каждого выигрыша человеку предлагается отправить запись раунда компании для улучшения качества модели.

Это новый вид краудсорсинга?

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2718🔥8🤯3👍2
Что почитать на выходных: три книги с полок наших редакторов

Мы провели внутреннее расследование и путем анализа биг-даты выяснили, какие DS-книги стоят на полках наших редакторов. Вот три из них. Читали?

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
36🤯6❤‍🔥4😨4👍3🔥21🐳1
😻 Превращаем комментарии в книжный клуб

Рассказывайте о технических книгах, которые читали: какая была самой полезной, какая самой интересной, а какая разочаровала? А может быть у вас есть любимая статья?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥53
Open AI закрывает сервис, выявляющий сгенерированные ИИ тексты, из-за большого количества ошибок, но есть альтернатива

Классификатор от Open AI правильно идентифицировал всего 26% написанного ИИ текста (true positive), в то время как текст, написанный человеком, неправильно помечал как написанный ИИ в 9% случаев (false positive). Для такого сервиса это очень большие проценты проколов, поэтому пока его закрывают.

Тем временем на сцену выходит более надежный инструмент – специальный интернет-протокол от Microsoft, Intel и Adobe. Он работает путем кодирования информации о происхождении с помощью набора хэшей, которые криптографически привязываются к каждому пикселю или символу. Подробнее можно прочитать о нем в статье от MIT.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯156👍2🗿1
Готовый колаб для файнтюнинга LLaMA-2

На просторах GitHub нашли Google Colab ноутбук, в котором есть весь необходимый код для запуска и файнтюнинга LLaMA-2. Что в нем происходит с технической точки зрения:

– загружаем данные
– настраиваем BitsAndBytesConfig, чтобы VRAM не взорвалась
– загружаем саму Llama 2 на GPU с соответствующим токенизатором
– добавляем parameter-efficient fine-tuning с помощью конфигураций QLoRA (опять же, чтобы поберечь память)
– далее обучаем и вуаля, модель готова к использованию (пример промптинга также есть в коде)

Отличная отправная точка, если вы хотели поработать с LLaMA-2 в своем проекте. Рекомендуем!

😻 #python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40🔥101
На какой ты стороне?

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
64👍25🌚7💅5😐3🤯1
Собрали весь самый полезный контент по DS с митапов X5 Tech за 2023 год:

PySpark Pipeline в помощь аналитикам больших данных для построения качественных ETL-процессов (+ презентация)

Propensity Score: как оценить эффект без стандартных A/B-тестов (+ презентация)

SLOVO: датасет русского жестового языка. Мотивация, проблемы и применения (+ презентация)

– X5 Customer Analytics Meetup про клиентскую аналитику (+ презентации спикеров)

X5 Data Science Meetup о том, чем занимаются математики в ритейле, про адаптацию ML-моделей под изменение поведения пользователя на примере умной колонки и многое другое (+ презентации спикеров)

Как адаптировать ML-модель под изменение поведения пользователя и повысить качество на примере умной колонки SberBoom (+ презентация)

Как мы освободили сотрудников от классификации обращений на 1000+ классов (+ презентация)

К сожалению, не реклама. X5 Tech, ждем...

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥84🤯1🤨1
Мы рады представить вам бесплатный курс «Автоматическое машинное обучение с помощью LightAutoML».

LightAutoML — это передовой фреймворк для автоматического построения моделей машинного обучения, разработанный специалистами Sber AI Lab.

Серия коротких лекций и семинаров позволит вам познакомиться с функционалом библиотеки и сразу же начать практическое применение полученных знаний для создания высокоэффективных моделей.

Вы познакомитесь с различными модулями LightAutoML, включая автоматический выбор моделей, предварительную обработку данных, оптимизацию гиперпараметров и построение ансамблей моделей для решения широкого спектра задач машинного обучения.

Приглашаем вас присоединиться к курсу по LightAutoML и погрузиться в мир автоматизированного машинного обучения прямо сейчас!

🔹 Курс «Автоматическое машинное обучение с помощью LightAutoML»

🔹 LightAutoML на GitHub

Реклама. Публичное акционерное общество «Сбербанк России», ПАО Сбербанк ИНН 7707083893
👍17🤪6👏2
Традиционно разминаемся на задачках по теории вероятностей перед новой рабочей неделей

На этот раз задача про шары. Разбор завтра, а пока ждем специалистов по теорверу в комментариях

😻 #задачи
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🤯2
Media is too big
VIEW IN TELEGRAM
В Google Deepmind представили модель RT-2 для робототехники

Это модель Vision-Language-Action, обученная на огромном количестве картинок и текстов. Идея такой архитектуры состоит в том, что большие языковые модели можно перекалибровать так, чтобы они могли управлять действиями робота. Действительно, ведь трансформеры на выходе могут выдавать любые последовательности, и в том числе последовательности команд. Главное – разметка данных для обучения.

Оказалось, что такая модель хорошо генерализуется. Связано это, скорее всего, с тем, что кроме сухих движений робосуставами она хорошо «понимает» внешний мир, начитавшись текстов о нем во время обучения. В этом плюс использования в робототехнике LLM: они наделяют робота не только умением двигаться, но и умением «рассуждать», как это делать и понимать сущность действия.

📖 Статья | 👩‍💻 Демо | ⚙️Блогпост

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍254🤯3🔥1
Data Secrets
Традиционно разминаемся на задачках по теории вероятностей перед новой рабочей неделей На этот раз задача про шары. Разбор завтра, а пока ждем специалистов по теорверу в комментариях 😻 #задачи
Разбор задачи про зеленые и красные шары

Вчера мы опубликовали задачу по теории вероятностей. И снова в комментариях нашлись те, кто был близок к ответу! А сегодня мы показываем наше решение и объясняем его на пальцах. Ну, как вам задача?

😻 #задачи
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45😨12🔥4🤯3🤔1