Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎯 Компромисс смещения и дисперсии в машинном обучении

Пора раз и навсегда разобраться с bias (смещение) и variance (дисперсия/разброс). Компромисс между ними — довольно важная штука при обучении модели. Если коротко, смещение отражает разницу между прогнозируемым и ожидаемым значениями, а дисперсия характеризует разброс предсказаний в зависимости от обучающей выборки. В идеале нам хотелось бы, чтобы и смещение, и разброс были низкими.

В статье автор показывает, откуда берутся bias и variance математически (для MSE) и как сделать разложение на смещение и разброс на наборе данных о диабете индейцев пима, а также рассказывает, как всё-таки добиться компромисса.

Читать статью

👏3👍1🔥1

2.71K views07:14

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Как ускорить генерацию изображений Stable Diffusion? Применить LCM-LoRA

Авторы нового метода утверждают, что любую Stable Diffusion XL (SDXL) модель можно заставить работать быстрее — на RTX 3090 сгенерировать картинку получится за одну секунду вместо семи, а на M1 Mac за шесть секунд вместо приблизительно минуты. Количество шагов генерации снижается с нескольких десятков до четырёх.

📖 Подробный препринт про LCM-LoRA
👁️ Демо с SDXL
💻 Пост с примером кода

👍4

2.59K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🏎️ Очередное ускорение: создана технология для оптимизации вычислений на GPU в режиме реального времени

Компания Fujitsu объявила о разработке «первой в мире» технологии, которая автоматически перераспределяет вычисления между GPU и CPU, чтобы ресурсы использовались наилучшим образом.

Технология определяет, какие программы требуют GPU, а какие могут без особого ущерба обойтись CPU. Работает это так:
🔸 Например, есть три программы, один CPU и два GPU. Графические процессоры назначают программам 1 и 2.
🔸 Затем в ответ на запрос от программы 3 GPU «забирают» у программы 1 и временно передают третьей для оценки производительности. То есть технология измеряет, насколько будет улучшена производительность, если программа 3 будет работать на графическом процессоре.
🔸 Если в результате оценки выяснится, что время обработки будет значительно снижено, GPU действительно отдают программе 3.
🔸 После того, как закончится обработка программы 2, второй GPU станет свободным и его передадут программе 1.

В результате всех манипуляций общее время вычислений сокращается. Fujitsu утверждает, что технология позволяет ускорить процесс обучения моделей искусственного интеллекта, в том числе передовых моделей для распознавания изображений.

Технология оптимизации будет реализована на собственной платформе компании Fujitsu Kozuchi.

❤7👍3

2.65K views07:13

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Свежий #дайджест по статьям и видеороликам:

✍️ Обзор методов повышения производительности LLM
Это один из роликов с конференции DevDay, которые OpenAI опубликовала только сегодня ночью. Представленные выступления шли после блока анонсов от главы компании Сэма Альтмана. В них разработчики рассказали любопытные подробности.
✍️ Влияние больших языковых моделей на научные открытия
Практически книга, в которой рассказывается, как GPT-4 применим в открытии лекарств, биологии, вычислительной химии и т.д.
✍️ Эмбеддинги слов в PyTorch + Lightning
Ролик с песнями, объясняющий, как всё это накодить и использовать в PyTorch.
✍️ Введение в архитектуру MLOps
В статье перечислены ключевые компоненты архитектуры MLOps: от хранения данных до деплоя моделей и их мониторинга.
✍️ Как научить Transformer обрабатывать длинные тексты
Обзор основных идей по оптимизации self-attention.

❤2🥰2

3.07K viewsedited 11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

😒 Расскажите, вы испытывали разочарование от взаимодействия с ИИ?

Инструментов с искусственным интеллектом сейчас больше, чем когда-либо, и все пишут об их крутизне. Но что, если ваш опыт говорит об обратном? Делитесь впечатлениями от попыток внедрить ChatGPT, Midjourney и др. инструменты в работу (и не только в работу) 👇

👍1

2.56K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔈16+ лучших нейронок для синтеза речи

Предлагаем подборку платных, бесплатных и опенсорсных инструментов для озвучивания текста, клонирования голоса и дублированного перевода подкастов и видео.

Читать статью

👍5🔥4❤2

20.6K views07:14

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека собеса по Data Science | вопросы с собеседований

Чем отличаются друг от друга XGBoost, CatBoost и LightGBM?

⚫ XGBoost (eXtreme Gradient Boosting):
- Строит деревья одинаковой конкретной глубины. Построение идёт послойно, а затем отсекаются листья.
- Имеет механизмы регуляризации, чтобы предотвращать переобучение.
⚫ CatBoost:
- Специализируется на работе с категориальными данными и не требует их предварительной обработки.
- Использует симметричные деревья, что делает процесс обучения быстрее.
⚫ LightGBM (Light Gradient Boosting Machine):
- Строит деревья, ориентируясь не на уровень, а на каждый конкретный лист. Добавляет лист, если разделение по нему даёт прирост в информации.
- Использует технику называемую Gradient-based One-Side Sampling (GOSS), которая уменьшает количество данных в процессе обучения. За счёт этого возрастает скорость.
- Есть механизм Exclusive Feature Bundling (EFB), который объединяет взаимоисключающие переменные в одну. Это тоже увеличивает скорость расчёта.

Для лучшего понимания можно посмотреть лекцию

👍17🥰3

2.82K views18:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤷‍♂️ Пока без платной подписки: OpenAI приостановила покупку ChatGPT Plus

Об этом сообщил глава компании Сэм Альтман в X (бывший Twitter). Он пояснил, что после недавней конференции OpenAI перестало хватать вычислительных ресурсов из-за всплеска активности пользователей. Компания пришлёт уведомление, когда платная подписка снова станет доступна, но точная дата неизвестна.

👀 Тем временем разработчики OpenAI уже корпят над GPT-5. Альтман подтвердил это в интервью Financial Times. Сроки выхода новой модели он тоже не обозначил. GPT-5 обучают не только на открытых данных из интернета, но и на базах данных некоторых компаний. Что именно сможет делать новая модель, Альтман сказать затрудняется.

👍2😁2❤1

2.78K viewsedited 07:27

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

✍️ Полезное расширение для JupyterLab — Einblick. Позволяет манипулировать датафреймами с помощью запросов на естественном языке

Для работы нужно:
🔸 установить расширение командой pip install ai-einblick-prompt
🔸 создать Jupyter-блокнот в среде JupyterLab, загрузить данные
🔸 нажать справа в ячейке на логотип Einblick
🔸 в появившемся выпадающем меню выбрать генерацию и написать запрос

Примеры запросов:
- «Create a box plot of col_3.»
- «Filter for cat_1, cat_2, and cat_3.»
- «Create a new column, col_1 by splitting col_2 on „-“.»

В ответ на это в следующей ячейке появится соответствующий код.

Убедитесь, что у вас установлена последняя версия JupyterLab для корректной работы.

🐍 Страница расширения на PyPI
🧑‍💻 Сайт с примерами промптов

👏7❤1

3.05K views11:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Наивный байесовский классификатор назвали наивным, потому что...

Anonymous Quiz

30%

он предполагает, что каждый класс имеет одинаковую вероятность появления

его результат обычно хуже, чем у других классификаторов

67%

он предполагает, что все признаки независимы друг от друга

827 voters2.64K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Хардкорный вышмат для тех, кто интересуется ML, AI, DS

Начать с бесплатного демо-доступа можно здесь, ответив всего на 4 вопроса – https://proglib.io/w/100f1763

Что будет на демо?

– Вводный урок от CPO курса

– Лекции со всеми преподавателями МГУ по темам: теория множеств, непрерывность функции, основные формулы комбинаторики, матрицы и операции над ними, градиентный спуск.

– Практические задания и дополнительные материалы!

⚡️Переходите и активируйте – https://proglib.io/w/100f1763

2.68K views06:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

1:29

Media is too big

VIEW IN TELEGRAM

🦄 Вышла новая Emu Video для генерации видео по тексту и картинке

Работает на базе диффузионных моделей. Представленная Meta* система может взаимодействовать с разными входными данными: только текстом, только изображением или и с тем, и с другим одновременно. Внутри Emu Video процесс делится на два этапа: сначала идёт генерация картинки на базе текстового описания, а затем генерация видео на базе созданного изображения и текста. Система способна выдавать 4-секундные ролики 512x512 с 16 fps.

Качество нам нравится.

Помимо этого, Meta* анонсировала Emu Edit — модель для редактирования фотографий с помощью текстовых запросов. Можно попросить убрать что-то с изображения или добавить надпись — система будет работать только с теми пикселями, которые имеют отношение к запросу на редактирование.

👩‍💻Статья по Emu Video
👩‍💻Статья по Emu Edit

*организация, деятельность которой запрещена на территории РФ

🥰5👍2

2.64K views07:22

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🗞️ Небольшой обзор новостей этой недели:

🍄 Кембриджский словарь назвал «галлюцинировать» словом года. Эксперты отметили, что теперь это слово используется в переносном значении в контексте ИИ. Когда модель галлюцинирует, это значит, что она выдаёт ложную информацию.

💻 Microsoft Azure представила свой первый AI-чип — Maia 100. Он сделан по 5-нм техпроцессу и получил 105 млрд транзисторов. Процессор предназначен для обучения и использования моделей искусственного интеллекта, в том числе больших языковых моделей, в облаке.

🎶 YouTube анонсировал ИИ-сервисы для генерации музыки. Инструмент Dream Track на базе модели Lyria может сгенерировать 30-секундную композицию в стиле одного из девяти исполнителей, в числе которых Charli XCX, Sia, T-Pain и Трой Сиван.

🌧️ Google DeepMind разработала модель предсказания погоды GraphCast, которая превосходит в точности традиционные системы прогнозов. Она способна создавать точный 10-дневный прогноз менее чем за минуту.

#чтопроисходит

❤3👍1🔥1

2.63K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека питониста | Python, Django, Flask

🐍🎨 Генерация красивых QR-кодов с помощью Python

С помощью этого руководства вы узнаете, как использовать Python и библиотеку Segno для создания красивых QR-кодов.

Читать статью

🔥3

2.6K views07:17

About

Blog

Apps

Platform