Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
113 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🦾 Как улучшить производительность моделей без огромных вычислительных затрат

Авторы новой статьи изучили методы улучшения производительности моделей, которые можно применить к ним после обучения. Прелесть методов в том, что они не требуют больших вычислительных ресурсов. Их разбили на пять категорий:
✔️ Использование дополнительных инструментов.
✔️ Улучшение промптов.
✔️ Применение программ, которые структурируют reasoning модели и потоки информации между копиями модели.
✔️ Применение методов генерации и последующего выбора между несколькими вариантами решения проблемы.
✔️ Генерация более качественных данных для файн-тюнинга.

🔗 Блогпост по статье
📖 Сама статья
6👍2
👾 В каком направлении вам хотелось бы начать разбираться?

❤️ — NLP (обработка естественного языка)
👍 — компьютерное зрение
👾 — обучение с подкреплением

#интерактив
75👾56👍53
-35% на самый хардкорный курс по вышмату

🎄 Новый год начинается с подарков, а хороший подарок для себя — новые знания со скидкой 35%!

🌟«Математика для Data Science» — 19 490 ₽ (вместо 29 990 ₽)

Полугодовая программа от преподавателей МГУ, которая включает в себя все необходимые знания по математике для работы в Data Science.

Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.

У вас не будет шансов не усвоить какие-то темы курса👌

🔥 Переходите и активируйте вводные занятия курсаhttps://proglib.io/w/4468ec03
🔥2🥱1
Простая сегментация изображений в KerasCV

В KerasCV появилась модель Segment Anything, которая позволяет сегментировать изображения с помощью так называемых points prompts (точек-подсказок).

Инструмент легко использовать: достаточно передать модели координаты точки, и она выделит несколько участков на выбор. В примере сверху Segment Anything вернула как выделенное окно, так и машину целиком.

Создатель Keras Франсуа Шолле утверждает, что с бэкендом JAX инструмент работает в 5 раз быстрее на GPU, чем оригинальная реализация в PyTorch.

🔗Официальный туториал по Segment Anything в KerasCV
5
❤️ Подборка лучших книг для дата сайентистов

Все эти книги доступны в нашем канале «Книги для дата сайентистов | Data Science».

▪️Communicating with Data (2023)
В книге рассказывается, как эффективно работать с данными, анализировать и визуализировать их.
▪️Data Science Bookcamp (2021)
Описывает пять DS-проектов. На их примере автор разбирает распространённые проблемы, такие как отсутствие данных, бардак в данных и плохой выбор алгоритма.
▪️Learning Data Science (2023)
Книга даёт фундаментальные навыки как в программировании, так и в статистике.
▪️R for Data Science (2023)
В книге объясняется, как работать с помощью R и RStudio, а также tidyverse — коллекции пакетов R.
▪️Data Science from Scratch: First Principles with Python, Second Edition (2019)
Содержит ускоренный курс по Python, основы линейной алгебры, статистики и теории вероятностей, а также основы машинного обучения.
👍15🔥5
🤖 Искусственный интеллект объяснит предсказания нейронной сети

Интерпретация результатов работы нейронных сетей — это нерешённая задача. И она становится всё труднее по мере того, как модели увеличиваются и усложняются.

👨‍⚕️Исследователи из MIT предложили новый подход, который использует ИИ-алгоритм для проведения экспериментов на других моделях и объяснения их поведения. Этот алгоритм они назвали «automated interpretability agent» (AIA). Он способен выдавать объяснения результатов работы других ИИ в нескольких формах: языковое описание того, что система делает и в каких местах она ошибается, а также код для воспроизведения поведения системы.

Новый подход также включает набор тестов FIND для оценки методов интерпретации.

📖Прочесть статью исследователей
👍7👾2🔥1
cheat_sheet_rag.pdf
11.3 MB
✏️ Шпаргалка по RAG (Retrieval-Augmented Generation)

RAG — это способ улучшить ответы большой языковой модели (LLM), предоставляя ей доступ к конкретным документам.

🦙 Шпаргалка от создателей LlamaIndex рассказывает, как устроен простейший RAG и какие существуют методы его улучшения.

🔗Ссылка на шпаргалку и статью
👍9
👨‍🎓 Очень много туториалов по машинному обучению на Python

На GitHub обнаружили репозиторий с инструкциями, охватывающими обширный список тем. На каждую тему есть Jupyter Notebook с кодом и подробными объяснениями.

Вот какие темы можно найти:
▪️глубокое обучение: разные виды нейронных сетей,
▪️развёртывание моделей,
▪️извлечение информации из дополнительных источников для LLM,
▪️временные ряды,
▪️A/B-тестирование,
▪️классический ML,
▪️большие данные,
▪️скрипты на Python.

🔗 Ссылка на репозиторий
👍157
✏️Что такое коэффициент детерминации в машинном обучении

Также известен как R-квадрат. Он измеряет долю дисперсии, объяснённую моделью, в общей дисперсии целевой переменной.

👉В контексте линейной регрессии, например, R-квадрат показывает, насколько хорошо линия регрессии аппроксимирует реальные точки данных.

Значение коэффициента детерминации варьируется от 0 до 1. Чем ближе к единице, тем лучше модель объясняет данные.

Стоит учитывать, что высокий R-квадрат не всегда означает, что модель будет хорошо работать на новых данных.

✔️ Пример расчёта коэффициента детерминации в scikit-learn:
from sklearn.metrics import r2_score
y_true = [3, -0.5, 2, 7]
y_pred = [2.5, 0.0, 2, 8]
print(r2_score(y_true, y_pred)) # -> 0.948...
👍14🥱51🤔1
🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈
👍2
🧑‍💻 Особенности работы в айти: результаты опроса подписчиков

В декабре мы провели среди вас опрос, изучили результаты и сделали аналитическую статью на vc.ru.

Вот некоторые выводы:

🧔‍♂️ В основном наша аудитория состоит из мужчин — 92,1% опрошенных. Женщин, соответственно, всего 7,9%.
🐍 В ТОП-10 специальностей входят питонисты — их 12,4%. Дата-инженерами или дата-сайентистами себя назвали 3.7% респондентов.
👨‍🎓 25% аудитории — самоучки, у которых нет профильного образования, и они не заканчивали никаких платных курсов.
💲 У разработчиков с опытом менее года преобладают зарплаты до 90 000 рублей (88%). Если опыта 1-3 года, то доля получающих 150 000+ увеличивается до 53,6%.
💰 Опытные и образованные Python-разработчики (15,44%) также входят в шестёрку самых высокооплачиваемых специалистов.

🔗 Полный отчёт можно прочесть по этой ссылке

💬 Пишите, какие ещё подобные материалы вам было бы интересно почитать
👍3🔥2👾2😁1
🤖 Гайд: пишем Transformer с нуля

Отличный Jupyter-блокнот, в котором пошагово описан процесс создания собственной модели Transformer. Каждый кусок кода сопровождается подробным комментарием.

Автор начинает с предобработки текста и заканчивает полной сборкой работающей архитектуры. За основу он взял классическую статью Attention Is All You Need и видео Андрея Карпаты Let's build GPT: from scratch, in code, spelled out.

🔗 Ссылка на гайд
👍2431
😵‍💫 Чат-бот без галлюцинаций (ну, почти)

Команда Stanford's Open Virtual Assistant Lab создала WikiChat, который опирается на информацию из Wikipedia при генерации ответов. Это, по заверениям авторов, позволяет добиться 97.9% фактической точности при обсуждении свежих тем (на 55% лучше, чем у GPT-4.

Также благодаря дистилляции WikiChat получил значительный прирост в скорости работы.

👩‍💻 Репозиторий проекта на GitHub
💬 Онлайн-демо
📖 Исследовательская статья
👍103
☁️ Облачные среды для ML-разработки

🔵
Google Colaboratory
Скорее всего, вам известна эта платформа для выполнения кода Python в браузере. Бесплатная версия даёт доступ к GPU и TPU, но количество вычислительных единиц ограничено. Также недавно в Colab появился ИИ-помощник, что ускоряет написание кода.
- максимум 12 часов работы ноутбуков.
- около 80 ГБ дискового пространства.
Kaggle Notebooks
У Kaggle тоже есть своя бесплатная среда разработки. Предлагает:
- 12 часов работы для CPU- и GPU-сессий, а также 9 часов — для TPU-сессий.
- 20 ГБ дискового пространства.
- поддержка R.
🔵 Deepnote
Бесплатная версия поддерживает только до пяти проектов. Также можно опробовать Team-версию в течение двух недель.
- 5 ГБ RAM и 2vCPU для бесплатной версии.
- Поддержка Python, SQL и R.
- ИИ-помощник.
- Фишки для командной работы.
Amazon SageMaker
Можно попробовать бесплатно, но в этом случае доступ к GPU не предоставляется. Зато SageMaker позволяет создавать, обучать и развёртывать модели машинного обучения, используя блокноты, отладчики, конвейеры, MLOps и многое другое.
🔵 Yandex DataSphere
Это среда для ML-разработки полного цикла. В DataSphere можно не только проводить вычисления и обучать модели, но и запускать обученные модели в эксплуатацию. В качестве IDE предоставляет Jupyter Notebook. Для работы нужно подключить платёжный аккаунт.
9
💬 Сколько времени вы посвящаете самообразованию в области DS/ML?

👾 — стараюсь заниматься почти каждый день хотя бы час
🤩 — я сейчас в активной стадии обучения, уделяю этому по несколько часов в день
👍 — иногда (возможно, раз в две недели) узнаю что-то новое
🤔 — в основном работаю, на обучение времени не хватает
❤️ — свой вариант (делитесь в комментариях)

#интерактив
👾52🤔39🤩36👍312😁1
🎉 Python и неопытные программисты: наши лучшие статьи за 2023 год

За 2023 год «Библиотека программиста» опубликовала 227 статей, и Питон второй год подряд в ТОПе.

Вот 5 самых популярных материалов (сохраняй, если не читал):

🐛 9 признаков неопытного программиста
😢 Обратная сторона медали: 9 причин, почему тебе не нужно идти в IT
🚩 Кому не подходит работа в IT: 6 красных флагов
🐍📚 ТОП-15 книг по Python для начинающих и опытных разработчиков в 2023 году
🐍 Самоучитель по Python для начинающих. Часть 11: Функции с позиционными и именованными аргументами

Ещё больше итогов года, а также ссылки на «Самоучитель по Python для начинающих» здесь 👈
👍3😁3🥱1