Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.8K subscribers
2.23K photos
111 videos
64 files
4.63K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
🧑‍💻 Анализ навыков data-специализаций в вакансиях HH.ru

Один из пользователей «Хабра» проанализировал вакансии на HeadHunter по следующим трём специализациям:
▪️BI/Data аналитик;
▪️Data Science;
▪️Продуктовый аналитик.

Автор также создал дашборд, где можно посмотреть требуемые навыки для каждой специализации, среднюю зарплату и количество вакансий по России.

🔗 Desktop-версия дашборда
🔗 Mobile-версия дашборда

👉 Здесь можно прочитать статью
🔥85👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🔥🎥 Adobe анонсировала ИИ-редактор для Premiere Pro

Компания показала на видео возможности модели Adobe Firefly. Скоро в Premiere Pro появится вкладка Generative, в которой будут следующие опции:

🔸Object Addition — позволяет выделить участок сцены и промптом указать, что именно там должно располагаться. Нужные объекты сгенерируются в нужном месте.
🔸Object Removal — объекты можно не только добавлять, но и убирать. Их выделение выглядит очень просто, и видимых следов от присутствия не остаётся.
🔸Generative Extend — позволяет расширить ваши футажи, чтобы добиться необходимой длительности ролика.

Все фишки появятся в Premiere Pro «позже в этом году». Кроме того, программу можно будет интегрировать со сторонними видеомоделями (Pika, Runway и, может быть даже, Sora от OpenAI).
🤩7🔥4
🤖💣 ИИ-ассистенты разработчика: скрытая угроза

Внедрение ИИ в процессы разработки и отладки неизменно сопровождается изматывающими обсуждениями с участием юристов, комплаенс-менеджеров и специалистов по кибербезопасности. И это понятно — никому не хочется нести ответственность за риски, связанные с безопасностью данных, конфиденциальностью и соблюдением авторских прав.

Однако самый важный вопрос — как использование ИИ повлияет на качество готового продукта — обычно остается без внимания. Именно эту проблему мы и обсудим.

🔗 Читать статью
🔗 Зеркало
👍6
💬 Начните писать в комментариях фразу «Искусственный интеллект скоро...», а подсказки при вводе пусть продолжат за вас.

#интерактив
🔥4😁4👾3
🧡 Гайд для новичков по Google Colab 💛

Один из специалистов Google по машинному обучению выпустил получасовой ролик, который охватывает все необходимые новичку тонкости использования Colab-ноутбуков.

🔸04:05 Виды ячеек
🔸10:49 Вызов подсказок
🔸13:02 Отрисовка графиков
🔸13:43 Создание форм
🔸15:07 Установка пакетов
🔸17:30 Интеграция с Google Drive
🔸19:41 Магические команды
🔸22:19 Установка секретов

🔗 Ссылка на видео
6
🖥 Итоги недели в мире Python и обзоры новых инструментов

У нас есть еженедельная рассылка о последних открытиях и тенденциях в мире Python. Мы опубликовали новый выпуск на 📰.

Ниже — небольшая часть выпуска, а целиком читайте здесь 👈

💬 Как автоматически создавать субтитры

В статье рассматривается простейший способ транскрипции видео и создания субтитров — с помощью Python, Whisper и FFmpeg.

▶️ Видеотуториалы

🔘Основные приёмы работы с SQLAlchemy
SQLAlchemy — это библиотека, предназначенная для работы с реляционными базами данных. Умеет выполнять все запросы, доступные в SQL.
🔘Клон ChatGPT на Django
Автор видео показывает, как сделать аналог знаменитого чат-бота с помощью Django, вебсокетов (Channels) и HTMX.

🛠 Инструменты

🔘Tkinter Designer — автоматически конвертирует дизайны Figma в код Tkinter GUI.
🔘drawpyo — библиотека для визуализации диаграмм, карт и схем Draw.io.
🔘Great Tables — создаёт привлекательные таблицы для визуализации данных из датафреймов Pandas и Polars.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4
🔥 Вышла новая PyTorch-библиотека для файн-тюнинга LLM

Библиотека называется torchtune. Она поддерживает весь воркфлоу, включая:

🔸 Загрузку и подготовку датасетов и чекпойнтов моделей;
🔸 Настройку процесса обучения с помощью разнообразных строительных блоков (как в torch);
🔸 Процесс логирования и метрики для отслеживания процесса обучения;
🔸 Квантизацию моделей после обучения;
🔸 Оценку моделей с помощью популярных бенчмарков;
🔸 Локальный запуск для тестирования.

🔗 Репозиторий torchtune
🔗 Туториалы по работе с библиотекой
🤩5👍4🥰2
🤔 Оптимизация гиперпараметров за 5 секунд?

Гиперпараметры — это характеристики модели, которые фиксируются ещё до начала обучения. Например, глубина решающего дерева и learning rate для градиентного спуска. Их подбор — очень важный этап обучения. Правильные значения гиперпараметров могут радикальным образом повлиять на производительность.

На «Хабре» опубликовали обзор следующих основных методов оптимизации гиперпараметров:
▫️Grid Search
▫️Random Search
▫️Байесовская/вероятностная оптимизация
▫️TPE (Tree-structured Parzen Estimator).

🔗 Читать статью
🔥9👍2
На вход нейросети подаётся фотография размером 227×227×3. К ней применяется свёрточный слой с фильтром размером 11×11. Всего применяется 96 фильтров с шагом 4. Каким будет размер выходного изображения после этого слоя?
Anonymous Quiz
32%
54x54x96
35%
55×55×96
20%
54x54
13%
55×55
👍5
🦙 Вышла Llama 3

Это самая крупная открытая языковая модель от Meta*. Ключевые особенности:

🔘Доступна сейчас в двух версиях: предобученная модель с 8 млрд параметров и дообученная на инструкциях модель на 70 млрд.
🔘Должна хорошо справляться со сложными, многоступенчатыми задачами и генерацией кода.
🔘Размер контекстного окна составляет 8 тысяч токенов.
🔘По бенчмаркам превосходит другие открытые LLM.
🔘Дообучение Llama 3 после этапа предтренировки производилось на 10 миллионах примерах, вручную размеченных людьми.

Известно также, что в процессе обучения находится модель с 400+ млрд параметров.

🔗 Репозиторий Llama 3
🔗 Страница моделей на Hugging Face
🔗 Ссылка на тестового чат-бота

*организация, деятельность которой запрещена на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82
👩‍💼Собеседование — самое важное событие для начинающего специалиста

Для многих новичков сам факт приглашения на собеседование — уже большое событие. И, как нам кажется, половина успеха!

Давайте проверим, насколько вы к нему готовы — мы выбрали три популярных вопроса, которые задают на собеседованиях будущим Data-специалистам; пишите свои ответы в комментариях!

1️⃣ Как оценить статистическую значимость анализа?

2️⃣ Приведите три примера распределений с длинным хвостом. Почему они важны в задачах классификации и регрессии?

3️⃣ Что такое центральная предельная теорема, и почему она важна?


#собес_academy
👍53🔥2
⬆️ Дорожная карта дата-сайентиста 2024

Очередную Roadmap составил один из реддиторов. В ней он перечислил необходимые специалисту по ИИ библиотеки, фреймворки и платформы. Цветом автор разметил уровень навыков:
💚 — обязательные и относительно простые;
💛 — более сложные;
❤️ — самые сложные в освоении.

👇Мы приводим укороченную версию списка со ссылками на наши обучающие материалы👇

▫️Python 💚
▫️Pandas 💚
▫️SQL 💚
▫️Django 💚
▫️Git 💚
▫️Алгоритмы машинного обучения 💚
▫️Kubernetes ❤️
▫️Большие языковые модели (LLM) 💛
👍8🔥64
⚡️Как войти в Data Science всего за год?

Очень кратко пересказываем историю одного специалиста, который устроился в Data Science после работы в авиационной промышленности. В карточках — его путь и одна из рекомендаций, а в статье по ссылке — большая подборка полезных ресурсов!

👉Читать статью

А чтобы следовать совету и окружить себя подходящим информационным фоном, изучайте другие классные статьи про Data Science:
⭐️Математические основы генеративных нейронных сетей: что нужно знать для их изучения
⭐️Что такое GPT: раскрываем тайны трансформеров
⭐️Как работают языковые модели (LLM): простое объяснение через аналогию с кулинарией
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
🧠 Теоретические основы популярных алгоритмов машинного обучения и их реализация с нуля на Python

Автор «Хабра» Егор Захаренко составил список собственных статей с описанием популярных алгоритмов классического машинного обучения. К каждой статье прилагается код на Python.

Обучение с учителем

🔸 Линейная регрессия и её модификации
🔸 Логистическая и Softmax-регрессии
🔸 Линейный дискриминантный анализ (LDA)
🔸 Наивный байесовский классификатор
🔸 Метод опорных векторов (SVM)
🔸 Метод K-ближайших соседей (KNN)
🔸 Дерево решений (CART)
🔸 Бэггинг и случайный лес
🔸 Алгоритмы AdaBoost (SAMME & R2)
🔸 Градиентный бустинг и его модификации
🔸 Стекинг и блендинг

Обучение без учителя

🔹 Метод главных компонент (PCA)
🔹 Популярные алгоритмы кластеризации

👉 Ноутбуки с алгоритмами можно скачать на Kaggle и GitHub.
🤩14👍6
Ответы на вопросы с собеседований

А вот и ответы на три вопроса с собеседований, которые мы недавно вам задавали!

1️⃣ Как оценить статистическую значимость анализа?

Для оценки статистической значимости нужно провести проверку гипотезы. Сначала определяют нулевую и альтернативную гипотезы. Затем рассчитывают p – вероятность получения наблюдаемых результатов, если нулевая гипотеза верна. Наконец, устанавливают уровень значимости alpha. Если p < alpha, нулевая гипотеза отвергается – иными словами, анализ является статистически значимым.

2️⃣ Приведите три примера распределений с длинным хвостом. Почему они важны в задачах классификации и регрессии?

Три практических примера: степенной закон, закон Парето и продажи продуктов (например, продукты-бестселлеры против обычных).

При решении задач классификации и регрессии важно не забывать о распределении с длинным хвостом, поскольку редко встречающиеся значения составляют существенную часть выборки. Это влияет на выбор метода обработки выбросов. Кроме того, некоторые методики машинного обучения предполагают, что данные распределены нормально.

3️⃣ Что такое центральная предельная теорема, и почему она важна?

Центральная предельная теорема (ЦПТ) говорит о том, что сумма достаточно большого количества слабо зависимых случайных величин с примерно одинаковыми масштабами имеет распределение, близкое к нормальному.

Центральная предельная теорема важна, поскольку она используется при проверке гипотез и расчете доверительных интервалов.

👉Хотите больше вопросов и ответы на них? Читайте нашу статью:
🎲 40 вопросов по статистике с собеседований на должность Data Scientist
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
🌐 Онлайн-обучение в ML: что это такое

В традиционном подходе модель обучается, используя весь набор данных сразу. Этот процесс часто сопровождается большими вычислительными затратами и не учитывает изменения в данных, которые происходят в реальном времени.

Что делать?

Можно обучать модель на одной точке входящих данных за раз. Например, вы храните на диске (или получаете в реальном времени из какого-то источника) обучающую выборку и не загружаете её в оперативную память. Тогда вы можете считывать объекты по одному и соответственно обновлять веса. После обработки всех объектов обучающей выборки значение функции потерь уменьшится (однако часто нужно несколько десятков проходов по выборке, чтобы оно уменьшилось достаточно).

🤔 Где можно применять:

▫️Анализ финансовых рынков;
▫️Системы мониторинга показателей здоровья;
▫️Обнаружение мошенничества.

🤖 Ограничения метода:

▫️Чувствительность к порядку поступающих данных;
▫️Меньший контроль за обучением;
▫️Проблемы с интерпретацией.
👍52