🧠 Теоретические основы популярных алгоритмов машинного обучения и их реализация с нуля на Python
Автор «Хабра» Егор Захаренко составил список собственных статей с описанием популярных алгоритмов классического машинного обучения. К каждой статье прилагается код на Python.
Обучение с учителем
🔸 Линейная регрессия и её модификации
🔸 Логистическая и Softmax-регрессии
🔸 Линейный дискриминантный анализ (LDA)
🔸 Наивный байесовский классификатор
🔸 Метод опорных векторов (SVM)
🔸 Метод K-ближайших соседей (KNN)
🔸 Дерево решений (CART)
🔸 Бэггинг и случайный лес
🔸 Алгоритмы AdaBoost (SAMME & R2)
🔸 Градиентный бустинг и его модификации
🔸 Стекинг и блендинг
Обучение без учителя
🔹 Метод главных компонент (PCA)
🔹 Популярные алгоритмы кластеризации
👉 Ноутбуки с алгоритмами можно скачать на Kaggle и GitHub.
Автор «Хабра» Егор Захаренко составил список собственных статей с описанием популярных алгоритмов классического машинного обучения. К каждой статье прилагается код на Python.
Обучение с учителем
🔸 Линейная регрессия и её модификации
🔸 Логистическая и Softmax-регрессии
🔸 Линейный дискриминантный анализ (LDA)
🔸 Наивный байесовский классификатор
🔸 Метод опорных векторов (SVM)
🔸 Метод K-ближайших соседей (KNN)
🔸 Дерево решений (CART)
🔸 Бэггинг и случайный лес
🔸 Алгоритмы AdaBoost (SAMME & R2)
🔸 Градиентный бустинг и его модификации
🔸 Стекинг и блендинг
Обучение без учителя
🔹 Метод главных компонент (PCA)
🔹 Популярные алгоритмы кластеризации
👉 Ноутбуки с алгоритмами можно скачать на Kaggle и GitHub.
🤩14👍6
Forwarded from Proglib.academy | IT-курсы
А вот и ответы на три вопроса с собеседований, которые мы недавно вам задавали!
1️⃣ Как оценить статистическую значимость анализа?
Для оценки статистической значимости нужно провести проверку гипотезы. Сначала определяют нулевую и альтернативную гипотезы. Затем рассчитывают p – вероятность получения наблюдаемых результатов, если нулевая гипотеза верна. Наконец, устанавливают уровень значимости alpha. Если p < alpha, нулевая гипотеза отвергается – иными словами, анализ является статистически значимым.
2️⃣ Приведите три примера распределений с длинным хвостом. Почему они важны в задачах классификации и регрессии?
Три практических примера: степенной закон, закон Парето и продажи продуктов (например, продукты-бестселлеры против обычных).
При решении задач классификации и регрессии важно не забывать о распределении с длинным хвостом, поскольку редко встречающиеся значения составляют существенную часть выборки. Это влияет на выбор метода обработки выбросов. Кроме того, некоторые методики машинного обучения предполагают, что данные распределены нормально.
3️⃣ Что такое центральная предельная теорема, и почему она важна?
Центральная предельная теорема (ЦПТ) говорит о том, что сумма достаточно большого количества слабо зависимых случайных величин с примерно одинаковыми масштабами имеет распределение, близкое к нормальному.
Центральная предельная теорема важна, поскольку она используется при проверке гипотез и расчете доверительных интервалов.
🎲 40 вопросов по статистике с собеседований на должность Data Scientist
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
🌐 Онлайн-обучение в ML: что это такое
В традиционном подходе модель обучается, используя весь набор данных сразу. Этот процесс часто сопровождается большими вычислительными затратами и не учитывает изменения в данных, которые происходят в реальном времени.
❓Что делать?
Можно обучать модель на одной точке входящих данных за раз. Например, вы храните на диске (или получаете в реальном времени из какого-то источника) обучающую выборку и не загружаете её в оперативную память. Тогда вы можете считывать объекты по одному и соответственно обновлять веса. После обработки всех объектов обучающей выборки значение функции потерь уменьшится(однако часто нужно несколько десятков проходов по выборке, чтобы оно уменьшилось достаточно) .
🤔 Где можно применять:
▫️Анализ финансовых рынков;
▫️Системы мониторинга показателей здоровья;
▫️Обнаружение мошенничества.
🤖 Ограничения метода:
▫️Чувствительность к порядку поступающих данных;
▫️Меньший контроль за обучением;
▫️Проблемы с интерпретацией.
В традиционном подходе модель обучается, используя весь набор данных сразу. Этот процесс часто сопровождается большими вычислительными затратами и не учитывает изменения в данных, которые происходят в реальном времени.
❓Что делать?
Можно обучать модель на одной точке входящих данных за раз. Например, вы храните на диске (или получаете в реальном времени из какого-то источника) обучающую выборку и не загружаете её в оперативную память. Тогда вы можете считывать объекты по одному и соответственно обновлять веса. После обработки всех объектов обучающей выборки значение функции потерь уменьшится
🤔 Где можно применять:
▫️Анализ финансовых рынков;
▫️Системы мониторинга показателей здоровья;
▫️Обнаружение мошенничества.
🤖 Ограничения метода:
▫️Чувствительность к порядку поступающих данных;
▫️Меньший контроль за обучением;
▫️Проблемы с интерпретацией.
👍5❤2
В новой статье рассказываем, какие разделы математики нужно знать для разработки современных генеративных моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤3👍1
📊🎲 Несколько полезных шпаргалок для дата-сайентистов
Могут пригодиться при подготовке к собеседованию.
🔹Введение в теорию вероятностей
🔹Обзор способов визуализации данных
🔹Описательная статистика
Могут пригодиться при подготовке к собеседованию.
🔹Введение в теорию вероятностей
🔹Обзор способов визуализации данных
🔹Описательная статистика
👍3
Media is too big
VIEW IN TELEGRAM
✨ Визуализация эмбеддингов в браузере
У TensorFlow есть онлайн-инструмент, который позволяет изучить пространство эмбеддингов (векторных представлений). Это не только залипательно, но и может быть полезно.Для пространств высокой размерности инструмент предварительно использует методы сокращения размерности (например, PCA).
На странице доступны предобученные эмбеддинги — Word2Vec, Mnist (в виде картинок!) и Iris. Кроме того, есть возможность загрузить собственные.
🔗 Ссылка на инструмент TensorFlow
У TensorFlow есть онлайн-инструмент, который позволяет изучить пространство эмбеддингов (векторных представлений). Это не только залипательно, но и может быть полезно.
На странице доступны предобученные эмбеддинги — Word2Vec, Mnist (в виде картинок!) и Iris. Кроме того, есть возможность загрузить собственные.
🔗 Ссылка на инструмент TensorFlow
❤4👍1
🛠️ NLP по-русски: подборка инструментов
🔹 Natasha
Набор инструментов Natasha позволяет решать базовые NLP-задачи: токенизацию, сегментацию на предложения, морфологический и синтаксический анализ, лемматизацию, извлечение именованных сущностей.
🔹 DeepPavlov
Это библиотека, созданная на базе PyTorch. Позволяет создавать чат-ботов и сложные диалоговые системы. Включает предобученные модели для русского языка.
🔹pymorphy2
Морфологический анализатор для русского и украинского языков. Может приводить слово к начальной форме и возвращать грамматическую информацию о нём. Также можно использовать форк pymorphy3, который сейчас развивается.
🔹SpaCy
Библиотека для обработки естественного языка, поддерживающая 75+ языков, а также включающая предобученные векторы слов.
NLP — Natural Language Processing, обработка естественного языка
🔹 Natasha
Набор инструментов Natasha позволяет решать базовые NLP-задачи: токенизацию, сегментацию на предложения, морфологический и синтаксический анализ, лемматизацию, извлечение именованных сущностей.
🔹 DeepPavlov
Это библиотека, созданная на базе PyTorch. Позволяет создавать чат-ботов и сложные диалоговые системы. Включает предобученные модели для русского языка.
🔹pymorphy2
Морфологический анализатор для русского и украинского языков. Может приводить слово к начальной форме и возвращать грамматическую информацию о нём. Также можно использовать форк pymorphy3, который сейчас развивается.
🔹SpaCy
Библиотека для обработки естественного языка, поддерживающая 75+ языков, а также включающая предобученные векторы слов.
👍6❤1
💬 А вы используете в своей работе Jupyter Notebook?
❤️ — использую постоянно
👍 — иногда использую
🤔 — нет
#интерактив
❤️ — использую постоянно
👍 — иногда использую
🤔 — нет
#интерактив
❤114👍31🤔12👾3😁1
🧑💻 Статьи для IT: как объяснять и распространять значимые идеи
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
Напоминаем, что у нас есть бесплатный курс для всех, кто хочет научиться интересно писать — о программировании и в целом.
Что: семь модулей, посвященных написанию, редактированию, иллюстрированию и распространению публикаций.
Для кого: для авторов, копирайтеров и просто программистов, которые хотят научиться интересно рассказывать о своих проектах.
👉Материалы регулярно дополняются, обновляются и корректируются. А еще мы отвечаем на все учебные вопросы в комментариях курса.
👍4❤1
🚀 Awesome Machine Learning — фреймворки и библиотеки для ML
Этот репозиторий был вдохновлён другим — awesome-php. Включает в себя библиотеки, фреймворки и инструменты для машинного обучения на всех языках программирования: от С до Julia (Python, конечно, тоже есть).
Вот темы, которые есть в списке, на примере Python:
🔸 Компьютерное зрение
— SimpleCV
— pytessarct
🔸 Обработка естественного языка
— NLTK
— Transformers
🔸 Анализ данных/визуализация
— plotly
— DataComPy
🔸 Код соревнований Kaggle
🔸 Обучение с подкреплением
— DeepMind Lab
— ViZDoom
🔗 Ссылка на репозиторий Awesome Machine Learning
Этот репозиторий был вдохновлён другим — awesome-php. Включает в себя библиотеки, фреймворки и инструменты для машинного обучения на всех языках программирования: от С до Julia (Python, конечно, тоже есть).
Вот темы, которые есть в списке, на примере Python:
🔸 Компьютерное зрение
— SimpleCV
— pytessarct
🔸 Обработка естественного языка
— NLTK
— Transformers
🔸 Анализ данных/визуализация
— plotly
— DataComPy
🔸 Код соревнований Kaggle
🔸 Обучение с подкреплением
— DeepMind Lab
— ViZDoom
🔗 Ссылка на репозиторий Awesome Machine Learning
👍5
Forwarded from Библиотека нейросетей | ChatGPT, Midjourney, DeepSeek, Sora
This media is not supported in your browser
VIEW IN TELEGRAM
У нас вышла новая статья на
Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈
🛠 Инструменты
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
⚡️ Вышел PyTorch 2.3
Основное нововведение — поддержка пользовательских ядер Triton в torch.compile. Их можно переносить без снижения производительности или сбоев в графике.
Triton — языковой компилятор для создания сильно оптимизированных ядер CUDA.
Помимо этого в PyTorch 2.3:
▫️Tensor Parallel API, который позволяет реализовать распределённые вычисления. API был специально адаптирован для обучения трансформеров с очень большим количеством параметров.
▫️Подкласс
🔗 Прочесть о релизе подробнее можно здесь
Основное нововведение — поддержка пользовательских ядер Triton в torch.compile. Их можно переносить без снижения производительности или сбоев в графике.
Помимо этого в PyTorch 2.3:
▫️Tensor Parallel API, который позволяет реализовать распределённые вычисления. API был специально адаптирован для обучения трансформеров с очень большим количеством параметров.
▫️Подкласс
torch.sparse.SparseSemiStructuredTensor
, который реализует полуструктурированную разреженность и позволяет добиться ускорения вычислений до 1.6 раза по сравнению с умножениями плотных (dense) матриц.🔗 Прочесть о релизе подробнее можно здесь
👍4🔥1
🦾🧠🏋Качаем мозги к лету!
Хотите начать работать с большими данными, применять методы машинного обучения, статистический анализ, а также разрабатывать алгоритмы для извлечения информации?
Тогда наш полугодовой курс «Математика для Data Science» от преподавателей МГУ, подходит для этого. И мы можете попасть на него со скидкой 40%
➡️ Математика для Data Science 29 990 ₽ 17 994 ₽
Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.
У вас не будет шансов не усвоить какие-то темы курса👌
⭐️ Переходите и активируйте бесплатные вводные занятия курса – https://proglib.io/w/b1ca6fe9
Хотите начать работать с большими данными, применять методы машинного обучения, статистический анализ, а также разрабатывать алгоритмы для извлечения информации?
Тогда наш полугодовой курс «Математика для Data Science» от преподавателей МГУ, подходит для этого. И мы можете попасть на него со скидкой 40%
Вас ждет развернутая обратная связь по всем домашним заданиям, а также ссылки на полезные дополнительные материалы.
У вас не будет шансов не усвоить какие-то темы курса👌
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
Forwarded from Библиотека питониста | Python, Django, Flask
🐍🤔 «Задумчивый» код: временная сложность операций со структурами данных в Python
Вы когда-нибудь задумывались, почему некоторые операции в Python выполняются мгновенно, а другие заставляют ваш код «задумчиво» работать? В новой статье разбираемся во временной сложности и узнаём, как писать быстрый и эффективный код.
🔗 Читать статью
🔗 Зеркало
Вы когда-нибудь задумывались, почему некоторые операции в Python выполняются мгновенно, а другие заставляют ваш код «задумчиво» работать? В новой статье разбираемся во временной сложности и узнаём, как писать быстрый и эффективный код.
🔗 Читать статью
🔗 Зеркало
👍3
💬 Итак, настало время расшифровать аббревиатуры. На выбор:
🔹AI/ИИ
🔹ML
🔹DL
🔹GPT
🔹DS
👇Только неправильные ответы👇
🔹AI/ИИ
🔹ML
🔹DL
🔹GPT
🔹DS
👇Только неправильные ответы👇
😁8❤2
PySpark_SQL_Cheat_Sheet.pdf
5.1 MB
⭐ PySpark: небольшой гайд по библиотеке
PySpark — это Python API для Apache Spark. А Apache Spark, в свою очередь, представляет собой движок для распределённой обработки задач, связанных с большими данными. Так, PySpark позволяет работать с данными любого размера.
Библиотека поддерживает все функции Spark, включая Spark SQL и DataFrames.
🔸Spark SQL предназначен для работы со структурированными данными и позволяет сочетать SQL-запросы с программами Spark.
🔸PySpark DataFrames позволяет читать, записывать, трансформировать и анализировать данные.
👆К посту мы прикрепили небольшую шпаргалку по этим двум основным инструментам PySpark
PySpark — это Python API для Apache Spark. А Apache Spark, в свою очередь, представляет собой движок для распределённой обработки задач, связанных с большими данными. Так, PySpark позволяет работать с данными любого размера.
Библиотека поддерживает все функции Spark, включая Spark SQL и DataFrames.
🔸Spark SQL предназначен для работы со структурированными данными и позволяет сочетать SQL-запросы с программами Spark.
🔸PySpark DataFrames позволяет читать, записывать, трансформировать и анализировать данные.
👆К посту мы прикрепили небольшую шпаргалку по этим двум основным инструментам PySpark
👍5