Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎓 Небольшая подборка бесплатных курсов по классическому машинному обучению

▫️Stanford CS229: Machine Learning by Andrew Ng
Культовый курс по основам машинного обучения с Эндрю Ыном, американским учёным-информатиком. Представляет собой набор видеолекций.

▫️Алгоритмы Машинного обучения с нуля
Курс на Stepik, на котором подробно разбираются основные алгоритмы классического ML: линейная и логистическая регрессии, метод k-ближайших соседей, случайный лес, метод главных компонент и др.

▫️HarvardX: CS50's Introduction to Artificial Intelligence with Python
Курс, рассказывающий о концептах и алгоритмах, лежащих в основе современного ML. Также в программе есть теория вероятностей, нейросети, NLP и др.

▫️Машинное обучение (курс лекций, К.В. Воронцов)
В курсе делается упор на глубокое понимание математических основ. Автор — зав. лаб. «Машинное обучение и семантический анализ» Института искусственного интеллекта МГУ.

👍6❤5

3.94K views18:17

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💵

Моделирование курса валют методом Монте-Карло

Метод Монте-Карло позволяет исследовать какой-либо случайный процесс, многократно имитируя его.

Новая статья на «Хабре» посвящена анализу и прогнозированию валютных курсов с помощью такого подхода. Автор привёл примеры кода на Python и объяснил каждую используемую функцию.

🔗

Читать статью целиком

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍6

3.32K views07:16

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖🖼️ Как работают визуальные трансформеры: магия превращения пикселей в знания

Визуальные трансформеры (Vision Transformers, ViTs) — класс моделей глубокого обучения, которые достигли выдающихся результатов в задачах классификации изображений. В основе ViTs лежит архитектура трансформеров, изначально разработанная для обработки естественного языка.

В новой статье подробно рассказываем (с картинками), как работают такие модели компьютерного зрения.

🔗 Читать статью
🔗 Зеркало

👍5❤2😁1

21.6K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Машинное обучение для людей: Разбираемся простыми словами

Этот блогпост представляет собой большое введение для тех, кто хочет разобраться в машинном обучении без формул и теорем. Автор даёт много примеров реальных задач и их решений, а также старается писать об этом простым языком.

Вот темы, которые охватывает блогпост:
🔹составляющие машинного обучения;
🔹алгоритмы обучения с учителем;
🔹алгоритмы обучения без учителя;
🔹уменьшение размерности;
🔹обучение с подкреплением;
🔹ансамбли;
🔹глубокое обучение и нейросети.

🔗 Ссылка на материал

vas3k.blog

Машинное обучение для людей

None

👍8🔥4❤1

3.12K views07:07

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✍️ Правила внедрения машинного обучения от Google

У Google есть целый документ, в котором перечислены лучшие практики для специалистов по машинному обучению. Мы приведём избранные правила.

✅ Не бойтесь запускать продукт без машинного обучения
Для машинного обучения всегда нужны данные. Если с этим есть проблема, то стоит попробовать использовать для своего продукта нечто другое, какую-нибудь простую эвристику. Иными словами, если ML не является абсолютно необходимым для вашего продукта, не применяйте его, пока у вас не будет достаточно данных.

✅ Сначала придумайте метрики
Прежде чем определиться, что будет делать ваша система машинного обучения, попробуйте отследить как можно больше показателей в вашей текущей системе.

✅ Между сложной эвристикой и машинным обучением выбирайте второе
Простая эвристика может помочь быстро запустить продукт. Сложную эвристику трудно поддерживать. Как только у вас появятся данные и базовое представление о том, чего вы пытаетесь достичь, переходите к машинному обучению.

✅ Сделайте первую модель простой и правильно настройте инфраструктуру
Прежде чем кто-либо сможет использовать вашу новую продвинутую систему машинного обучения, вам необходимо будет определить:

- Как давать примеры на вход алгоритму.
- Что такое «хорошо» и «плохо» для вашей системы.
- Как интегрировать модель в ваше приложение.

Специалисты Google также советуют выбирать простые признаки для модели.

✅ Постарайтесь обнаружить проблемы перед экспортом моделей
В частности, убедитесь, что производительность модели на отложенных данных находится на разумном уровне. Если у вас остаются опасения по поводу данных, не экспортируйте модель.

✅ Не зацикливайтесь на выборе оптимизируемой цели
На ранних этапах процесса машинного обучения можно заметить, что улучшаются все показатели, даже те, которые вы не оптимизируете напрямую. Например, вам важно количество кликов и время, проведённое на сайте. Если вы оптимизируете количество кликов, скорее всего, вы увидите и увеличение времени на сайте. Старайтесь сохранять процесс простым и не перегружайте себя размышлениями о балансе различных метрик.

✅ Выберите простую метрику для вашей первой цели
Проще всего моделировать поведение пользователя, которое можно наблюдать непосредственно. Например, факт клика по ссылке, оценки чего-либо и т.д. Избегайте моделирования косвенных эффектов вначале: не стоит пытаться отследить посетил ли пользователь сайт на следующий день и как долго он находился на сайте. Наконец, не нужно пытаться заставить машинное обучение выяснить, счастлив ли пользователь.

✅ Логируйте
Стоит сохранять набор признаков, используемых во время применения модели, а затем использовать их во время обучения. Даже если вы не можете сделать это для каждого примера, сделайте хотя бы для небольшой части.

✅ Не тратьте время на новые признаки, если проблемой стали несогласованные цели
Если цели, поставленные перед алгоритмом или системой машинного обучения, не соответствуют общим целям продукта или бизнеса, то не стоит пытаться решить их примитивным добавлением новых признаков.

👍8👏4❤3

2.93K views18:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Напоминаем, что у нас есть еженедельная email-рассылка, посвященная последним новостям и тенденциям в мире искусственного интеллекта.

В ней:
● Новости о прорывных исследованиях в области машинного обучения и нейросетей
● Материалы о применении ИИ в разных сферах
● Статьи об этических аспектах развития технологий
● Подборки лучших онлайн-курсов и лекций по машинному обучению
● Обзоры инструментов и библиотек для разработки нейронных сетей
● Ссылки на репозитории с открытым исходным кодом ИИ-проектов
● Фильмы, сериалы и книги

👉Подписаться👈

😢1

2.53K views06:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

✨

Подборка однострочников для NumPy и Scikit-learn

Python — гибкий язык, позволяющий писать некоторые куски кода в одну строку. Эта особенность, конечно, распространяется и на популярные библиотеки для Data Science.

1️⃣Определение объектов со значениями выше среднего

## Качество воздуха по городам
X = np.array(
    [[ 42, 40, 41, 43, 44, 43 ], # Hong Kong
     [ 30, 31, 29, 29, 29, 30 ], # New York
     [ 8, 13, 31, 11, 11, 9 ], # Berlin
     [ 11, 11, 12, 13, 11, 12 ]]) # Montreal
cities = np.array(["Hong Kong", "New York", "Berlin", "Montreal"])

polluted = set(cities[np.nonzero(X > np.average(X))[0]])

print(polluted) # ->
'''
{'Berlin', 'Hong Kong', 'New York'}
'''

2️⃣Вычисление простого ассоциативного правила

## Каждая строка представляет собой корзину покупателя
## row = [course 1, course 2, ebook 1, ebook 2]
## Значение 1 говорит о том, что предмет был куплен.
basket = np.array([[0, 1, 1, 0],
                   [0, 0, 0, 1],
                   [1, 1, 0, 0],
                   [0, 1, 1, 1],
                   [1, 1, 1, 0],
                   [0, 1, 1, 0],
                   [1, 1, 0, 1],
                   [1, 1, 1, 1]])

copurchases = np.sum(np.all(basket[:,2:], axis = 1)) / basket.shape[0]

print(copurchases) # Выводит долю случаев, когда два конкретных товара (ebook 1 и ebook 2) были куплены вместе

3️⃣Вычисление максимального дохода после уплаты налогов за несколько лет

## Годовая зарплата в $1000 [2017, 2018, 2019]
alice = [99, 101, 103]
bob = [110, 108, 105]
tim = [90, 88, 85]
salaries = np.array([alice, bob, tim])
taxation = np.array([[0.2, 0.25, 0.22],
                     [0.4, 0.5, 0.5],
                     [0.1, 0.2, 0.1]])

max_income = np.max(salaries - salaries * taxation)

print(max_income)

4️⃣Логистическая регрессия в одну строку

from sklearn.linear_model import LogisticRegression
import numpy as np

## [Количество сигарет, наличие рака]
X = np.array([[0, "No"],
              [10, "No"],
              [60, "Yes"],
              [90, "Yes"]])

model = LogisticRegression().fit(X[:,0].reshape(-1,1), X[:,1])

print(model.predict([[2],[12],[13],[40],[90]])) # -> ['No' 'No' 'No' 'Yes' 'Yes']

5️⃣Вычисление статистических показателей

## Ежедневные цены на акции 5 компаний 
x = np.array([[8, 9, 11, 12],
              [1, 2, 2, 1],
              [2, 8, 9, 9],
              [9, 6, 6, 3],
              [3, 3, 3, 3]])

avg, var, std = np.average(x, axis=1), np.var(x, axis=1), np.std(x, axis=1)

print("Averages: " + str(avg))
print("Variances: " + str(var))
print("Standard Deviations: " + str(std))

Please open Telegram to view this post

VIEW IN TELEGRAM

👍11❤7🔥3

2.85K views07:02

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🚀 Продвинутые курсы от Google по решению задач машинного обучения

Это подборка небольших курсов от Google, каждый из которых рассматривает конкретную задачу или подход.

🔹Леса решений
Рассказывает о том, что такое деревья решений, и как работают их ансамбли.
🔹Рекомендательные системы
Охватывает коллаборативную фильтрацию, user-based и item-based алгоритмы, а также нейросети.
🔹Кластеризация
Рассказывает о подготовке данных, использовании алгоритмов (k-means) и оценке результатов.
🔹Генеративно-состязательные сети (GAN)
Формирует понимание того, как устроены такие сети.
🔹Классификация изображений
Курс рассматривает в основном свёрточные нейронные сети.

👏6❤1

3.42K views18:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Коллекция датасетов для больших языковых моделей (LLM)

ML-инженер под ником Maxime Labonne поделился в X своим репозиторием с набором датасетов. Все они подходят для файн-тюнинга языковых моделей, то есть могут сделать их более специализированными и подходящими для решения конкретных задач.

Датасеты разделены на категории в зависимости от того, какие задачи будет решать LLM:
▫️общего назначения;
▫️математические;
▫️генерации кода;
▫️диалоговые;
▫️выполнения роли агентов с возможностью вызова функций.

🔗 Ссылка на репозиторий

👍4

2.96K views07:13

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎓 Подборка бесплатных курсов по глубокому машинному обучению

▪️Deep Learning School
Это образовательный проект Физтех-школы прикладной математики и информатики МФТИ. Обучение идёт бесплатно. Нужно просто зарегистрироваться на курс на сайте, заполнив форму. За новым набором можно следить в группе VK. Кроме того, лекции и семинары DLS доступны в любое время на Stepik.

▪️Нейронные сети
Курс от Института биоинформатики. Делает упор на математической базе нейросетей, содержит много практических заданий и тестов.

▪️MIT 6.S191. Introduction to Deep Learning
Это вводный курс Массачусетского технологического института по методам глубокого обучения. Затрагивает обработку естественного языка, компьютерное зрение и др. В свободном доступе уже есть лекции, слайды и код программы 2022 года. Вот здесь можно подписаться на уведомления о выходе более свежих лекций.

▪️Practical Deep Learning for Coders
Это курс для людей, у которых уже есть опыт разработки. Затрагивает следующие темы: обучение DL моделей для компьютерного зрения, обработки естественного языка, развёртывание моделей, использование PyTorch, fastai и Hugging Face.

▪️Learn PyTorch for Deep Learning: Zero to Mastery book
Онлайн-книга, посвящённая конкретно PyTorch. Начинает с основ и заканчивает внедрением моделей.

❤5👍2🔥1

3.58K views11:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

💬 Как вы привыкли писать/как вам больше нравится — промпт или промт?

Это слово является заимствованием из английского языка — prompt можно перевести как «подсказка» или «запрос». В разных текстах встречаются разные варианты его написания на русском. Какой лучше, на ваш взгляд?

❤️ — промпт
👍 — промт

#интерактив

❤59👍31🔥1

2.88K views18:20

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📕 Feature Engineering and Selection: A Practical Approach for Predictive Models

Это бесплатная книга о работе с признаками (features) для предсказательных моделей. Вот её содержание:

▫️Предварительная визуализация данных;
▫️Кодирование категориальных переменных;
▫️Обработка числовых переменных;
▫️Обнаружение эффектов взаимодействия между предикторами;
▫️Обработка пропущенных значений;
▫️Методы поиска признаков: жадные и глобальные.

🔗 Ссылка на книгу

👍8😁1

3.1K views07:13

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Какие существуют методы аугментации для текстов?

Аугментацией называют процесс модификации существующих данных для создания новых образцов и расширения тренировочного набора. Обычно об аугментации говорят в контексте компьютерного зрения. Самый простой способ расширить набор картинок на основе существующих — это исказить их разными методами. Но что делать, если стоит задача получить новые образцы текста для NLP? Есть несколько способов.

✅ Замена синонимом
Это самый простой метод перефразировать предложение. Однако реализовать его на большом массиве текстов может быть нелегко, так как не все синонимы являются корректной заменой (многое, например, зависит от контекста).

✅ Сокращения
Можно применять общепринятые сокращения. Например, вместо «так как» — «т.к.». Существуют библиотеки для подобных аугментаций.

✅ Использование векторных представлений слов
Случайные слова можно заменять на близкие к ним в пространстве векторных представлений (embeddings). Это, своего рода, альтернатива простой замене на синонимы.

✅ Использование контекстных представлений
Кроме классических представлений (Word2Vec, GloVe), можно использовать те, которые учитывают контекст слова. Подойдут, например, модели на базе трансформеров.

✅ Замена и удаление несущественного/существенного
В одной из работ Unsupervised Data Augmentation предлагается заменять несущественные слова, которые определены как слова с маленьким значением TF-IDF. В другой работе наоборот предлагается заменять самые значимые слова. Так, в задаче определения сентимента можно находить самое «сентиментное» слово и удалять его (например, слова «отличный», «превосходный», «классный», «улётный» и т.п.).

✅ Обратный перевод
Можно перевести исходный текст на другой язык, а затем перевести его обратно на изначальный.

✅ Зашумление
Под зашумлением понимаются разные способы испортить текст: добавление орфографических и пунктуационных ошибок, смена регистра и т.д.

✅ Генеративные модели
Можно синтезировать новые тексты с помощью генеративных моделей, тех же GPT.

#вопросы_с_собеседований

👍11

2.91K views18:04

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔥 Представлена альтернатива многослойному перцептрону (MLP)

На днях вышла любопытная исследовательская статья, которая описывает новый подход к построению нейросетей — KAN (Kolmogorov-Arnold Networks).

Сами авторы говорят, что KAN — это многообещающая альтернатива MLP. Суть вот в чём:

▫️У привычного нам перцептрона есть нейроны и рёбра между ними, представляющие собой веса. Функции активации лежат в нейронах. То есть в каждом слое они применяются к комбинации входных данных, помноженных на веса.
▫️У KAN всё наоборот — каждый слой представляет собой набор независимо действующих функций на каждом ребре сети.

Авторы утверждают, что это изменение делает KAN круче, чем MLP с точки зрения точности и интерпретируемости.

🔗 Ссылка на исследовательскую статью
🔗 Ссылка на документацию
🔗 Ссылка на GitHub-репозиторий

🤔14👍6🔥3

3.37K views07:11

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🅾️ Что такое «О» большое: объясняем на простых примерах

«О» большое (Big O notation) — это математическая нотация, которая позволяет оценить, как изменяется время выполнения алгоритма или объём используемой памяти в зависимости от размера входных данных.

Мы написали подробный гайд по видам сложности, проиллюстрировав их понятными примерами.

🔗 Читать статью
🔗 Зеркало

❤7😁3

39.9K views11:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека задач по Data Science | тесты, код, задания

Тест на болезнь X имеет вероятность ошибки 0.1 (как положительной, так и отрицательной). X болеет 10% населения. Какова вероятность того, что человек болен X, если у него положительный результат теста?

Anonymous Quiz

🥱11

613 voters2.96K views18:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🤖 Попробуйте построить модель машинного обучения, которая будет угадывать, ответ от какой модели машинного обучения предпочтёт человек

Такое соревнование вчера запустилось на Kaggle. Оно базируется на датасете из диалогов людей с чат-ботами на сайте Chatbot Arena. Там можно выбрать две LLM (большие языковые модели), писать для них промпты и выбирать лучшие ответы.

Задача участников соревнования — определить, ответы чьей модели больше понравятся пользователям. По задумке авторов, это должно помочь улучшать LLM и делать их более полезными для людей.

👉 Страница соревнования на Kaggle

❤7👍4

3.27K views07:17

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека питониста | Python, Django, Flask

🐍💪 ТОП-5 вопросов повышенной сложности на собеседовании по Python

Метаклассы, дескрипторы, модификаторы доступа — звучит сложно? В новой статье разбираем 5 вопросов, которые часто задают на собеседованиях по Python.

🔗 Читать статью
🔗 Зеркало

👍6

2.53K views18:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:31

This media is not supported in your browser

VIEW IN TELEGRAM

👀 Бесплатный курс по компьютерному зрению на Hugging Face

Сообщество Hugging Face запустило новый Community Computer Vision Course. В нём можно найти следующие темы:

▫️Основы компьютерного зрения;
▫️Свёрточные нейронные сети;
▫️Визуальные трансформеры;
▫️Генеративные модели;
▫️Обработка видео;
▫️Машинное 3D-зрение, визуализация сцен и реконструкция;
▫️Zero-shot зрение (позволяет компьютерам распределять объекты по классам, которые они раньше не видели);
▫️Этические аспекты компьютерного зрения.

🔗 Ссылка на курс

❤16🥰3👍2

3.51K views07:12

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Forwarded from Библиотека нейросетей | ChatGPT, Midjourney, DeepSeek, Sora

😉

55 промтов для ChatGPT, которые помогут подготовиться к собеседованию

Вы когда-нибудь задумывались, как можно использовать искусственный интеллект для того, чтобы подготовиться к техническим собеседованиям лучше, быстрее и эффективнее? Мы вот — да! И поэтому подготовили 55 промтов, которые помогут сделать это.

В статье собраны шаблоны запросов, которые желательно «докрутить» под себя.

🔗

Читать статью

🔗

Зеркало

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6😢1

2.37K views18:03

About

Blog

Apps

Platform