DenoiseLAB
486 subscribers
1.33K photos
159 videos
3 files
1.58K links
Блог DenoiseLAB (машинное обучение, аналитика)

Информация в канале служит только для ознакомления и не является призывом к действию. Не нарушайте законы РФ и других стран. Мы не несем отвественность за ваши действия или бездействия.
Download Telegram
☄️☄️☄️Сдал я статью по h2oGPT в печать, жду что будет, и начну отбиваться )), в целом очень неплохая получилось исследование. Теперь можно возвращаться к обычной жизни. Я все таски откинул на потом, занимался только этим. Возможно будут правки, но это уже детали. Пока что продолжаю копать сие разработку и возвращаюсь к рутинной деятельности.

🔥🔥🔥Проектов на текущее время запланировано много, разных и необчных, так что я в процессе как и команда в целом.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔠🔠🔠Сейчас на подходе еще две, одна по конференции GoCloud 2024 (https://cloud.ru/ru/gocloud) где я освещал ее со стороны и по заказу Хабр.ру, делал фотки, общался с гостями и писал общую рецензию на данную статью и еще одна (пока сюрприз какая, но будет весьма необычно и интетресно), пока она находится в разработке. По первой статье все приняли и даже уже выдали правки. Фотки скоро выложу, наиболее примечательные и яркие. Следите за обновлениями.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍👍👍Сегодня плотно занимается правкой статей и то что пришло по правкам, а еще сегодня веду семинар в GeekBrains. Там я рассказывают про ApacheSpark. Курс маленький, особо ничего нового для меня нет, плюс еще курирую домашние работы студентов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Посты начнутся с понедельника, материал уже подготовлен.
Вот приятно получать такие отзывы, все таки понимаешь что не зря стараешься, ну да оплачивается конечно это все, но тем не менее.
🔥3
300 Вопросов по Машинному обучению (Machine Learning) - Вопрос_221

🔠 Что вы знаете про Partial Dependence Plots (PDP) ? (Часть_1)

Partial Dependence Plots (PDP) представляют собой графические инструменты, позволяющие визуализировать влияние одного или двух признаков на предсказания модели машинного обучения, игнорируя влияние остальных признаков. Это делает PDP мощным инструментом для интерпретации моделей, особенно в контексте линейной регрессии, где они всегда показывают линейные отношения. PDP также могут быть использованы для классификации, отображая вероятности для определенного класса при различных значениях признаков.

#Partial_Dependence_Plots #Machine_Learning #Model_Interpretation #Linear_Regression #Classification #Feature_Influence #Predictive_Modeling #Data_Visualization
300 Вопросов по Машинному обучению (Machine Learning) - Вопрос_221

🔠 Что вы знаете про Partial Dependence Plots (PDP) ? (Часть_2)

Основные преимущества PDP включают:

- Интуитивность: PDP легко понимаются и позволяют быстро интерпретировать влияние признаков на предсказания модели.
- Глобальный подход: PDP учитывают все экземпляры данных, предоставляя глобальное представление о взаимосвязи признаков с предсказаниями.
- Каузальная интерпретация: PDP позволяют анализировать каузальные отношения между признаками и предсказаниями, хотя это не всегда применимо к реальному миру.

#Partial_Dependence_Plots #Machine_Learning #Model_Interpretation #Linear_Regression #Classification #Feature_Influence #Predictive_Modeling #Data_Visualization
300 Вопросов по Машинному обучению (Machine Learning) - Вопрос_221

🔠 Что вы знаете про Partial Dependence Plots (PDP) ? (Часть_3)

Однако, есть и недостатки:

- Ограничение на количество признаков: В реальности, максимальное количество признаков в PDP обычно ограничено двумя из-за ограничений в двухмерном представлении.
- Пропущенное распределение признаков: Некоторые PDP не показывают распределение признаков, что может ввести в заблуждение, особенно в областях с малой частотой данных.
- Предположение об независимости: PDP предполагают, что признаки, для которых вычисляется частичная зависимость, не коррелируют с другими признаками. Это может привести к нереалистичным интерпретациям, когда признаки коррелируют.

#Partial_Dependence_Plots #Machine_Learning #Model_Interpretation #Linear_Regression #Classification #Feature_Influence #Predictive_Modeling #Data_Visualization
Пример реализации Partial Dependence Plots (PDP) для взаимодействия двух признаков с использованием GradientBoostingClassifier:

from sklearn.datasets import make_hastie_10_2
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.inspection import PartialDependenceDisplay
import matplotlib.pyplot as plt

# Создание набора данных
X, y = make_hastie_10_2(random_state=0)

# Обучение модели
clf = GradientBoostingClassifier(n_estimators=100, learning_rate=1.0, max_depth=1, random_state=0).fit(X, y)

# Определение признаков для PDP
features = [0, 1, (0, 1)]

# Создание PDP
pdp_display = PartialDependenceDisplay.from_estimator(clf, X, features)

# Показать PDP
plt.show()
🔥🔥🔥Анализ навыков аналитиков по данным Яндекса. Затейно, что на втором месте не hard скилы или какие-то софт-скилы, а именно аналитика, как таковая. Что и требовалось доказать.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32
https://habr.com/ru/users/VladimirMironovML/publications/articles/ - Опубликованна моя статья для компании Selectel про h2oGPT. Ох... сколько материалу было перелопачено, прям, вагон!
https://habr.com/ru/specials/808603/ - моя вторая статья, которую я освещал по заказу Хабр.ру и Компании Cloud.ru. Мне надо было пообщаться с гостями собрать материалы, провести несколько интервью, в том числе с главными спикерами и узнать мнение публики о положении дел на рынке на сегодняшний день в облачно инфраструктуре, как со стороны бизнеса, так и со стороны вендров.
👍3
☄️☄️☄️Бесплатные симуляторы Аналитика, можно немного прокачаться и отточить навыки в анализе.

1. Data analytics & visualization в Accenture (компания - лидер консалтинговых услуг из списка Fortune Global 500)
2. Power BI в PWC (консалтинговая компания из “большой четверки”)
3. Data Analytics в Quantium (компания, занимающаяся data science и AI)
4. Data Visualisation: Empowering Business with Effective Insights в Tata (многопрофильная компания, работающая в 150 странах)
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
😎😎😎Чую работы будет много с этими друзьями ))))
😁2
300 Вопросов по Машинному обучению (Machine Learning) - Вопрос_222

🔠Какие есть аналоги Partial Dependence Plots (PDP) ?

1. Accumulated Local Effects (ALE) Plots:
- Похожи на PDPs, но более устойчивы к смещению, вызванному распределением входных данных.
- ALE оценивают локальное влияние переменной, а не глобальное влияние, как в PDPs.

2. Shapley Additive Explanations (SHAP):
- Метод, основанный на теории кооперативных игр, для объяснения прогнозов индивидуальных образцов.
- Вычисляет вклад каждой входной переменной в прогноз для каждого наблюдения.
- Предоставляет как локальные, так и глобальные объяснения модели.

#Partial_Dependence_Plots #Machine_Learning #Model_Interpretation #Linear_Regression #Classification #Feature_Influence #Predictive_Modeling #Data_Visualization
Пример кода, который демонстрирует, как вычислить и визуализировать ALE для модели прогнозирования цен на недвижимость в Калифорнии, используя линейную регрессию и случайный лес:

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_california_housing
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from alibi.explainers import ALE, plot_ale

# Загрузка и подготовка данных
data = fetch_california_housing()
X = data.data
y = data.target
feature_names = data.feature_names

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение моделей
lr = LinearRegression()
rf = RandomForestRegressor(n_estimators=100, random_state=42)
lr.fit(X_train, y_train)
rf.fit(X_train, y_train)

# Вычисление ALE для линейной регрессии
lr_ale = ALE(lr.predict, feature_names=feature_names, target_names=['Value in $100,000's'])
lr_exp = lr_ale.explain(X_train)

# Вычисление ALE для случайного леса
rf_ale = ALE(rf.predict, feature_names=feature_names, target_names=['Value in $100,000's'])
rf_exp = rf_ale.explain(X_train)

# Визуализация ALE
plot_ale(lr_exp, feature_names=feature_names)
plot_ale(rf_exp, feature_names=feature_names)
🔥🔥🔥Вчера, с постоянным клиентом разбирали рабочую задачу, по NLP от крупного заказчика. Была поставлена задача разработки семантического анализа для небольшой базы данных при ее ручном дополнении и выдачи ролеватного результата.

🥵🥵🥵 Разобрали текущие кейсы, посмотрели его демо код на тестовых сторонних данных обсудили этапы реализации пайплайна и препроцессинга. Посмотрели, какие есть текущие решения в плане использования WordToVec, TF-IDF, Transformers.

👍👍👍В итоге, я предложил остановиться на коде реализованyом на Bert (Transformers). Показал заготовку для рабочего прототипа, и сказал как ее надо поставить, чтобы все отработало. Как итог, клиент остался доволен, допилил свою модель и поднял скор по решению задачи на требуемую величину.

🔠🔠🔠Изначально, наивысший скор был у него не выше 0.65 по заданным позициям.
Please open Telegram to view this post
VIEW IN TELEGRAM