Data Secrets
78.8K subscribers
6.42K photos
664 videos
20 files
2.7K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
t-тест

1) Объясняем что это
2) Разбираем общую идею
3) Показываем пример

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37
This media is not supported in your browser
VIEW IN TELEGRAM
Очень милое и визуально приятное исследование от Яндекса про упоминание животных в названиях улиц

Получилось, что больше половины названий люди связали с птицами, четверть — с млекопитающими. Ещё почти 10 % пришлись на рыб и 5 % на насекомых. Дикие животные упоминаются в названиях гораздо чаще домашних — на них приходится почти 90 % изученных улиц. Самые распространённые из числа домашних — лошадь, коза, корова, гусь и пчела.

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈16🔥8💅5😁3
… who knows another guy

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥82😁153
Модели экспоненциального сглаживания, и какие они бывают

Пройдемся во верхам, не углубляясь в математику. Поможет освежить в памяти тем, кто знал, и познакомиться с темой тем, кто только начинает изучение.

😻 #train #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29
Мы тут придумали эскизы тату для трушных ML-пацанов и девчонок 🐺

Набили бы?
P.S. Ваши варианты – в комментарии

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁36🔥13👍2🍌1
tqdm в pandas

Если применить apply к большому датафрейму, на это может уйти много времени, но сложно сказать, сколько именно. В таких ситуациях хочется научиться как-то отслеживать прогресс. Чтобы это сделать, можно использовать tqdm.

Для этого сначала установим/обновим бибилиотеку:

pip install tqdm
pip install tqdm -U

Затем испортируем tqdm и применяем вместо обычного apply функцию progress_apply. Работает она точно так же, только еще показывает прогресс-бар:

df = pd.DataFrame(np.random.randint(0, 100, (1000000, 100)))

tqdm.pandas(desc="power DataFrame 1M x 100 of random int!")

df.progress_apply(lambda x: x**2)
df.groupby(0)[1].count().progress_apply(lambda x: x**2)

Кстати, еще можно менять формат бара через опцию bar_format. Например:

tqdm.pandas(desc="MyBar", bar_format='{desc:<5.5}{percentage:3.0f}%|{bar:50}{r_bar}')

😻 #python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥1
DBSCAN: интересный алгоритм кластеризации

DBSCAN (Density-based spatial clustering of applications with noise), как следует из названия, оперирует плотностью данных. На вход он просит матрицу близости и два параметра — радиус епсилон-окрестности и количество соседей. Так сразу и не поймёшь, что это за параметры и как из выбрать. И кроме того, причем тут плотность и когда вообще применять DBSCAN? Давайте разберёмся.

😻 #train #math
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
19👍7🆒3