Data Secrets
78.8K subscribers
6.43K photos
669 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Пополняем ваш список ресурсов новыми сайтами для практики SQL

HackerRank’s SQL practice
StrataScratch
Mode SQL tutorial
SQLZoo
DataLemur

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍57❤‍🔥10🔥6
Как с помощью OpenCV распознать объекты на изображении

OpenCV — это open source библиотека компьютерного зрения, которая предназначена для анализа, классификации и обработки изображений. С помощью этой библиотеки можно делать кучу интересного. Сегодня на примере игральных карт разберемся, как детектить объекты.

😻 #python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
5045👍26🤯95🍌1😇1🗿1💘1
Про переобучение случайного леса

Вопрос про переобучение случайного леса и бустинга часто встречается на собеседованиях. Звучит он примерно так: объясните, от чего может переобучиться случайный лес, и в чем тут разница с бустингом?

Часто кандидаты отвечают: «Случайный лес не может переобучиться вообще, в отличии от бустинга». Но это правильно только отчасти.

Правильнее было бы сказать: случайный лес, в отличие от бустинга, не может переобучиться от увеличения количества деревьев. Это происходит потому что случайный лес усредняет предсказания всех деревьев. Это легко понять, если провести аналогию со средним генеральной совокупности. Возьмем из нее два случайных экземпляра и посчитаем их среднее. Очевидно, что это среднее будет сильно отличаться от среднего генеральной совокупности. Но если мы возьмем 1 000 000 случайных экземпляров, то среднее будет очень близко к генеральной совокупности, и добавление миллион первого, второго, третьего экземпляра сильно на среднее не повлияет.

Однако случайный лес все-таки может переобучиться, если задать большую глубину деревьев. Скажем, глубина 1000 – прямой путь к оверфиту, ведь тогда алгоритм просто выучит трейн.

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
59👍38🔥5😨4😐3🗿3🕊2
PointNet для облаков точек

Облака точек возникают во многих реальных задачах. Например, беспилотный автомобиль воспринимает окружающие его объекты в виде облака точек и строит между ними безопасный маршрут. Но чтобы извлечь из такого неупорядоченного облака структуру, нужно еще постараться. Один из вариантов – нейросеть PointNet.

😻 #NN
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍256😨5🤯3🗿31
#ЧиталиТвиттер и нашли такую схему. По нашему мнению, не хватает CatBoost, LGBM, и, кроме того, Julia и Wolfram Mathematicа. Что еще забыли?
👍416❤‍🔥5
Media is too big
VIEW IN TELEGRAM
AMD объявили о выходе новой видеокарты для обучения и инференса нейронных сетей — AMD MI300X

В ней 192 Gb VRAM (тем временем у Nvidia H100 80Gb), а ее пропускная способность памяти – 5.2Tb (y H100 3.35). На презентации также показывали, как карта легко тянет 40B языковую модель Falcon. Это первый девайс, который вмещает такую огромную модель. Кроме того, AMD заколлабились с PyTorch, и их софтовый стэк будет поддерживаться и обновляться в Pytorch 2.0.

Наконец-то игра набирает обороты, и у Nvidia появляются конкуренты

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍79🔥328🍌2
ARIMA

ARIMA — это такой алгоритм для прогнозирования временных рядов. ARIMA использует исторические значения и скользящее среднее, чтобы получить предсказания. В карточках – интуитивное объяснение, немного математики и код.

😻 #analytics #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45❤‍🔥65🤔1