Data Secrets
78.8K subscribers
6.43K photos
667 videos
20 files
2.71K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Стратификация. Как разбиение выборки повышает чувствительность A/B теста

Сегодня о том, что такое стратифицированное семплирование и как с помощью него повысить чувствительность оценки AB экспериментов.

P.S. Конечно, все не так просто. В стратификации есть свои нюансы и проблемы, но об этом – в следующий раз.

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍195
Про pipe в pandas

pipe - это метод реализации паплайна в pandas через последовательную цепочку преобразований (не путать с Pipeline из скалерна).

Например, у нас есть ряд функций, каждая из которых отвечает за какое-то преобразование. Тогда пайплайн в pandas можно реализовать так:

def normilize(df):
...
return df

def fill_null(df, method):
...
return df

def parse_time(df):
...
return df

new_df = (df
.pipe(normilize)
.pipe(fill_null, method='median')
.pipe(parse_time)
)

😻 #analytics #python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍78
This media is not supported in your browser
VIEW IN TELEGRAM
Что нового в дипфейках?

В последнее время было выпущено много статей и продуктов на рынке дипфейк. Вот, например, омолаживание лица Харрисона Форда с помощью Stable Diffusion, ControlNet, EbSynth и Fusion.

Автор рассказал, как он отслеживал лицо актера и стабилизировал его в 800x800 пикселей, а затем помещал каждый 30-й кадр в Stable Diffusion, где лицо омолаживалось. Затем он использовал EbSynth для наложения обработанных кадров на оригинальное видео.

Для сохранения реалистичности автор использовал маски, чтобы акцентировать внимание на омоложенной версии лица, а также скрыть глаза и рот. Единственное: у модели лапки, и она может плохо работать с актерами, у которых много волос (или с моментами поворота головы), поэтому автор отбирал материалы с учетом этих факторов.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯23👍9🍌3🔥2
Пулинги, страйды и паддинги

Звучит как термины из доты? Ну, почти. Это такие штуки для сверточных нейросетей. Про такие сетки мы начинали рассказывать вот тут. А про страйды, паддинги и все такое читайте в карточках.

😻 #NN
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
22👍114😐1
Европейский AI Act – ужас для индустрии ИИ

Европейский AI Act, если его примут, станет первым законодательным актом в мире, направленным на регулирование использования искусственного интеллекта. Он потребует лицензирования каждой ИИ-модели для использования в Европе. Подобные ограничения вводятся для обеспечения контроля над процессом разработки и внедрения ИИ-технологий и минимизации риска угроз безопасности.

Опенсорсные решения также будут попадать под действие акта и требовать прохождения государственной лицензирования (будут ли разработчики с этим возиться? Конечно, нет). К тому же, если акт будет принят, возможно, произойдет расслоение стран между теми, кто будет активно использовать GPT-подобные модели, и теми, кто будет принуждать их проходить гос.контроль.

На секундочку: для получения лицензии нужно будет потратить примерно 50-100 тысяч долларов, а процесс займет от 6 до 18 месяцев и потребует наличие 1-2 специалистов внутри компании, которые будут работать над этим на полный рабочий день.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🤪22🙈5👍4🤨4🍌21🗿1
Совет по написанию SQL запросов: всегда перечисляйте поля

В некоторых запросах можно использовать вместо названий столбцов их номера или не указывать их вовсе. Но во избежании багов и во имя читаемости так лучше не делать. Особенно обратите внимание на три кейса:

1) Не ставьте * в запросах типа SELECT. Вот так не очень хорошо:

SELECT *
FROM table


Вот так гораздо лучше:

SELECT col, col2, col3
FROM table


2) При добавлении данных в таблицу, так же как и в SELECT перечисляйте поля таблицы. Вот так делать не нужно:

INSERT INTO table
VALUES (col1, col2, col3……)


Лучше вот так:

INSERT INTO table (col1, col2, col3……)
VALUES (col1, col2, col3……)


3) При сортировке (ORDER BY) лучше использовать имена столбцов, а не их позиции (номера). Вот так не надо:

SELECT col, col2, col3
FROM table
ORDER BY 2, 1


Надо вот так:

SELECT col, col2, col3
FROM table
ORDER BY col2, col


😻 #SQL
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡44👍21🤯4🔥3🌭31💅1
Поделитесь с друзьями и родственниками – пусть будут осторожны!!!

P.S. Вдохновлено новым европейским AI Act

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
😁54🔥8
Адаптивный подбор размера шага в градиентном спуске

Мы с вами уже раскладывали по полочкам базовый градиентный спуск. И конечно, исследователи нашли тысячу и один способ улучшить этот алгоритм. Например, многие сразу задались вопросом: как подбирать размер шага (learning rate)? Он максимально остро встаёт в случае SGD: ведь посчитать значение функции потерь в точке очень дорого, так что методы в духе наискорейшего спуска нам не помогут. Решили действовать хитрее.

😻 #train #math
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🗿5