Data Secrets

Как работает BERT?

Модель BERT (Bidirectional Encoder Representations from Transformers) была представлена в статье от исследователей из Google AI Language. Она вызвала нешуточный ажиотаж в сообществе, и эту модель до сих пор все очень любят. Разбираемся, как она работает, и как ее использовать для своих задач.

Вот, кстати, ссылка на исходный код

😻

#NN

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤29🔥8👍5

5.25K views11:36

Data Secrets

Китайские исследовали сделали систему, которая помогает читателю с незнакомыми словами

Даже те, кто хорошо знает английский, спотыкаются при чтении: не хватает словарного запаса. Для решения проблемы резерчеры из Университета Цинхуа придумали систему, которая наблюдает за тем, как пользователь читает текст, и подсказывает значение незнакомых слов.

Для оценки системы участников попросили прочитать слова из теста на определение уровня словарного запаса, и система определила незнакомые для них слова с точностью 98,09%. Общая эффективность системы, конечно, зависела от контекста и качества веб-камеры, но результаты, тем не менее, радуют.

😻

#news #NN

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍38❤3

4.4K views10:06

Data Secrets

Функция transform из pandas

Эта функция (грубо говоря) сочетает в себе аггрегацию и фильтрование. Однако понять ее сразу не очень просто: лучше посмотрим на пример.

😻

#python

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥41👍20❤8🤔1

4.58K views12:04

Data Secrets

Что такое аугментация данных?

Это один из методов регуляризации нейронных сетей через внесение изменений в данные. То есть, если мы внесем небольшие адекватные изменения в данных, мы можем спасти нейросеть от переобучения и увеличить ее обобщающую способность. Но почему это работает? Разбираемся на попугаях.

Бонусом оставляем отличную библиотеку, позволяющую производить аугментацию изображений.

😻

#analytics

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16❤7🐳4❤‍🔥1🔥1

4.63K views16:04

Data Secrets

Если лосс растет, то это не лосс, а скор 👽

😻

#memes

Please open Telegram to view this post

VIEW IN TELEGRAM

😁61🤪6👍2

4.44K viewsedited 08:12

Data Secrets

4 книги о Data Science этого года

Собрали дайджест из самых свежих книг, которые появились на полках в 2023 году. Уже успели что-нибудь прочитать?

Ссылки на скачивание:
- R for Data Science
- Learning Data Science
- Dive Into Data Science
- Mathematical Foundations of Data Science

😻

#advice

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍37🔥9

5.12K views14:04

Data Secrets

This media is not supported in your browser

VIEW IN TELEGRAM

Двойные графики иногда называют “вводящими в заблуждение”, потому что их шкалы можно так сжать и растянуть, что ряды станут похожими, хотя таковыми и не являются, или наоборот, их похожесть абсолютно нельзя будет определить по графику (см. гиф). Это приводит к ложным выводам.

Чтобы не обмануться, лучше всего дополнительно посчитать корреляцию. Она в любом случае не изменится (то есть как бы «учтет» манипуляции с осями), потому что нормализует каждый ряд по среднему и дисперсии. Например, как бы вы не растягивали тренды, если корреляции между метриками нет, она и не покажется.

😻

#analytics

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥19👍13🐳7🤔3

4.57K viewsedited 16:43

About

Blog

Apps

Platform