я обучала одну модель – Telegram

я обучала одну модель

@def_model_train

4.56K subscribers

457 photos

29 videos

21 files

381 links

Shitposting on various subjects

PS рекламы в канале нет

Download Telegram

About

Blog

Apps

Platform

я обучала одну модель

4.56K subscribers

я обучала одну модель

Нашла недавно вот этот мега-репозиторий с датасетами. Немного из того, что там есть:

• Датасет слов с ударениями (парсились из википедии и викисловаря), можно использовать для дообучения tts.
• Новая версия русскоязычных диалогов – в том числе там есть диалоги из художественной литературы
• Пары преложений со сменой лица (я сам перезвоню – ты сам перезвонишь)
• Вопросы и ответы для чат-ботов (в основном для NER tagging)
• Датасеты с парафразом

https://github.com/Koziev/NLP_Datasets

GitHub - Koziev/NLP_Datasets: My NLP datasets for Russian language

My NLP datasets for Russian language. Contribute to Koziev/NLP_Datasets development by creating an account on GitHub.

2.28K views14:25

я обучала одну модель

Очень полезный материал по деплою моделей, написан, разумеется, индусом 👳‍♂️

https://atrisaxena.github.io/projects/deploy-deeplearning-model-kubernetes/

Deploy Your Deep Learning Model On Kubernetes With Python, Pytorch, Flask, and Docker

So, Easy Everyone can do it.This post will demonstrate a very simple method by which you can deploy your pytorch deep learning model easily for production using REST API with Flask, and deploy it using docker and kubernetes.For anyone who doesn’t know about…

1.36K views14:53

я обучала одну модель

И большой видосий про docker и docker compose

https://www.youtube.com/watch?v=QF4ZF857m44&t=4567s

Основы Docker. Большой практический выпуск

Или: @amatyashov_bot
Телеграм канал https://t.me/amatyashov

Мой сайт https://matiashov.ru
Мой Телеграм бот: https://t.me/amatyashov_bot

Большой выпуск про #Docker. В видео постарался добавить как можно больше практики. В этом выпуске Вы узнаете что такое…

1.41K views14:58

я обучала одну модель

Еще одно оффтопное видео, но я искренне люблю этот подкаст (и особенно люблю смотреть такие видосы в два часа ночи)

Разумеется, в нем повторяется базовая мысль что спать это полезно, а еще полезнее спать ночью, но в основном тема подкаста вращается вокруг восприятия света.

Несколько ключевых идей:

• Очень важно видеть свет в течение ~нескольких часов после восхода солнца, или хотя бы стараться увидеть солнечный свет как можно быстрее после того, как вы проснулись. При чем, гораздо эффективней выйти на улицу, чем смотреть через стекло.
Этот утренний свет (с определенным балансом теплых/холодных тонов, углом падения и т.д.) стимулирует выброс кортизола, что помогает раздуплиться, плюс, потом через адекватное время вам выдадут мелатонин, и будет легче заснуть. Утверждается, что хватает пару дней там с утра постоять на солнышке, чтобы пофиксить режим

• Видеть яркий голубой свет вечером плохо, потому что мозг думает, что еще день. Более того, есть исследование, что восприятие яркого света в период примерно с 11 вечера до 4 утра усложняет выброс дофамина, что ведет к тревожности, депрессии, плохой концентрации, проблемам с фокусом и так далее 🤡 это многое объясняет

• Чтобы режим пофиксился, полезно также видеть солнце примерно во время заката. Так мозг понимает, что уже вечер, и такая практика даже способна немного смягчить влияение кучи яркого голубого света, который идет от компов / телефонов в течение вечера

• Важно еще расположение света. Помимо того, что вечером свет везде лучше приглушить, желательно еще оставить только нижний свет, то есть настольные лампы, или даже перенести эти лампы на пол

https://www.youtube.com/watch?v=nm1TxQj9IsQ&t=4212s

Master Your Sleep & Be More Alert When Awake

Today's episode provides a host of information on what makes us sleepy, sleep soundly, and feel awake and alert. It covers a broad range of tools for anyone wishing to improve their sleep and wakeful state. The science and logic for each tool is described.…

🔥1

1.37K viewsedited 23:40

я обучала одну модель

сегодня нейросеть сказала:

2.9K views14:18

я обучала одну модель

Парсер для телеге и даже без использования апишки

1.1K views15:23

я обучала одну модель

Forwarded from Мадан — наука

Глобальное обновление Telegram Parser
Я вернулся к парсеру Telegram и перекроил практически все внутренности.

Из основного:
- Убран GUI по причине ненадобности.
- Подружил парсер с Windows (как оказалось, из-за кодировок парсер не мог работать под Windows вообще).
- Добавлен нормальный конфиг.
- Рефакторинг всех внутренностей.
- Нормальный вывод в консоль/Telegram (как оказалось, присваивание зарезервированных имен прекрасно работает под Linux, но все еще не работает под Windows).
- Убран поиск по мутациям — слишком много проблем с ним, когда-нибудь допилю.

И да, инструкции по установке и настройке новой версии уже ждут всех желающих и даже на русском языке.

https://github.com/Antcating/telegram_parser

GitHub - Antcating/tmesca: Python based Telegram Channel/Group/User/Bot/Sticker Pack Scanner

Python based Telegram Channel/Group/User/Bot/Sticker Pack Scanner - Antcating/tmesca

1.18K views15:23

я обучала одну модель

Кек из трансляции Тинька – в superGLUE человеческий бенчмарк опустился на 4 место, первые три занимают трансформеры 🤡

1.92K views16:40

я обучала одну модель

Forwarded from Мишин Лернинг

Annotated PyTorch Paper Implementations

Коллега скинул прикольный сайт с реализаций разных deep learning идей на PyTorch. Основной упор сделан на объяснении и подробных построчных комментариях.

💻 nn.labml.ai

🔥1

1.12K views12:28

я обучала одну модель

Пару дней назад много кто раскритиковал алгоритм Света, который по тексту приговора может определить, погибла ли упоминаемая в нем женщина от домашнего насилия. То, что стастистику по домашнему насилию часто криво интерпретируют, это факт, но сам алгоритм выбивает четный пресижн 94% на тесте, так что к чему в нем докопаться я не вижу (ну ладно, к маленькой выборке и маленькому тесту можно докопаться)
Мне лично очень понравилось, как оформляли сопровождающую статью к этому алгоритму. В NLP вообще очень сложно с визуализацией и нормальным представлением результатов (да и в ML в целом наверное), а тут это кажется вполне неплохо получилось
Есть еще похожая статья по анализу твитов от акканутов, которые Твиттер связал с активностью российской фабрики троллей (в феврале опубликовали датасет из 200 000 таких твитов). С точки зрения анализа там не рокет саенс, но очень красивый датавиз и очень прикольно интегрированы примеры твитов
ну и да, идея с заголовком статьи клевая

1.65K views17:50

я обучала одну модель

Чего не найдешь в интернете
http://www.rsdb.org/full

1.28K viewsedited 10:56

я обучала одну модель

да кто этот ваш дерти ток

1.33K views11:11

я обучала одну модель

форум для эмокидов или репа по nlp 🧐

1.16K views19:00

я обучала одну модель

Вот и пришло время, когда мне нужно обратиться к вам за помощью, уважаемые подписчики.... Может быть, вы знаете какие-то русскоязычые ресурсы, где люди на что-то жалуются, и им что-то позитивненькое отвечают, ну и просто ресурсы с каким-то эмпатичным и поддерживающим контентом (паблики в вк/телеге/твиттере/где угодно тоже считаются)
Если что у меня все нормально (ну почти), просто хочется напарсить данных 🥵

1.24K viewsedited 17:00

я обучала одну модель

мой дип дайв в списки стоп-слов для чатботов открывает все больше интересных фактов, а именно что на всякий случай чатботам лучше не говорить о нигерийцах и о russkie

1.32K views20:10

я обучала одну модель

жду когда меня забанят в колабе

1.28K views12:48

я обучала одну модель

Поздравляю кстати всех кто учится и всех кто уже умеет тоже поздравляю

1.35K views13:51

я обучала одну модель

Большой хороший пост про BERT word embeddings, и второй пост, где больше упор на получившиеся матрицы, которые поступают на вход модели. В них подробно описано, как BERT превращает входящие слова в token ids, зачем при этом нужны special tokens, как выглядят segment ids в случае разбиения текста на две части. Отдельно описывается работа токенайзера – есть ощущение, что далеко не все знают, что токенайзер не всегда бьет предложение по пробелам, и что в случае неизвестных берту слов генерируются сабтокены (например, 'embeddings' – ['em', '##bed', '##ding', '##s']). Дальше показывается, как выглядят хиддент стейты берта, какая у них размерность, за что каждое измерение отвечает, и как из последних хидден стейтов можно собрать эмбеддинги слов. Что приколько, автор первого поста показывает, как эмбеддинги одного и того же слова на практике отличаются в зависимости от контекста. Например, для слова bank:

bank vault tensor([ 3.3596, -2.9805, -1.5421, 0.7065, 2.0031])
bank robber tensor([ 2.7359, -2.5577, -1.3094, 0.6797, 1.6633])
river bank tensor([ 1.5266, -0.8895, -0.5152, -0.9298, 2.8334])

До меня вообще только недавно дошло понимание, что эмбеддинги, получаемые при переводе из token ids – это такая же тренируемая часть берта, а не рандомная инициализация. Что также важно, segment ids (индикаторы того, к какой части текста принадлежит каждый токен) также переводятся в эмбеддинги, и эти эмбеддинги также тренируемые. You live and you learn как говорится.

Why BERT has 3 Embedding Layers and Their Implementation Details

Why does BERT have 3 embedding layers instead of 1 like most deep learning-based NLP models?

1.47K views07:55

я обучала одну модель

Недавно мне пришлось погрузиться в мир классификаторов токсичных высказываний – казалось бы, вещь очень нужная для всяких чатботов и поэтому по идее должна существовать куча готовых неплохих решений, но оказалось, что нет. Почти все готовые модели обучены классифицировать только одну входную реплику, и вообще никак не могут в контекст. Поэтому случаи типа '>>> user: my mother just died [SEP] bot: >>> great' пролетают мимо них, ведь ответ 'great' сам по себе не плохой.

По непонятной причине, только у Facebook AI Research нашлось достаточно денег на Mechanical Turk, чтобы попросить людей 'сломать' бота, провоцируя его на обидные ответы, которые при этом обидны именно в контексте (ради кека они назвали получившийся датасет BAD – Bot-Adversarial Dialogue).

Там есть иногда прям brutal roasts, например:
> hello there, hows it going?
> hi! just sitting here chatting with friends. i like it. you?
> i just sitting watching television, what are you doing
> other than chatting, thinking of going to see a movie. i like doing that.
> lol i bet you go to the movies alone

Сам бэкбоун там очень простой – это BERT для next sentence prediction: реплика бота, которую нужно классифицировать, отделяется от предыдущего диалога через [SEP]. Если вы хотите потыкать модель, то вот тут пример инференса, можно передавать до 4 реплик диалога, они отделяются через '\n'. Код если что опенсурсный и лежит в их гитхабе, но из-за любви ParlAI к наследованию классов не чтобы он поможет чем-то. В целом из коробки это уже работает круто, но жалко, что так мало именно диалоговых данных для детекции токсика, даже и недообучишь ни на чем.

Bot-Adversarial Dialogue for Safe Conversational Agents

Jing Xu, Da Ju, Margaret Li, Y-Lan Boureau, Jason Weston, Emily Dinan. Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021.

🔥1

1.55K views14:59

я обучала одну модель

многое объясняет...........

1.17K views20:26