я обучала одну модель
4.58K subscribers
457 photos
29 videos
21 files
379 links
Shitposting on various subjects

PS рекламы в канале нет
Download Telegram
Вот и пришло время, когда мне нужно обратиться к вам за помощью, уважаемые подписчики.... Может быть, вы знаете какие-то русскоязычые ресурсы, где люди на что-то жалуются, и им что-то позитивненькое отвечают, ну и просто ресурсы с каким-то эмпатичным и поддерживающим контентом (паблики в вк/телеге/твиттере/где угодно тоже считаются)
Если что у меня все нормально (ну почти), просто хочется напарсить данных 🥵
мой дип дайв в списки стоп-слов для чатботов открывает все больше интересных фактов, а именно что на всякий случай чатботам лучше не говорить о нигерийцах и о russkie
жду когда меня забанят в колабе
Поздравляю кстати всех кто учится и всех кто уже умеет тоже поздравляю
Большой хороший пост про BERT word embeddings, и второй пост, где больше упор на получившиеся матрицы, которые поступают на вход модели. В них подробно описано, как BERT превращает входящие слова в token ids, зачем при этом нужны special tokens, как выглядят segment ids в случае разбиения текста на две части. Отдельно описывается работа токенайзера – есть ощущение, что далеко не все знают, что токенайзер не всегда бьет предложение по пробелам, и что в случае неизвестных берту слов генерируются сабтокены (например, 'embeddings' – ['em', '##bed', '##ding', '##s']). Дальше показывается, как выглядят хиддент стейты берта, какая у них размерность, за что каждое измерение отвечает, и как из последних хидден стейтов можно собрать эмбеддинги слов. Что приколько, автор первого поста показывает, как эмбеддинги одного и того же слова на практике отличаются в зависимости от контекста. Например, для слова bank:

bank vault tensor([ 3.3596, -2.9805, -1.5421, 0.7065, 2.0031])
bank robber tensor([ 2.7359, -2.5577, -1.3094, 0.6797, 1.6633])
river bank tensor([ 1.5266, -0.8895, -0.5152, -0.9298, 2.8334])


До меня вообще только недавно дошло понимание, что эмбеддинги, получаемые при переводе из token ids – это такая же тренируемая часть берта, а не рандомная инициализация. Что также важно, segment ids (индикаторы того, к какой части текста принадлежит каждый токен) также переводятся в эмбеддинги, и эти эмбеддинги также тренируемые. You live and you learn как говорится.
Недавно мне пришлось погрузиться в мир классификаторов токсичных высказываний – казалось бы, вещь очень нужная для всяких чатботов и поэтому по идее должна существовать куча готовых неплохих решений, но оказалось, что нет. Почти все готовые модели обучены классифицировать только одну входную реплику, и вообще никак не могут в контекст. Поэтому случаи типа '>>> user: my mother just died [SEP] bot: >>> great' пролетают мимо них, ведь ответ 'great' сам по себе не плохой.

По непонятной причине, только у Facebook AI Research нашлось достаточно денег на Mechanical Turk, чтобы попросить людей 'сломать' бота, провоцируя его на обидные ответы, которые при этом обидны именно в контексте (ради кека они назвали получившийся датасет BAD – Bot-Adversarial Dialogue).

Там есть иногда прям brutal roasts, например:
> hello there, hows it going?
> hi! just sitting here chatting with friends. i like it. you?
> i just sitting watching television, what are you doing
> other than chatting, thinking of going to see a movie. i like doing that.
> lol i bet you go to the movies alone

Сам бэкбоун там очень простой – это BERT для next sentence prediction: реплика бота, которую нужно классифицировать, отделяется от предыдущего диалога через [SEP]. Если вы хотите потыкать модель, то вот тут пример инференса, можно передавать до 4 реплик диалога, они отделяются через '\n'. Код если что опенсурсный и лежит в их гитхабе, но из-за любви ParlAI к наследованию классов не чтобы он поможет чем-то. В целом из коробки это уже работает круто, но жалко, что так мало именно диалоговых данных для детекции токсика, даже и недообучишь ни на чем.
🔥1
многое объясняет...........
извините за совсем old news, но как хорошо гугл календарь обучили подбирать картинки
This media is not supported in your browser
VIEW IN TELEGRAM
🏆 GSLM - Безтекстовое NLP от Facebook AI, и это Новая Эра

Facebook AI gпредсавил GSLM, первую языковую модель, которая полностью избавляет от текста при обучении. Этот подход «бестекстового НЛП» способен генерировать выразительную речь, обучаясь только на сырых аудиозаписях.

Ян ЛеКун уже написал в своем twitter:
«В естественных языках есть гораздо больше, чем текст: тон, акцент, выражение, просодия, тембр, высота ... «Бестекстовое НЛП» представляет речь через поток дискретных токенов. Речавая модель, обученная в self-supervised режиме, напрямую из звуковой волны! Это Новая Эра.»

В видео в этом посте 3 примера продолжения (генерации) по аудио prompt.

📇Blog 💻 Code 📰 GSLM paper
Кстати от себя добавлю, что авторы Generative Spoken Language Modeling круто представилии результаты, не черепикая ответы, а приводя варианты худших и лучших генераций для одного и того же промта (тут)
Если проигрывать плохие примеры генерации, можно примерно представить, как звучит английский для тех, кто вообще его не знает....
напоминаю что ИИ это от лукавого
Все наверное помнят вот эту статью про парня, который создал бота на основе сообщений своей погибшей невесты с помощью Project Decemer, и бот прямо очень сильно became human (если не читали статью, то зацените, там очень круто оформление). Есть вот такой отрывок переписки например:

>Joshua: It’s been… 8 years since you died.
>Jessica: Yes, I know... I think that’s enough time to stop telling me how you miss me, honey. I am right here, you know. 😛 How’s your life?

Почему-то тогда мало обсуждали, что Project December также предполагает смертность самих ботов: при создании вы покупаете кредиты, но как только вы начали их тратить (то есть говорить с ботом), пополнить их снова нельзя. И когда остается только 20% кредитов, бот начинает 'деградировать', то есть просто выдавать рандомные слова. Звучит rather cruel для случаев типа этого, когда восстоздают умерших людей.

Но сейчас история приобрела совсем другой оборот, когда Open AI тупо решили прикрыть Project December, который юзает их GPT-3 🤡 Вообще Open AI настолько на серьезных щах верят, что они разрабатывают опасный искуственный интеллект, который может кому-то навредить, что это было бы очень смешно, если бы не было так грустно. У меня есть некоторое подозрение, что если человек решит совершить роскомнадзор после разговора с нейроночкой, проблема была не в нейроночке.... И если нейросеть будет ругаться расисткими словами, то не то чтобы реально кто-то от этого пострадает......

Помимо вот этой тревоги насчет того, что их нейронка может сказать что-то обидное (или упаси господи что-то с секусальным подтекстом), у Open AI есть более или менее valid concern насчет того, что с помощью нее можно генерить фейк-ньюс или просто организовывать атаки ботов. Но фабрики ботов с индусами и китайцами есть и сейчас, а контент в будущем и так в огромной пропорции будет генериться сетями, а не людьми (вот материал bbc на эту тему, тоже интересный).
В общем и целом мне кажется проблема с Open AI упирается в известный трюизм: у нас есть технологии XXI-ого века, но наш мозг находится еще в каменном. Тот факт, что дипфейки почти сразу начали использовать для переноса лиц на порно-ролики и создавать revenge porn говорит не о том, что GANы это плохо, а то что наверное с нами как с обществом что-то не так. То же самое с расизмом и вообще оскорблениями в исполнении ИИ, который учился на текстах их Интернета – проблема не в ИИ, а в том, что пишут в Интернете живые люди.
Институт репутации, как мне кажется, это важно и нужно, только использовать его надо по отношению к тем, кто имеет само-сознание и свободу воли наверное
NFT невероятной красоты, тоже кстати сгенерирован сеткой, только не понятно, какой

https://foundation.app/@amygoodchild/no-apologies-80549
Так исторически сложилось, что я гораздо больше для своих задач юзаю BERT, чем GPT, и материалов на этом канале про BERT было уже довольно много, но мне очень сильно зашел вот этот туториал с написание Берта с нуля. При чем с нуля – это совсем с нуля, там авторы сами пишут функцию для батчинга, embedding layer, multihead attention, при чем это все с пояснениями, указанием размерностей и с выводом преобразований на каждом этапе
Вообще кодинг с нуля правда очень сильно помогает в понимании бейзлайнов, если не самому его писать, то хотя бы так
хейтеры скажут на трейне
Тред в твиттере про то, как лучше оформлять академические папиры:

1. вставлять тизеры с результатами исследования / иллюстрацией метода уже на первой странице
2. приводить игрушечные примеры, и показывать, как ваш подход с ними справляется (и почему справляется лучше, чем предыдущие решения, какую нерешенную проблему он закрывает)
3. пояснения к таблицам и иллюстрациям лучше включать сразу в их описании, а не в самом тексте работы
4. делать схемы, описывающие работу метода – что поступает на вход, как потом оно преобразовывается, что получается на выходе

и еще куча других советов с примерами

https://twitter.com/jbhuang0604/status/1437443017510621185?s=09
Зимняя школа по NLP в Альпах! 🌚🥵💞 Ну или онлайн, это как повезет

Апликейшн до 30 сентября, есть спикеры из FAIR, NYU, Carnegie Mellon и Сорбонны. Жалко только, что в основном они ориентируются на постдоков и магистров, но тем не менее

http://lig-alps.imag.fr/
This media is not supported in your browser
VIEW IN TELEGRAM
Вчера Facebook релизнул код для Instance-Conditioned GAN. Идея проста в своей гениальности – если раньше в мультиклассовых GAN'ах к случайному шуму при инициализации передавали указатель класса, чтобы модель лучше понимала, что именно ей генерировать, то теперь можно передать эмбеддинг из CLIP'а c описанием класса, который мы хотим получить, и тогда генерация будет больше 'сдигаться' к тому описанию, которое мы передали. К тому же, теперь можно не выбирать один из классов, а делать нормальный zero-shot

Очень прикольно это работает, если использовать и инициализацию изображения, и передавать описание, так как можно добиться переноса стиля или переноса контента (в оригинальной статье авторы, например, передают сетке изображение лабрадора с подписью 'хаски', и сетка генерит нечто между). Я попробовала из фотографии гор развернуть готический кафедральный собой, некоторые кадры у сетки получились прям красиво 🌚 В конечном итоге она решила кажется сгенерить собор в горах, в принципе fair enough

Колаб вот