я обучала одну модель
4.58K subscribers
457 photos
29 videos
21 files
379 links
Shitposting on various subjects

PS рекламы в канале нет
Download Telegram
Channel name was changed to «я обучала одну модель»
мир комментариев на гитхабе
In continuation to my kursach старый, но от этого не менее прикольный материал от Wall Street Journal: они взяли издания, которые часто упоминали в Фейсбуке либо консервативные, либо либеральные юзеры, и построили два параллельных user feed – как одну и ту же проблему освещали консервативные или либеральные СМИ.

Помимо того, что это просто интересно полистать, становится довольно очевидной мысль, что помимо самой оценки события ('аборты плохо'), важно еще то, какую информацию вы в принципе отбираете – будете ли вы постить историю о том, как у какой-то девочки после неудачного аборта ампутировали ноги, или вы будете скорее вести репортаж о том, как власти пытаются прикрыть организацию, которая обеспечивает репродуктивными услугами бедные слои населения. При чем, скорее всего вам может быть жалко и ту девочку, и бедных, которые теперь кроме абортов не смогут сделать те же плановые обследования, но выбирается для постинга только то, что вписывается в ваш идеологический нарратив. Поэтому большая часть постов в этом материале не то чтобы противоречат друг другу – они просто о разных историях.

Более очевидный для 2021 года пример, как мне кажется, это отношение к полиции. Если вы либеральное СМИ, вам зазорно писать о том, сколько реальных преступлений за этот год раскрыли опера (если конечно это цифра не оказывается бесконечно мала), и вообще предоставлять любую информацию о том, что полиция может быть эффективной и полезной, так как при существующем уровне полицейского насилия (далеко не только в России) зазорно быть на ее стороне. В либеральном дискурсе (прости господи) любая позитивная оценка силовиков, будь она основана на самых сухих фактах, вопринимается в штыки, потому что тем самым мы якобы закрываем глаза на все нарушения прав человека и на все мучения невинно постадавших (и на то, что полиция как институт сама по себе порочна). Аналогично, если вы про-государственное СМИ или просто за политику сильной руки, вам зазорно признавать, что где-то в тюрьмах кого-то пытают, потому что освещение таких сюжетов якобы нивелирует честь мундира, игнорирует доблестные подвиги уважаемых ментов и т.д. В общем и целом, как правило вы можете признавать и то, что от полиции есть польза, и то, что полиция очень часто кого-то бьет (без законных на то оснований). При этом как правило люди оказываются уверены, что концентрироваться нужно на чем-то одном, а говорить об обратной стороне медали – либо не особо нужно и оправдано, либо попросту аморально.
Смотрю презентацию vk lab про генерацию текста, докладчик открывает слайд "а зачем все это нужно" и там первый пункт "мы получили прикольную игрушку, может быть сгенерированный текст будет смешным"))))) Мое мнение что это единственный правильный подход к АИ-решениям
+ давайте обучим большую модель и еще одну большую модель, но не будем сверху обучать модель попроще, а будем запускать сразу обе при инференсе, потому что у нас лосс на разности моделей построен))))
Короче я расстроен докладчиками:
* мы проебались с выборкой, метрик не будет, метод сосет бибу

* У нас модель заикается мы не знаем почему
Алсо этот же докладчик: НИКТО НИ ИСПОЛЬЗУЕТ БИМ СЕРЧ ВЫ ВСЕ ВРЕТИ!?!
PPLM очень медленные, а giant LM не медленные?)))
Короче доклад про LM сосет бибу, авто не умеет в conditional gpt и тюнинг модели. Зато умеет делать stack more models)))


Короче говоря я расстроен, я ждал анонс VKLM с sparce attention от big bird ((((
Вы могли знать, что наконец-то выкатили модель для использования в ваших рабочих и учебных чатиках, а именно модельку для детокса текста на русском
Для этой задачи авторы тюнили GPT и BERT:
• В случае GPT сама модель уже умеет перефразировать предложения (если начать ввод с 'перефразируй' или поставить >>> в конце), но авторы дополнительно ее файн-тюнили: брали пары из одних и тех же по смыслу предожений, но одно из них токсичное, второе нет. На вход подается токсичное предложение, на выходе хотят нейтральное. Авторы утверждают, что хватило 200 таких пар для обучения. Минус подхода в том, что модель по сути генерит новое предложение с нуля, поэтому по содержанию выход может сильно отличаться.
• В случае BERT все сложнее. Для начала, авторы взяли conditional BERT и обучали соотвественно на тексты с лейблами двух стилей – токс и не токс. Дальше во время обучения токсичные слова маскировались, и модель просили заменить их на что-то не токсичное. Как определять токсичные слова? Ну, авторы обучили логистическую регрессию на мешке слов, чтобы она предсказывала, токсичный текст или нет, – и оттуда можно было взять веса (оценку токсичности) для каждого слова. Минус подхода в том, что BERT меняет всего одного слово, а не все предложение, что может плохо сказаться на грамматике и вообще логике предложения (или он может вообще вставить special token типа [UNK])

Разумеется, важно не это все, а то, что на выходе получаются кеки (тыкать тут). Я например экспериментально установила, что сделать добрыми треки Фараона у модели пока не выходит( Вообще это не сюрприз ни для кого, но авторы сильно черипикали примеры, потому что как правило мат она заменяет просто на рандомный набор букв
кеки следующего характера:
😁1
Интересная довольно работа по unsupervised question answering. По сути авторы пытаются построить модель, которой не нужен размеченный датасет с вопросами по типу SQuAD. При этом, по качеству она не дотягивает до supervised обучения (когда есть ручная разметка вопрос-ответ), но хотя бы обгоняет более ранние модели QA. Что они делают:
1. Рандомно семплируются парагрфы из Википедии опредленной длины. Внутри них ищутся noun sentences или name entity sentences (то есть когда в предложении есть специфичные наименования вроде даты/места/имени/марки и т.д.).
2. Из этих предложений составляются Cloze Questions – предожения, где ответ замаскирован (например, 'летние олимпийские игры 1980 года проходили в _' или 'летние олимпийские игры _ года проходили в Москве' ). За ответ считается, собственно, named entity или главное существительное в предложении.
3. Далее нужно перевести эти Cloze Questions в вопросы, сформулированные на естественом языке. Для этого авторы используют seq2seq модель, которая по сути занимается переносом стиля на текстовых данных: она берет два корпуса – один это cloze questions, второй это реальные вопросы, составленные людьми, и пытается перенести стиль, сохранив содержание. Чтобы улучить качество переноса, авторы стали еще подавать тип ответа вместе с самим cloze question, чтобы генерировалось правильное вопросительное слово (например, если ответ – это дата (temporal), то нужно подставить вместо маски when). Еще авторы пытались повысить робастность, добавляя шум, то есть перемешивая и удаляя слова в вопросе, предполагая, что модель дожна выучиь определнные n-граммы, которые указывают на тот или иной ответ, и быть устойчивой к различным вариантам парафраза.

Тренируют это все на BERT-Large, и в принципе выходит неплохо, вообще интересно, как тема с обучением на синтетических данных будет развиваться. Еще по статье видно, что этот один из тех случаев, когда авторы умоляют нейроночку заработать с помощью любых эвристик, ну или они просто ответственные, и прямо сильно документировали процесс экспериментов с методом

Сслыка на гит
Пример вопросов вот
This media is not supported in your browser
VIEW IN TELEGRAM
Просто восхитительный видос, полученный следующим образом: взяли датасет лиц Ukiyo-e, сетку для image-to-image translation (архитетура похожа на GAN с аттеншеном), и еще один очень крутой GAN, который может переводить видео в видео (вообще его изначально тренировали на аниме)
Повторюсь, единственно правильный подход к АИ-решениям я вижу именно так
Специально для людей как я, которые любят заводить странички в ноушене, но не очень любят все это потом делать))) Но вообще по-моему тут очень адекватная градация скилов, к тому же списки можно кастомайзить под себя
https://towardsdatascience.com/a-checklist-to-track-your-data-science-progress-bf92e878edf2
И вот еще очень хороший роудмэп по всему DS от train-test split и knn до облачных сервисов, все идет вместе с ссылками на курсы/материалы
https://whimsical.com/machine-learning-roadmap-2020-CA7f3ykvXpnJ9Az32vYXva