я обучала одну модель
4.58K subscribers
457 photos
29 videos
21 files
379 links
Shitposting on various subjects

PS рекламы в канале нет
Download Telegram
Тайны эйчара сбера (хайрят по фотке)
что волнует американский народ [2]
Как известно, Твиттер почти никогда не дает свой стриминг апи русским, по причине русских хакеров, которые в 2016 украли выборы. Недавно вы могли видеть громкие слова о том, что Твиттер opening up its full tweet archive to academic researchers for free, но это тоже только для девелоперов.
Что делать, если вы русский и все еще хотите ресерчить, что там пишут пендосы? На самом деле решений дохуя и больше.
1. При наличии айди твитов (их периодически выкладывают в открытых датасетах на гитхабе, так как это не противорчит политике конфиденциальности), можно подрубить Hydrator и восстановить сами твиты с некоторой метаинформацией типа описания профиля юзера. Парсится долго и нудно, но чет мне подсказывает, что стриминг апи не очень быстрее. Еще периодически вас могут банить, так как софт симулирует открытие самих твитов с вашего аккаунта, ну и когда вы за час смотрите несколько тысяч твитов без перерыва, твиттеру становится странно.
2. Совершенно волшебный пакет для R, который без наличия апи твиттера (но при наличии совершенно рандомного пустого акка, который вам не жалко) может дать вам считать инфу о пользователях. Если быть точнее, эта штука вытаскивает одновременно 90 (девяносто) параметров по юзерам, вплоть до графов пользователей (!!! вообще это фича только для девов). Очень интересно, почему в твиттере всем так похуй, что это все можно выкачать просто вот так. Конечно, есть лимит запросов, но вроде он исчисляется десятками тысяч.
И немного демонстрации того, что можно вытащить через этот пакет
Мы тут с товарищами кстати запилили нейронку, которая генерит твиты в стиле Пушкина. Пока это все в тестовом режиме, но скоро будут нормальные почищенные данные + видимо нам дадут ru gpt3 xl сберовскую 👀
Уже сейчас моделька может выдавать кеки типа этого:
https://twitter.com/NeuralPushkin/status/1386751533447012357
Этой ночью хочется признаться в любви цветовым палитрам viridis из ggplot2
Иногда в 2 часа ночи приходится задаться вопросом, как работают генераторы в питоне....

Небольшая подборка для тех, кто в последний раз слово yield видел на парах по эконому (как и я собсна): базовое объяснение, более сложный пример с прохождением по графу и немножко с разбором логики всего процесса, примерчики где это хорошо использовать
работа над к*рсовой идет хорошо (нет)
Вообще с к*рсовой происходит ставший уже классическим для меня вид жопной боли – ты кучу времени въебывашь на то, чтоб какая-то тупая nlp моделька начала давать какие-то результаты, чтобы потом узнать, что это все умеет делать BERT, при чем с довольно неплохим качеством. Я так где-то месяц обучала Latent dirichlet allocation во всех возможных конфигурациях, он почти при любом раскладе выдавал хуйню (ну, кроме топиков типа abort_cells и pray_jesus), а BERTopic сделал что-то осмысленное почти с первого запуска.
Еще больше времени я убила на работу с лексиконами. И да, наверное, в моем случае юзать лексиконы, чтобы определить сентимент скор твита это методологически оправдано (потому что лексиконы можно редактировать руками, как на картинке выше, и это можно туда добавить всякие слова специфичные для этой кампании типа sleepy или laptop), но half the time с этими сентиментами выходит тоже хуйня. И вот вчера я чуть ли не на стартовой странице huggingface со списком моделек вижу, что bert умеет считать сенимент скоры и так. И то есть всей этой дрочильни ручками могло и не быть. Мда.
Летом конечно обязательно обучу это все на берте и попробую пропихнуть как публикацию, но вот такой крик души
О сколько открытий чудных можно совершить, открыв полное собрание сочинений Пушкина (это том 3)
Одна история охуительней другой если честно
буду твоим песиком (это том 10)
такие у меня сегодня вопросы
программисты живут скоростями