Как известно, Твиттер почти никогда не дает свой стриминг апи русским, по причине русских хакеров, которые в 2016 украли выборы. Недавно вы могли видеть громкие слова о том, что Твиттер opening up its full tweet archive to academic researchers for free, но это тоже только для девелоперов.
Что делать, если вы русский и все еще хотите ресерчить, что там пишут пендосы? На самом деле решений дохуя и больше.
1. При наличии айди твитов (их периодически выкладывают в открытых датасетах на гитхабе, так как это не противорчит политике конфиденциальности), можно подрубить Hydrator и восстановить сами твиты с некоторой метаинформацией типа описания профиля юзера. Парсится долго и нудно, но чет мне подсказывает, что стриминг апи не очень быстрее. Еще периодически вас могут банить, так как софт симулирует открытие самих твитов с вашего аккаунта, ну и когда вы за час смотрите несколько тысяч твитов без перерыва, твиттеру становится странно.
2. Совершенно волшебный пакет для R, который без наличия апи твиттера (но при наличии совершенно рандомного пустого акка, который вам не жалко) может дать вам считать инфу о пользователях. Если быть точнее, эта штука вытаскивает одновременно 90 (девяносто) параметров по юзерам, вплоть до графов пользователей (!!! вообще это фича только для девов). Очень интересно, почему в твиттере всем так похуй, что это все можно выкачать просто вот так. Конечно, есть лимит запросов, но вроде он исчисляется десятками тысяч.
Что делать, если вы русский и все еще хотите ресерчить, что там пишут пендосы? На самом деле решений дохуя и больше.
1. При наличии айди твитов (их периодически выкладывают в открытых датасетах на гитхабе, так как это не противорчит политике конфиденциальности), можно подрубить Hydrator и восстановить сами твиты с некоторой метаинформацией типа описания профиля юзера. Парсится долго и нудно, но чет мне подсказывает, что стриминг апи не очень быстрее. Еще периодически вас могут банить, так как софт симулирует открытие самих твитов с вашего аккаунта, ну и когда вы за час смотрите несколько тысяч твитов без перерыва, твиттеру становится странно.
2. Совершенно волшебный пакет для R, который без наличия апи твиттера (но при наличии совершенно рандомного пустого акка, который вам не жалко) может дать вам считать инфу о пользователях. Если быть точнее, эта штука вытаскивает одновременно 90 (девяносто) параметров по юзерам, вплоть до графов пользователей (!!! вообще это фича только для девов). Очень интересно, почему в твиттере всем так похуй, что это все можно выкачать просто вот так. Конечно, есть лимит запросов, но вроде он исчисляется десятками тысяч.
The Verge
Twitter is opening up its full tweet archive to academic researchers for free
A full searchable archive of public tweets will now be available for free.
Мы тут с товарищами кстати запилили нейронку, которая генерит твиты в стиле Пушкина. Пока это все в тестовом режиме, но скоро будут нормальные почищенные данные + видимо нам дадут ru gpt3 xl сберовскую 👀
Уже сейчас моделька может выдавать кеки типа этого:
https://twitter.com/NeuralPushkin/status/1386751533447012357
Уже сейчас моделька может выдавать кеки типа этого:
https://twitter.com/NeuralPushkin/status/1386751533447012357
Twitter
Neural Pushkin
Сегодня в метро услышал, как один из проводников по громкоговорителю сообщил: «Сейчас за мной придет женщина и принесет мне стакан воды». Я опешил. Оказывается на этот счет есть статья Уголовного кодекса — до двух лет лишения свободы условно с испытательным…
Этой ночью хочется признаться в любви цветовым палитрам viridis из ggplot2
Иногда в 2 часа ночи приходится задаться вопросом, как работают генераторы в питоне....
Небольшая подборка для тех, кто в последний раз слово yield видел на парах по эконому (как и я собсна): базовое объяснение, более сложный пример с прохождением по графу и немножко с разбором логики всего процесса, примерчики где это хорошо использовать
Небольшая подборка для тех, кто в последний раз слово yield видел на парах по эконому (как и я собсна): базовое объяснение, более сложный пример с прохождением по графу и немножко с разбором логики всего процесса, примерчики где это хорошо использовать
Хабр
Как работает yield
На StackOverflow часто задают вопросы, подробно освещённые в документации. Ценность их в том, что на некоторые из них кто-нибудь даёт ответ, обладающий гораздо б...
Вообще с к*рсовой происходит ставший уже классическим для меня вид жопной боли – ты кучу времени въебывашь на то, чтоб какая-то тупая nlp моделька начала давать какие-то результаты, чтобы потом узнать, что это все умеет делать BERT, при чем с довольно неплохим качеством. Я так где-то месяц обучала Latent dirichlet allocation во всех возможных конфигурациях, он почти при любом раскладе выдавал хуйню (ну, кроме топиков типа abort_cells и pray_jesus), а BERTopic сделал что-то осмысленное почти с первого запуска.
Еще больше времени я убила на работу с лексиконами. И да, наверное, в моем случае юзать лексиконы, чтобы определить сентимент скор твита это методологически оправдано (потому что лексиконы можно редактировать руками, как на картинке выше, и это можно туда добавить всякие слова специфичные для этой кампании типа sleepy или laptop), но half the time с этими сентиментами выходит тоже хуйня. И вот вчера я чуть ли не на стартовой странице huggingface со списком моделек вижу, что bert умеет считать сенимент скоры и так. И то есть всей этой дрочильни ручками могло и не быть. Мда.
Летом конечно обязательно обучу это все на берте и попробую пропихнуть как публикацию, но вот такой крик души
Еще больше времени я убила на работу с лексиконами. И да, наверное, в моем случае юзать лексиконы, чтобы определить сентимент скор твита это методологически оправдано (потому что лексиконы можно редактировать руками, как на картинке выше, и это можно туда добавить всякие слова специфичные для этой кампании типа sleepy или laptop), но half the time с этими сентиментами выходит тоже хуйня. И вот вчера я чуть ли не на стартовой странице huggingface со списком моделек вижу, что bert умеет считать сенимент скоры и так. И то есть всей этой дрочильни ручками могло и не быть. Мда.
Летом конечно обязательно обучу это все на берте и попробую пропихнуть как публикацию, но вот такой крик души
пытаюсь нарисовать простую гистограмму на своей выборке
@
одна гистограмма строится три минуты
@
ура бигдата
@
одна гистограмма строится три минуты
@
ура бигдата