Forwarded from Цифровой филолог (Даня Скоринкин)
5 коллекций данных для цифрового гуманитария
Интернет набит данными, но очень немногие датасеты сделаны гуманитариями и для гуманитариев. Собрал пять чисто гуманитарных источников данных, которые хорошо использовать в курсе анализа данных или программирования на DH-программах.
🎭 1. DraCor — корпуса и датасеты вокруг драматических текстов (с уклоном в network analysis, но не только). Один из очень немногих проектов, сумевших на базе “гуманитарного” стандарта TEI построить классную экосистему гуманитарных данных. Самые приятные данные дракора — это метаданные для каждого корпуса, которые вы можете скачать прямо на страничке корпуса, например, вот табличка для русского корпуса: https://dracor.org/api/v1/corpora/rus/metadata/csv Тут и классические метаданые вроде дат написания и публикации, и сетевые вроде плотности социальной сети в пьесе, и например соотношение мужской и женской речи…
Еще для каждой отдельной пьесы можно скачать сетевые данные (в gexf/csv/gml), речь персонажей, сценические ремарки… Ну и полную разметку в TEI, из которой все эти данные произрастают.
✒️ 2. Репозиторий открытых данных по русской литературе и фольклору — проект Цифровой лабы Пушкинского дома (ИРЛИ РАН), где цифровые филологи и не только публикуют датасеты и (иногда) код к своим исследованиям. Своего рода гуманитарный papers with code. Вот, например, данные и код к статье Кирилла Маслинского о том, какие животные чаще встречаются в каких жанрах детской литературе.
А еще там публикует новые датасеты сам ПушДом. Многие из них называются очень романтично. Скажем, Забытые романы русских писателей из фондов Пушкинского Дома (1857–1917)… Датасет с таким названием нужно обрабатывать под звуки романса “Отцвели уж давно хризантемы в саду”🍂
📚 3. European Literary Text Collection (ELTeC) — корпуса европейских романов, собранные с прицелом на репрезентативность и сопоставимость друг с другом. Целью было найти для каждой европейской литературы по 100 романов в диапазоне 1840-1920, чтобы они покрывали период более-менее равномерно, чтобы были представлены не только писатели-мужчины, чтобы бли длиной не менее 10000 слов и т.д. Не для всех корпусов это удалось, а русский корпус там совсем странный, но тем не менее — одна из немногих попыток сделать датасет, пригодный для “компаративистики” by design.
🏛 4. Госкаталог Музейного фонда РФ —свалка датасет по всему, что оцифровано во всех музеях России. Не так часто в нашей области можно найти наборы данных, где записей не тысячи, но миллионы. Качество очень разное, репрезентативность тоже под вопросом, но жемчужин в этом океане данных тоже море. Одну я здесь уже описывал.
🗺 5. Геоданные DHCLOUD. Тут лежат литературные карты в geojson, сделанные студентами гуманитарного факультета Вышки под руководством Бориса Орехова. Картографированы самые разные тексты: от маршрута Афанасия Никитина и до Приключений Капитана Врунгеля ⛵🐳
Интернет набит данными, но очень немногие датасеты сделаны гуманитариями и для гуманитариев. Собрал пять чисто гуманитарных источников данных, которые хорошо использовать в курсе анализа данных или программирования на DH-программах.
🎭 1. DraCor — корпуса и датасеты вокруг драматических текстов (с уклоном в network analysis, но не только). Один из очень немногих проектов, сумевших на базе “гуманитарного” стандарта TEI построить классную экосистему гуманитарных данных. Самые приятные данные дракора — это метаданные для каждого корпуса, которые вы можете скачать прямо на страничке корпуса, например, вот табличка для русского корпуса: https://dracor.org/api/v1/corpora/rus/metadata/csv Тут и классические метаданые вроде дат написания и публикации, и сетевые вроде плотности социальной сети в пьесе, и например соотношение мужской и женской речи…
Еще для каждой отдельной пьесы можно скачать сетевые данные (в gexf/csv/gml), речь персонажей, сценические ремарки… Ну и полную разметку в TEI, из которой все эти данные произрастают.
✒️ 2. Репозиторий открытых данных по русской литературе и фольклору — проект Цифровой лабы Пушкинского дома (ИРЛИ РАН), где цифровые филологи и не только публикуют датасеты и (иногда) код к своим исследованиям. Своего рода гуманитарный papers with code. Вот, например, данные и код к статье Кирилла Маслинского о том, какие животные чаще встречаются в каких жанрах детской литературе.
А еще там публикует новые датасеты сам ПушДом. Многие из них называются очень романтично. Скажем, Забытые романы русских писателей из фондов Пушкинского Дома (1857–1917)… Датасет с таким названием нужно обрабатывать под звуки романса “Отцвели уж давно хризантемы в саду”🍂
📚 3. European Literary Text Collection (ELTeC) — корпуса европейских романов, собранные с прицелом на репрезентативность и сопоставимость друг с другом. Целью было найти для каждой европейской литературы по 100 романов в диапазоне 1840-1920, чтобы они покрывали период более-менее равномерно, чтобы были представлены не только писатели-мужчины, чтобы бли длиной не менее 10000 слов и т.д. Не для всех корпусов это удалось, а русский корпус там совсем странный, но тем не менее — одна из немногих попыток сделать датасет, пригодный для “компаративистики” by design.
🏛 4. Госкаталог Музейного фонда РФ —
🗺 5. Геоданные DHCLOUD. Тут лежат литературные карты в geojson, сделанные студентами гуманитарного факультета Вышки под руководством Бориса Орехова. Картографированы самые разные тексты: от маршрута Афанасия Никитина и до Приключений Капитана Врунгеля ⛵🐳
dracor.org
DraCor – Open Infrastructure for Drama Analysis
DraCor, the Drama Corpora Project, is an open infrastructure that enables computational analysis of more than 4,000 dramatic texts from Greco-Roman antiquity to the 20th century, encoded in TEI and organised in different corpora. DraCor revolves around an…
❤10🔥3
Forwarded from Antibarbari HSE (Olga Alieva)
Екатерина Демидова (ОП “Филология”),
Татьяна Крюкова (ОП “Античность”),
Александр Семенов (ОП “История”),
Мария Худошина (ОП “Филология”),
Денис Манаков (ОП “Философия”),
Вероника Пушкина (ОП “Филология”),
Тимур Саев (ОП “Философия”),
Ульяна Афанасьева (ОП “История”),
Мария Шелкова (ОП “Философия”).
Руководитель проекта: доцент Школы философии и культурологии Ольга Алиева @rantiquity.
За помощь в редактуре и корректуре благодарим Полину Крупинину (ОП “Доказательное развитие образования”).
Поддержите нас лайками и репостами, мы
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥7🔥7❤3👏1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤4🔥1
Как правильно спрятать чатжипити в вашей курсовой. Советует умная собачка Соня.
YouTube
Умная собачка Соня. Мультфильм (1991)
Рисованный мультфильм о забавной собачке Соне, которая, попадая в сложные ситуации, делала для себя поучительные выводы.
В одном городе жила-была маленькая, но очень умная собачка Соня. У нее был хозяин, которого завали Иван Иванович Королев. Наверное…
В одном городе жила-была маленькая, но очень умная собачка Соня. У нее был хозяин, которого завали Иван Иванович Королев. Наверное…
😁6🐳4❤3🌚1
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🔥5👍4🥰1🍓1💘1
"Цифровой поворот" для гуманитарных наук: вызов или проблема? Что скрывается за "цифровым поворотом" в гуманитарных науках? Могут ли цифровые технологии полностью изменить наши представления о "ремесле историка"? Отличается ли квантитативная история от цифровой? Об этом и о многом другом мы поговорим в очередном выпуске нашего подкаста.
Please open Telegram to view this post
VIEW IN TELEGRAM
Яндекс Музыка
Нужна ли гуманитариям "цифра"? Исторические иссл...
❤11👍4💘4🤗1
Вместе с Иваном Бибиловым — соруководителем программы прикладного анализа данных (ПАНДАН), директором Прикладного центра машинного обучения, анализа данных и статистики (ПЦ МАСТ) в ЕУСПб — смотрим с высоты на стремительно меняющийся ландшафт технических инструментов.
Языки программирования становятся более декларативными и высокоуровневыми, что делает их доступными для широкого круга пользователей. Кроме того, машина уже способна «понимать» не только письменную, но и устную речь, и преобразовывать ее в необходимую функцию. Значит ли это, что концепция «второй (т.е. цифровой) грамотности» устарела? Уже сегодня для решения многих задач достаточно написать промпт на привычном нам языке — так зачем вообще программировать?
Встречу провела доцент Школы философии и культурологии, преподаватель магистерской программы "Цифровые методы в гуманитарных науках" Ольга Алиева @rantiquity .
Скоро вернемся с анонсом следующей лекции.
#criticaldh #курсы #магистратура
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
И.В. Бибилов (ЕУСПб). Избранные главы информатики. Исследовательский мультитул
Третья лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ). Сайт курса: http://criticaldh.ru/
❤10❤🔥4🔥2👾2
Можно просто угадывать. Это очень сложно.
Можно смотреть подсказки. Это очень легко.
А можно скачать весь датасет в формате csv и посчитать lege artis. Это очень правильно 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
agricolamz.github.io
Следующая остановка: Библиотека им. …
❤9
Пусть останется тут для истории: день, когда я построила свою первую нейросеточку: день рождения Рима 🥂
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18❤4
Please open Telegram to view this post
VIEW IN TELEGRAM
👏7🔥5❤1
Forwarded from Vox mediaevistae
Мама, я на горьком.
Горький
Тематическое моделирование для «Бычьего словаря»
Светлана Яцык — о цифровых методах в медиевистике
Гуманитарные науки порой упрекают в архаичных методах работы. В действительности же передовые цифровые технологии активно и успешно используются гуманитариями в исследовательской деятельности. Анастасия…
Гуманитарные науки порой упрекают в архаичных методах работы. В действительности же передовые цифровые технологии активно и успешно используются гуманитариями в исследовательской деятельности. Анастасия…
🔥8
Ой, девочки!
library(friends)
data <- friends::friends
data %>% filter(str_detect(text, "You're a shoe")) %>% pull(text)
It's like, it's like, all of my life, everyone has always told me, 'You're a shoe! You're a shoe, you're a shoe, you're a shoe!'. And today I just stopped and I said, 'What if I don't wanna be a shoe? What if I wanna be a- a purse, y'know?
emilhvitfeldt.github.io
The Entire Transcript from Friends in Tidy Format
The complete scripts from the American sitcom Friends in tibble
format. Use this package to practice data wrangling, text analysis and
network analysis.
format. Use this package to practice data wrangling, text analysis and
network analysis.
😍13❤5
Историки литературы давно поняли, что для построения подлинной истории литературы им нужны колоссальные массивы данных. Но лишь в последние 10–15 лет были сделаны первые попытки с ними по-настоящему поработать.
С лекцией о big data и distant reading в литературоведении выступил доктор филологических наук, доцент Школы филологических наук НИУ ВШЭ Алексей Вдовин. Он рассказал о том, какие методы и на каком материале используются сегодня в этих дисциплинах и каковы первые результаты таких исследований.
Встречу провели преподаватели магистерской программы "Цифровые методы в гуманитарных науках" :
Следующая лекция курса состоится 11 мая, следите за анонсами.
#criticaldh #курсы #магистратура
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
А.В. Вдовин (НИУ ВШЭ). “Дальнее чтение” в литературоведении и не только
Четвертая лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ). Сайт курса: http://criticaldh.ru/
🔥8❤2👍1
Forwarded from НКРЯ Национальный корпус русского языка
На сайте Национального корпуса русского языка появился новый раздел, посвящённый нейросетевым моделям, которые используются для разметки слов и текстов Корпуса.
Теперь пользователям доступны:
- токенизатор
- векторные модели для поиска слов-ассоциатов, адаптированные для 7 доменов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов
Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.
Теперь пользователям доступны:
- токенизатор
- векторные модели для поиска слов-ассоциатов, адаптированные для 7 доменов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов
Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.
🔥9
Даны две случайные выборки по 500 наблюдений, где каждое наблюдение — число слов в дактилическом гекзаметре (скажем, у Гомера и Аполлония).
Как сравнить два средних
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8
Коллеги попросили сделать обзор разных цифровых инструментов для антиковедов / медиевистов, и в этой связи я опять работаю в выходные сижу разбираюсь в разных инструментах для колляции рукописей и всяком таком.
Один из них — http://www.ecomparatio.net/ — был даже разрекламирован в сборнике 2019 г. Digital Classical Philology как мощнейшее средство для визуализации разночтений. У них есть обучающие видео на YouTube, но они сделаны под другую версию.
Что хочу сказать? Если вы сможете с первой попытки понять, как добавлять свои тексты в эту чудо-машинку, поставьте огонек. Я поняла, но далеко не с первой — интересно, сколько нас таких 🐳
Еще хочу сказать, что — по итогам беглого обзора текстологических инструментов — почти ничто из этого не требует кодинга. В основномне самые интуитивные приложения: для распознавания, для колляции, даже для построения деревьев (для тех, кто еще исповедует стемматизм). Дальше экспорт в xml / json, мучительная ручная доработка и в веб-продакшн.
Умные люди пишут, что “бесшовных” инструментов от распознавания до цифрового издания еще не придумали, охотно верю.
Один из них — http://www.ecomparatio.net/ — был даже разрекламирован в сборнике 2019 г. Digital Classical Philology как мощнейшее средство для визуализации разночтений. У них есть обучающие видео на YouTube, но они сделаны под другую версию.
Что хочу сказать? Если вы сможете с первой попытки понять, как добавлять свои тексты в эту чудо-машинку, поставьте огонек. Я поняла, но далеко не с первой — интересно, сколько нас таких 🐳
Еще хочу сказать, что — по итогам беглого обзора текстологических инструментов — почти ничто из этого не требует кодинга. В основном
Умные люди пишут, что “бесшовных” инструментов от распознавания до цифрового издания еще не придумали, охотно верю.
❤8👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤🔥3😍2
RAntiquity
Вопрос о распределениях слов в стихе получил развитие на форуме Cross Validated.
1️⃣ T-test в целом может использоваться на дискретных данных, если распределение унимодально и симметрично. Вообще непрерывные данные даже в случае с ростом (который приводится в учебниках как пример) — это скорее эталон, потому что измеряем мы все равно в дискретных сантиметрах. В нашем случае мог бы подойти t-критерий Уэлча, т.к. в «Илиаде» чуть больше дисперсия (это видно на гистограмме).
Этот тест позволяет отвергнуть нулевую гипотезу о равенстве средних (p ≈ 0).
2️⃣ Можно также воспользоваться ранговым критерием Уилкоксона-Манна-Уитни. Однако в этом случае мы сравниваем не средние, а сдвиг в ту или иную сторону. Например, если взять случайный гекзаметр из «Илиады» и сравнить его со случайным гекзаметром из «Аргонавтики», то чаще всего в «Илиаде» используется больше слов.
Этот тест подтверждает, что true location shift is not equal to 0.
3️⃣ Теоретически, и хи-квадрат подойдет, но следует убедиться в том, что все значения в таблице сопряженности не меньше 5. В моих выборках стихи из 12 слов у Аполлония не встречаются, поэтому пропускаю это сравнение.
4️⃣ Однако, как пишет в комментариях к моему посту Nick Cox, не надо сводить проблему к сравнению средних: это, по Уайтхеду, misplaced concreteness. На самом деле нам интересны два распределения количества слов в стихах, у Гомера и Аполлония. И хороший способ их сравнить дает метод ридит-анализа, который в 1958 г. предложил Ирвин Бросс (и другие). Метод позволяет трансформировать упорядоченные категории вроде «согласен» — «скорее не согласен» — «не согласен» в числовые данные, а именно в кумулятивные пропорции.
Далее при помощи обратной функции распределения можно вычислить квантили, соответствующие этим значениям в нормальном распределении (
Этот тест позволяет отвергнуть нулевую гипотезу о равенстве средних (p ≈ 0).
Этот тест подтверждает, что true location shift is not equal to 0.
Далее при помощи обратной функции распределения можно вычислить квантили, соответствующие этим значениям в нормальном распределении (
qnorm в R), и построить график. На нем будет виден сдвиг в сторону большего числа слов у Гомера. Иллюстрацию даю из поста Nick Cox, а по ссылке, кому интересно, мой код для воспроизведения графика.Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🤯2
RAntiquity
Коллеги попросили сделать обзор разных цифровых инструментов для антиковедов / медиевистов, и в этой связи я опять работаю в выходные сижу разбираюсь в разных инструментах для колляции рукописей и всяком таком. Один из них — http://www.ecomparatio.net/ —…
Media is too big
VIEW IN TELEGRAM
По заявкам читателей отвечаю на вопрос: Урри, где у него кнопка?
🔥4