RAntiquity

Forwarded from Antibarbari HSE (Olga Alieva)

👾 Рубрика #цифровой_понедельник скоро уйдет на каникулы, чтобы осенью вернуться к вам с новыми силами. Но перед этим — еще несколько видео про тематическое моделирование. Сегодня визуализируем главные компоненты для описаний Кинопоиска, чтобы с удивлением обнаружить топик про “бильбо” и “кольцо”. Что бы это могло быть? 🤔

VK Видео

R: Модуль 6 Урок 8. Визуализация главных компонент (топиков)

Видео подготовлено по результатам проекта «Цифровая античность» при поддержке фонда «Гуманитарные исследования» ФГН НИУ «Высшая школа экономики» в 2023 году.

❤1

239 views14:58

RAntiquity

Гераклит утверждал, что все есть функция. Но потом пришел Парменид и сказал, что все есть объект. О = онтология.

👍8❤1

256 views13:41

RAntiquity

Безуспешно пытаясь справиться с пакетом tesseract в R, набрела на такую чудесную перепалку на форуме #tesseract

❤8❤‍🔥2

220 viewsedited 20:16

RAntiquity

Forwarded from Antibarbari HSE (Olga Alieva)

👾 Итак, последний #цифровой_понедельник перед уходом на каникулы. В этом видео:

- загружаем диалоги Платона
- применяем скользящее окно и считаем pmi
- применяем сингулярное разложение
- считаем косинусное расстояние между векторами слов
- смотрим, какие обнаружились топики
- ищем ближаших соседей к слову “элемент” (stoicheion)

Пока все!

VK Видео

R: Модуль 6 Урок 9. LSA на платоновском корпусе: топики и эмбеддинги слов

❤2

181 views05:51

RAntiquity

Forwarded from Antibarbari HSE (Olga Alieva)

ℹ️ Если у вас есть гуманитарное образование и смутная или осознанная тяга к тому, чтобы узнать, как с гуманитарными материями справляются компьютерные технологии, то приходите в магистратуру Цифровые методы в гуманитарных науках в НИУ ВШЭ https://www.hse.ru/ma/dh/about/

⭐ Среди преподавателей не просто лучшие специалисты по digital humanities в стране, это люди, которые прошли тот же путь, о котором думаете вы: сначала стали гуманитариями, а потом цифровыми гуманитариями, им хорошо знакомы все трудности, с которыми сталкиваются единомышленники.

📝 Знания языков программирования или других высоких технологий не требуется: этому там научат. Главное — составить хорошее портфолио и внятное мотивационное письмо https://www.hse.ru/ma/dh/requirements

🗓 Документы можно подавать до 25 июля.

www.hse.ru

О программе

❤2

193 views06:22

RAntiquity

Небольшая поучительная история о том, почему полученный в результате количественных исследований результат должен быть проверяем и воспроизводим.

Даже на заре стилометрии, когда все вычисления проводились вручную, ученые стремились максимально подробно задокументировать свои вычисления: какие слова они считали, в каких текстах и т.п. Известно, однако, и исключение из этого правила.

Мало кто знает, что философ-неокантианец Пауль Наторп заплатил дань модным тогда количественным исследованиям платоновского стиля. Важнейшая публикация Наторпа (Platos Ideenlehre, 1903 г., repr. 1921) посвящена Платону, и Платон был настолько важной фигурой для Наторпа, что злые языки прозвали его _Платорпом_.

При этом Наторп был, как бы мы сказали, девелопменталистом, то есть видел в платоновской мысли постепенное развитие от раннего сократического понимания идей до чего-то вроде своего собственного трансцендентального идеализма. (В понимании платоновской мысли как постепенного развивающейся Наторп следует за Аристотелем, кстати, -- хотя все его прочтение Платона это, прежде всего, вызов Аристотелю и его критике теории идей.)

Большинство исследователей, которые в 19 - нач. 20 в. занимались количественными исследованиями Платона, тоже верили в эволюцию философа (иначе они бы не стали считать). Но у Наторпа были достаточно причудливые взгляды на последовательность диалогов. В частности, он относил к ранней группе (или совсем рядом с ней) диалог "Теэтет". И опереться на чужие вычисления не мог. Но, видимо, так верил в свою правоту, что взялся что-нибудь посчитать.

Его _Untersuchungen über Plato's Phaedrus und Theaetet_ были опубликованы в 1899 г. и 1900 г., в двух частях. Однако он не опубликовал список 1949 слов, на которых он основывал свои вычисления и, в конечном итоге, поделил диалоги на группы. Другой известный стилометр, Константин Риттер, даже писал Наторпу с просьбой поделиться этим списком, но получил весьма легкомысленный ответ, что список потерян.

Отсюда мораль: ~~не впадайте в ересь трансцендентального идеализма,~~ подробно документируйте свои исследования.

❤7

1.03K viewsedited 03:28

RAntiquity

Конечно, вы не раз видали уездной барышни альбом. В такой альбом, мои друзья, признаться, рад писать и я.

БЛОКНОТ ФИЛОСОФА

🙂 Мы вводим новую рубрику «Неформальный блиц с преподавателем», которая будет выходить каждый вторник!

📕 Давно ли вы хотели задать своим любимым преподавателям вопросы об их внеучебных интересах, любимых книгах и фильмах? Наша новая рубрика поможет узнать…

❤9🥰2

260 views14:42

RAntiquity

Нашла полезную вещь — пятничный датасет 🍻 enjoy, как говорится, responsibly #датасет

🎉4❤1

275 viewsedited 12:12

RAntiquity

Милый друг, глубокий пруд. Печальная история!

😢3❤1

259 viewsedited 12:16

RAntiquity

Как человек, совершивший некогда паломничество к Сим…ву монастырю, не могу не порадоваться возможности по-новому взглянуть на любезную Лизу.

❤2

266 views19:23

RAntiquity

Пересчитав и перечитав кое-что в “Бедной Лизе”, сделала три важных открытия.

1) Самая мрачная сцена в повести — это не сцена самоубийства.

2) Вторая самая мрачная сцена в повести —тоже не сцена самоубийтсва.

3) “Крестьянки любить умеют” — это вообще не про Лизу.

По ссылочке, кому интересно, лонгрид с картинками.

P.S. Это не для науки, а для души — не бросайтесь в меня, пожалуйста, фолиантами.

locusclassicus.github.io

Liza

❤7👏4

336 viewsedited 10:37

RAntiquity

В античном вкусе

Снова злокозненный рис слипается в мерзкую кучу.
Видно, придется его в рыбный салат положить.

🐳8❤5

248 viewsedited 11:09

RAntiquity

❓

Как выбрать/удалить древнегреческий текст из латинского?

В R задача решается при помощи функции str_replace_all() из пакета stringr.

🔘

Способ первый: удаляет только буквы без диакритики.

cicero <- "nihil hāc sōlitūdine iūcundius, nisi paulum interpellāsset Amyntae fīlius. ὢ ἀπεραντολογίας ἀηδοῦς! "

str_replace_all(cicero, "[Α-Ωα-ω]", "")

Результат:

## [1] "nihil hāc sōlitūdine iūcundius, nisi paulum interpellāsset Amyntae fīlius. ὢ ἀί ἀῦ! "

🔘

Способ второй: удаляет также простую диакритику, как в новогреческом:

str_replace_all(cicero, "[\u0370-\u03FF]", "")

Результат:

## [1] "nihil hāc sōlitūdine iūcundius, nisi paulum interpellāsset Amyntae fīlius. ὢ ἀ ἀῦ! "

🔘

Способ третий: удаляет также сложную диакритику, используемую в политонике:

str_replace_all(cicero, "[[\u0370-\u03FF][\U1F00-\U1FFF]]", "")

Результат:

## [1] "nihil hāc sōlitūdine iūcundius, nisi paulum interpellāsset Amyntae fīlius. ! "

✔️

Как удалить макроны из латинского текста?

🔘

Способ удобный

str_replace_all(cicero, c("ā" = "a", "ū" = "u", "ī" = "i", "ō" = "o"))

Результат:

## [1] "nihil hac solitudine iucundius, nisi paulum interpellasset Amyntae filius."

⭐️ Как вы уже догадались, французский из русского выбирается похожим образом.

#regex #stringr

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍3

1.13K viewsedited 02:53

RAntiquity

Статистика выходит из Юмовской шинели. 1748.

Итак, перенося прошлое на будущее, чтобы определить действие, которое окажется результатом какой-нибудь причины, мы, по-видимому, переносим различные события в той же пропорции, в какой они встречались в прошлом, представляя себе, что одно из них произошло, например, сто раз, другое - десять, а третье - только однажды. Так как большое число возможностей совпадает здесь в одном событии, они подкрепляют и подтверждают его в нашем воображении, порождают то чувство, которое мы называем верой, и дают объекту этого чувства преимущество перед противоположным событием, которое не подкреплено таким же числом опытов и не так часто приходит на ум при перенесении прошлого на будущее.

Особенно интересно там рядом его рассуждение о том, как мы можем делать выводы на основании 100 наблюдений, если одно наблюдение считается недостаточным для вывода.

Тут, конечно, и привет в будущее “степеням свободы”, но и еще — привет в прошлое Зенону Элейскому: падение одного зерна не производит шума; двух-трёх зёрен также, а падение всей кучи зёрен создаст шум… В целом же то, что он называет “привычкой”, очень похоже на будущий статистический вывод.

👍4

234 viewsedited 20:12

RAntiquity

Совсем простенькая загадка для цифровых и (пока еще) нецифровых философов 👇 (пояснения чуть позже)

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4

213 viewsedited 09:10

RAntiquity

Кто есть кто на графике выше?

Anonymous Quiz

22 voters213 views09:11

RAntiquity

Совсем простенькая загадка для цифровых и (пока еще) нецифровых философов 👇 (пояснения чуть позже)

А вот и ответ. Это абсолютные частотности, поэтому для трех авторов многие слова (idea, mind) общие. Но если приглядеться, можно заметить некоторые особенности.

🟢 Кому из троих было дело до простых отчетливых (не) врожденных идей? Simple, distinct, innate — только в третьем столбце. Значит, это Локк.

🟢 Смотрим на оставшиеся два. Они тоже похожи, но в первом случае явный перекос в онтологию: на это указывают exist, existence, да еще и много про абстракцию, точнее про ее невозможность. Это Беркли с его треугольниками.

🟢В середине — небольшой текст Юма, которого, как вы знаете или догадались по вчерашнему посту, занимала повторяемость событий (event).

✖️ Но вообще с абсолютными частотностями “ключевые слова” неочевидны — для этого нужные другие показатели, о которых в другой раз.

За идею сравнения спасибо моей коллеге Дарье Дроздовой, с которой мы это придумали пару лет назад для летней школы 🌷

И еще одно, только не сердитесь: панельки упорядочены по алфавиту 😆

Please open Telegram to view this post

VIEW IN TELEGRAM

😁4❤1

250 viewsedited 12:55

RAntiquity

Сократ сказал, надо самопознавать, вот я и самопознаю. Нежно запарсила и тематически смоделировала дружественный канал antibarbari в надежде увидеть там две темы: латынь и греческий. не тут-то было! а кому локк, малина, ежевик, божественный рыба, мята, крокус, достоевский и пожар? очень, очень нескучно живут товарищи в соседнем канале

😁8❤2

261 viewsedited 13:43

RAntiquity

Переводя на понятные реалии:
“Остынь, это всего лишь койне“

❤2

207 views19:52

RAntiquity

А вы же знали, что корпус греческих папирусов тоже доступен в xml на Github? https://github.com/alekkeersmaekers/duke-nlp #датасет

GitHub

GitHub - alekkeersmaekers/duke-nlp: Automatically analyzed corpus of the Greek papyri, as used in the Trismegistos Words project.

Automatically analyzed corpus of the Greek papyri, as used in the Trismegistos Words project. - alekkeersmaekers/duke-nlp

👍2

229 views13:37

RAntiquity

Маленькие всякие пакости еще допиливаю (ошибки лемматизации и проч.), но вот такая интерактивная тематическая модель дружественного канала antibarbari получается (канал публичный, если что).

https://locusclassicus.github.io/ldavis_antibarbari/#topic=3&lambda=1&term=

Значения лямбды, очень близкие к нулю, показывают термины, наиболее специфичные для выбранной темы. Это означает, что вы увидите термины, которые "важны" для данной конкретной темы, но не обязательно "важны" для всего корпуса. Значения лямбды, близкие к единице, показывают те термины, которые имеют наибольшее соотношение между частотой терминов по данной теме и общей частотой терминов из корпуса. Сами разработчики советуют выставлять значение лямбды в районе 0.6. #lda

Пока это технический пост — какие-то смыслы упакую ближе к запуску курса по анализу текста в R.

Работаем.

❤3

212 views15:40

About

Blog

Apps

Platform