Пересчитав и перечитав кое-что в “Бедной Лизе”, сделала три важных открытия.
1) Самая мрачная сцена в повести — это не сцена самоубийства.
2) Вторая самая мрачная сцена в повести —тоже не сцена самоубийтсва.
3) “Крестьянки любить умеют” — это вообще не про Лизу.
По ссылочке, кому интересно, лонгрид с картинками.
P.S. Это не для науки, а для души — не бросайтесь в меня, пожалуйста, фолиантами.
1) Самая мрачная сцена в повести — это не сцена самоубийства.
2) Вторая самая мрачная сцена в повести —тоже не сцена самоубийтсва.
3) “Крестьянки любить умеют” — это вообще не про Лизу.
По ссылочке, кому интересно, лонгрид с картинками.
P.S. Это не для науки, а для души — не бросайтесь в меня, пожалуйста, фолиантами.
locusclassicus.github.io
Liza
❤7👏4
В античном вкусе
Снова злокозненный рис слипается в мерзкую кучу.
Видно, придется его в рыбный салат положить.
Снова злокозненный рис слипается в мерзкую кучу.
Видно, придется его в рыбный салат положить.
🐳8❤5
В R задача решается при помощи функции
str_replace_all() из пакета stringr.cicero <- "nihil hāc sōlitūdine iūcundius, nisi paulum interpellāsset Amyntae fīlius. ὢ ἀπεραντολογίας ἀηδοῦς! "
str_replace_all(cicero, "[Α-Ωα-ω]", "")Результат:
## [1] "nihil hāc sōlitūdine iūcundius, nisi paulum interpellāsset Amyntae fīlius. ὢ ἀί ἀῦ! "
str_replace_all(cicero, "[\u0370-\u03FF]", "")
Результат:
## [1] "nihil hāc sōlitūdine iūcundius, nisi paulum interpellāsset Amyntae fīlius. ὢ ἀ ἀῦ! "
str_replace_all(cicero, "[[\u0370-\u03FF][\U1F00-\U1FFF]]", "")
Результат:
## [1] "nihil hāc sōlitūdine iūcundius, nisi paulum interpellāsset Amyntae fīlius. ! "
str_replace_all(cicero, c("ā" = "a", "ū" = "u", "ī" = "i", "ō" = "o"))
Результат:
## [1] "nihil hac solitudine iucundius, nisi paulum interpellasset Amyntae filius."
#regex #stringr
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3
Статистика выходит из Юмовской шинели. 1748.
Итак, перенося прошлое на будущее, чтобы определить действие, которое окажется результатом какой-нибудь причины, мы, по-видимому, переносим различные события в той же пропорции, в какой они встречались в прошлом, представляя себе, что одно из них произошло, например, сто раз, другое - десять, а третье - только однажды. Так как большое число возможностей совпадает здесь в одном событии, они подкрепляют и подтверждают его в нашем воображении, порождают то чувство, которое мы называем верой, и дают объекту этого чувства преимущество перед противоположным событием, которое не подкреплено таким же числом опытов и не так часто приходит на ум при перенесении прошлого на будущее.
Особенно интересно там рядом его рассуждение о том, как мы можем делать выводы на основании 100 наблюдений, если одно наблюдение считается недостаточным для вывода.
Тут, конечно, и привет в будущее “степеням свободы”, но и еще — привет в прошлое Зенону Элейскому: падение одного зерна не производит шума; двух-трёх зёрен также, а падение всей кучи зёрен создаст шум… В целом же то, что он называет “привычкой”, очень похоже на будущий статистический вывод.
Итак, перенося прошлое на будущее, чтобы определить действие, которое окажется результатом какой-нибудь причины, мы, по-видимому, переносим различные события в той же пропорции, в какой они встречались в прошлом, представляя себе, что одно из них произошло, например, сто раз, другое - десять, а третье - только однажды. Так как большое число возможностей совпадает здесь в одном событии, они подкрепляют и подтверждают его в нашем воображении, порождают то чувство, которое мы называем верой, и дают объекту этого чувства преимущество перед противоположным событием, которое не подкреплено таким же числом опытов и не так часто приходит на ум при перенесении прошлого на будущее.
Особенно интересно там рядом его рассуждение о том, как мы можем делать выводы на основании 100 наблюдений, если одно наблюдение считается недостаточным для вывода.
Тут, конечно, и привет в будущее “степеням свободы”, но и еще — привет в прошлое Зенону Элейскому: падение одного зерна не производит шума; двух-трёх зёрен также, а падение всей кучи зёрен создаст шум… В целом же то, что он называет “привычкой”, очень похоже на будущий статистический вывод.
👍4
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4
Кто есть кто на графике выше?
Anonymous Quiz
36%
Локк, Юм, Беркли
32%
Беркли, Юм, Локк
5%
Юм, Локк, Беркли
0%
Юм, Беркли, Локк
18%
Локк, Беркли, Юм
9%
Беркли, Локк, Юм
RAntiquity
Совсем простенькая загадка для цифровых и (пока еще) нецифровых философов 👇 (пояснения чуть позже)
А вот и ответ. Это абсолютные частотности, поэтому для трех авторов многие слова (idea, mind) общие. Но если приглядеться, можно заметить некоторые особенности.
🟢 Кому из троих было дело до простых отчетливых (не) врожденных идей? Simple, distinct, innate — только в третьем столбце. Значит, это Локк.
🟢 Смотрим на оставшиеся два. Они тоже похожи, но в первом случае явный перекос в онтологию: на это указывают exist, existence, да еще и много про абстракцию, точнее про ее невозможность. Это Беркли с его треугольниками.
🟢 В середине — небольшой текст Юма, которого, как вы знаете или догадались по вчерашнему посту, занимала повторяемость событий (event).
✖️ Но вообще с абсолютными частотностями “ключевые слова” неочевидны — для этого нужные другие показатели, о которых в другой раз.
За идею сравнения спасибо моей коллеге Дарье Дроздовой, с которой мы это придумали пару лет назад для летней школы🌷
И еще одно, только не сердитесь: панельки упорядочены по алфавиту😆
За идею сравнения спасибо моей коллеге Дарье Дроздовой, с которой мы это придумали пару лет назад для летней школы
И еще одно, только не сердитесь: панельки упорядочены по алфавиту
Please open Telegram to view this post
VIEW IN TELEGRAM
😁4❤1
Сократ сказал, надо самопознавать, вот я и самопознаю. Нежно запарсила и тематически смоделировала дружественный канал antibarbari в надежде увидеть там две темы: латынь и греческий. не тут-то было! а кому локк, малина, ежевик, божественный рыба, мята, крокус, достоевский и пожар? очень, очень нескучно живут товарищи в соседнем канале
😁8❤2
А вы же знали, что корпус греческих папирусов тоже доступен в xml на Github? https://github.com/alekkeersmaekers/duke-nlp #датасет
GitHub
GitHub - alekkeersmaekers/duke-nlp: Automatically analyzed corpus of the Greek papyri, as used in the Trismegistos Words project.
Automatically analyzed corpus of the Greek papyri, as used in the Trismegistos Words project. - alekkeersmaekers/duke-nlp
👍2
Маленькие всякие пакости еще допиливаю (ошибки лемматизации и проч.), но вот такая интерактивная тематическая модель дружественного канала antibarbari получается (канал публичный, если что).
https://locusclassicus.github.io/ldavis_antibarbari/#topic=3&lambda=1&term=
Значения лямбды, очень близкие к нулю, показывают термины, наиболее специфичные для выбранной темы. Это означает, что вы увидите термины, которые "важны" для данной конкретной темы, но не обязательно "важны" для всего корпуса. Значения лямбды, близкие к единице, показывают те термины, которые имеют наибольшее соотношение между частотой терминов по данной теме и общей частотой терминов из корпуса. Сами разработчики советуют выставлять значение лямбды в районе 0.6. #lda
Пока это технический пост — какие-то смыслы упакую ближе к запуску курса по анализу текста в R.
Работаем.
https://locusclassicus.github.io/ldavis_antibarbari/#topic=3&lambda=1&term=
Значения лямбды, очень близкие к нулю, показывают термины, наиболее специфичные для выбранной темы. Это означает, что вы увидите термины, которые "важны" для данной конкретной темы, но не обязательно "важны" для всего корпуса. Значения лямбды, близкие к единице, показывают те термины, которые имеют наибольшее соотношение между частотой терминов по данной теме и общей частотой терминов из корпуса. Сами разработчики советуют выставлять значение лямбды в районе 0.6. #lda
Пока это технический пост — какие-то смыслы упакую ближе к запуску курса по анализу текста в R.
Работаем.
❤3
Читаю книжечку про производство смыслов алгоритмом LSA. Как всегда, не обошлось без Платона.
Конечно платоновские идеи more often than not понимаются как некие врожденные “смыслы” (Рассел говорит про Локка: “вопреки Платону утверждает, что не существует врожденных идей”, пасипки) —
но вот если что Платона волнует, это происхождение самого алгоритма. То есть очень круто конечно сказать, что ум сам все рассчитал (отрефлексировал, умопостиг и проч.) на основе встречаемости, опыта и проч.
как считает, кто считает, зачем считает — тут есть вопросик
Конечно платоновские идеи more often than not понимаются как некие врожденные “смыслы” (Рассел говорит про Локка: “вопреки Платону утверждает, что не существует врожденных идей”, пасипки) —
но вот если что Платона волнует, это происхождение самого алгоритма. То есть очень круто конечно сказать, что ум сам все рассчитал (отрефлексировал, умопостиг и проч.) на основе встречаемости, опыта и проч.
как считает, кто считает, зачем считает — тут есть вопросик
🔥1
Кое-кто целый день сравнивал результат морфологического анализа “Исповеди” с использованием разных моделей, чтобы обнаружить, что все в чем-то недотягивают.
Под вечер кое-кто узнал, что в Университете Святого Сердца это все сделали, проверили вручную и даже исправили несколько ошибок в латинском тексте. https://github.com/CIRCSE/AugustiniConfessiones/tree/main
Не будьте как кое-кто, пользуйтесь готовой “Исповедью” из Милана. #udpipe #treebank #pos_tagging
Под вечер кое-кто узнал, что в Университете Святого Сердца это все сделали, проверили вручную и даже исправили несколько ошибок в латинском тексте. https://github.com/CIRCSE/AugustiniConfessiones/tree/main
Не будьте как кое-кто, пользуйтесь готовой “Исповедью” из Милана. #udpipe #treebank #pos_tagging
GitHub
GitHub - CIRCSE/AugustiniConfessiones: Augustini Confessiones
Augustini Confessiones. Contribute to CIRCSE/AugustiniConfessiones development by creating an account on GitHub.
❤3
Первый подход к снаряду, но смысл такой. Наиболее частотные существительные из “Исповеди” в виде интерактивного облака, можно тыцнуть и выбрать любое слово. (Но подгружается секунд 15, над этим тоже работаем). https://locusclassicus.github.io/confessiones/
В планах добавить какое-то осмысление и анализ, но пока просто красивое. Magnus es, domine, et laudabilis valde: magna virtus tua, et sapientiae tuae non est numerus.
upd. поправила стабилизацию и уменьшила число слов, должно стать быстрее
upd2. отрегулировала размер узла в зависимости от его центральности
В планах добавить какое-то осмысление и анализ, но пока просто красивое. Magnus es, domine, et laudabilis valde: magna virtus tua, et sapientiae tuae non est numerus.
upd. поправила стабилизацию и уменьшила число слов, должно стать быстрее
upd2. отрегулировала размер узла в зависимости от его центральности
👍4
Первые измерения показали, что понятие «человек» оказывается центральным для Августина, причем оно оказалось и центральным по степени (как обладающее наибольшим числом связей), и центральным по близости к другим узлам сети, и центральным по посредничеству.
На втором и третьем месте по всем трем показателям находятся тесно связанные понятия «земля» и «небо», и на графе видно, что вокруг этих слов образуется нечто вроде двух кластеров, которые, похоже, отражают композицию «Исповеди»: этический и космологический. Это я проверю чуть позже.
Однако с выводами лучше не спешить: Августин не так часто говорит о Боге в третьем лице, обращаясь к нему во втором, а личные местоимения в нашу сеть (пока) не вошли. Это может объяснять, почему понятия “Бог” и “Господь” уступают “человеку” в отношении центральности.
Поиск точек сочленения тоже дал любопытный результат. Точки сочленения -- это узлы, при удалении которых увеличивается число компонент графа. Они соединяют разные части сети, и при их удалении акторы (узлы, вершины) не могут взаимодействовать друг с другом.
Для «Исповеди», если брать только наиболее частотные существительные, среди таких точек сочленения обнаружились, например, memoria (oblivio и expectatio связаны с остальным графом только через "память") и spatium (на него «заземляются» carmen, pes, versus) — знаменитое рассуждение Августина о протяженности. Кажется на первый взгляд, что точки сочленения позволяют находить своего рода философские отступления в общем нарративе Августина, и на графе эти отступления отражаются такими антеннами во внешний мир.
На повестке — поиск подгрупп; о результатах доложу.
На втором и третьем месте по всем трем показателям находятся тесно связанные понятия «земля» и «небо», и на графе видно, что вокруг этих слов образуется нечто вроде двух кластеров, которые, похоже, отражают композицию «Исповеди»: этический и космологический. Это я проверю чуть позже.
Однако с выводами лучше не спешить: Августин не так часто говорит о Боге в третьем лице, обращаясь к нему во втором, а личные местоимения в нашу сеть (пока) не вошли. Это может объяснять, почему понятия “Бог” и “Господь” уступают “человеку” в отношении центральности.
Поиск точек сочленения тоже дал любопытный результат. Точки сочленения -- это узлы, при удалении которых увеличивается число компонент графа. Они соединяют разные части сети, и при их удалении акторы (узлы, вершины) не могут взаимодействовать друг с другом.
Для «Исповеди», если брать только наиболее частотные существительные, среди таких точек сочленения обнаружились, например, memoria (oblivio и expectatio связаны с остальным графом только через "память") и spatium (на него «заземляются» carmen, pes, versus) — знаменитое рассуждение Августина о протяженности. Кажется на первый взгляд, что точки сочленения позволяют находить своего рода философские отступления в общем нарративе Августина, и на графе эти отступления отражаются такими антеннами во внешний мир.
На повестке — поиск подгрупп; о результатах доложу.
👍2🫡1