А вы же знали, что корпус греческих папирусов тоже доступен в xml на Github? https://github.com/alekkeersmaekers/duke-nlp #датасет
GitHub
GitHub - alekkeersmaekers/duke-nlp: Automatically analyzed corpus of the Greek papyri, as used in the Trismegistos Words project.
Automatically analyzed corpus of the Greek papyri, as used in the Trismegistos Words project. - alekkeersmaekers/duke-nlp
👍2
Маленькие всякие пакости еще допиливаю (ошибки лемматизации и проч.), но вот такая интерактивная тематическая модель дружественного канала antibarbari получается (канал публичный, если что).
https://locusclassicus.github.io/ldavis_antibarbari/#topic=3&lambda=1&term=
Значения лямбды, очень близкие к нулю, показывают термины, наиболее специфичные для выбранной темы. Это означает, что вы увидите термины, которые "важны" для данной конкретной темы, но не обязательно "важны" для всего корпуса. Значения лямбды, близкие к единице, показывают те термины, которые имеют наибольшее соотношение между частотой терминов по данной теме и общей частотой терминов из корпуса. Сами разработчики советуют выставлять значение лямбды в районе 0.6. #lda
Пока это технический пост — какие-то смыслы упакую ближе к запуску курса по анализу текста в R.
Работаем.
https://locusclassicus.github.io/ldavis_antibarbari/#topic=3&lambda=1&term=
Значения лямбды, очень близкие к нулю, показывают термины, наиболее специфичные для выбранной темы. Это означает, что вы увидите термины, которые "важны" для данной конкретной темы, но не обязательно "важны" для всего корпуса. Значения лямбды, близкие к единице, показывают те термины, которые имеют наибольшее соотношение между частотой терминов по данной теме и общей частотой терминов из корпуса. Сами разработчики советуют выставлять значение лямбды в районе 0.6. #lda
Пока это технический пост — какие-то смыслы упакую ближе к запуску курса по анализу текста в R.
Работаем.
❤3
Читаю книжечку про производство смыслов алгоритмом LSA. Как всегда, не обошлось без Платона.
Конечно платоновские идеи more often than not понимаются как некие врожденные “смыслы” (Рассел говорит про Локка: “вопреки Платону утверждает, что не существует врожденных идей”, пасипки) —
но вот если что Платона волнует, это происхождение самого алгоритма. То есть очень круто конечно сказать, что ум сам все рассчитал (отрефлексировал, умопостиг и проч.) на основе встречаемости, опыта и проч.
как считает, кто считает, зачем считает — тут есть вопросик
Конечно платоновские идеи more often than not понимаются как некие врожденные “смыслы” (Рассел говорит про Локка: “вопреки Платону утверждает, что не существует врожденных идей”, пасипки) —
но вот если что Платона волнует, это происхождение самого алгоритма. То есть очень круто конечно сказать, что ум сам все рассчитал (отрефлексировал, умопостиг и проч.) на основе встречаемости, опыта и проч.
как считает, кто считает, зачем считает — тут есть вопросик
🔥1
Кое-кто целый день сравнивал результат морфологического анализа “Исповеди” с использованием разных моделей, чтобы обнаружить, что все в чем-то недотягивают.
Под вечер кое-кто узнал, что в Университете Святого Сердца это все сделали, проверили вручную и даже исправили несколько ошибок в латинском тексте. https://github.com/CIRCSE/AugustiniConfessiones/tree/main
Не будьте как кое-кто, пользуйтесь готовой “Исповедью” из Милана. #udpipe #treebank #pos_tagging
Под вечер кое-кто узнал, что в Университете Святого Сердца это все сделали, проверили вручную и даже исправили несколько ошибок в латинском тексте. https://github.com/CIRCSE/AugustiniConfessiones/tree/main
Не будьте как кое-кто, пользуйтесь готовой “Исповедью” из Милана. #udpipe #treebank #pos_tagging
GitHub
GitHub - CIRCSE/AugustiniConfessiones: Augustini Confessiones
Augustini Confessiones. Contribute to CIRCSE/AugustiniConfessiones development by creating an account on GitHub.
❤3
Первый подход к снаряду, но смысл такой. Наиболее частотные существительные из “Исповеди” в виде интерактивного облака, можно тыцнуть и выбрать любое слово. (Но подгружается секунд 15, над этим тоже работаем). https://locusclassicus.github.io/confessiones/
В планах добавить какое-то осмысление и анализ, но пока просто красивое. Magnus es, domine, et laudabilis valde: magna virtus tua, et sapientiae tuae non est numerus.
upd. поправила стабилизацию и уменьшила число слов, должно стать быстрее
upd2. отрегулировала размер узла в зависимости от его центральности
В планах добавить какое-то осмысление и анализ, но пока просто красивое. Magnus es, domine, et laudabilis valde: magna virtus tua, et sapientiae tuae non est numerus.
upd. поправила стабилизацию и уменьшила число слов, должно стать быстрее
upd2. отрегулировала размер узла в зависимости от его центральности
👍4
Первые измерения показали, что понятие «человек» оказывается центральным для Августина, причем оно оказалось и центральным по степени (как обладающее наибольшим числом связей), и центральным по близости к другим узлам сети, и центральным по посредничеству.
На втором и третьем месте по всем трем показателям находятся тесно связанные понятия «земля» и «небо», и на графе видно, что вокруг этих слов образуется нечто вроде двух кластеров, которые, похоже, отражают композицию «Исповеди»: этический и космологический. Это я проверю чуть позже.
Однако с выводами лучше не спешить: Августин не так часто говорит о Боге в третьем лице, обращаясь к нему во втором, а личные местоимения в нашу сеть (пока) не вошли. Это может объяснять, почему понятия “Бог” и “Господь” уступают “человеку” в отношении центральности.
Поиск точек сочленения тоже дал любопытный результат. Точки сочленения -- это узлы, при удалении которых увеличивается число компонент графа. Они соединяют разные части сети, и при их удалении акторы (узлы, вершины) не могут взаимодействовать друг с другом.
Для «Исповеди», если брать только наиболее частотные существительные, среди таких точек сочленения обнаружились, например, memoria (oblivio и expectatio связаны с остальным графом только через "память") и spatium (на него «заземляются» carmen, pes, versus) — знаменитое рассуждение Августина о протяженности. Кажется на первый взгляд, что точки сочленения позволяют находить своего рода философские отступления в общем нарративе Августина, и на графе эти отступления отражаются такими антеннами во внешний мир.
На повестке — поиск подгрупп; о результатах доложу.
На втором и третьем месте по всем трем показателям находятся тесно связанные понятия «земля» и «небо», и на графе видно, что вокруг этих слов образуется нечто вроде двух кластеров, которые, похоже, отражают композицию «Исповеди»: этический и космологический. Это я проверю чуть позже.
Однако с выводами лучше не спешить: Августин не так часто говорит о Боге в третьем лице, обращаясь к нему во втором, а личные местоимения в нашу сеть (пока) не вошли. Это может объяснять, почему понятия “Бог” и “Господь” уступают “человеку” в отношении центральности.
Поиск точек сочленения тоже дал любопытный результат. Точки сочленения -- это узлы, при удалении которых увеличивается число компонент графа. Они соединяют разные части сети, и при их удалении акторы (узлы, вершины) не могут взаимодействовать друг с другом.
Для «Исповеди», если брать только наиболее частотные существительные, среди таких точек сочленения обнаружились, например, memoria (oblivio и expectatio связаны с остальным графом только через "память") и spatium (на него «заземляются» carmen, pes, versus) — знаменитое рассуждение Августина о протяженности. Кажется на первый взгляд, что точки сочленения позволяют находить своего рода философские отступления в общем нарративе Августина, и на графе эти отступления отражаются такими антеннами во внешний мир.
На повестке — поиск подгрупп; о результатах доложу.
👍2🫡1
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Antibarbari HSE
ℹ️ Если у вас есть гуманитарное образование и смутная или осознанная тяга к тому, чтобы узнать, как с гуманитарными материями справляются компьютерные технологии, то приходите в магистратуру Цифровые методы в гуманитарных науках в НИУ ВШЭ https://www.hse.ru/ma/dh/about/…
Proficiamus.Please open Telegram to view this post
VIEW IN TELEGRAM
❤22🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
У Аристотеля и некоторых других авторов сохранилось мнение, приписываемое неким "пифагорейцам", что линия -- это движение точки.
Мне всегда казалось, это одна из весьма образных, но достаточной экстравагантных античных теорий. Но вот и нет. Ньютон в "Методе флюксий" прямо говорит о "течении" точки:
Флюксия (производная) у Ньютона -- это буквально скорость "текущей величины" (флюэнты). Хотя идея изобразить движение при помощи кривой кажется естественной, нужен особый склад ума и, конечно, хорошее знакомство с античной математикой и философией, чтобы во всякой кривой увидеть движение точки.
Отчасти это может быть связано с тем, что в качестве независимой переменной он берет "время", которое, как известно, "течет". Но сам выбор времени в этом контексте возможен именно потому, что есть "движение”.
Как надо представлять себе движущуюся единицу, и под действием чего, и каким образом, если она лишена частей и различий? Поскольку она движет и движима, то должна различаться. Кроме того, коль скоро они утверждают, что приведенная в движение линия порождает плоскость, а точка – линию, то и движения единиц [монад] окажутся линиями, ибо точка есть единица, имеющая положение и т. д.
Мне всегда казалось, это одна из весьма образных, но достаточной экстравагантных античных теорий. Но вот и нет. Ньютон в "Методе флюксий" прямо говорит о "течении" точки:
В дальнейшем я буду называть флюэнтами, или текущими величинами, величины, которые я рассматриваю как постепенно и неопределенно возрастающие... Скорости, с которыми возрастают вследствие порождающего их движения отдельные флюэнты (и которые я называю флюксиями, или просто скоростями или быстротами)...
Флюксия (производная) у Ньютона -- это буквально скорость "текущей величины" (флюэнты). Хотя идея изобразить движение при помощи кривой кажется естественной, нужен особый склад ума и, конечно, хорошее знакомство с античной математикой и философией, чтобы во всякой кривой увидеть движение точки.
Отчасти это может быть связано с тем, что в качестве независимой переменной он берет "время", которое, как известно, "течет". Но сам выбор времени в этом контексте возможен именно потому, что есть "движение”.
🔥5
RAntiquity
У Аристотеля и некоторых других авторов сохранилось мнение, приписываемое неким "пифагорейцам", что линия -- это движение точки. Как надо представлять себе движущуюся единицу, и под действием чего, и каким образом, если она лишена частей и различий? Поскольку…
Во “Введении к рассуждению о квадратуре кривых” Ньютон пишет:
Беркли, как всегда, hit the nail on the head, утверждая в “Аналитике” (направленном одновременно против Ньютона и Лейбница), что это возвращает нас к проблеме “движения в точке” — проблеме уже совсем не математической, а метафизической, как показал своей “стрелой” еще Зенон. #математика
Я здесь рассматриваю математические величины не как состоящие из крайне малых частей, но как описываемые непрерывным движением. Линии описываются и производятся описыванием не через приложение частей, но непрерывным движением точек, поверхности — движением линий, тела — поверхностей, углы — вращением сторон, времена — непрерывным течением, и также обстоит дело в других случаях. Эти образования поистине коренятся в сущности вещей и ежедневно наблюдаются нами в движении тел. Таким же образом объясняли и древние образование прямоугольников посредством движения подвижных прямых вдоль неподвижных.
Беркли, как всегда, hit the nail on the head, утверждая в “Аналитике” (направленном одновременно против Ньютона и Лейбница), что это возвращает нас к проблеме “движения в точке” — проблеме уже совсем не математической, а метафизической, как показал своей “стрелой” еще Зенон. #математика
🔥4
А те, кто не доучил математику, пытаются разбогатеть на математических мемах. https://www.redbubble.com/i/poster/Linear-Algebra-Vector-Matrix-Meme-by-coolcat4023/137866765.LVTDI (Объясните мне, плз, почему один в капюшоне а другой с глазами на ушах: это какие-то математические субкультуры?)
Redbubble
"Linear Algebra Vector Matrix Meme" Poster for Sale by coolcat4023
matrix = vector • Millions of unique designs by independent artists. Find your thing.
🔥1
Почему-то только сейчас пришло в голову проверить: гистограмма — от др. -греч. ἱστός— столб + γράμμα — черта, буква, написание. Кругом они, не отпускают.
👍8
Сегодня сходила на подкаст к коллегам из проекта Auditorium. Поговорили про цифровую античность и почему-то Человека-паука. Получилось сумбурно и весело, coming soon.
🔥12
Наверное, самая часто используемая функция в R --
А если нет, то на выходе получите список:
Технически то, что делает первая команда, называется flatten a list. Так что, может быть, не “распакует”, а “сплющит”.
#рекурсия
c(). Скорее всего на первом уроке работы в R вам скажут, что она нужна для создания (concatenation) вектора. Но как мало мы про нее знаем. Например, у нее есть аргумент recursive, которому по умолчанию задано значение FALSE. Если задать ему значение TRUE и передать функции списки, то она их все "распакует". x <- c(2, list(3:4), recursive=TRUE)
x
[1] 2 3 4 А если нет, то на выходе получите список:
x <- c(2, list(3:4))
x
[[1]]
[1] 2
[[2]]
[1] 3 4 Технически то, что делает первая команда, называется flatten a list. Так что, может быть, не “распакует”, а “сплющит”.
#рекурсия
Мне кажется, я сейчас дописываю учебник своей мечты. Все это возможно благодаря волшебному пакету checkdown от agricolamz. Про этот пакет скоро расскажу подробнее.
❤8