RAntiquity
1.1K subscribers
298 photos
11 videos
5 files
552 links
Об античности на языке R и не только

@locusclassicus
Download Telegram
RAntiquity
В общем, Perseus 2.13 при ближайшем рассмотрении оказался не так хорош. Так что учу вот эту малышку, пожелайте удачи. Неделю я возилась с конфликтами версий, нехваткой ума памяти -- и вот, кажется, дело пошло! До первой ошибки 😂 Очень хочется хороший…
1. Модель LatinPipe у меня дообучилась. В итоге пришлось заплатить Яндексу за GPU, примерно два дня я разбиралась в DataShere и осваивала Jupyter Lab, а потом за 8 часов все посчиталось. В целом оно того стоит (стоит недешево, кстати, но спасает родное железо).

2. На входе модель, как выяснилось, хочет готовый conllu, поэтому о воркфлоу я еще подумаю. Но по моим ощущениям результат намного лучше, чем дают и предобученные, и самостоятельно обученные модели udpipe.

…Что неудивительно: чехи построили очень сложную архитектуру из нескольких нейросетей, которые обучаются сразу на десятке латинских трибанков. То есть за 8 часов эта крошка выучила всю латынь, включая Данте и Фому.

Это какая-то, знаете, фантастика. Подробный отчет будет, но позже, мне надо прийти в себя от этих чудес техники и наконец выспаться.
🔥9
RAntiquity
1. Модель LatinPipe у меня дообучилась. В итоге пришлось заплатить Яндексу за GPU, примерно два дня я разбиралась в DataShere и осваивала Jupyter Lab, а потом за 8 часов все посчиталось. В целом оно того стоит (стоит недешево, кстати, но спасает родное железо).…
Еще несколько слов о модели.

1) Как мне написал Milan Straka, один из разработчиков LatinPipe, “hopefully sometimes next week” будет официальный релиз модели вместе с ее количественной оценкой. Что-то похожее на это: https://ufal.mff.cuni.cz/udpipe/2/models#evalatin20_models

2) А сейчас уже можно пользоваться через API: https://lindat.mff.cuni.cz/services/udpipe/api-reference.php Я не пробовала, но надеюсь у вас все получится)

it even includes a tokenizer, so you can just copy-paste the text to the above link, choose EvaLatin, and get a CoNLL-U back


3) А кто не хочет ждать официального релиза и пользоваться API, вот можете забрать мою: https://disk.yandex.ru/d/CaokPBsT5Nz9MA Это просто ссылка на Яндекс-облако. Весит богатство что-то около двух гигов.

Надо сохранить ее в рабочую директорию вместе с options.json, создать виртуальное окружение Питона с требованиями, которые они вот тут прописали, и запустить при помощи скрипта, который по той же ссылке лежит в репозитории (точнее, там три скрипта, их все нужно себе забрать).

GPU для анализа уже не нужен, на обычном компьютере все летает; но нужно подготовить свои тексты в формате CoNLL-U. В R (канал же про R все-таки, хехе) это делает функция из пакета udpipe. Ну и в Питоне что-то похожее есть, как говорят, это делала одна команда…

Если получится что-то интересное, приходите рассказывать 🐈
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥4
Я пока мечтательно придумываю вопросы, которые ей можно задать (и, конечно, не задам, потому что самой лень этим заниматься):

1) Как часто антецендент относительного местоимения повторяется в придаточном (и зачем)? (ок, ну это я уже посчитала из любопытства)
2) А есть ли связь между доминирующим топиком фрагмента и, например, асиндетонами (у Цезаря, например, часто в описании военных действий для выражения стремительности)?
3) Сложность синтаксиса (число зависимых клауз) как стилистическая характеристика чего- или кого-нибудь.
4) Ну и классика, конечно: герундий с дополнением или герундивная конструкция (в диахронном, само собой, аспекте)?
5) Винительный падеж при отглагольных существительных в классической прозе (domum reditio и т.п.)
6) Инверсия в употреблении местоимений (и вообще любая инверсия)…

В общем, мне кажется, это хороший инструмент и для лингвистических, и для филологических исследований. Главное знать немножко латыни и немножно программировать — а научное воображение нам никакие LLM не заменят.
🔥52
Forwarded from ФГН НИУ ВШЭ
Зачем гуманитариям уметь анализировать данные? 🤔

Чёткого ответа на этот вопрос у нас нет, но мы точно знаем где его найти — на новом онлайн-курсе доцента Школы лингвистики ФГН Георгия Мороза.

Курс «Введение в анализ данных на R для гуманитарных и социальных наук» доступен на платформе «Открытое образование». В нём Георгий учит использовать язык программирования R для анализа и визуализации данных.

Узнать больше о деталях курса, для кого он предназначен и какие необычные задания ждут студентов, вы можете по ссылке.
🔥13
Когда за кодингом задумался об ужине… и получился график в цветовой гамме “оливки и томаты”. А фон — не белый, как вы могли подумать. Это страчателла 😋
😁151👏1
Когда очень долго сидишь за компьютером, а потом слышишь вопрос:

— Ты будешь чай или кофе?

…то совершенно естественно отвечаешь:

— Я буду чай ИЛИ кофе.

Правда, есть риск услышать в ответ:

— Опять булева логика? Вот только не надо меня _булить_ ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁17🍾3
Когда решил погуглить Craig Zeta (мера контрастивного анализа текстов) и попал в параллельный мир
😁11
И о серьезном. Milan Straka сообщает per litteras:

the LatinPipe model for EvaLatin24 has been released; apart from the web
service http://lindat.mff.cuni.cz/services/udpipe/ it is also available
at https://github.com/ufal/evalatin2024-latinpipe/tree/main/latinpipe-evalatin24-240520
(there is a description in the Github repo, and a download link for the
model itelf).


Как я уже сказала, по-моему это очень умненькая модель, которая может быть незаменимым подспорьем для латиниста. Поделитесь опытом, если получится ее применить! Я тоже кое-что задумала, но жду гранта просвета в расписании, чтобы реализовать
3👍1
🔠🔠🔠🔠🔠🔠🔠 1️⃣3️⃣Датасет на сегодня.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎃6🔥31
Я тут завела плейлист с занятиями по R у магистров, пока там первые две записи, это четыре пары. Так что желающие могут идти вместе с нами: https://vk.com/video/playlist/91786643_1

Курс, с одной стороны, опирается на то, что я делала в прошлом году, но за лето я существенно переработала первые 16 уроков и сейчас работаю над тем, чтобы добавить к ним еще 16 новых; обновленный handbook по ссылке, но надо иметь в виду, что это пока work очень сильно in progress. https://locusclassicus.github.io/text_analysis_2024/

обновления по тегу #tar2024
25🔥4👍2
Немного поэкспериментировала с разными ИИ-моделями, как они справятся с текстом на древнегреческом. Текст взят (что было под рукой) из платоновской схолии — такое обычно не переводят ни на какие языки, так что надо подумать.

Вот текст.

ἀναβάλλεσθαι.(1) ἀντὶ τοῦ προοιμιάζεσθαι. (2) τῶν γὰρ ἀπαιδεύτων καὶ τὸ ἔνδυμα
καὶ τὸ σχῆμα θορυβῶδες. ἄλλοι δὲ τὸ ἀναβάλλεσθαι ἐπὶ τῶν κιθαρῶν ἀκούουσιν τῆς ᾠδῆς, οἷον τὸ ἄρχεσθαι κιθαρίζειν. καὶ οἶμαι οὐ κακῶς·


Сначала мой любимый Клод (Claude Haiku). Очень неплохо, 4+.

ἀναβάλλεσθαι. (1) Вместо того, чтобы начинать речь. (2) Ведь и одежда, и внешний вид необразованных людей бывают суетливыми. Другие же понимают "ἀναβάλλεσθαι" применительно к игре на кифаре, то есть как начало игры на кифаре. И я думаю, что это не плохое толкование.


Теперь две горячие новинки. GPT-4o. “С этой моделью за каждый текстовый запрос к боту списывается 3 обычных запросов с баланса”. Явно хуже, на 3.

ἀναβάλλεσθαι. (1) Вместо того, чтобы начинать вступление. (2) Потому что у необразованных и одежда, и внешний вид суетливы. Другие же слышат "αναβάλλεσθαι" в отношении игры на кифаре, как бы означая начало игры на инструментах. И думаю, не зря.

И, наконец, o1. “С этой моделью за каждый текстовый запрос к боту списывается 12 обычных запросов с баланса”. Ну ок, гулять так гулять. И что же? Полный провал.

ἀναβάλλεσθαι 1. Instead of προοιμιάζεσθαι (to make a prelude). 2. For among the uneducated, both the attire and the demeanor are boisterous. But others understand ἀναβάλλεσθαι in relation to the kitharas (lyres), meaning to begin to play the kithara. And I think this is not incorrect.


Говорят, о1 умеет думать. Ну вот пусть думает
😁8👍1👎1🔥1🤔1
А еще я очень рада, что традиция цифровых понедельников на дружественном канале Antibarbari развивается, и теперь новый цифровой хаб для изучения древнегреческого делает мой коллега Кирилл Прокопов. Кажется, не будет преувеличением сказать, что антиварвары — самое цифровизированное из греко-латинских сообществ (и самое греко-латинское из цифровизированных). Очень приятно быть частью такой сильной и смелой команды 🫶
12🔥3👏3💘1
Интересное наблюдение про округление в R. На практике часто не так важно, как происходит округление, главное, чтобы это было последовательно. Но если нужно именно математическое округление, то вот есть полезный пакетик scrutiny. Позволяет идти вверх или вниз от 0.5 или установить порог произвольно.


> library(scrutiny)
> round_up(2.5)
[1] 3
> round_down(2.5)
[1] 2
> round_up(2.499)
[1] 2
RAntiquity
Интересное наблюдение про округление в R. На практике часто не так важно, как происходит округление, главное, чтобы это было последовательно. Но если нужно именно математическое округление, то вот есть полезный пакетик scrutiny. Позволяет идти вверх или вниз…
Вот кстати интересное объяснение. В духе Зеноновых апорий вполне, про бесконечную делимость.

The logic behind the round to even rule is that we are trying to represent an underlying continuous value and if x comes from a truly continuous distribution, then the probability that x==2.5 is 0 and the 2.5 was probably already rounded once from any values between 2.45 and 2.54999999999999

И еще они советуют просто умножить на 10^n, посчитать, а потом разделить обратно. Но наверняка есть какое-то объяснение с точки зрения эволюционной биологии, почему так никто не делает.

upd. Т.е. логика такая. В мире бесконечной делимости все неопределенно. И округлять тоже надо неопределенно, иногда в большую сторону, иногда в меньшую. Получится как раз примерно как “есть” (хотя глагол “быть” в мире бесконечной делимости, конечно, не работает — привет “текучникам” из “Теэтета”). Очень изящно.
👍1
RAntiquity
Пока вы думали, не построить ли социальную сеть из “Людей Платона”, тама уже все сделали. Эксель для желающих поиграть с датасетом прилагается по ссылке. #network #сети #платон
Решила вернуться к гарвардскому датасету о людях Сократа, хочу его использовать для “сетевых” глав курса по R, которые я сейчас перерабатываю.

C удивлением обнаружила, что датасет достаточно неряшливый.

- неоднобразно оформлены ссылки на некоторые источники (например, диалог "Менон" упоминается то как Meno, то как M.).

- не очень хорошо продумана онтология отношений с Сократом: inner circle, friends, students и даже просто philosophers смешались в кучу; это неизбежно, конечно, но непонятно, почему Аристипп и, например, Антисфен — в разных категориях.

- Есть прямые ошибки и опечатки. Например, Менексен II (сын Сократа) связан с Ктесиппом — это явно ошибка, должен быть Менексен I.

- В “Федоне” нет не только стражника и сердобольного прислужника, у которых по реплике, но и Платона; допустим, о нем говорится как об отсутствующем, но при этом другие отсутствующие люди (Эвен) все же в данных есть;

- Немного огорчает, что для ребер нет никаких атрибутов, которые бы обозначали характер связи персонажей между собой, а не только с Сократом; интересно при этом, что в статье по мотивам датасета (пример из Ксенофонта) эти атрибуты упомянуты, то есть изначально они где-то собирались. Возможно, их просто решили не публиковать.

Посмотрим, что получится из этого соорудить.
🔥111🤔1
RAntiquity
Я тут завела плейлист с занятиями по R у магистров, пока там первые две записи, это четыре пары. Так что желающие могут идти вместе с нами: https://vk.com/video/playlist/91786643_1 Курс, с одной стороны, опирается на то, что я делала в прошлом году, но за…
Плохая новость в том, что часть занятия #tar2024 по ggplot вчера не записалась из-за разного полтергейста.

Но в этом есть плюс: по ходу занятия поняла, что несколько сюжетов можно изложить более элегантно, буду переделывать.


Хорошая новость в том, что пакет ggcheck действительно позволяет автоматически проверять графики, и я только что настроила 8 разных тестов.

Но есть и минус: он не умеет проверять шрифты и шкалы.


Плохая новость в том, что датасет с людьми Сократа все же никуда не годится. О чем я напишу потом подробнее, потому что это очень поучительная истории для всех, кто собирает данные.

Хорошая новость в том, что вместо людей Сократа для сетевого анализа я нашла Тюдоров.



Это все новости из мира бинарных оппозиций.
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2
Вообще я уже в стопицотый раз (sexcenties, как говорит мой любимый Штальбаум) перерабатываю первые уроки курса, хотя последние еще и не начинала. Все это напоминает известный мем про недорисованную лошадь. Возникает закономерный вопрос: кто же рисует лошадь с хвоста?
🥰92👍1😁1💔1
Вероятно, многие уже знают про прекрасный проект Orbis, позволяющий рассчитать (в днях и в денариях) пусть из города А в город Б в Римской империи. https://orbis.stanford.edu/

Например, в летний день из Кесарии Каппадокийской в Константинополь ехать на ослике 25 дней, почти 1000 км. Ни моря, ни рек на маршруте, пыльно и грустно.

Самое приятное, что для этого проекта все данные есть в открытом доступе: их можно забрать по ссылке и использовать для пространственного / сетевого анализа (что я и намерена сделать в ближайшее время) в рамках проекта “помоги ежику найти свой домик” “помоги епископу добраться до собора”
👏7👍3