RAntiquity

Свежий обзор новейших МО-штуковин для древних языков: https://direct.mit.edu/coli/article/49/3/703/116160/Machine-Learning-for-Ancient-Languages-A-Survey

вникать буду позже, пока чтобы не потерять

👀10👍4

604 viewsOlga Alieva, 11:08

RAntiquity

Forwarded from aGricolaMZ

Дорогие все, вышел мой онлайн курс "Введение в анализ данных на R для гуманитарных и социальных наук" (https://openedu.ru/course/hse/IDAR/). Основная его концепция: только tidyverse и ноль программирования: я ставил себе цель, чтобы слушатели после окончания курса, получив данные, могли их обозреть и получить какие-то первые инсайты. Статистики в курсе всего одна неделя из девяти. К сожалению, я узнал, что Вышка дает посмотреть только две недели бесплатно, а потом просит денег (я даже увижу какую-то долю этих денег, если продолжу работать в Вышке). Но я не унываю, потому что в целом смотреть на видео как я блею на самом деле не очень интересно. Ведь я почти доделал онлайн ноутбук (https://agricolamz.github.io/daR4hs/) с комментариями и всем кодом, и он полностью открыт. Cейчас не хватает только последнего раздела про quarto. Для онлайн курса я подготовил достаточно большой пул заданий. Большинство заданий предполагает анализ какого-то датасета (и я потратил много времени, чтобы их собрать и сделать удобными ля заданий), поэтому я предлагаю оценить разброс:

- возможные продолжения дразнилки "Жадина-говядина" из исследования N+1
- роман Ф. М. Достоевского “Бесы”
- эпистолярные романы
- данные кладов Римских монет (https://chre.ashmus.ox.ac.uk/)
- время работы библиотек России
- высота и ширина утерянных или похищенных картин из музеев России
- многоязычие в Дагестане
- количество человек с злокачественными новообразованиями
- описания и рецепты из онлайн-магазина китайского чая
- и другие

Все формулировки заданий и код с решениями у меня в quarto занимают 20 тысяч строк.

Из смешного: одна из идей про датасет библиотек России так и не вылилась в задание на курсе, но вылилась в мою первую data-driven задачку.

Структуру курса я уже поменять не смогу, но если вы найдете опечатки или стилистические огрехи на сайте курса — пишите, я буду очень рад.

agricolamz.github.io

Введение в анализ данных на R для гуманитарных и социальных наук

🔥19❤6👍2

871 viewsOlga Alieva, 19:07

RAntiquity

Часто спрашивают, где же “всему этому” научиться. Вот. Георгий Мороз записал новый онлайн-курс по R, и это должно быть очень хорошо. Записываемся, ставим лайки.

❤14🔥6

472 viewsOlga Alieva, edited 19:10

RAntiquity

Forwarded from Гуманитарии в цифре

Восьмая школа по гуманитарной информатике в Калининграде

12–14 декабря 2024 года на базе БФУ имени И. Канта пройдет VIII школа по гуманитарной информатике (KDH2024).

Принять участие в Школе можно в качестве слушателя, докладчика или спикера. К участию приглашаются студенты и молодые ученые, использующие в своей научной или учебной деятельности математические методы и цифровые технологии.

В программе мастер-классы, семинары и лекции по тематикам:

→ Количественные методы в исторических исследованиях и компьютерное источниковедение
→ Оцифровка исторических источников и виртуальная реконструкция историко-культурного наследия (3D-моделирование, фотограмметрия)
→ Базы данных и (гео)информационные системы в гуманитарных исследованиях и образовании
→ Компьютерная и корпусная лингвистика, цифровая филология
→ Анализ данных, нейросетевые и другие технологии искусственного интеллекта в прикладном аспекте.

⏳

🔴

Заявки на участие в Школе принимаются до 1 октября 2024 года по ссылке

⏳🔴 Статьи для публикации в сборнике Школы (РИНЦ) принимаются до 10 октября 2024 года на digitalbfu2017@gmail.com

Подробная информация будет публиковаться в официальной группе Школы

#KDH2024 #KDH

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

520 viewsOlga Alieva, 08:05

RAntiquity

https://habr.com/ru/articles/834912/

Хабр

Как на самом деле определять автора с помощью компьютера?

Как делается атрибуция? Атрибуция — определение авторства — имеет много применений как в науке, так и в приземленных задачах, например, в судебной практике. Ниже мы будем говорить о текстовой...

👍5❤3

644 viewsOlga Alieva, 07:34

RAntiquity

Forwarded from Boris Orekhov

Всем привет!
В пятницу, 16 августа в 14:00 (по МСК) встретимся в прямом эфире Moscow Python Podcast с Борисом Ореховым, кандидатом филологических наук и доцентом факультета гуманитарных наук НИУ ВШЭ. В выпуске мы обсудим:
🟡в чём особенности обучения программированию гуманитариев;
🟡что общего между естественным языком и языком программирования;
🟡какие библиотеки востребованы у гуманитариев;
🟡зачем кандидату филологических наук изучать программирование.

➡️Когда: 16 августа в 14:00 по Москве.
➡️Где: онлайн и в записи по ссылке.

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Зачем гуманитариям изучать Python?

Спонсор подкаста: Learn Python Advanced — курсы по Python-разработке для тех, кто уже знаком с веб-разработкой — https://learn.python.ru/advanced

Ведущие – Григорий Петров и Михаил Корнеев

Ссылки выпуска:
Курс Learn Python — https://learn.python.ru/advanced…

🔥6❤‍🔥1

606 viewsOlga Alieva, 08:12

RAntiquity

Вопрос о распределениях слов в стихе получил развитие на форуме Cross Validated. 1️⃣ T-test в целом может использоваться на дискретных данных, если распределение унимодально и симметрично. Вообще непрерывные данные даже в случае с ростом (который приводится…

История с распределением слов в гекзаметре получила продолжение: https://t.me/antibarbari/2509

Будет развитие, ждем #гомер

Antibarbari HSE

Есть ли разница между гекзаметром, предназначенным для устного исполнения, и гекзаметром, предназначенным для чтения?

Подсчеты показали: при метрической и тематической схожести «Илиады» Гомера и «Аргонавтики» Аполлония Родосского в поэме Гомера на один стих…

❤4

462 viewsOlga Alieva, 10:13

RAntiquity

Даждь ми Колачика.

👍9😁6🔥2

519 viewsOlga Alieva, 21:44

RAntiquity

Недавно @aGricolaMZ обратил мое внимание на то, что в пакете udpipe модели устаревшие: например, для латыни это Perseus 2.5, хотя трибанки доступны уже 2.12 и 2.13.

Пока разработчик пакета не собирается обновлять модели и предлагает их доучивать самостоятельно. Для этого у него есть даже очень подробная инструкция.

В общем, я забрала из репозитория Perseus свеженький трибанк и обучила модель, ее можно скачать в формате udpipe вот здесь. На это ушло примерно 8 часов. Точность на картинке; это далеко от идеала, но (по итогам ручного сравнения выборки в 100 слов) в большинстве случае лучше, чем perseus 2.5.

Но самое интересное там оказалось внутри… ⬇️

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

504 viewsOlga Alieva, edited 05:54

RAntiquity

(Продолжение о латинском парсере⬆️)

Вот некоторые изменения:

- появилась метка dep_rel для ablativus absolutus (advcl:abs);
- исправлены аннотации для супина (VerbForm=Conv, Aspect=Prosp), а также герундия и герундива (VerbForm=Part, Aspect=Prosp);
- добавлен тип для местоимения (PronType) и вид для глагола (Aspect) и др.

Возможность различать указательные и относительные местоимения — это очень круто (несмотря на ошибки).

Но герундив и герундий новая модель не различает и даже не пытается. Это не баг, как говорится, а фича. В статье по ссылке выше для этого дается развернутое обоснование, из которого следует, что герундий — это вариант герундива, а последний рассматривается как причастие будущего времени пассивного залога. В общем, нау иц офишал: нет таких форм.

Так что задумайтесь, прежде чем ставить двойки студентам, которые так и не научились различать два “ерундива” 🤷‍♀️

Please open Telegram to view this post

VIEW IN TELEGRAM

😁9❤2

571 viewsOlga Alieva, edited 06:03

RAntiquity

Недавно @aGricolaMZ обратил мое внимание на то, что в пакете udpipe модели устаревшие: например, для латыни это Perseus 2.5, хотя трибанки доступны уже 2.12 и 2.13. Пока разработчик пакета не собирается обновлять модели и предлагает их доучивать самостоятельно.…

В общем, Perseus 2.13 при ближайшем рассмотрении оказался не так хорош. Так что учу вот эту малышку, пожелайте удачи. Неделю я возилась с конфликтами версий, нехваткой ~~ума~~ памяти -- и вот, кажется, дело пошло! До первой ошибки 😂

Очень хочется хороший латинский парсер. А так как с облаком не сложилось, буду без компьютера несколько дней (или недель).

А потом вернусь жаловаться, что все сломалось 🐈

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - ufal/evalatin2024-latinpipe: LatinPipe – the winning entry to parsing task of EvaLatin 2024

LatinPipe – the winning entry to parsing task of EvaLatin 2024 - ufal/evalatin2024-latinpipe

🔥6

565 viewsOlga Alieva, 13:51

RAntiquity

В общем, Perseus 2.13 при ближайшем рассмотрении оказался не так хорош. Так что учу вот эту малышку, пожелайте удачи. Неделю я возилась с конфликтами версий, нехваткой ума памяти -- и вот, кажется, дело пошло! До первой ошибки 😂 Очень хочется хороший…

Feels like

😁12

540 viewsOlga Alieva, 14:00

RAntiquity

1. Модель LatinPipe у меня дообучилась. В итоге пришлось заплатить Яндексу за GPU, примерно два дня я разбиралась в DataShere и осваивала Jupyter Lab, а потом за 8 часов все посчиталось. В целом оно того стоит (стоит недешево, кстати, но спасает родное железо).

2. На входе модель, как выяснилось, хочет готовый conllu, поэтому о воркфлоу я еще подумаю. Но по моим ощущениям результат намного лучше, чем дают и предобученные, и самостоятельно обученные модели udpipe.

…Что неудивительно: чехи построили очень сложную архитектуру из нескольких нейросетей, которые обучаются сразу на десятке латинских трибанков. То есть за 8 часов эта крошка выучила всю латынь, включая Данте и Фому.

Это какая-то, знаете, фантастика. Подробный отчет будет, но позже, мне надо прийти в себя от этих чудес техники и наконец выспаться.

GitHub

GitHub - ufal/evalatin2024-latinpipe: LatinPipe – the winning entry to parsing task of EvaLatin 2024

LatinPipe – the winning entry to parsing task of EvaLatin 2024 - ufal/evalatin2024-latinpipe

🔥9

514 viewsOlga Alieva, 10:50

RAntiquity

Feels like 2.0

😁7👎1

450 viewsOlga Alieva, 10:51

RAntiquity

Еще несколько слов о модели.

1) Как мне написал Milan Straka, один из разработчиков LatinPipe, “hopefully sometimes next week” будет официальный релиз модели вместе с ее количественной оценкой. Что-то похожее на это: https://ufal.mff.cuni.cz/udpipe/2/models#evalatin20_models

2) А сейчас уже можно пользоваться через API: https://lindat.mff.cuni.cz/services/udpipe/api-reference.php Я не пробовала, но надеюсь у вас все получится)

it even includes a tokenizer, so you can just copy-paste the text to the above link, choose EvaLatin, and get a CoNLL-U back

3) А кто не хочет ждать официального релиза и пользоваться API, вот можете забрать мою: https://disk.yandex.ru/d/CaokPBsT5Nz9MA Это просто ссылка на Яндекс-облако. Весит богатство что-то около двух гигов.

Надо сохранить ее в рабочую директорию вместе с options.json, создать виртуальное окружение Питона с требованиями, которые они вот тут прописали, и запустить при помощи скрипта, который по той же ссылке лежит в репозитории (точнее, там три скрипта, их все нужно себе забрать).

GPU для анализа уже не нужен, на обычном компьютере все летает; но нужно подготовить свои тексты в формате CoNLL-U. В R (канал же про R все-таки, хехе) это делает функция из пакета udpipe. Ну и в Питоне что-то похожее есть, как говорят, это делала одна команда…

Если получится что-то интересное, приходите рассказывать 🐈

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥4

464 viewsOlga Alieva, edited 10:53

RAntiquity

Я пока мечтательно придумываю вопросы, которые ей можно задать (и, конечно, не задам, потому что самой лень этим заниматься):

1) Как часто антецендент относительного местоимения повторяется в придаточном (и зачем)? (ок, ну это я уже посчитала из любопытства)
2) А есть ли связь между доминирующим топиком фрагмента и, например, асиндетонами (у Цезаря, например, часто в описании военных действий для выражения стремительности)?
3) Сложность синтаксиса (число зависимых клауз) как стилистическая характеристика чего- или кого-нибудь.
4) Ну и классика, конечно: герундий с дополнением или герундивная конструкция (в диахронном, само собой, аспекте)?
5) Винительный падеж при отглагольных существительных в классической прозе (domum reditio и т.п.)
6) Инверсия в употреблении местоимений (и вообще любая инверсия)…

В общем, мне кажется, это хороший инструмент и для лингвистических, и для филологических исследований. Главное знать немножко латыни и немножно программировать — а научное воображение нам никакие LLM не заменят.

🔥5❤2

506 viewsOlga Alieva, edited 11:12

RAntiquity

Forwarded from ФГН НИУ ВШЭ

Зачем гуманитариям уметь анализировать данные? 🤔

Чёткого ответа на этот вопрос у нас нет, но мы точно знаем где его найти — на новом онлайн-курсе доцента Школы лингвистики ФГН Георгия Мороза.

Курс «Введение в анализ данных на R для гуманитарных и социальных наук» доступен на платформе «Открытое образование». В нём Георгий учит использовать язык программирования R для анализа и визуализации данных.

Узнать больше о деталях курса, для кого он предназначен и какие необычные задания ждут студентов, вы можете по ссылке.

🔥13

630 viewsOlga Alieva, 13:19

RAntiquity

ФГН НИУ ВШЭ

Зачем гуманитариям уметь анализировать данные? 🤔 Чёткого ответа на этот вопрос у нас нет, но мы точно знаем где его найти — на новом онлайн-курсе доцента Школы лингвистики ФГН Георгия Мороза. Курс «Введение в анализ данных на R для гуманитарных и социальных…

Четкого ответа все еще нет 😪 сколько можно это терпеть то

Please open Telegram to view this post

VIEW IN TELEGRAM

😁11❤1

636 viewsOlga Alieva, edited 13:20

RAntiquity

Когда за кодингом задумался об ужине… и получился график в цветовой гамме “оливки и томаты”. А фон — не белый, как вы могли подумать. Это страчателла 😋

😁15❤1👏1

556 viewsOlga Alieva, edited 20:01

RAntiquity

Когда очень долго сидишь за компьютером, а потом слышишь вопрос:

— Ты будешь чай или кофе?

…то совершенно естественно отвечаешь:

— Я буду чай ИЛИ кофе.

Правда, есть риск услышать в ответ:

— Опять булева логика? Вот только не надо меня _булить_ ☕️

Please open Telegram to view this post

VIEW IN TELEGRAM

😁17🍾3

544 viewsOlga Alieva, edited 13:02

RAntiquity

Когда решил погуглить Craig Zeta (мера контрастивного анализа текстов) и попал в параллельный мир

😁11

507 viewsOlga Alieva, edited 08:23

About

Blog

Apps

Platform