Deciphering Ancient Texts with AI
Стремясь раскрыть секреты минувших дней, ученые-историки по всему миру посвящают свою жизнь переводу древних рукописей. Команда из Университета Нотр-Дам надеется помочь в этих поисках, разработав новую модель машинного обучения для перевода и записи рукописных документов многовековой давности.
Команда объединила традиционные методы машинного обучения с наукой о визуальной психофизике, которая изучает взаимосвязь между физическим миром и поведением человека, для создания более информационно насыщенных аннотаций. В данном случае они включили измерения человеческого зрения в процесс обучения нейронных сетей при обработке древних текстов.
Для обучения, проверки и тестирования моделей исследователи использовали набор оцифрованных рукописных латинских манускриптов из Санкт-Галла, датируемых девятым веком.
Блог-пост
#ScientificML #nlp #images #history #lingustics
Стремясь раскрыть секреты минувших дней, ученые-историки по всему миру посвящают свою жизнь переводу древних рукописей. Команда из Университета Нотр-Дам надеется помочь в этих поисках, разработав новую модель машинного обучения для перевода и записи рукописных документов многовековой давности.
Команда объединила традиционные методы машинного обучения с наукой о визуальной психофизике, которая изучает взаимосвязь между физическим миром и поведением человека, для создания более информационно насыщенных аннотаций. В данном случае они включили измерения человеческого зрения в процесс обучения нейронных сетей при обработке древних текстов.
Для обучения, проверки и тестирования моделей исследователи использовали набор оцифрованных рукописных латинских манускриптов из Санкт-Галла, датируемых девятым веком.
Блог-пост
#ScientificML #nlp #images #history #lingustics
Filling the Gaps in Ancient Akkadian Texts: A Masked Language Modelling Approach
Тут запилили модель, которая дополняет недостающий текст транслитерациями древних месопотамских манускриптов, первоначально написанных на клинописных глиняных табличках (2500 г. до н. э. - 100 г. н. э.). Из-за порчи табличек ученые часто полагаются на контекст, чтобы вручную заполнить недостающие части текста (субъективный и трудоемкий процесс).
Авторы определили, что эта задача может быть сформулирована как задача моделирования языка по маске (masked language model). Были разработаны несколько моделей, сфокусированных на аккадском языке, лингва-франка того времени. Для предварительного обучения использовали данные из других языков и различных временных периодов.
Наконец, они проводят оценку на людях, демонстрируя применимость их моделей для помощи экспертам в расшифровке текстов на вымерших языках.
#ScientificML #nlp #linguistics #history
Тут запилили модель, которая дополняет недостающий текст транслитерациями древних месопотамских манускриптов, первоначально написанных на клинописных глиняных табличках (2500 г. до н. э. - 100 г. н. э.). Из-за порчи табличек ученые часто полагаются на контекст, чтобы вручную заполнить недостающие части текста (субъективный и трудоемкий процесс).
Авторы определили, что эта задача может быть сформулирована как задача моделирования языка по маске (masked language model). Были разработаны несколько моделей, сфокусированных на аккадском языке, лингва-франка того времени. Для предварительного обучения использовали данные из других языков и различных временных периодов.
Наконец, они проводят оценку на людях, демонстрируя применимость их моделей для помощи экспертам в расшифровке текстов на вымерших языках.
#ScientificML #nlp #linguistics #history
The Met Dataset: произведения искусства
Для формирования обучающего набора используется коллекция Метрополитен-музея (Metropolitan Museum of Art, The Met) в Нью-Йорке, находящаяся в открытом доступе и состоящая из около 400 тысяч изображений из более чем 224 тысяч классов, начиная с эпохи палеолита и заканчивая моднейшими художниками современности.
Каждый музейный экспонат соответствует уникальному произведению искусства и определяет свой собственный класс. Обучающее множество имеет распределение с длинным хвостом, где более половины классов представлены одним изображением, что делает его особым случаем обучения на нескольких снимках.
🗂 Датасет
#datasets #art #history
Для формирования обучающего набора используется коллекция Метрополитен-музея (Metropolitan Museum of Art, The Met) в Нью-Йорке, находящаяся в открытом доступе и состоящая из около 400 тысяч изображений из более чем 224 тысяч классов, начиная с эпохи палеолита и заканчивая моднейшими художниками современности.
Каждый музейный экспонат соответствует уникальному произведению искусства и определяет свой собственный класс. Обучающее множество имеет распределение с длинным хвостом, где более половины классов представлены одним изображением, что делает его особым случаем обучения на нескольких снимках.
🗂 Датасет
#datasets #art #history