Борис Орехов опубликовал word2vec-модель, обученную на русскоязычных художественных текстах объемом 13 млрд словоупотреблений (doi: 10.57967/hf/5921).
Обучающий корпус составил 13 981 681 569 слов или 1 357 318 182 предложения. Корпус был лемматизирован с помощью программы Mystem.
Модель доступна по ссылке: https://huggingface.co/nevmenandr/w2v-russian-fiction
В описании есть код для инициализации и обращения к модели на языке Python.
Библиографическая ссылка:
Общеизвестно, что расположение векоров в векторном пространстве модели зависит от жанровых особенностей обучающего корпуса. Исходя из этих соображений представляется полезным обучить модель только на художественных текстах, чтобы иметь под рукой инструмент как академического исследования векторной семантики в художественной литературе, так и основу для инженерных решений в области автоматической обработки художественных текстов.
Обучающий корпус составил 13 981 681 569 слов или 1 357 318 182 предложения. Корпус был лемматизирован с помощью программы Mystem.
Модель доступна по ссылке: https://huggingface.co/nevmenandr/w2v-russian-fiction
В описании есть код для инициализации и обращения к модели на языке Python.
Библиографическая ссылка:
@misc{boris_orekhov_2025,
author = { Boris Orekhov },
title = { w2v-russian-fiction (Revision 34453d9) },
year = 2025,
url = { https://huggingface.co/nevmenandr/w2v-russian-fiction },
doi = { 10.57967/hf/5921 },
publisher = { Hugging Face }
}huggingface.co
nevmenandr/w2v-russian-fiction · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤13🔥10👍3
Борис Орехов опубликовал новый датасет, основанный на коллекции Google Ngrams (doi: 10.57967/hf/5987). Из оригинального набора данных отобраны биграммы на русском языке и их частотности с 1918 до 2010 год. Биграммы лемматизированы и представлены в виде таблиц. Частотность нормализована относительно общего количества биграмм за год и посчитана до 10-го знака после запятой. Финальный объем данных составил 87 537 955 записей.
Данные полезны для проведения исследований в области культуромики:
📚 Michel, J. B., Shen, Y. K., Aiden, A. P., Veres, A., Gray, M. K., Google Books Team, Pickett, J. P., Hoiberg, D., Clancy, D., Norvig, P., Orwant, J., Pinker, S., Nowak, M. A., & Aiden, E. L. (2011). Quantitative analysis of culture using millions of digitized books. Science (New York, N.Y.), 331(6014), 176–182. https://doi.org/10.1126/science.1199644
📚 Бонч-Осмоловская, А. А. (2023). Глава 4. Культуромика: исследование клуьтуры и языка с помощью текстовых данных Цифровые гуманитарные исследования: монография, Красноярск, 57–99.
📚 Бонч-Осмоловская, А. А. (2018). Имена времени: эпитеты десятилетий в Национальном корпусе русского языка как проекция культурной памяти. Шаги/Steps, 4(3-4), 115-146.
📚 Бонч-Осмоловская, А. А. (2015). Культуромика в национальном корпусе русского языка, к постановке задачи: три века русских дорог. Труды Института русского языка им. В. В. Виноградова, (6), 605-641.
Данные полезны для проведения исследований в области культуромики:
@misc{boris_orekhov_2025,
author = { Boris Orekhov },
title = { russian-20th-century-bigrams (Revision 8ef57d3) },
year = 2025,
url = { https://huggingface.co/datasets/nevmenandr/russian-20th-century-bigrams },
doi = { 10.57967/hf/5987 },
publisher = { Hugging Face }
}Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
nevmenandr/russian-20th-century-bigrams · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍11❤2
Forwarded from Гуманитарии в цифре
«Системному Блоку» — 7️⃣ лет.
7️⃣ — третье счастливое число.
Желаем счастья и впредь!😉
🖥 «Системный Блокъ» — лучшее издание о цифровых технологиях в гуманитарных науках, искусстве, образовании и не только. Кстати, всегда можно присоединиться к сообществу авторов или сообществу читателей.
🔜 Именно СБъ подготовил полезную «Точку входа» в цифровые гуманитарные исследования.
Для тех цифровых гуманитариев, которые любят всё считать, сообщаем:
❗️
А для тех цифровых гуманитариев, которые любят всё читать, передаем: про другие промежуточные итоги, актуальные тренды и почетные награды СБъ можно узнать в специальном материале.🎁
Иллюстрация Жени Родиковой.
#dh #цги #СБъ
Желаем счастья и впредь!
Для тех цифровых гуманитариев, которые любят всё считать, сообщаем:
7 лет = 1392 публикации А для тех цифровых гуманитариев, которые любят всё читать, передаем: про другие промежуточные итоги, актуальные тренды и почетные награды СБъ можно узнать в специальном материале.
Иллюстрация Жени Родиковой.
#dh #цги #СБъ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11🔥5👏1
В день рождения Льва Толстого проект «Слово Толстого» открывает новые возможности исследования жизни и творчества писателя и публикует карту Толстого, на которой отмечены места, где бывал писатель в течение жизни, с описаниями и цитатами. Карта не только интегрирована в интерфейс портала, но и содержит ссылки на письма и дневники Толстого из других разделов портала. А совместный проект «Слова Толстого» и Яндекса придает толстовским местам в Москве современное звучание.
👍9
Forwarded from Слово Толстого
Media is too big
VIEW IN TELEGRAM
Обедал дома. Шереметева прогулял. В эрмитаже — цыгане. Саша кривляка.
<…> В клубе нашло на меня дикое веселье.
(Дневник, 18 сентября 1858 года)
Как бы жил Лев Николаевич в 2025 году? Сегодня с Яндекс Картами представляем один день из жизни писателя в современной Москве. Толстой бы точно сходил на занятие йогой, подстригся в местном барбершопе и посмотрел фильм в «Художественном».
Да и вообще — был бы популярным блогером. Ведь прошло больше ста лет, а его отзывы не теряют актуальности!
Пойдете по следам классика?
<…> В клубе нашло на меня дикое веселье.
(Дневник, 18 сентября 1858 года)
Как бы жил Лев Николаевич в 2025 году? Сегодня с Яндекс Картами представляем один день из жизни писателя в современной Москве. Толстой бы точно сходил на занятие йогой, подстригся в местном барбершопе и посмотрел фильм в «Художественном».
Да и вообще — был бы популярным блогером. Ведь прошло больше ста лет, а его отзывы не теряют актуальности!
Пойдете по следам классика?
❤9👍1🔥1
На сайте Пушкинского Дома доступен новый номер журнала «Цифровые гуманитарные исследования» (2025. № 1).
В свежем номере представлено три исследовательских статьи — об именах исторических персоналий в русской прозе XIX века, о выявлении авторской речи в прозе Стругацких, об интерфейсах цифровых архивов. Кроме исследовательских текстов есть материал, описывающий историю цифрового гуманитарного проекта (Параллельный корпус переводов «Слова о полку Игореве»), продолжение начатой в прошлом номере дискуссии о Digital Humanities в России, хроника значимых для сообщества событий (круглый стол по базам данных для социальных и гуманитарных наук) и рецензия на книгу (Crymble Adam. Technology and the Historian. Transformations in the Digital Age).
Полная версия номера — по ссылке.
В свежем номере представлено три исследовательских статьи — об именах исторических персоналий в русской прозе XIX века, о выявлении авторской речи в прозе Стругацких, об интерфейсах цифровых архивов. Кроме исследовательских текстов есть материал, описывающий историю цифрового гуманитарного проекта (Параллельный корпус переводов «Слова о полку Игореве»), продолжение начатой в прошлом номере дискуссии о Digital Humanities в России, хроника значимых для сообщества событий (круглый стол по базам данных для социальных и гуманитарных наук) и рецензия на книгу (Crymble Adam. Technology and the Historian. Transformations in the Digital Age).
Полная версия номера — по ссылке.
❤5👍5🔥4👎1
Программа_цифра.pdf
13.1 MB
Круглый стол "Текст как DATA: рукопись в цифровом пространстве"
14 октября, 11:00 мск / 10:00 CEST, офлайн/онлайн, регистрация
Круглый стол "Текст как DATA: рукопись в цифровом пространстве" посвящен визуализации эго-документов: дневников, записных книжек и рабочих тетрадей, автобиографий. Будут сделаны доклады об интерактивном научном издании записных книжек русского авангарда, соотнесении вербальных и иконических образов в записных тетрадях Федора Достоевского, новой версии цифрового архива «Прожито» (электронный образ рукописного дневника).
На круглом столе выступят Хенрик Баран, Вера Терёхина, Любовь Хачатурян, Константин Баршт, Андрей Муждаба, Николай Перцов и Лев Эрлих, Руслан Клементьев и Дмитрий Цыганов, Дмитрий Пронин. Ведущий круглого стола - Сергей Соловьев.
После докладов и выступлений состоится свободная дискуссия.
14 октября, 11:00 мск / 10:00 CEST, офлайн/онлайн, регистрация
Круглый стол "Текст как DATA: рукопись в цифровом пространстве" посвящен визуализации эго-документов: дневников, записных книжек и рабочих тетрадей, автобиографий. Будут сделаны доклады об интерактивном научном издании записных книжек русского авангарда, соотнесении вербальных и иконических образов в записных тетрадях Федора Достоевского, новой версии цифрового архива «Прожито» (электронный образ рукописного дневника).
На круглом столе выступят Хенрик Баран, Вера Терёхина, Любовь Хачатурян, Константин Баршт, Андрей Муждаба, Николай Перцов и Лев Эрлих, Руслан Клементьев и Дмитрий Цыганов, Дмитрий Пронин. Ведущий круглого стола - Сергей Соловьев.
После докладов и выступлений состоится свободная дискуссия.
❤6
Forwarded from Системный Блокъ
«Системный Блокъ» объявляет предновогодний набор участников!
«Системный Блокъ» расширяется и приглашает новых авторов, редакторов, менеджеров, дата-аналитиков, разработчиков. Если вы давно хотели к нам присоединиться и не знали, как, — сейчас самое время!
Мы — волонтерское издание. В нашей команде люди из совершенно разных сфер: филологи, программисты, менеджеры, историки, журналисты и аналитики. Нас объединяет интерес к науке и технологиям, а также желание вдохновлять людей интересными материалами, исследованиями, новостями, тестами.
Как вы поняли, нам не хватает только вас.
Ниже вы найдете набор ролей, которые могут быть интересны вам или вашим друзьям. Если что-то из этого вам близко, добро пожаловать к нам! Если вы хотите присоединиться, но идеальной роли нет, то все равно оставляйте заявку.
1. Авторы в рубрики NLP, «Филология», «Образование», «Биоинформатика», «Востоковедение»
2. Кураторы рубрик NLP, «Лингвистика» и «Филология»
3. Редакторы текстов
4. SMM-Lead / Менеджер отдела SMM
5. Контент-менеджер Telegram-канала
6. Выпускающий редактор сайта
7. Куратор рубрики «Интервью» / Менеджер интервью
8. PR-менеджер
9. HR-менеджер
10. Иллюстраторы и менеджер иллюстраторов
11. Редактор ИИ-портала
12. Авторы-энтузиасты нейросетей
13. Менеджер направления в дата-отделе
14. Автор-исследователь в дата-отдел
15. SEO-специалист на сайт
16. Аналитик на сайт
17. Продакт-менеджер сайта
18. UX-дизайнер сайта
19. Менеджер портала про цифровое образование
20. Разработчик WordPress на сайт
21. Разработчик Next.js (React)
22. Разработчик n8n
23. Разработчик Apps Script
Полное описание задач и пожеланий к участникам смотрите в этом документе.
Если вас заинтересовала одна из ролей – приглашаем заполнить форму до 29 ноября. Проект полностью волонтерский, мы не платим денег. Зато у нас человечный менеджмент, отлаженные процессы и хорошая репутация в русском научпоп-сообществе. Присоединяйтесь!
🤖 «Системный Блокъ» @sysblok
«Системный Блокъ» расширяется и приглашает новых авторов, редакторов, менеджеров, дата-аналитиков, разработчиков. Если вы давно хотели к нам присоединиться и не знали, как, — сейчас самое время!
Мы — волонтерское издание. В нашей команде люди из совершенно разных сфер: филологи, программисты, менеджеры, историки, журналисты и аналитики. Нас объединяет интерес к науке и технологиям, а также желание вдохновлять людей интересными материалами, исследованиями, новостями, тестами.
Как вы поняли, нам не хватает только вас.
Ниже вы найдете набор ролей, которые могут быть интересны вам или вашим друзьям. Если что-то из этого вам близко, добро пожаловать к нам! Если вы хотите присоединиться, но идеальной роли нет, то все равно оставляйте заявку.
1. Авторы в рубрики NLP, «Филология», «Образование», «Биоинформатика», «Востоковедение»
2. Кураторы рубрик NLP, «Лингвистика» и «Филология»
3. Редакторы текстов
4. SMM-Lead / Менеджер отдела SMM
5. Контент-менеджер Telegram-канала
6. Выпускающий редактор сайта
7. Куратор рубрики «Интервью» / Менеджер интервью
8. PR-менеджер
9. HR-менеджер
10. Иллюстраторы и менеджер иллюстраторов
11. Редактор ИИ-портала
12. Авторы-энтузиасты нейросетей
13. Менеджер направления в дата-отделе
14. Автор-исследователь в дата-отдел
15. SEO-специалист на сайт
16. Аналитик на сайт
17. Продакт-менеджер сайта
18. UX-дизайнер сайта
19. Менеджер портала про цифровое образование
20. Разработчик WordPress на сайт
21. Разработчик Next.js (React)
22. Разработчик n8n
23. Разработчик Apps Script
Полное описание задач и пожеланий к участникам смотрите в этом документе.
Если вас заинтересовала одна из ролей – приглашаем заполнить форму до 29 ноября. Проект полностью волонтерский, мы не платим денег. Зато у нас человечный менеджмент, отлаженные процессы и хорошая репутация в русском научпоп-сообществе. Присоединяйтесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
Google Docs
Присоединяйтесь к команде Системного Блока.
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе. Нам интересно писать о том, как трансформируется человеческая культура в век больших данных, беспилотных автомобилей и интеллектуальных алгоритмов. Мы хотим…
❤6
🎓 Весенняя школа "Digital History Lab Tbilisi 2026"
📍30 марта – 4 апреля 2026, Тбилиси
Дедлайн подачи заявок: 15 января 2026
Грузинский филиал Фонда Макса Вебера (Германия) проводит школу по цифровой истории.
Школа ориентирована на магистров, аспирантов и учёных Южного Кавказа, Центральной Азии и Восточной Европы (или занимающихся этими регионами), а также специалистов GLAM-сектора, интересующихся цифровой трансформацией.
Среди рассматриваемых вопросов:
- Как эффективно применять цифровые инструменты в работе историка?
- Какие инструменты и базы данных предлагает Фонд Макса Вебера?
- Как использовать искусственный интеллект в исторических исследованиях?
- Как с помощью цифровых инструментов преодолеть (пост)колониальные и (пост)советские цифровые барьеры?
Преподаватели: Dr. Dinara Gagarina, Teona Iashvili, Lali Kakhidze, Prof. Dr. Oliver Reisner, Dr. Mareike König, Dr. Nanette Rißler-Pipka.
Есть тревел-гранты для участников.
Подробности на сайте.
📍30 марта – 4 апреля 2026, Тбилиси
Дедлайн подачи заявок: 15 января 2026
Грузинский филиал Фонда Макса Вебера (Германия) проводит школу по цифровой истории.
Школа ориентирована на магистров, аспирантов и учёных Южного Кавказа, Центральной Азии и Восточной Европы (или занимающихся этими регионами), а также специалистов GLAM-сектора, интересующихся цифровой трансформацией.
Среди рассматриваемых вопросов:
- Как эффективно применять цифровые инструменты в работе историка?
- Какие инструменты и базы данных предлагает Фонд Макса Вебера?
- Как использовать искусственный интеллект в исторических исследованиях?
- Как с помощью цифровых инструментов преодолеть (пост)колониальные и (пост)советские цифровые барьеры?
Преподаватели: Dr. Dinara Gagarina, Teona Iashvili, Lali Kakhidze, Prof. Dr. Oliver Reisner, Dr. Mareike König, Dr. Nanette Rißler-Pipka.
Есть тревел-гранты для участников.
Подробности на сайте.
❤17
Дедлайн подачи заявок на DH2026 продлен до 15 декабря!
Главная DH конференция в следующем году пройдет 27–31 июля в Тэджоне, Южная Корея. Тема конференции — Вовлеченность.
Принимаются заявки в различных форматах, включая длинные и короткие доклады, постеры, семинары и мини-конференции.
Главная DH конференция в следующем году пройдет 27–31 июля в Тэджоне, Южная Корея. Тема конференции — Вовлеченность.
Принимаются заявки в различных форматах, включая длинные и короткие доклады, постеры, семинары и мини-конференции.
❤8
Вышел новый номер русскоязычного журнала «Цифровые гуманитарные исследования» (2025 №2 (003)).
В рубрике Исследования выступили выпускники DH-магистратуры НИУ ВШЭ разных лет:
Александра Митюкова Онтологическая модель для связывания метаданных музейных предметов
В статье описан пример разработки онтологической модели для концептуализации метаданных английских пейзажных гравюр и предметов Сервиза с зеленой лягушкой, изображающих архитектурные достопримечательности Великобритании.
Ксения Анисимова Анализ тональности русской драмы XVIII–XX вв. как инструмент моделирования художественной структуры
Исследование посвящено описанию эмоциональной динамики как проявления художественной структуры русской драмы XVIII–XX вв. на основе автоматической разметки тональности реплик с использованием нейросетевых моделей BERT-архитектуры.
Елизавета Сенаторова Количественный анализ речи персонажей в экранизации романа Л. Н. Толстого «Анна Каренина» (реж. Александр Зархи, 1967 год)
В центре внимания автора — исследование близости литературного и кинематографического текстов по «плотности» прямой и косвенной речи в романе и в кинонарративе и тематическим моделям, созданным на основе текста оригинала и субтитров к фильму.
Новая для журнала, но вполне естественная, учитывая его специфику, рубрика Инструменты. В ней Борис Орехов сделал обзор не очень известных, но полезных для цифровых гуманитариев программных модулей (Python), помогающих с анализом текста на русском языке.
Журнал открывает еще одну рубрику, История цифровых методов, в которой Андрей Володин представил свою версию периодизации Digital Humanities, рассмотренной в общенаучном контексте эволюции дисциплин.
В номере есть также традиционные Хроника (Мария Кешишян Конференция «Актуальные ошибки гуманитарных наук») и Рецензия (Софья Порфирьева Рецензия на книгу «Герменевтика: компьютерная интерпретация в гуманитарных науках» Стефана Синклера и Джеффри Роквелла), предлагающая русскоязычному читателю обогащение взгляда на цифровую гуманитарную сферу за счет введения в контекст ценного англоязычного источника.
Журнал «Цифровые гуманитарные исследования» — журнал о Digital Humanities на русском языке, ставящий целью объединение сообщества цифровых гуманитариев и развитие русского варианта научного языка, на котором они говорят.
В рубрике Исследования выступили выпускники DH-магистратуры НИУ ВШЭ разных лет:
Александра Митюкова Онтологическая модель для связывания метаданных музейных предметов
В статье описан пример разработки онтологической модели для концептуализации метаданных английских пейзажных гравюр и предметов Сервиза с зеленой лягушкой, изображающих архитектурные достопримечательности Великобритании.
Ксения Анисимова Анализ тональности русской драмы XVIII–XX вв. как инструмент моделирования художественной структуры
Исследование посвящено описанию эмоциональной динамики как проявления художественной структуры русской драмы XVIII–XX вв. на основе автоматической разметки тональности реплик с использованием нейросетевых моделей BERT-архитектуры.
Елизавета Сенаторова Количественный анализ речи персонажей в экранизации романа Л. Н. Толстого «Анна Каренина» (реж. Александр Зархи, 1967 год)
В центре внимания автора — исследование близости литературного и кинематографического текстов по «плотности» прямой и косвенной речи в романе и в кинонарративе и тематическим моделям, созданным на основе текста оригинала и субтитров к фильму.
Новая для журнала, но вполне естественная, учитывая его специфику, рубрика Инструменты. В ней Борис Орехов сделал обзор не очень известных, но полезных для цифровых гуманитариев программных модулей (Python), помогающих с анализом текста на русском языке.
Журнал открывает еще одну рубрику, История цифровых методов, в которой Андрей Володин представил свою версию периодизации Digital Humanities, рассмотренной в общенаучном контексте эволюции дисциплин.
В номере есть также традиционные Хроника (Мария Кешишян Конференция «Актуальные ошибки гуманитарных наук») и Рецензия (Софья Порфирьева Рецензия на книгу «Герменевтика: компьютерная интерпретация в гуманитарных науках» Стефана Синклера и Джеффри Роквелла), предлагающая русскоязычному читателю обогащение взгляда на цифровую гуманитарную сферу за счет введения в контекст ценного англоязычного источника.
Журнал «Цифровые гуманитарные исследования» — журнал о Digital Humanities на русском языке, ставящий целью объединение сообщества цифровых гуманитариев и развитие русского варианта научного языка, на котором они говорят.
🔥7❤6👍2
🎄 Можно получить «Парад цифровых гуманитарных проектов», ответив на несколько вопросов DH-анкеты.
👍2
Forwarded from Гуманитарии в цифре
📖Читаем рекомендации коллег и пополняем свои перечни книг, которые стоит прочесть в новом году.
Парад цифровых гуманитарных проектов.
Красноярск: СФУ, 2025. 286 с.
Главы этой книги я читал и перечитывал весь уходящий год, такова роль ответственного редактора. И мне кажется, что «Парад» — это хороший способ взглянуть на современные цифровые гуманитарные исследования.
🍹В предновогоднем духе советую испробовать бодрящий коктейль
«Cum grano algorithmi»!
Барная карта:
Все компоненты уже идеально смешаны в «Параде цифровых гуманитарных проектов».
Просто откройте и «пейте» небольшими главами.
Тонизирует научное мышление, прогоняет сонливость от рутинных методов и вызывает легкую эйфорию от открывающихся возможностей.
Подавайте хорошо охлаждённым вдохновением!
Андрей Володин, доцент кафедры исторической информатики МГУ, ведущий научный сотрудник DH-Lab СФУ.
🎄Если вы ещё не успели прочесть «Парад», то у нас есть отличный новогодний подарок — просто заполните небольшую новогоднюю DH-анкету — и мы пришлём вам файл монографии электропочтой 30 декабря
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1🔥1
Forwarded from Гуманитарии в цифре
🎄Пусть новый год будет умным, книжным и творческим!
✍К слову, если успели заполнить DH-анкету, то «Парад» уже в вашем почтовом ящике. (Не забудьте проверить папку с долгожданной почтой!) 📧
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥3👍2👎2