В шапке запроса появилась информация об относительной частоте запроса – IPM. В настоящее время эта функция доступна во всех корпусах, кроме Параллельных, англо-русского МультиПАРКа, а также корпусов «Берестяные грамоты» и «Эпиграфика». Если пользователь ограничил запрос конкретным подкорпусом, то показатель рассчитывается как отношение количества примеров в запросе к количеству слов в этом подкорпусе, умноженное на миллион. Если же подкорпус не выбран, то количество примеров в запросе делится на общее количество слов в корпусе и умножается на миллион. IPM рассчитывается для любого количества слов в запросе.
Кроме того, мы обновили страницу нейросетевых моделей, используемых в НКРЯ, добавив две новые модели, основанные на RuRoBERTа и обученные на данных Корпуса. Новые модели и инструкции по их запуску доступны для скачивания и использования в исследовательских и некоммерческих целях. Основное преимущество этих моделей — улучшенная работа с незнакомыми корнями. Подробнее о том, чем этим модели отличаются от применявшихся раньше, можно будет узнать в ходе доклада нашей команды на конференции Диалог 2025.
Кроме того, мы обновили страницу нейросетевых моделей, используемых в НКРЯ, добавив две новые модели, основанные на RuRoBERTа и обученные на данных Корпуса. Новые модели и инструкции по их запуску доступны для скачивания и использования в исследовательских и некоммерческих целях. Основное преимущество этих моделей — улучшенная работа с незнакомыми корнями. Подробнее о том, чем этим модели отличаются от применявшихся раньше, можно будет узнать в ходе доклада нашей команды на конференции Диалог 2025.
👍12❤8
23-25 апреля проводится международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог-2025».
Сегодня на конференции c рассказом о настоящем и будущем корпуса выступят сразу несколько участников нашей команды.
В первой секции конференции, которая начнется в 14.00 по московскому времени, технический директор НКРЯ, руководитель группы нейросетевой разметки Дмитрий Морозов выступит с докладом о моделях автоматической морфемной разметки для русского языка. В секции «Большие языковые корпуса» Сергей Гладилин, старший научный сотрудник ИППИ РАН, технический директор НП «НКРЯ» (2019-2022), и Ольга Ляшевская, профессор факультета филологии Высшей школы экономики (Москва), старший научный сотрудник Института русского языка им. В. В. Виноградова РАН, обсудят будущее лингвистических корпусов, в том числе НКРЯ.
В четверг в 10.00 Светлана Тимошенко, научный сотрудник ИППИ РАН, расскажет, как статистические метрики, примененные к данным Основного корпуса, помогают отбирать составные коннекторы (союзы и составные единицы в функции союза, соединяющие части сложного предложения) для специализированной базы данных.
Принять участие в конференции в онлайн-формате можно по ссылке. Ознакомиться с полной программой и материалами конференции можно на сайте.
Сегодня на конференции c рассказом о настоящем и будущем корпуса выступят сразу несколько участников нашей команды.
В первой секции конференции, которая начнется в 14.00 по московскому времени, технический директор НКРЯ, руководитель группы нейросетевой разметки Дмитрий Морозов выступит с докладом о моделях автоматической морфемной разметки для русского языка. В секции «Большие языковые корпуса» Сергей Гладилин, старший научный сотрудник ИППИ РАН, технический директор НП «НКРЯ» (2019-2022), и Ольга Ляшевская, профессор факультета филологии Высшей школы экономики (Москва), старший научный сотрудник Института русского языка им. В. В. Виноградова РАН, обсудят будущее лингвистических корпусов, в том числе НКРЯ.
В четверг в 10.00 Светлана Тимошенко, научный сотрудник ИППИ РАН, расскажет, как статистические метрики, примененные к данным Основного корпуса, помогают отбирать составные коннекторы (союзы и составные единицы в функции союза, соединяющие части сложного предложения) для специализированной базы данных.
Принять участие в конференции в онлайн-формате можно по ссылке. Ознакомиться с полной программой и материалами конференции можно на сайте.
🔥13👍9❤7
Проведено масштабное пополнение Регионального корпуса, в результате которого объем корпуса почти удвоился и достиг 69 млн слов!
В состав корпуса добавлены издания 11 регионов России, которые ранее не были включены в корпус: Архангельская область, Астраханская область, Бурятия, Калмыкия, Камчатский край, Карелия, Костромская область, Рязанская область, Сахалинская область, Тамбовская область, Ямало-Ненецкий автономный округ.
Кроме того, пополнен состав изданий тех регионов, которые до сих пор были слабо представлены в корпусе: Вологодской, Курской, Ростовской областей, Республики Мордовии. Общее количество региональных СМИ, вошедших в состав пополнения, превышает 60. Среди них как традиционные районные, городские, областные газеты, так и информационные порталы, сетевые издания, материалы с официальных сайтов органов власти.
Большая коллекция СМИ регионов этого пополнения подготовлена коллективом Воронежского государственного университета. Работы по пополнению Регионального корпуса в 2024–2025 гг. поддержаны Благотворительным фондом содействия образованию «ДАР».
В состав корпуса добавлены издания 11 регионов России, которые ранее не были включены в корпус: Архангельская область, Астраханская область, Бурятия, Калмыкия, Камчатский край, Карелия, Костромская область, Рязанская область, Сахалинская область, Тамбовская область, Ямало-Ненецкий автономный округ.
Кроме того, пополнен состав изданий тех регионов, которые до сих пор были слабо представлены в корпусе: Вологодской, Курской, Ростовской областей, Республики Мордовии. Общее количество региональных СМИ, вошедших в состав пополнения, превышает 60. Среди них как традиционные районные, городские, областные газеты, так и информационные порталы, сетевые издания, материалы с официальных сайтов органов власти.
Большая коллекция СМИ регионов этого пополнения подготовлена коллективом Воронежского государственного университета. Работы по пополнению Регионального корпуса в 2024–2025 гг. поддержаны Благотворительным фондом содействия образованию «ДАР».
🔥17👏10❤6👍2
Media is too big
VIEW IN TELEGRAM
В Портрете слова Основного и четырех исторических корпусов НКРЯ появился новый виджет с информацией о первом упоминании слова в текстах корпуса. Помимо даты первого упоминания, виджет также предоставляет контекстуальную информацию о нем: имя автора, название документа, а в корпусах берестяных грамот и эпиграфики — также тип носителя и локализация находки.
Информация в виджете основывается на данных того корпуса, в Портрете слова которого находится пользователь. Для комплексного анализа и более достоверных выводов о первом упоминании слова во всем НКРЯ рекомендуется проверить его наличие в корпусах более ранних периодов. Это легко сделать, кликнув на соответствующую кнопку.
Информация в виджете основывается на данных того корпуса, в Портрете слова которого находится пользователь. Для комплексного анализа и более достоверных выводов о первом упоминании слова во всем НКРЯ рекомендуется проверить его наличие в корпусах более ранних периодов. Это легко сделать, кликнув на соответствующую кнопку.
❤13🔥7
В апреле мы обновили главную страницу сайта, чтобы сделать работу с корпусом более эффективной и комфортной для начинающих пользователей. Поисковая строка теперь автоматически определяет тип запроса и направляет пользователя в оптимальный вид поиска. При вводе одного слова (словоформы или леммы) — система активирует лексико-грамматический поиск в Основном корпусе. При вводе фразы или словосочетания — выполняется поиск по точным формам в Основном корпусе.
Непосредственно под поисковой строкой добавлены интерактивные примеры запросов. Эта функция существенно упрощает знакомство с форматами поисковых запросов.
Обзор возможностей, ранее доступный из поисковой строки, теперь вызывается по клику на соответствующий виджет под поисковой строкой.
Непосредственно под поисковой строкой добавлены интерактивные примеры запросов. Эта функция существенно упрощает знакомство с форматами поисковых запросов.
Обзор возможностей, ранее доступный из поисковой строки, теперь вызывается по клику на соответствующий виджет под поисковой строкой.
❤27👏4⚡1👎1
Сегодня отечественная лингвистика отмечает сразу две значимые даты: 90 лет со дня рождения Андрея Анатольевича Зализняка (1935-2017) и 21 год со дня запуска Национального корпуса русского языка.
Символично, что эти даты совпадают. Научные принципы, которые отстаивал А. А. Зализняк, — объективность, строгость метода, уважение к фактам языка — стали фундаментом для создания НКРЯ. Его труды по русской грамматике, включая знаменитый «Грамматический словарь», легли в основу морфологической разметки Корпуса.
Андрей Анатольевич был не только гениальным лингвистом, расшифровавшим множество памятников древней письменности и доказавшим подлинность «Слова о полку Игореве», но и неутомимым защитником научного подхода к языку. Его знаменитое высказывание «Истина существует, и целью науки является её поиск» остаётся девизом для всех, кто работает с Корпусом.
За 21 год НКРЯ стал незаменимым ресурсом для исследователей, преподавателей, переводчиков и всех любителей русского языка. Сегодня Корпус насчитывает более 2 миллиардов словоупотреблений и продолжает расти, с каждым годом привлекая все больше пользователей и становясь важнейшим инструментом для изучения языка, в том числе – языковых изменений во времени.
Символично, что эти даты совпадают. Научные принципы, которые отстаивал А. А. Зализняк, — объективность, строгость метода, уважение к фактам языка — стали фундаментом для создания НКРЯ. Его труды по русской грамматике, включая знаменитый «Грамматический словарь», легли в основу морфологической разметки Корпуса.
Андрей Анатольевич был не только гениальным лингвистом, расшифровавшим множество памятников древней письменности и доказавшим подлинность «Слова о полку Игореве», но и неутомимым защитником научного подхода к языку. Его знаменитое высказывание «Истина существует, и целью науки является её поиск» остаётся девизом для всех, кто работает с Корпусом.
За 21 год НКРЯ стал незаменимым ресурсом для исследователей, преподавателей, переводчиков и всех любителей русского языка. Сегодня Корпус насчитывает более 2 миллиардов словоупотреблений и продолжает расти, с каждым годом привлекая все больше пользователей и становясь важнейшим инструментом для изучения языка, в том числе – языковых изменений во времени.
❤72👍8⚡7
Умеете ли вы анализировать не только сами тексты, но и их метаданные?
Национальный корпус русского языка — это не просто собрание текстов, а мощный инструмент для изучения языка через призму множества параметров: тематики, авторства, времени создания, региональной принадлежности и других характеристик текста.
Сравнение метаатрибутов позволяет понять, как контекст влияет на выбор слов: одни лексемы тяготеют к определённым жанрам, авторам или эпохам, другие распределены равномерно. Сравнение помогает выявлять стилистические особенности, культурные закономерности и решать практические задачи — от атрибуции текстов до изучения языковой эволюции.
Если для ответа на тест вы решите использовать корпусные инструменты вместо интуиции (что мы настоятельно рекомендуем!), ориентируйтесь на относительную частотность слов (ipm).
Национальный корпус русского языка — это не просто собрание текстов, а мощный инструмент для изучения языка через призму множества параметров: тематики, авторства, времени создания, региональной принадлежности и других характеристик текста.
Сравнение метаатрибутов позволяет понять, как контекст влияет на выбор слов: одни лексемы тяготеют к определённым жанрам, авторам или эпохам, другие распределены равномерно. Сравнение помогает выявлять стилистические особенности, культурные закономерности и решать практические задачи — от атрибуции текстов до изучения языковой эволюции.
Если для ответа на тест вы решите использовать корпусные инструменты вместо интуиции (что мы настоятельно рекомендуем!), ориентируйтесь на относительную частотность слов (ipm).
👀11👍4
В текстах какой тематики «истина» встречается в Основном корпусе реже, чем «прогресс»?
Anonymous Quiz
44%
политология
19%
астрология, парапсихология, эзотерика
16%
логика
20%
философия
👍4
В текстах какого автора, представленного в корпусе «Русская классика», «пироги» встречаются чаще, чем «булки» и «хлеб»?
Anonymous Quiz
43%
Н. В. Гоголь
24%
И. А. Крылов
34%
М. Е. Салтыков-Щедрин
👍4⚡2
В СМИ какого региона России (по данным корпуса Региональных СМИ) «инвестиции» встречаются чаще, чем «урожай»?
Anonymous Quiz
30%
Камчатский край
12%
Амурская область
58%
Санкт-Петербург
👍4🤩1
Media is too big
VIEW IN TELEGRAM
На сайте Корпуса появилась возможность сравнить распределение метаатрибутов у нескольких запросов.
Теперь исследователи могут не только анализировать частотность отдельных слов и конструкций, но и наглядно сопоставлять, как разные языковые единицы распределяются по авторам, жанрам, тематикам и другим параметрам текстов.
Сравнение запросов по метаатрибутам доступно во всех корпусах, где ранее было доступно сравнение графиков: в Основном, Газетных, Устном, Обучающем, Старорусском, а также корпусах «От 2 до 15» и «Русская классика».
Визуализация распределения метатрибутов доступна в виде линейчатого и столбчатого графиков. При наведении курсора мыши на график можно увидеть абсолютную или относительную величину атрибута. Картинку с графиком можно сохранить, кликнув на кнопку «Скачать».
Теперь исследователи могут не только анализировать частотность отдельных слов и конструкций, но и наглядно сопоставлять, как разные языковые единицы распределяются по авторам, жанрам, тематикам и другим параметрам текстов.
Сравнение запросов по метаатрибутам доступно во всех корпусах, где ранее было доступно сравнение графиков: в Основном, Газетных, Устном, Обучающем, Старорусском, а также корпусах «От 2 до 15» и «Русская классика».
Визуализация распределения метатрибутов доступна в виде линейчатого и столбчатого графиков. При наведении курсора мыши на график можно увидеть абсолютную или относительную величину атрибута. Картинку с графиком можно сохранить, кликнув на кнопку «Скачать».
❤15👍8🔥5
6 июня отмечается День русского языка. В этот день родился А.С. Пушкин, чьи произведения оказали значительное влияние на формирование современного русского литературного языка.
А знаете ли вы, как менялся русский язык со времён Пушкина? Проследить эту эволюцию помогает Национальный корпус русского языка — настоящая машина времени для лингвистических исследований!
Предлагаем пройти тест на знание того, как трансформировался русский язык. Для ответа на вопросы рекомендуем использовать Основной корпус НКРЯ.
А знаете ли вы, как менялся русский язык со времён Пушкина? Проследить эту эволюцию помогает Национальный корпус русского языка — настоящая машина времени для лингвистических исследований!
Предлагаем пройти тест на знание того, как трансформировался русский язык. Для ответа на вопросы рекомендуем использовать Основной корпус НКРЯ.
🎉16❤10
Когда слово «компьютер» обогнало по частотности «ЭВМ»?
Anonymous Quiz
6%
1970-е гг.
39%
1980-е гг.
55%
2000-е гг.
Какие два слова сравниваются на графике?
Anonymous Quiz
53%
господин и товарищ
33%
гражданин и товарищ
14%
Россия и СССР
👍2🤔1
Когда «телевизор» окончательно обогнал «радио» по частотности упоминаний в письменных текстах?
Anonymous Quiz
3%
1940-е гг.
46%
1960-е гг.
51%
1980-е гг.
🤔3🔥1
Нам часто задают вопросы: Почему слова нет в корпусе? Почему в корпусе есть ошибки? Если в корпусе так написано, значит, так правильно говорить? Иногда пользователи ошибочно интерпретируют данные корпуса. Мы решили разобрать наиболее частотные вопросы и заблуждения.
❤50👍18🔥12