НКРЯ Национальный корпус русского языка
2.19K subscribers
88 photos
36 videos
188 links
Канал об обновлениях, пополнениях и советах по работе с НКРЯ не только для лингвистов, но и для всех интересующихся русским языком.
Сайт Корпуса http://ruscorpora.ru
Download Telegram
Синтаксическая разметка представлена в Национальном корпусе русского языка в двух форматах – в формате CинТагРус, используемом в одноименном корпусе, и в формате Универсальных зависимостей (Universal Dependencies), используемом в Основном, Газетных и ряде других корпусов.

Благодаря синтаксической разметке можно получать гораздо более точные результаты поиска, чем с использованием только морфологической аннотации. Без синтаксической разметки было бы невозможно реализовать некоторые имеющиеся сейчас в корпусе функции, например, выявление «скетчей» слов — устойчивых словосочетаний с заданными синтаксическими отношениями — или более точную настройку поиска коллокаций.

С подробным описанием двух форматов синтаксической разметки можно ознакомиться на сайте. А в карточках – пошаговая инструкция и пример использования поиска по синтаксическим отношениям.
26🔥3👍2
Media is too big
VIEW IN TELEGRAM
Мы продолжаем совершенствовать Портрет слова в НКРЯ. Недавно в нем появилась возможность сравнивать скетчи, а теперь в Портрете слова Основного корпуса можно изучить, как менялись слова-ассоциаты во времени, а также ознакомиться с толкованием слова.

Виджет «Толкование β» содержит определения искомого слова, сгенерированные нейросетью. Сейчас авторизованным пользователям сайта доступны определения примерно для 5,5 тысяч слов, которые чаще всего искали в Основном корпусе. Толкования могут содержать ошибки и неточности – мы просим вас сообщать о них, используя кнопку «‎Оценить»‎ рядом с виджетом. Ваша обратная связь поможет нам улучшить генерацию толкований.

Виджет «‎Похожие слова»‎ теперь позволяет изучать список слов-ассоциатов (то есть слов, употребляемых в таких же контекстах, как искомое слово – не путать с синонимами!) не только по всему корпусу, но и по текстам, созданным в определенный период времени. Все тексты Основного корпуса с 1700 по 2022 год поделены на 11 временных периодов. Пользователи могут посмотреть на похожие слова одного периода или сравнить два периода, а также скачать скриншот. Например, интересно проследить, как менялись семантические ассоциаты слова ‎поезд или машина.
20🔥15👍7
Сравнение скетчей, недавно появившееся в Корпусе, можно использовать для изучения паронимов – слов, сходных по звучанию и морфемному составу, но различающихся по значению. Новый функционал помогает выявить ключевые различия и сходства в значении и употреблении таких слов.

Предлагаем вам изучить инструкцию в карточках, а затем самостоятельно разобраться в значениях и особенностях употребления таких пар слов, как хозяйский и хозяйственный, органический и органичный, архаичный и архаический.
👍28🔥12🥰872🤝1
Объем корпуса «‎Русская классика»‎ увеличился на 7,5 млн слов. В него добавлены академические полные собрания сочинений Ф. М. Достоевского и Н. А. Некрасова, большая часть написанных по-русски писем И. С. Тургенева, а также некоторые ранее не включенные тексты других авторов. Работы по пополнению корпуса «Русская классика» текстами Ф.М. Достоевского в 2024–2025 гг. поддержаны Благотворительным фондом содействия образованию «ДАР».

Сервис «‎Похожие слова»‎ теперь доступен не только для всего корпуса в целом, но и отдельно для произведений 9 авторов, объем сочинений которых достаточно велик. При помощи этого виджета можно сравнивать употребление слова в авторском стиле разных писателей.

Не всегда ассоциаты слова у того или иного автора информативны (особенно если слово у него встречается редко или в слишком разнообразных контекстах), однако во многих случаях они дают ярко индивидуальную картину. Например, слово страсть у Пушкина окрашено в целом положительно (в ряду с красотой и свободой), а у Толстого – резко отрицательно (как похоть и злоба); лошадка у Лескова – примета быта, а у Чехова – одно из многочисленных прозвищ жены писателя, Ольги Книппер.

Расширены возможности экспорта данных из Многоязычного параллельного корпуса. Теперь при выгрузке в Excel, Word и CSV автоматически сохраняются параллельные контексты и дополнительная информация – язык перевода и данные о переводчике.
25👍6🔥5
27 марта отмечается Международный день театра. В связи с этим мы хотим вам напомнить (а кому-то – рассказать впервые) о возможностях русского Мультимедийного параллельного корпуса

В настоящее время русский МультиПАРК включает пьесу Н. В. Гоголя «Ревизор», представленную в 9 постановках, пьесы А. П. Чехова «Вишневый сад» в 4 постановках, «Дядя Ваня» в 5 постановках и «Три сестры» в 4 постановках.

Русский МультиПАРК дает возможность сопоставительного изучения одной и той же реплики, произнесенной разными говорящими в одинаковых обстоятельствах. Это позволяет выявить, как могут варьироваться различные аспекты звучащей речи и её жестового сопровождения в зависимости от личности актёра, времени и стиля постановки, замысла режиссёра и других факторов.

Например, можно посмотреть и послушать, с какой разной интонацией сестры у Чехова выражают желание поехать «‎в Москву»,‎ или как разные актеры произносили фразу «‎К нам едет ревизор»‎.
👍159🥰3🔥2
3 апреля в 11.00 магистерская программа «‎Обработка естественного языка»‎ МИСиС организует вебинар с Анной Глазковой, к. т. н., специалистом группы нейросетевой разметки НКРЯ, преподавателем Тюменского государственного университета.

Анна расскажет об опыте генерации ключевых слов для русскоязычных текстов Корпуса:
- сравнит подходы к выделению ключевых слов: генерация vs извлечение;
- поделится результатами экспериментов на текстах корпуса региональных СМИ Национального корпуса русского языка;
- оценит надежность (робастность) генерации ключевых слов с помощью LLM.

Зарегистрироваться на вебинар можно по ссылке.
19👍3🤩1
В шапке запроса появилась информация об относительной частоте запроса – IPM. В настоящее время эта функция доступна во всех корпусах, кроме Параллельных, англо-русского МультиПАРКа, а также корпусов «‎Берестяные грамоты»‎ и «‎Эпиграфика»‎. Если пользователь ограничил запрос конкретным подкорпусом, то показатель рассчитывается как отношение количества примеров в запросе к количеству слов в этом подкорпусе, умноженное на миллион. Если же подкорпус не выбран, то количество примеров в запросе делится на общее количество слов в корпусе и умножается на миллион. IPM рассчитывается для любого количества слов в запросе.

Кроме того, мы обновили страницу нейросетевых моделей, используемых в НКРЯ, добавив две новые модели, основанные на RuRoBERTа и обученные на данных Корпуса. Новые модели и инструкции по их запуску доступны для скачивания и использования в исследовательских и некоммерческих целях. Основное преимущество этих моделей — улучшенная работа с незнакомыми корнями. Подробнее о том, чем этим модели отличаются от применявшихся раньше, можно будет узнать в ходе доклада нашей команды на конференции Диалог 2025.
👍128
23-25 апреля проводится международная конференция по компьютерной лингвистике и интеллектуальным технологиям «‎Диалог-2025»‎.

Сегодня на конференции c рассказом о настоящем и будущем корпуса выступят сразу несколько участников нашей команды.

В первой секции конференции, которая начнется в 14.00 по московскому времени, технический директор НКРЯ, руководитель группы нейросетевой разметки Дмитрий Морозов выступит с докладом о моделях автоматической морфемной разметки для русского языка. В секции «‎Большие языковые корпуса» Сергей Гладилин, старший научный сотрудник ИППИ РАН, технический директор НП «НКРЯ» (2019-2022), и Ольга Ляшевская, профессор факультета филологии Высшей школы экономики (Москва), старший научный сотрудник Института русского языка им. В. В. Виноградова РАН, обсудят будущее лингвистических корпусов, в том числе НКРЯ.

В четверг в 10.00 Светлана Тимошенко, научный сотрудник ИППИ РАН, расскажет, как статистические метрики, примененные к данным Основного корпуса, помогают отбирать составные коннекторы (союзы и составные единицы в функции союза, соединяющие части сложного предложения) для специализированной базы данных.

Принять участие в конференции в онлайн-формате можно по ссылке. Ознакомиться с полной программой и материалами конференции можно на сайте.
🔥13👍97
Проведено масштабное пополнение Регионального корпуса, в результате которого объем корпуса почти удвоился и достиг 69 млн слов!

В состав корпуса добавлены издания 11 регионов России, которые ранее не были включены в корпус: Архангельская область, Астраханская область, Бурятия, Калмыкия, Камчатский край, Карелия, Костромская область, Рязанская область, Сахалинская область, Тамбовская область, Ямало-Ненецкий автономный округ.

Кроме того, пополнен состав изданий тех регионов, которые до сих пор были слабо представлены в корпусе: Вологодской, Курской, Ростовской областей, Республики Мордовии. Общее количество региональных СМИ, вошедших в состав пополнения, превышает 60. Среди них как традиционные районные, городские, областные газеты, так и информационные порталы, сетевые издания, материалы с официальных сайтов органов власти.

Большая коллекция СМИ регионов этого пополнения подготовлена коллективом Воронежского государственного университета. Работы по пополнению Регионального корпуса в 2024–2025 гг. поддержаны Благотворительным фондом содействия образованию «ДАР».
🔥17👏106👍2
Media is too big
VIEW IN TELEGRAM
В Портрете слова Основного и четырех исторических корпусов НКРЯ появился новый виджет с информацией о первом упоминании слова в текстах корпуса. Помимо даты первого упоминания, виджет также предоставляет контекстуальную информацию о нем: имя автора, название документа, а в корпусах берестяных грамот и эпиграфики — также тип носителя и локализация находки.

Информация в виджете основывается на данных того корпуса, в Портрете слова которого находится пользователь. Для комплексного анализа и более достоверных выводов о первом упоминании слова во всем НКРЯ рекомендуется проверить его наличие в корпусах более ранних периодов. Это легко сделать, кликнув на соответствующую кнопку‎.
13🔥7
В апреле мы обновили главную страницу сайта, чтобы сделать работу с корпусом более эффективной и комфортной для начинающих пользователей. Поисковая строка теперь автоматически определяет тип запроса и направляет пользователя в оптимальный вид поиска. При вводе одного слова (словоформы или леммы) — система активирует лексико-грамматический поиск в Основном корпусе. При вводе фразы или словосочетания — выполняется поиск по точным формам в Основном корпусе.

Непосредственно под поисковой строкой добавлены интерактивные примеры запросов. Эта функция существенно упрощает знакомство с форматами поисковых запросов.

Обзор возможностей, ранее доступный из поисковой строки, теперь вызывается по клику на соответствующий виджет под поисковой строкой.
27👏41👎1
Сегодня отечественная лингвистика отмечает сразу две значимые даты: 90 лет со дня рождения Андрея Анатольевича Зализняка (1935-2017) и 21 год со дня запуска Национального корпуса русского языка.

Символично, что эти даты совпадают. Научные принципы, которые отстаивал А. А. Зализняк, — объективность, строгость метода, уважение к фактам языка — стали фундаментом для создания НКРЯ. Его труды по русской грамматике, включая знаменитый «Грамматический словарь», легли в основу морфологической разметки Корпуса.

Андрей Анатольевич был не только гениальным лингвистом, расшифровавшим множество памятников древней письменности и доказавшим подлинность «Слова о полку Игореве», но и неутомимым защитником научного подхода к языку. Его знаменитое высказывание «Истина существует, и целью науки является её поиск» остаётся девизом для всех, кто работает с Корпусом.

За 21 год НКРЯ стал незаменимым ресурсом для исследователей, преподавателей, переводчиков и всех любителей русского языка. Сегодня Корпус насчитывает более 2 миллиардов словоупотреблений и продолжает расти, с каждым годом привлекая все больше пользователей и становясь важнейшим инструментом для изучения языка, в том числе – языковых изменений во времени.
72👍87