НКРЯ Национальный корпус русского языка
2.21K subscribers
88 photos
36 videos
188 links
Канал об обновлениях, пополнениях и советах по работе с НКРЯ не только для лингвистов, но и для всех интересующихся русским языком.
Сайт Корпуса http://ruscorpora.ru
Download Telegram
Знаете ли вы, что слова живут своей социальной жизнью? Как люди, они выбирают себе компанию и меняют круг общения в зависимости от эпохи. То, что было актуально в пушкинские времена, сегодня может звучать совершенно по-другому.

Представьте: в XIX веке одно и то же слово «дружило» с одними соседями, а в XXI веке обзавелось совершенно новыми спутниками. Эти семантические метаморфозы — настоящий детектив для лингвистов!

Мария Подрядчикова вместе с коллегами из «Системного Блока» заглянула в архивы Национального корпуса русского языка и проследила удивительные превращения. Пройдите тест и узнайте, как менялось значение слов на протяжении веков.
31👍6🔥5
Команда Национального корпуса русского языка представит две статьи на крупнейшей лингвистической конференции — ACL 2025!

На основной секции конференции будет представлена статья BERT-like Models for Slavic Morpheme Segmentation. В этой работе при построении морфемных разборов для трёх славянских языков – русского, белорусского и чешского – мы использовали дообученные BERT-подобные модели. Предложенный нами алгоритм позволил превзойти существующие подходы для русского и чешского: количество ошибок в разметке уменьшилось в полтора-два раза, особенно для корней, отсутствовавших в обучающей выборке. Кстати, обновлённая словообразовательная разметка, доступная в Основном корпусе, выполнена при помощи именно этого алгоритма!

На воркшопе Slavic NLP-2025 мы выступим с работой, посвящённой улучшению нашей модели лемматизации. Несмотря на высокое качество автоматически присваиваемых лемм (98,8% правильных разборов на тестовой выборке), мы продолжаем работать над устранением оставшихся ошибок, ведь при сегодняшних размерах НКРЯ даже 0,1% некорректной лемматизации приводят к нескольким миллионам ошибок. Использование ансамбля из модели Rubic и дообученной модели BART позволило повысить качество и достичь более 99% правильных лемм, в частности, улучшилась лемматизация имён собственных и некоторых сокращений.

Мы активно работаем над развитием методов лингвистической разметки текстов. Большинство разработанных нами моделей доступно на соответствующей странице Корпуса.
🏆28🔥17👏4👍31🥰1
В Синтаксическом корпусе усовершенствован поиск по микросинтаксическим конструкциям. При установке курсора в поисковое поле появляется полный список из более чем 3200 единиц. Введя букву или последовательность букв, можно получить все единицы, в которые они входят.

В браузерной версии сайта можно увидеть примеры реализации конструкций, содержащих переменные: они отображаются при наведении курсора мыши на название микросинтаксической конструкции.

Доступен поиск по нескольким микросинтаксическим единицам с использованием логического оператора ИЛИ (|). После того, как в поисковом поле выбрана первая микросинтаксическая конструкция, помещение курсора в поле автоматически добавляет знак дизъюнкции к запросу к условию. Логический оператор И (&) в этом поисковом поле не поддерживается. В то же время, поиск слов, входящих одновременно в несколько конструкций, можно выполнить при помощи условий на несколько последовательных слов, указав расстояние 0 между ними. По-прежнему работает оператор «звездочка», с его помощью можно найти слова, входящие в любую микросинтаксическую конструкцию.
👍179🔥2🥰1
Media is too big
VIEW IN TELEGRAM
На сайте Корпуса появился Генератор примеров для упражнений, позволяющий подобрать примеры для орфографических правил на материале двух корпусов – Обучающего и «От 2 до 15». Попасть на страницу генератора можно со страницы НКРЯ в школе, нажав на соответствующий баннер. Сейчас можно выбирать из семи правил, реализующихся в разных частях речи и в разных частях слова; в дальнейшем количество правил будет расти.

Чтобы подобрать примеры, необходимо выбрать корпус и правило. В полученных результатах можно галочками отбирать нужные предложения. Все найденные предложения или только те предложения, которые были отмечены, можно скачать в файл или сохранить в Личном кабинете, чтобы возвращаться к своей выборке в дальнейшем.

Если вы хотите искать примеры только в текстах определенного автора или жанра, можно воспользоваться окошком поиска «Правила» в форме лексико-грамматического поиска Обучающего корпуса или корпуса «От 2 до 15», предварительно задав подкорпус. В этом случае нельзя будет воспользоваться отбором примеров при помощи галочки на странице выдачи, но можно сохранить выдачу как обычный запрос или скачать все примеры в файл.

Полученные примеры можно использовать для создания собственных упражнений разных типов: например, вставки пропущенной буквы, выбора правильного или неправильного написания слова, распределения слов по группам и других заданий.

Приглашаем вас оставлять обратную связь при помощи кнопки «Оценить» — это помогает нам делать корпус лучше!
🔥3917👍5🙏5
В Газетный корпус включены издания, относящиеся к периоду 1980-1990-х гг. Среди них большая коллекция газеты «Коммерсант» за 1992-1996-е и 2001-й годы, отдельные номера газет «Вечерняя Москва», «Известия», «Литературная газета», «Московская правда», «Правда», «Труд», «Труд-7». Общий объем пополнения составляет 2,4 млн словоупотреблений.

Расширение корпуса позволяет анализировать изменения в лексике, тематике и жанровой структуре газетных текстов на протяжении десятилетий. Так, в публикациях 1980–1990-х годов по сравнению с общим корпусом наблюдается значительный перевес крупных жанров — статей и интервью. В то время как в прессе 2010-х годов продолжает укрепляться тенденция к доминированию кратких информационных жанров.

Что касается тематики, ведущими в газетах 1980–1990-х годов остаются «политика и общественная жизнь», «искусство и культура», а также «частная жизнь». В прессе 2010-х годов, напротив, отмечается рост доли публикаций по темам бизнеса, спорта, криминала, происшествий, права, администрации и управления. Эти сдвиги отражают трансформацию интересов аудитории и медиапространства в целом.
🔥199👍4🤔2
Мы продолжаем развивать функционал корпуса для школьного преподавания русского языка. В Генератор примеров для упражнений добавлено восемь новых правил:

• Правописание гласных в суффиксах имен существительных
• Правописание гласных в суффиксах глаголов
• Чередование гласных с нулем звука
• Двойная роль букв Е, Ё, Ю, Я
• Правописание мягкого знака внутри слов
• Разделительные твердый и мягкий знаки
• Спряжение глаголов с безударным личным окончанием
• Правописание безударных окончаний имен существительных в единственном числе

Теперь пользователи могут отбирать примеры для одиннадцати орфографических правил на материале двух корпусов – Обучающего и «От 2 до 15». Попасть на страницу генератора можно со страницы НКРЯ в школе, нажав на соответствующий баннер.
🔥26👍14🥰5🤔1
Национальный корпус русского языка открыл публичный API для исследователей, разработчиков и преподавателей. Он позволяет программно выполнять поисковые запросы к Портрету слова и лексико-грамматическому поиску и получать выдачу в формате Конкорданс.

Начать работу просто: авторизуйтесь на сайте, получите ключ доступа и ознакомьтесь с примерами запросов в документации.

Условия использования данных, полученных по API, не отличаются от стандартных условий использования Корпуса.
🔥2412👍6👏4🤔1
Древнерусский корпус достиг объема 913 тысяч слов. В него включено еще несколько литературных и деловых текстов, а также новая коллекция избранных экстратекстов — приписок к древнерусским рукописям самого разного содержания (от торжественных записей о создании и заказчике книги до бытовых заметок на полях), представляющих большой интерес для истории языка и культуры. Экстратексты включены по наиболее актуальным научным публикациям (В. Б. Крысько, М. Г. Гальченко, А. А. Гиппиуса, С. М. Михеева и других), а также, как правило, сверены по электронным копиям рукописей. Число словоформ, для которых полностью размечены греческие соответствия, достигло 237 тыс.
51🏆14🥰4👏2
Сегодня исполняется 130 лет со дня рождения Сергея Есенина. За свою короткую жизнь поэт успел написать несколько сотен поэтических и прозаических произведений.

К юбилею Сергея Есенина мы совместно с Яндекс Книгами исследовали контрасты его поэтического языка. В творчестве Есенина отчетливо выделяются два полюса: резкая грубость и мягкая лиричность. Анализ показал, как эта двойственность отражается в лексических особенностях поэзии автора.

В текстах Есенина значительную роль играл цвет. Можно составить палитру поэта: в начале творчества в его стихах преобладал белый и красный, а к концу - синий.

Синий цвет встречается в творческом наследии Есенина с частотой более 2300 раз на миллион слов, что значительно больше, чем у его современников, например, Владимира Маяковского и Марины Цветаевой. Особая деталь палитры автора — «тревожно-голубой» цвет, не встречающийся у других поэтов.

Исследовать другие аспекты творчества Сергея Есенина можно с помощью Поэтического корпуса НКРЯ, который содержит практически всю поэзию автора, за исключением вариантов и черновиков текстов.
🔥3217👍12
Приглашаем учителей русского языка на серию бесплатных вебинаров, посвящённых практическому использованию Национального корпуса русского языка в школьном преподавании.

Дата: 29-31 октября
Время: 17.00 по московскому времени, длительность вебинара – 1 час.
Формат: онлайн

Первый вебинар будет посвящен знакомству с Национальным корпусом русского языка: что это такое и чем он может быть полезен в школьном преподавании, какие корпусы подходят для использования в школе, возможности поиска и выдачи результатов поиска. На втором вебинаре разберем, как самостоятельно подбирать примеры из НКРЯ для создания собственных упражнений. На заключительном вебинаре разберемся, как организовать исследовательскую проектную деятельность с помощью НКРЯ.
Можно принять участие как во всех вебинарах, так и в наиболее интересующих вас. На каждом вебинаре предусмотрена практика для отработки полученных навыков работы с Корпусом.

Регистрация открыта до 28 октября по ссылке: https://forms.yandex.ru/u/6890c25a505690267e7cd260

Ссылка на подключение к вебинару будет разослана зарегистрировавшимся участникам 29 октября. Если у вас остались вопросы, задавайте их нам на почту school@ruscorpora.ru
🔥30👍1098
Мультимедийный корпус пополнен на 120 тыс. словоупотреблений. В него были добавлены: большая коллекция записей художественного чтения — рассказы и повести Н.В. Гоголя, А.С. Пушкина, А.И. Куприна, М.М. Зощенко, Вс.В. Иванова, Ю.П. Казакова, В.М. Шукшина в исполнении известных актеров Т.В. Дорониной, Н.Г. Гундаревой, В.М. Соломина, А.А. Калягина, И.В. Ильинского, Е.В. Князева, Б.П. Чиркова, С.Ю. Юрского; записи телевизионных интервью и ток-шоу. Пополнена коллекция записей региональной речи. В нее вошли беседы и интервью с жителями Воронежской области, Бурятии, Татарстана, Республики Коми, которые являются героями сюжетов документальных фильмов из цикла «Письма из провинции». В корпус включены также записи непубличной речи — разговоры с родственниками и друзьями в неформальной обстановке.
33🔥12👍11
Пополнены коллекции устной речи в Акцентологическом и Устном корпусах. Добавлены записи бесед и интервью с жителями многих регионов России, которые стали героями сюжетов документальных фильмов из цикла «Письма из провинции» и видеоблогов, материалы фольклорных экспедиций. Пополнены коллекции монологов-воспоминаний, повседневной диалогической речи, в том числе молодежной, собранные студентами Воронежского государственного университета, МГУ им М.В. Ломоносова, Государственного университета просвещения. Общий объем пополнения составляет около 180 тыс. словоупотреблений.

Объем Устного корпуса теперь составляет 15 млн словоупотреблений, общий объем Акцентологического корпуса, вместе с наивной поэзией, — 135,9 млн словоупотреблений.
29👍16
Менеджер НКРЯ Анастасия Козеренко рассказала в ТГ-канале Поговорим про РКИ (русский язык как иностранный) о том, чем занимаются лингвисты в Отделе экспериментальной лексикографии Института русского языка им. В.В. Виноградова РАН, а также о том, как изменился за последние годы Национальный корпус русского языка и что в нем есть полезного и интересного для разных категорий пользователей.
27🔥12👍4
Старорусский корпус пополнен примерно на 700 тысяч слов. В корпус включены старорусские памятники разных жанров: летописи (тверские, Иоасафовская, Варшавский сборник), географическое описание Московского царства и сопредельных государств («Книга Большому чертежу»), документы хозяйственного и налогового учета разных территорий.
32👍13🔥3🏆1
Мы продолжаем развивать функционал корпуса для школьного преподавания русского языка. В Генератор примеров для упражнений добавлено еще шесть новых правил:

• Время глагола
• Вид глагола
• Буквы Ы и И после приставок на согласные
• Правописание пре- и при- в приставках и корнях слов
• Правописание суффиксов -чик- и -щик-
• Правописание -н- и -нн- в прилагательных

Количество правил продолжает расти, поэтому для удобства навигации правила в меню теперь расположены на нескольких тематических вкладках.
Напоминаем, что попасть на страницу генератора можно со страницы НКРЯ в школе, нажав на соответствующий баннер.
37🔥21👏5👍4
Поэтический корпус пополнен произведениями трех поэтов второй половины ХХ века с особым фокусом на бардовскую поэзию — Владимира Высоцкого, Новеллы Матвеевой и Владимира Уфлянда. Общий объем пополнения — 177 тыс. словоупотреблений или 36 тысяч стихотворных строк.

Тексты, доступные в корпусе ранее, снабжены автоматической нейросетевой морфологической разметкой (лемматизация и грамматика) с частичной ручной коррекцией, исправлено множество ошибок в разметке. По умолчанию эти разборы доступны в поиске наравне с разборами, основанными на грамматическом словаре.
25🔥11👍5
В Диалектном корпусе теперь доступны такие инструменты, как «Статистика», «Частотность», частотные словари, n-граммы, поиск с регулярными выражениями, парадигмы в Портрете слова. В частности, можно увидеть в таблице, в каком облике встретились падежные формы слова заяц и как коррелирует окончание типа за ягодам с разделением говоров на окающие и акающие.
🔥21🤩6👍5
В корпусах с автоматической синтаксической разметкой (Основной, Центральные и Региональные СМИ, «От 2 до 15» и Русская классика) теперь можно увидеть синтаксическое дерево предложения. Оно открывается по специальному значку для всех предложений в поисковой выдаче. Для каждого слова в предложении на картинке указана лемма и часть речи, а синтаксические связи между ними отображены в виде направленных стрелок с названием связи. Изображение дерева можно скачать в виде картинки.
🔥2513🥰7🙏7👍2
Разработчики корпуса Кирилл Корчагин и Борис Орехов в рамках Ежегодного междисциплинарного фестиваля «Гуманитариум» в Библиотеке иностранной литературы 23 ноября 2025 года прочли популярную лекцию на тему «Зачем нужен Поэтический корпус?».

Лекторы остановились на научном контексте появления Поэтического корпуса, его истории в составе НКРЯ, продемонстрировали возможности поиска и остановились на конкретных примерах того, что можно найти, пользуясь этими возможностями. Так, слушатели узнали, что самым поэтичным временем года оказалась весна, какова динамика использования в русской поэзии октавы и онегинской строфы, от чьего творчества отталкивался Ф. И. Тютчев, когда искал свой авторский голос, как корпус позволяет восстановить старые ударения в словах, какие слова больше подходят для поэзии, чем для прозы, и почему.

Видео выступления доступно по ссылке: https://vk.com/video-219147744_456239140
🔥2416👍8
В Синтаксическом корпусе произошел ряд изменений. Синтаксические отношения теперь доступны для выбора начиная с первого слова и показываются в форме лексико-грамматического поиска по умолчанию. Появилась возможность задавать синтаксическое отношение до любого слова. В некоторых текстах у предложений помимо синтаксической появилась семантическая структура, открывающаяся в отдельном окне по специальному значку. В карточке слова появилась информация о его модели управления. Дополнен ряд текстов, ранее представленных в корпусе; исправлены ошибки в разметке морфологии, синтаксиса и микросинтаксиса, обработаны все сообщения об ошибках от пользователей.
🔥239👍3
Русский Мультипарк пополнен до 375 тыс. словоформ. Добавлена пьеса А.П. Чехова «Три сестры» в постановках двух театров ― МХАТ им. Чехова и Молодежного театра на Фонтанке. В составе корпуса организован новый раздел ― чтение прозы в исполнении мастеров художественного слова. В коллекцию вошли разные исполнительские версии чтения повестей А.С. Пушкина, рассказов А.И. Куприна и М.М. Зощенко.
12👍3🔥2