НКРЯ Национальный корпус русского языка
2.2K subscribers
88 photos
36 videos
188 links
Канал об обновлениях, пополнениях и советах по работе с НКРЯ не только для лингвистов, но и для всех интересующихся русским языком.
Сайт Корпуса http://ruscorpora.ru
Download Telegram
В СМИ какого региона России (по данным корпуса Региональных СМИ) «‎инвестиции»‎ встречаются чаще, чем «‎урожай»‎?
Anonymous Quiz
30%
Камчатский край
12%
Амурская область
58%
Санкт-Петербург
👍4🤩1
Media is too big
VIEW IN TELEGRAM
На сайте Корпуса появилась возможность сравнить распределение метаатрибутов у нескольких запросов.

Теперь исследователи могут не только анализировать частотность отдельных слов и конструкций, но и наглядно сопоставлять, как разные языковые единицы распределяются по авторам, жанрам, тематикам и другим параметрам текстов.

Сравнение запросов по метаатрибутам доступно во всех корпусах, где ранее было доступно сравнение графиков: в Основном, Газетных, Устном, Обучающем, Старорусском, а также корпусах «‎От 2 до 15» и «‎Русская классика»‎.

Визуализация распределения метатрибутов доступна в виде линейчатого и столбчатого графиков. При наведении курсора мыши на график можно увидеть абсолютную или относительную величину атрибута. Картинку с графиком можно сохранить, кликнув на кнопку «Скачать».
15👍8🔥5
6 июня отмечается День русского языка. В этот день родился А.С. Пушкин, чьи произведения оказали значительное влияние на формирование современного русского литературного языка.

А знаете ли вы, как менялся русский язык со времён Пушкина? Проследить эту эволюцию помогает Национальный корпус русского языка — настоящая машина времени для лингвистических исследований!

Предлагаем пройти тест на знание того, как трансформировался русский язык. Для ответа на вопросы рекомендуем использовать Основной корпус НКРЯ.
🎉1610
Когда слово «‎компьютер»‎ обогнало по частотности «‎ЭВМ»‎?
Anonymous Quiz
6%
1970-е гг.
39%
1980-е гг.
55%
2000-е гг.
Когда «телевизор» окончательно обогнал «радио» по частотности упоминаний в письменных текстах?
Anonymous Quiz
3%
1940-е гг.
46%
1960-е гг.
51%
1980-е гг.
🤔3🔥1
Нам часто задают вопросы: Почему слова нет в корпусе? Почему в корпусе есть ошибки? Если в корпусе так написано, значит, так правильно говорить? Иногда пользователи ошибочно интерпретируют данные корпуса. Мы решили разобрать наиболее частотные вопросы и заблуждения.
50👍18🔥12
Команда разработчиков НКРЯ завершила очередной этап масштабной работы по совершенствованию лингвистической разметки Основного корпуса.

Основные улучшения:
• Повышено качество лемматизации слов. Среди прочего устранена массовая ошибка в определении словарных форм существительных, оканчивающихся на -лец и -сец. Например, ранее словам живописец, пришелец приписывались некорректные леммы «живописц» и «пришельц». Теперь лемматизация таких слов выполняется правильно.

• Автоматические морфемные разборы для слов, отсутствующих в словаре, теперь генерируются не алгоритмом на базе ансамбля свёрточных нейронных сетей, а дообученной моделью RuRoberta. Вследствие улучшения морфемной разметки улучшилось и качество определения однокоренных слов, например, для таких слов как ‎офис‎ и ‎аварийность‎.

Для пользователей это обновление означает более точные результаты поиска по грамматическим параметрам и улучшение работы корпусных инструментов анализа выдачи.

Обновленная разметка, охватившая почти 2 млн слов Основного корпуса, выполнена современными методами машинного обучения с привлечением экспертов-лингвистов для контроля качества. Несмотря на проделанную работу, в корпусе всё ещё может сохраняться небольшое количество ошибок разметки. Просим вас сообщать о найденных неточностях при помощи кнопки «Сообщить об ошибке» — мы исправим их при следующем обновлении.
22👍16🔥9
Обучающий корпус пополнен почти на 1 млн словоупотреблений. В корпус добавлена коллекция научно-популярных и учебно-научных текстов: три словаря из популярной серии энциклопедических словарей, предназначенных для среднего и старшего школьного возраста (словари юного филолога, литературоведа, художника), широко известные научно-популярные издания по русскому языку и литературе.

Пополнение увеличит долю научных текстов, обогатит лексику терминологией из области гуманитарных наук, расширит информацию по истории языка и предоставит материал для составления упражнений и творческих заданий по русскому языку и литературе.

Вторая часть пополнения – тексты детской литературы, в том числе рекомендуемые для внеклассного чтения. В коллекцию вошли рассказы и повести для детей и подростков В. Инбер, Т. Александровой, Ю. Томина, А. Усачева и современных молодых авторов С. Востокова, А. Игнатовой, Ю. Кузнецовой, А. Никольской, Д. Сиротина.
Работы по пополнению Обучающего корпуса в 2024–2025 гг. поддержаны благотворительным фондом содействия образованию «ДАР».

В Обучающем корпусе появился поиск по словообразованию, то есть поиск морфем (приставок, корней, суффиксов) в составе слова. В карточке слова доступен словообразовательный разбор.
🔥21🥰54🎉3🏆2👍1
Media is too big
VIEW IN TELEGRAM
В Портрете слова в разделе Сравнение скетчей теперь можно добавлять новые слова прямо на странице сравнения, не возвращаясь в Портрет слова. Поисковые поля расположены вверху страницы над сравнительными таблицами.

Функционал доступен полностью только авторизованным пользователям. Неавторизованные пользователи могут просматривать готовые сравнения, однако для самостоятельного сравнения слов потребуется вход в систему.
🔥18🤩2🏆1
В феврале мы сообщали о появлении в Портрете слова нового виджета «Толкования» для 5,5 тысяч слов. Теперь в Портрете слова Основного корпуса доступны автоматически сгенерированные определения для примерно 96 тысяч слов, что значительно расширяет справочные возможности сервиса. Толкования охватывают существительные, прилагательные, глаголы и наречия, представленные в корпусе.

Толкования доступны как для общеупотребительных слов, так и для неологизмов — например, кидалт и байопик. При создании определений мы руководствовались четырьмя принципами: корректность (соответствие действительности), доступность для понимания учащимися средней школы, грамотность с точки зрения русского языка и неизбыточность формулировок.

Эксперименты по генерации толкований проведены при поддержке Центра технологий для общества Yandex Cloud. В настоящее время функционал доступен в режиме бета-тестирования для авторизованных пользователей. Приглашаем вас оставлять обратную связь с помощью кнопки «Оценить» — это поможет нам совершенствовать качество толкований.
20🔥4
Знаете ли вы, что слова живут своей социальной жизнью? Как люди, они выбирают себе компанию и меняют круг общения в зависимости от эпохи. То, что было актуально в пушкинские времена, сегодня может звучать совершенно по-другому.

Представьте: в XIX веке одно и то же слово «дружило» с одними соседями, а в XXI веке обзавелось совершенно новыми спутниками. Эти семантические метаморфозы — настоящий детектив для лингвистов!

Мария Подрядчикова вместе с коллегами из «Системного Блока» заглянула в архивы Национального корпуса русского языка и проследила удивительные превращения. Пройдите тест и узнайте, как менялось значение слов на протяжении веков.
31👍6🔥5
Команда Национального корпуса русского языка представит две статьи на крупнейшей лингвистической конференции — ACL 2025!

На основной секции конференции будет представлена статья BERT-like Models for Slavic Morpheme Segmentation. В этой работе при построении морфемных разборов для трёх славянских языков – русского, белорусского и чешского – мы использовали дообученные BERT-подобные модели. Предложенный нами алгоритм позволил превзойти существующие подходы для русского и чешского: количество ошибок в разметке уменьшилось в полтора-два раза, особенно для корней, отсутствовавших в обучающей выборке. Кстати, обновлённая словообразовательная разметка, доступная в Основном корпусе, выполнена при помощи именно этого алгоритма!

На воркшопе Slavic NLP-2025 мы выступим с работой, посвящённой улучшению нашей модели лемматизации. Несмотря на высокое качество автоматически присваиваемых лемм (98,8% правильных разборов на тестовой выборке), мы продолжаем работать над устранением оставшихся ошибок, ведь при сегодняшних размерах НКРЯ даже 0,1% некорректной лемматизации приводят к нескольким миллионам ошибок. Использование ансамбля из модели Rubic и дообученной модели BART позволило повысить качество и достичь более 99% правильных лемм, в частности, улучшилась лемматизация имён собственных и некоторых сокращений.

Мы активно работаем над развитием методов лингвистической разметки текстов. Большинство разработанных нами моделей доступно на соответствующей странице Корпуса.
🏆28🔥17👏4👍31🥰1
В Синтаксическом корпусе усовершенствован поиск по микросинтаксическим конструкциям. При установке курсора в поисковое поле появляется полный список из более чем 3200 единиц. Введя букву или последовательность букв, можно получить все единицы, в которые они входят.

В браузерной версии сайта можно увидеть примеры реализации конструкций, содержащих переменные: они отображаются при наведении курсора мыши на название микросинтаксической конструкции.

Доступен поиск по нескольким микросинтаксическим единицам с использованием логического оператора ИЛИ (|). После того, как в поисковом поле выбрана первая микросинтаксическая конструкция, помещение курсора в поле автоматически добавляет знак дизъюнкции к запросу к условию. Логический оператор И (&) в этом поисковом поле не поддерживается. В то же время, поиск слов, входящих одновременно в несколько конструкций, можно выполнить при помощи условий на несколько последовательных слов, указав расстояние 0 между ними. По-прежнему работает оператор «звездочка», с его помощью можно найти слова, входящие в любую микросинтаксическую конструкцию.
👍179🔥2🥰1
Media is too big
VIEW IN TELEGRAM
На сайте Корпуса появился Генератор примеров для упражнений, позволяющий подобрать примеры для орфографических правил на материале двух корпусов – Обучающего и «От 2 до 15». Попасть на страницу генератора можно со страницы НКРЯ в школе, нажав на соответствующий баннер. Сейчас можно выбирать из семи правил, реализующихся в разных частях речи и в разных частях слова; в дальнейшем количество правил будет расти.

Чтобы подобрать примеры, необходимо выбрать корпус и правило. В полученных результатах можно галочками отбирать нужные предложения. Все найденные предложения или только те предложения, которые были отмечены, можно скачать в файл или сохранить в Личном кабинете, чтобы возвращаться к своей выборке в дальнейшем.

Если вы хотите искать примеры только в текстах определенного автора или жанра, можно воспользоваться окошком поиска «Правила» в форме лексико-грамматического поиска Обучающего корпуса или корпуса «От 2 до 15», предварительно задав подкорпус. В этом случае нельзя будет воспользоваться отбором примеров при помощи галочки на странице выдачи, но можно сохранить выдачу как обычный запрос или скачать все примеры в файл.

Полученные примеры можно использовать для создания собственных упражнений разных типов: например, вставки пропущенной буквы, выбора правильного или неправильного написания слова, распределения слов по группам и других заданий.

Приглашаем вас оставлять обратную связь при помощи кнопки «Оценить» — это помогает нам делать корпус лучше!
🔥3917👍5🙏5
В Газетный корпус включены издания, относящиеся к периоду 1980-1990-х гг. Среди них большая коллекция газеты «Коммерсант» за 1992-1996-е и 2001-й годы, отдельные номера газет «Вечерняя Москва», «Известия», «Литературная газета», «Московская правда», «Правда», «Труд», «Труд-7». Общий объем пополнения составляет 2,4 млн словоупотреблений.

Расширение корпуса позволяет анализировать изменения в лексике, тематике и жанровой структуре газетных текстов на протяжении десятилетий. Так, в публикациях 1980–1990-х годов по сравнению с общим корпусом наблюдается значительный перевес крупных жанров — статей и интервью. В то время как в прессе 2010-х годов продолжает укрепляться тенденция к доминированию кратких информационных жанров.

Что касается тематики, ведущими в газетах 1980–1990-х годов остаются «политика и общественная жизнь», «искусство и культура», а также «частная жизнь». В прессе 2010-х годов, напротив, отмечается рост доли публикаций по темам бизнеса, спорта, криминала, происшествий, права, администрации и управления. Эти сдвиги отражают трансформацию интересов аудитории и медиапространства в целом.
🔥199👍4🤔2