НКРЯ Национальный корпус русского языка
2.2K subscribers
88 photos
36 videos
188 links
Канал об обновлениях, пополнениях и советах по работе с НКРЯ не только для лингвистов, но и для всех интересующихся русским языком.
Сайт Корпуса http://ruscorpora.ru
Download Telegram
Сегодня отечественная лингвистика отмечает сразу две значимые даты: 90 лет со дня рождения Андрея Анатольевича Зализняка (1935-2017) и 21 год со дня запуска Национального корпуса русского языка.

Символично, что эти даты совпадают. Научные принципы, которые отстаивал А. А. Зализняк, — объективность, строгость метода, уважение к фактам языка — стали фундаментом для создания НКРЯ. Его труды по русской грамматике, включая знаменитый «Грамматический словарь», легли в основу морфологической разметки Корпуса.

Андрей Анатольевич был не только гениальным лингвистом, расшифровавшим множество памятников древней письменности и доказавшим подлинность «Слова о полку Игореве», но и неутомимым защитником научного подхода к языку. Его знаменитое высказывание «Истина существует, и целью науки является её поиск» остаётся девизом для всех, кто работает с Корпусом.

За 21 год НКРЯ стал незаменимым ресурсом для исследователей, преподавателей, переводчиков и всех любителей русского языка. Сегодня Корпус насчитывает более 2 миллиардов словоупотреблений и продолжает расти, с каждым годом привлекая все больше пользователей и становясь важнейшим инструментом для изучения языка, в том числе – языковых изменений во времени.
72👍87
Умеете ли вы анализировать не только сами тексты, но и их метаданные?

Национальный корпус русского языка — это не просто собрание текстов, а мощный инструмент для изучения языка через призму множества параметров: тематики, авторства, времени создания, региональной принадлежности и других характеристик текста.

Сравнение метаатрибутов позволяет понять, как контекст влияет на выбор слов: одни лексемы тяготеют к определённым жанрам, авторам или эпохам, другие распределены равномерно. Сравнение помогает выявлять стилистические особенности, культурные закономерности и решать практические задачи — от атрибуции текстов до изучения языковой эволюции.

Если для ответа на тест вы решите использовать корпусные инструменты вместо интуиции (что мы настоятельно рекомендуем!), ориентируйтесь на относительную частотность слов (ipm).
👀11👍4
В текстах какой тематики «‎истина»‌‎ встречается в Основном корпусе реже, чем «‌‎прогресс»‌‎?
Anonymous Quiz
44%
политология
19%
астрология, парапсихология, эзотерика
16%
логика
20%
философия
👍4
В текстах какого автора, представленного в корпусе «‎Русская классика»,‎ «‎пироги»‎ встречаются чаще, чем «‎булки»‎ и «‎хлеб»‎?
Anonymous Quiz
43%
Н. В. Гоголь
24%
И. А. Крылов
34%
М. Е. Салтыков-Щедрин
👍42
В СМИ какого региона России (по данным корпуса Региональных СМИ) «‎инвестиции»‎ встречаются чаще, чем «‎урожай»‎?
Anonymous Quiz
30%
Камчатский край
12%
Амурская область
58%
Санкт-Петербург
👍4🤩1
Media is too big
VIEW IN TELEGRAM
На сайте Корпуса появилась возможность сравнить распределение метаатрибутов у нескольких запросов.

Теперь исследователи могут не только анализировать частотность отдельных слов и конструкций, но и наглядно сопоставлять, как разные языковые единицы распределяются по авторам, жанрам, тематикам и другим параметрам текстов.

Сравнение запросов по метаатрибутам доступно во всех корпусах, где ранее было доступно сравнение графиков: в Основном, Газетных, Устном, Обучающем, Старорусском, а также корпусах «‎От 2 до 15» и «‎Русская классика»‎.

Визуализация распределения метатрибутов доступна в виде линейчатого и столбчатого графиков. При наведении курсора мыши на график можно увидеть абсолютную или относительную величину атрибута. Картинку с графиком можно сохранить, кликнув на кнопку «Скачать».
15👍8🔥5
6 июня отмечается День русского языка. В этот день родился А.С. Пушкин, чьи произведения оказали значительное влияние на формирование современного русского литературного языка.

А знаете ли вы, как менялся русский язык со времён Пушкина? Проследить эту эволюцию помогает Национальный корпус русского языка — настоящая машина времени для лингвистических исследований!

Предлагаем пройти тест на знание того, как трансформировался русский язык. Для ответа на вопросы рекомендуем использовать Основной корпус НКРЯ.
🎉1610
Когда слово «‎компьютер»‎ обогнало по частотности «‎ЭВМ»‎?
Anonymous Quiz
6%
1970-е гг.
39%
1980-е гг.
55%
2000-е гг.
Когда «телевизор» окончательно обогнал «радио» по частотности упоминаний в письменных текстах?
Anonymous Quiz
3%
1940-е гг.
46%
1960-е гг.
51%
1980-е гг.
🤔3🔥1
Нам часто задают вопросы: Почему слова нет в корпусе? Почему в корпусе есть ошибки? Если в корпусе так написано, значит, так правильно говорить? Иногда пользователи ошибочно интерпретируют данные корпуса. Мы решили разобрать наиболее частотные вопросы и заблуждения.
50👍18🔥12
Команда разработчиков НКРЯ завершила очередной этап масштабной работы по совершенствованию лингвистической разметки Основного корпуса.

Основные улучшения:
• Повышено качество лемматизации слов. Среди прочего устранена массовая ошибка в определении словарных форм существительных, оканчивающихся на -лец и -сец. Например, ранее словам живописец, пришелец приписывались некорректные леммы «живописц» и «пришельц». Теперь лемматизация таких слов выполняется правильно.

• Автоматические морфемные разборы для слов, отсутствующих в словаре, теперь генерируются не алгоритмом на базе ансамбля свёрточных нейронных сетей, а дообученной моделью RuRoberta. Вследствие улучшения морфемной разметки улучшилось и качество определения однокоренных слов, например, для таких слов как ‎офис‎ и ‎аварийность‎.

Для пользователей это обновление означает более точные результаты поиска по грамматическим параметрам и улучшение работы корпусных инструментов анализа выдачи.

Обновленная разметка, охватившая почти 2 млн слов Основного корпуса, выполнена современными методами машинного обучения с привлечением экспертов-лингвистов для контроля качества. Несмотря на проделанную работу, в корпусе всё ещё может сохраняться небольшое количество ошибок разметки. Просим вас сообщать о найденных неточностях при помощи кнопки «Сообщить об ошибке» — мы исправим их при следующем обновлении.
22👍16🔥9
Обучающий корпус пополнен почти на 1 млн словоупотреблений. В корпус добавлена коллекция научно-популярных и учебно-научных текстов: три словаря из популярной серии энциклопедических словарей, предназначенных для среднего и старшего школьного возраста (словари юного филолога, литературоведа, художника), широко известные научно-популярные издания по русскому языку и литературе.

Пополнение увеличит долю научных текстов, обогатит лексику терминологией из области гуманитарных наук, расширит информацию по истории языка и предоставит материал для составления упражнений и творческих заданий по русскому языку и литературе.

Вторая часть пополнения – тексты детской литературы, в том числе рекомендуемые для внеклассного чтения. В коллекцию вошли рассказы и повести для детей и подростков В. Инбер, Т. Александровой, Ю. Томина, А. Усачева и современных молодых авторов С. Востокова, А. Игнатовой, Ю. Кузнецовой, А. Никольской, Д. Сиротина.
Работы по пополнению Обучающего корпуса в 2024–2025 гг. поддержаны благотворительным фондом содействия образованию «ДАР».

В Обучающем корпусе появился поиск по словообразованию, то есть поиск морфем (приставок, корней, суффиксов) в составе слова. В карточке слова доступен словообразовательный разбор.
🔥21🥰54🎉3🏆2👍1
Media is too big
VIEW IN TELEGRAM
В Портрете слова в разделе Сравнение скетчей теперь можно добавлять новые слова прямо на странице сравнения, не возвращаясь в Портрет слова. Поисковые поля расположены вверху страницы над сравнительными таблицами.

Функционал доступен полностью только авторизованным пользователям. Неавторизованные пользователи могут просматривать готовые сравнения, однако для самостоятельного сравнения слов потребуется вход в систему.
🔥18🤩2🏆1