НКРЯ Национальный корпус русского языка
2.18K subscribers
86 photos
36 videos
184 links
Канал об обновлениях, пополнениях и советах по работе с НКРЯ не только для лингвистов, но и для всех интересующихся русским языком.
Сайт Корпуса http://ruscorpora.ru
Download Telegram
Старорусский корпус пополнен на 500 тыс. словоупотреблений. В него добавлены тексты разных жанров и временных периодов — от дошедших в поздних копиях псковских грамот XIV—XV вв. до ранних документов Петра I и трактатов 1690-х годов по риторике. Кроме того, теперь для поиска доступны Комиссионный список Новгородской первой летописи, сборники крестьянских челобитных и дипломатической переписки Москвы с Германией и крымскими татарами. Существенно усовершенствован морфологический анализ текста — словарь корпуса вырос примерно на 40 тысяч лексем.
🔥24👍53
Тексты Национального корпуса русского языка содержат семантическую разметку. Это значит, что словам в тексте приписаны один или несколько семантических и словообразовательных признаков, например, «‎еда и напитки»‎, «‎топоним»‎, «‎порядковое числительное»‎.

Семантическая разметка позволяет пользователям корпуса более глубоко анализировать тексты и выявлять закономерности. Это полезно не только ученым-лингвистам, но и школьникам или иностранцам, изучающим русский язык.

Благодаря семантической разметке можно узнать, может ли одно и то же качество ассоциироваться с разными животными или одно и то же животное – с разными качествами. Например, голодным можно быть не только как волк, но и как шакал или даже паук. А вот как собака можно быть злым, усталым, преданным или внушаемым.
13👍6🔥4🤔1
Объем параллельных корпусов достиг 210 миллионов словоупотреблений. Появились четыре новых параллельных корпуса языков России: чувашский (24 млн слов), карельский (1,2 млн), вепсский (340 тысяч) и язык русских цыган (170 тысяч). Двуязычные пары подготовлены в сотрудничестве с разработчиками отдельных масштабных корпусных проектов для этих языков. В части языковых пар доступна расширенная метаразметка, включающая информацию об источнике, жанре, типе и тематике текста. Был также расширен объем существующих параллельных корпусов: английского (на 5 млн), испанского (на 700 тыс.) и чешского (на 15 тыс.).

Корпус «Социальные сети» пополнен на 3,5 млн словоупотреблений. В него включена коллекция текстов, подготовленная сотрудниками Воронежского государственного университета. В нее вошли материалы, собранные в Архангельской, Астраханской, Курской, Ростовской, Рязанской, Тамбовской областях и охватывающие период 2005—2023 годов, – записи известных блогеров, обсуждения в локальных сетях, в местных группах на популярных платформах VK, Telegram, LiveJournal, Дзен и др.
🔥21👍64🏆2👏1
На этой неделе на сайте НКРЯ появились четыре новых параллельных корпуса — чувашский, вепсский, карельский и цыганский. Чувашский корпус стал третьим по размеру параллельным корпусом после английского и немецкого!

В состав двуязычных корпусов обычно входят художественная проза, публицистические и научные тексты, в некоторых языковых парах встречаются религиозные и юридические, а иногда и поэтические тексты (корейский, хинди, чувашский). В корпусах языков народов России представлено большое количество записей диалектных бытовых рассказов и фольклора, в том числе народной поэзии.

Еще одно интересное свойство этих корпусов — выход на метатекстовый уровень. В них встречаются записи из блогов лингвистов, выравнивавших параллельный корпус, о том, как они его выравнивали. Вот, например, запись в блоге одного из авторов чувашского корпуса:
чувашский:
Паян пӗр пысӑк е вӗҫлерӗм! Хветӗр Уярӑн «Таркӑн» романне мӑшӑрласа пӗтертӗм! Питӗ вӑраха тӑсӑлчӗ вӑл.
русский:
Сегодня завершил одно важное дело! Закончил паралелить текст романа «Беглец» Фёдора Уяра. Работа уж слишком сильно затянулась. [Аҫтахар Плотников. «Хветӗр Уярӑн «Таркӑн» романне мӑшӑрласа пӗтертӗм!..» (2023) | Аҫтахар Плотников. [Блог]]


Тексты о создании корпуса также есть в башкирском, вепсском и карельском корпусах.
🔥187🏆5
Панхронический корпус НКРЯ позволяет изучить, как развивался русский язык с XI по XXI век. С его помощью, например, можно узнать, когда в языке появились определенные слова и кто впервые их употребил.

Попробуйте угадать, в чьих текстах, по данным Национального корпуса русского языка, впервые появились эти три слова. Точный ответ можно поискать в Панхроническом корпусе.
🔥133
Media is too big
VIEW IN TELEGRAM
В Национальном корпусе русского языка появилась возможность скачивать результаты запроса в формате Word.

Новый вид выгрузки доступен во всех корпусах НКРЯ. Он будет полезен лексикографам, занимающимся описанием слов и словосочетаний, преподавателям, создающим упражнения на основе материалов Корпуса, а также всем пользователям, которым удобно просматривать большие массивы примеров в текстовом формате.

Структура файла одинакова для всех корпусов. На первой странице в разделе Info вы найдете информацию о параметрах запроса, результаты которого были скачаны, а также ссылку на сам запрос.

В конце каждого примера вы увидите последовательность букв и цифр в квадратных скобках. Это – идентификационный номер примера. Он остается неизменным с момента первого попадания текста в корпус и не зависит от изменений корпуса. Этот номер позволяет отслеживать изменения в результатах одних и тех же запросов – разделять примеры на старые и новые.
20🔥9👍4🤩1
Поэтический корпус НКРЯ на сегодняшний день является одним из наиболее представительных поэтических корпусов в мире. В нем представлены все основные течения в русской поэзии XVIII-XX веков.

Уникальной особенностью Поэтического корпуса НКРЯ является его стиховедческая разметка. Она отражает как свойства поэтического текста, так и особенности структуры самого стиха и его отдельных строк.

Благодаря стиховедческой разметке можно решать самые разные задачи. Например, можно получить сведения о распространенности жанра «‎басня»‎ в русской поэзии: всего басен в корпусе 940 из 101 521 текста по данным на август 2024 г. Воспользовавшись инструментами сортировки, можно узнать, что первая басня в корпусе написана в 1731 году поэтом-сатириком и российским дипломатом А. Д. Кантемиром.

Для стиховедов более интересна разметка стиха. С ее помощью, например, можно исследовать историю русского ударения и историю русского произношения.

Подробнее о составе и возможностях использования Поэтического корпуса можно почитать в разделе «‎Публикации о корпусе»‎.
11👍5🥰1👌1
Media is too big
VIEW IN TELEGRAM
Современный пользовательский интерфейс Национального корпуса русского языка призван отвечать растущим потребностям интернет-аудитории.

Одна из таких потребностей – быстрое решение стандартных задач: получить информацию о составе и статистических характеристиках корпуса или пользовательского подкорпуса, изменить вид выдачи, получить короткую ссылку для обмена результатами исследований. Смотрите наш новый видеоролик о том, как пользоваться основными функциями НКРЯ и делиться своими результатами с другими.

Посмотреть другие полезные видеоролики о возможностях корпуса вы можете на нашем YouTube-канале и в группе корпуса в социальной сети «ВКонтакте».
9👍4🔥4🏆1
В некоторых корпусах на сайте НКРЯ в Портрете слова можно увидеть виджет «‎Похожие‎ слова». Обратите внимание, что похожие слова — это не синонимы, а такие слова, контексты употребления которых похожи на контексты употребления искомого слова.

Мы провели эксперимент на данных Основного корпуса и отследили, как похожие слова изменялись с течением времени. Попробуйте догадаться, для каких слов получился следующий перечень похожих слов в разные временные периоды.
🔥7👍3
Вопрос 1. На этой картинке представлены слова, похожие по контексту употребления на слово …
Anonymous Quiz
47%
линейка
48%
дорожка
6%
черта
👍1
Вопрос 2. На этой картинке представлены слова, похожие по контексту употребления на слово …
Anonymous Quiz
5%
лавка
91%
рынок
4%
площадь
🔥1👌1
Вопрос 3. На этой картинке представлены слова, похожие по контексту употребления на слово …
Anonymous Quiz
12%
снаряд
4%
корень
84%
ядро
👏43
В период с 20:00 12 сентября до 18:00 13 сентября (по московскому времени) на наших серверах будут проводиться технические работы.

Из-за этого возможны перебои в работе сайта Корпуса.
👌3👀2🤝2
Media is too big
VIEW IN TELEGRAM
Древнерусский корпус пополнился новыми текстами и вырос на 43 тысячи слов. С одной стороны, в него вошли поздние тексты XIV в. (например, украинские и московские деловые грамоты, псковская «Повесть о Довмонте»), с другой – расширена разметка ранних текстов (Повести временных лет по Лаврентьевскому списку или житий). В словарь корпуса теперь входят предки таких привычных слов, как напрасно, перемолвиться, шапка или разногласие.

В древнерусском корпусе теперь можно отбирать подкорпус и получать статистику по стандартным критериям (включая дату текста и списка, жанр текста, объем текста) и узнать, насколько персонажи летописей ходят чаще, чем фигуранты грамот и повестей. Появилась возможность поиска по греческим леммам и словоформам для переводных произведений. Греческие слова можно ввести на виртуальной клавиатуре. Например, слово δόγμα (догма) передавалось славянскими переводчиками не только через заимствование догмат, но и как повеление, учение или устав.

В Портрете слова доступен новый функционал – «Формы слова». Для древнерусских существительных даны все формы чисел и падежей в разных орфографиях, встретившиеся в корпусе. Можно узнать частотность этих форм и перейти по ссылкам на примеры в поиске. Например, можно узнать, какие формы в текстах имело слово друг. Некоторые формы редко употребляющегося двойственного числа пока в корпусе не встретились (такие формы можно найти в грамматиках, где даны полные стандартные таблицы – парадигмы).
🔥15👍4🤩21
Media is too big
VIEW IN TELEGRAM
На сайте Корпуса появился личный кабинет.

Его основная задача – сделать индивидуальную работу с сайтом удобнее. Теперь пользователи могут сохранять в личный кабинет интересующие их запросы (в любом корпусе) и сравнения запросов (в тех корпусах, где есть эта функция) и возвращаться к ним.

Чтобы сохранить запрос или сравнение, нужно нажать кнопку «‎Сохранить запрос»‎ в выдаче или «‎Сохранить сравнение» на странице сравнения запросов. В личном кабинете в соответствующих вкладках можно просматривать сохраненные запросы и сравнения, давать им названия, копировать короткие ссылки, чтобы поделиться с другими, и удалять сохраненное. Количество запросов и сравнений, которые можно сохранить, не ограничено.

Вместе с появлением личного кабинета расширились и настройки профиля. Пользователи могут заполнить информацию о себе (эти данные сможет видеть только сам пользователь), изменить пароль или удалить аккаунт. В будущем с согласия пользователя некоторые его данные, такие как имя и место работы, будут видны другим. 

Личный кабинет доступен на компьютере и в мобильной версии.
👍17🔥95🤔1