НКРЯ Национальный корпус русского языка
2.18K subscribers
86 photos
36 videos
184 links
Канал об обновлениях, пополнениях и советах по работе с НКРЯ не только для лингвистов, но и для всех интересующихся русским языком.
Сайт Корпуса http://ruscorpora.ru
Download Telegram
В виде выдачи Частотность стало доступно больше результатов поиска, а еще больше можно скачать в виде электронной таблицы. Это очень важно для исследователя, которого интересуют не только самые распространенные варианты, но и более широкая картина. Теперь в таблице представлена 1000 самых частотных результатов запроса, а результаты выдачи с данными о частотности можно скачать в объеме до 5000 строк. Подробнее об этом и других видах выдачи читайте в Руководстве пользователя.

При выгрузке в формате Excel на вкладке Info теперь можно увидеть точное число не только найденных, но и скачанных документов и примеров. Пользователь сможет точнее оценить результаты выдачи и корректно их интерпретировать.
6🔥3🤩2🎉1
Сегодня отмечается День трудоголика. И хотя трудоголик и бездельник — антонимы, оба слова можно поставить в один ряд с другими, описывающими человека с негативной стороны.

Так что не засиживайтесь сегодня на работе допоздна! Уделите время себе и близким, отдохните и наберитесь сил перед новыми свершениями!
👍15🥰13🤩6🔥3🤗1
Сегодня гурманы всего мира отмечают День вкусной еды.

Национальный корпус русского языка может пригодиться не только исследователям-лингвистам, изучающим эволюцию русского языка на протяжении последней тысячи лет. Благодаря богатой разметке текстов и разнообразию видов выдачи, у Корпуса есть и другие, нестандартные способы применения. Например, НКРЯ можно использовать для исследования кулинарных предпочтений авторов и героев текстов, представленных в Корпусе.

По данным Основного корпуса НКРЯ, чай с лимоном пьют чаще, чем с сахаром, а пирожки с мясом популярнее пирожков с повидлом. А вот в произведениях русских классиков к блюдам чаще добавляли горошек, чем лук.

Переходите по ссылкам, вдохновляйтесь на кулинарные эксперименты и исследования!
🎉12👀5👍43🥰3🔥1🤗1
Старорусский корпус пополнен на 500 тыс. словоупотреблений. В него добавлены тексты разных жанров и временных периодов — от дошедших в поздних копиях псковских грамот XIV—XV вв. до ранних документов Петра I и трактатов 1690-х годов по риторике. Кроме того, теперь для поиска доступны Комиссионный список Новгородской первой летописи, сборники крестьянских челобитных и дипломатической переписки Москвы с Германией и крымскими татарами. Существенно усовершенствован морфологический анализ текста — словарь корпуса вырос примерно на 40 тысяч лексем.
🔥24👍53
Тексты Национального корпуса русского языка содержат семантическую разметку. Это значит, что словам в тексте приписаны один или несколько семантических и словообразовательных признаков, например, «‎еда и напитки»‎, «‎топоним»‎, «‎порядковое числительное»‎.

Семантическая разметка позволяет пользователям корпуса более глубоко анализировать тексты и выявлять закономерности. Это полезно не только ученым-лингвистам, но и школьникам или иностранцам, изучающим русский язык.

Благодаря семантической разметке можно узнать, может ли одно и то же качество ассоциироваться с разными животными или одно и то же животное – с разными качествами. Например, голодным можно быть не только как волк, но и как шакал или даже паук. А вот как собака можно быть злым, усталым, преданным или внушаемым.
13👍6🔥4🤔1
Объем параллельных корпусов достиг 210 миллионов словоупотреблений. Появились четыре новых параллельных корпуса языков России: чувашский (24 млн слов), карельский (1,2 млн), вепсский (340 тысяч) и язык русских цыган (170 тысяч). Двуязычные пары подготовлены в сотрудничестве с разработчиками отдельных масштабных корпусных проектов для этих языков. В части языковых пар доступна расширенная метаразметка, включающая информацию об источнике, жанре, типе и тематике текста. Был также расширен объем существующих параллельных корпусов: английского (на 5 млн), испанского (на 700 тыс.) и чешского (на 15 тыс.).

Корпус «Социальные сети» пополнен на 3,5 млн словоупотреблений. В него включена коллекция текстов, подготовленная сотрудниками Воронежского государственного университета. В нее вошли материалы, собранные в Архангельской, Астраханской, Курской, Ростовской, Рязанской, Тамбовской областях и охватывающие период 2005—2023 годов, – записи известных блогеров, обсуждения в локальных сетях, в местных группах на популярных платформах VK, Telegram, LiveJournal, Дзен и др.
🔥21👍64🏆2👏1
На этой неделе на сайте НКРЯ появились четыре новых параллельных корпуса — чувашский, вепсский, карельский и цыганский. Чувашский корпус стал третьим по размеру параллельным корпусом после английского и немецкого!

В состав двуязычных корпусов обычно входят художественная проза, публицистические и научные тексты, в некоторых языковых парах встречаются религиозные и юридические, а иногда и поэтические тексты (корейский, хинди, чувашский). В корпусах языков народов России представлено большое количество записей диалектных бытовых рассказов и фольклора, в том числе народной поэзии.

Еще одно интересное свойство этих корпусов — выход на метатекстовый уровень. В них встречаются записи из блогов лингвистов, выравнивавших параллельный корпус, о том, как они его выравнивали. Вот, например, запись в блоге одного из авторов чувашского корпуса:
чувашский:
Паян пӗр пысӑк е вӗҫлерӗм! Хветӗр Уярӑн «Таркӑн» романне мӑшӑрласа пӗтертӗм! Питӗ вӑраха тӑсӑлчӗ вӑл.
русский:
Сегодня завершил одно важное дело! Закончил паралелить текст романа «Беглец» Фёдора Уяра. Работа уж слишком сильно затянулась. [Аҫтахар Плотников. «Хветӗр Уярӑн «Таркӑн» романне мӑшӑрласа пӗтертӗм!..» (2023) | Аҫтахар Плотников. [Блог]]


Тексты о создании корпуса также есть в башкирском, вепсском и карельском корпусах.
🔥187🏆5
Панхронический корпус НКРЯ позволяет изучить, как развивался русский язык с XI по XXI век. С его помощью, например, можно узнать, когда в языке появились определенные слова и кто впервые их употребил.

Попробуйте угадать, в чьих текстах, по данным Национального корпуса русского языка, впервые появились эти три слова. Точный ответ можно поискать в Панхроническом корпусе.
🔥133
Media is too big
VIEW IN TELEGRAM
В Национальном корпусе русского языка появилась возможность скачивать результаты запроса в формате Word.

Новый вид выгрузки доступен во всех корпусах НКРЯ. Он будет полезен лексикографам, занимающимся описанием слов и словосочетаний, преподавателям, создающим упражнения на основе материалов Корпуса, а также всем пользователям, которым удобно просматривать большие массивы примеров в текстовом формате.

Структура файла одинакова для всех корпусов. На первой странице в разделе Info вы найдете информацию о параметрах запроса, результаты которого были скачаны, а также ссылку на сам запрос.

В конце каждого примера вы увидите последовательность букв и цифр в квадратных скобках. Это – идентификационный номер примера. Он остается неизменным с момента первого попадания текста в корпус и не зависит от изменений корпуса. Этот номер позволяет отслеживать изменения в результатах одних и тех же запросов – разделять примеры на старые и новые.
20🔥9👍4🤩1
Поэтический корпус НКРЯ на сегодняшний день является одним из наиболее представительных поэтических корпусов в мире. В нем представлены все основные течения в русской поэзии XVIII-XX веков.

Уникальной особенностью Поэтического корпуса НКРЯ является его стиховедческая разметка. Она отражает как свойства поэтического текста, так и особенности структуры самого стиха и его отдельных строк.

Благодаря стиховедческой разметке можно решать самые разные задачи. Например, можно получить сведения о распространенности жанра «‎басня»‎ в русской поэзии: всего басен в корпусе 940 из 101 521 текста по данным на август 2024 г. Воспользовавшись инструментами сортировки, можно узнать, что первая басня в корпусе написана в 1731 году поэтом-сатириком и российским дипломатом А. Д. Кантемиром.

Для стиховедов более интересна разметка стиха. С ее помощью, например, можно исследовать историю русского ударения и историю русского произношения.

Подробнее о составе и возможностях использования Поэтического корпуса можно почитать в разделе «‎Публикации о корпусе»‎.
11👍5🥰1👌1
Media is too big
VIEW IN TELEGRAM
Современный пользовательский интерфейс Национального корпуса русского языка призван отвечать растущим потребностям интернет-аудитории.

Одна из таких потребностей – быстрое решение стандартных задач: получить информацию о составе и статистических характеристиках корпуса или пользовательского подкорпуса, изменить вид выдачи, получить короткую ссылку для обмена результатами исследований. Смотрите наш новый видеоролик о том, как пользоваться основными функциями НКРЯ и делиться своими результатами с другими.

Посмотреть другие полезные видеоролики о возможностях корпуса вы можете на нашем YouTube-канале и в группе корпуса в социальной сети «ВКонтакте».
9👍4🔥4🏆1
В некоторых корпусах на сайте НКРЯ в Портрете слова можно увидеть виджет «‎Похожие‎ слова». Обратите внимание, что похожие слова — это не синонимы, а такие слова, контексты употребления которых похожи на контексты употребления искомого слова.

Мы провели эксперимент на данных Основного корпуса и отследили, как похожие слова изменялись с течением времени. Попробуйте догадаться, для каких слов получился следующий перечень похожих слов в разные временные периоды.
🔥7👍3
Вопрос 1. На этой картинке представлены слова, похожие по контексту употребления на слово …
Anonymous Quiz
47%
линейка
48%
дорожка
6%
черта
👍1
Вопрос 2. На этой картинке представлены слова, похожие по контексту употребления на слово …
Anonymous Quiz
5%
лавка
91%
рынок
4%
площадь
🔥1👌1