НКРЯ Национальный корпус русского языка
2.18K subscribers
86 photos
36 videos
184 links
Канал об обновлениях, пополнениях и советах по работе с НКРЯ не только для лингвистов, но и для всех интересующихся русским языком.
Сайт Корпуса http://ruscorpora.ru
Download Telegram
Media is too big
VIEW IN TELEGRAM
В Портрете слова теперь можно исследовать отношение количества вхождений слова в категорию к объёму этой категории, умноженное на миллион (ipm). С помощью этого виджета можно определить, например, действительно ли Лев Толстой употреблял слово мир, чаще других русских классиков, учитывая объём написанных ими текстов, и в чьих текстах больше всадников — М.Ю. Лермонтова или А.С. Пушкина.

Новая диаграмма доступна в виджете «Статистика текстов» Портрета слова. Пользователь может выбрать метаатрибут, для которого нужно построить диаграмму, из списка наиболее показательных атрибутов корпуса. Чтобы увидеть круговую диаграмму, содержащую точное число вхождений слова в категорию или число текстов, содержащих искомое слово, нужно переключиться с ipm на слова или тексты.

Кроме того, в виде выдачи «Статистика» появилась информация об ipm в таблице. По умолчанию таблица отсортирована по количеству вхождений. Чтобы изменить критерий сортировки, кликните на название колонки.
🔥15👍5🤩3🏆2🤔1
Лето — пора путешествий! Приглашаем вас в виртуальное путешествие в компании русских поэтов и писателей. Попробуйте угадать, какая страна, регион или географическая область зашифрована на скриншотах новой диаграммы в «Портрете слова». Чтобы найти точный ответ на вопрос, вы можете использовать корпус «Русская классика».
🏆10
Какой топоним зашифрован на картинке?
Anonymous Quiz
85%
Кавказ
10%
Москва
5%
Россия
🔥1
Какой город или регион зашифрован на картинке?
Anonymous Quiz
23%
Тобольск
53%
Петербург
24%
Сибирь
Какая страна зашифрована на картинке?
Anonymous Quiz
20%
Германия
62%
Италия
18%
Франция
🔥14
Media is too big
VIEW IN TELEGRAM
В Основном и Региональном корпусах появилась диахроническая статистика подкорпуса. Теперь вы можете сравнивать графики, характеризующие объем и состав текстов подкорпуса, меняющийся во времени, с текстами всего корпуса. Например, можно увидеть, что женщины-авторы в XIX веке пишут чаще художественную литературу, чем тексты других жанров, а в XX веке положение выравнивается.

Чтобы увидеть графики диахронической статистики, нужно нажать на кнопку (i) в шапке подкорпуса, выбрать раздел Статистика и перейти во вкладку Распределение по времени.

Вы можете выбрать уровень детализации, задать диапазон дат и сглаживание. Как пользоваться новыми диаграммами и графиками и как интерпретировать полученные результаты, можно узнать в подсказке рядом с названием виджета.

Напомним, что в феврале пользователям стала доступна диахроническая статистика Основного и Регионального корпусов.
🔥12👍4🤩1👌1
В виде выдачи Частотность стало доступно больше результатов поиска, а еще больше можно скачать в виде электронной таблицы. Это очень важно для исследователя, которого интересуют не только самые распространенные варианты, но и более широкая картина. Теперь в таблице представлена 1000 самых частотных результатов запроса, а результаты выдачи с данными о частотности можно скачать в объеме до 5000 строк. Подробнее об этом и других видах выдачи читайте в Руководстве пользователя.

При выгрузке в формате Excel на вкладке Info теперь можно увидеть точное число не только найденных, но и скачанных документов и примеров. Пользователь сможет точнее оценить результаты выдачи и корректно их интерпретировать.
6🔥3🤩2🎉1
Сегодня отмечается День трудоголика. И хотя трудоголик и бездельник — антонимы, оба слова можно поставить в один ряд с другими, описывающими человека с негативной стороны.

Так что не засиживайтесь сегодня на работе допоздна! Уделите время себе и близким, отдохните и наберитесь сил перед новыми свершениями!
👍15🥰13🤩6🔥3🤗1
Сегодня гурманы всего мира отмечают День вкусной еды.

Национальный корпус русского языка может пригодиться не только исследователям-лингвистам, изучающим эволюцию русского языка на протяжении последней тысячи лет. Благодаря богатой разметке текстов и разнообразию видов выдачи, у Корпуса есть и другие, нестандартные способы применения. Например, НКРЯ можно использовать для исследования кулинарных предпочтений авторов и героев текстов, представленных в Корпусе.

По данным Основного корпуса НКРЯ, чай с лимоном пьют чаще, чем с сахаром, а пирожки с мясом популярнее пирожков с повидлом. А вот в произведениях русских классиков к блюдам чаще добавляли горошек, чем лук.

Переходите по ссылкам, вдохновляйтесь на кулинарные эксперименты и исследования!
🎉12👀5👍43🥰3🔥1🤗1
Старорусский корпус пополнен на 500 тыс. словоупотреблений. В него добавлены тексты разных жанров и временных периодов — от дошедших в поздних копиях псковских грамот XIV—XV вв. до ранних документов Петра I и трактатов 1690-х годов по риторике. Кроме того, теперь для поиска доступны Комиссионный список Новгородской первой летописи, сборники крестьянских челобитных и дипломатической переписки Москвы с Германией и крымскими татарами. Существенно усовершенствован морфологический анализ текста — словарь корпуса вырос примерно на 40 тысяч лексем.
🔥24👍53
Тексты Национального корпуса русского языка содержат семантическую разметку. Это значит, что словам в тексте приписаны один или несколько семантических и словообразовательных признаков, например, «‎еда и напитки»‎, «‎топоним»‎, «‎порядковое числительное»‎.

Семантическая разметка позволяет пользователям корпуса более глубоко анализировать тексты и выявлять закономерности. Это полезно не только ученым-лингвистам, но и школьникам или иностранцам, изучающим русский язык.

Благодаря семантической разметке можно узнать, может ли одно и то же качество ассоциироваться с разными животными или одно и то же животное – с разными качествами. Например, голодным можно быть не только как волк, но и как шакал или даже паук. А вот как собака можно быть злым, усталым, преданным или внушаемым.
13👍6🔥4🤔1
Объем параллельных корпусов достиг 210 миллионов словоупотреблений. Появились четыре новых параллельных корпуса языков России: чувашский (24 млн слов), карельский (1,2 млн), вепсский (340 тысяч) и язык русских цыган (170 тысяч). Двуязычные пары подготовлены в сотрудничестве с разработчиками отдельных масштабных корпусных проектов для этих языков. В части языковых пар доступна расширенная метаразметка, включающая информацию об источнике, жанре, типе и тематике текста. Был также расширен объем существующих параллельных корпусов: английского (на 5 млн), испанского (на 700 тыс.) и чешского (на 15 тыс.).

Корпус «Социальные сети» пополнен на 3,5 млн словоупотреблений. В него включена коллекция текстов, подготовленная сотрудниками Воронежского государственного университета. В нее вошли материалы, собранные в Архангельской, Астраханской, Курской, Ростовской, Рязанской, Тамбовской областях и охватывающие период 2005—2023 годов, – записи известных блогеров, обсуждения в локальных сетях, в местных группах на популярных платформах VK, Telegram, LiveJournal, Дзен и др.
🔥21👍64🏆2👏1
На этой неделе на сайте НКРЯ появились четыре новых параллельных корпуса — чувашский, вепсский, карельский и цыганский. Чувашский корпус стал третьим по размеру параллельным корпусом после английского и немецкого!

В состав двуязычных корпусов обычно входят художественная проза, публицистические и научные тексты, в некоторых языковых парах встречаются религиозные и юридические, а иногда и поэтические тексты (корейский, хинди, чувашский). В корпусах языков народов России представлено большое количество записей диалектных бытовых рассказов и фольклора, в том числе народной поэзии.

Еще одно интересное свойство этих корпусов — выход на метатекстовый уровень. В них встречаются записи из блогов лингвистов, выравнивавших параллельный корпус, о том, как они его выравнивали. Вот, например, запись в блоге одного из авторов чувашского корпуса:
чувашский:
Паян пӗр пысӑк е вӗҫлерӗм! Хветӗр Уярӑн «Таркӑн» романне мӑшӑрласа пӗтертӗм! Питӗ вӑраха тӑсӑлчӗ вӑл.
русский:
Сегодня завершил одно важное дело! Закончил паралелить текст романа «Беглец» Фёдора Уяра. Работа уж слишком сильно затянулась. [Аҫтахар Плотников. «Хветӗр Уярӑн «Таркӑн» романне мӑшӑрласа пӗтертӗм!..» (2023) | Аҫтахар Плотников. [Блог]]


Тексты о создании корпуса также есть в башкирском, вепсском и карельском корпусах.
🔥187🏆5
Панхронический корпус НКРЯ позволяет изучить, как развивался русский язык с XI по XXI век. С его помощью, например, можно узнать, когда в языке появились определенные слова и кто впервые их употребил.

Попробуйте угадать, в чьих текстах, по данным Национального корпуса русского языка, впервые появились эти три слова. Точный ответ можно поискать в Панхроническом корпусе.
🔥133