НКРЯ Национальный корпус русского языка
2.18K subscribers
88 photos
36 videos
188 links
Канал об обновлениях, пополнениях и советах по работе с НКРЯ не только для лингвистов, но и для всех интересующихся русским языком.
Сайт Корпуса http://ruscorpora.ru
Download Telegram
С главной страницы Корпуса пользователи могут перейти в раздел «‎НКРЯ в школе»‎. В нём можно найти полезные материалы и инструменты, которые помогут разнообразить, а в чем-то и облегчить преподавание гуманитарных предметов:

🔹Обучающий корпус НКРЯ,
🔹готовые упражнения по различным темам для учащихся 5-11 классов,
🔹методические материалы
🔹конструктор исследовательских и творческих проектов и упражнений.

Подробнее об этих материалах – в карточках. Сохраняйте их и используйте НКРЯ в школе!
26🔥13👍4🤝2🏆1
Основной корпус НКРЯ пополнен на 15 млн слов, представляющих несколько тематических коллекций: это пьесы разных эпох, официально-деловые тексты, научные журналы, естественнонаучные справочники XVIII в., массовая литература — например, как дореволюционные, так и постсоветские любовные романы, — и многое другое.

Во всех текстах корпуса автоматически снята грамматическая омонимия и добавлена разметка синтаксических отношений. Для разметки была использована обновленная версия нейросетевой модели РуБик, что позволило существенно улучшить лемматизацию слов. На тестовом наборе данных процент ошибочных лемм в корпусе снизился с 4,24% до 1,39%. Пожалуйста, сообщайте нам о встречающихся ошибках в автоматической разметке слов. Чтобы сделать это, выделите слово и во всплывающем окне нажмите «Сообщить об ошибке».

Рядом с некоторыми примерами в Корпусе появились поля синего цвета с указанием имени субъекта прямой речи (персонажа пьес или говорящего в устном тексте). Если кликнуть по этому полю, доступна разметка пола, возраста, года рождения, профессии и/или амплуа персонажа или, соответственно, говорящего.

Приведены в соответствие морфемная разметка при поиске по словообразовательным признакам и в Портрете слова. Для слов, отсутствующих в Словаре морфемного анализа НКРЯ, морфемные разборы сгенерированы при помощи нейросетевой модели. Расширен словарь и улучшена его согласованность. Слова, разборы для которых сгенерированы нейросетью, теперь тоже участвуют в поиске по словообразовательной структуре, а морфемный разбор слова доступен и в карточке слова.
🔥3210👍10
В Поэтический корпус добавлены тексты четырех поэтов — Вадима Шефнера, Роберта Рождественского, Льва Лосева и Марии Степановой. Объем пополнения — 200 тысяч слов, 2 тысячи текстов, 44 тысячи стихотворных строк. А всего в корпусе строк почти 3 миллиона.

В корпусе появилась возможность искать слово в начале и конце строки. Так, можно определить, что характерные поэтизмы ужель или вотще чаще встречаются в начале строчки, чем в какой-то другой позиции стиха.
28👍3
В Параллельном корпусе НКРЯ появились новые функции, которые сделают работу с ним более удобной.

В японском языке в форме поиска на двух языках появилось поисковое поле «‎Семантика»‎. Японский стал первым иностранным языком в НКРЯ, в котором размечена семантика.

В карельском, вепсском, чувашском, хакасском корпусах расширены возможности настройки подкорпуса. Пользователи смогут отбирать тексты по жанру и типу (для всех перечисленных языков), а также по теме текста (в чувашском корпусе). Для всех параллельных корпусов доступна возможность отбирать подкорпус по количеству словоформ, что полезно при анализе текстов разного объёма.

Результаты поиска теперь можно сортировать с помощью шести новых типов сортировки: по дате создания текста на русском или иностранном языке от старых текстов к новым и наоборот, при условии, что оригиналы и переводы рассматриваются вместе или отдельно. Новые сортировки помогут быстрее находить нужную информацию и лучше структурировать данные.
👍166
Media is too big
VIEW IN TELEGRAM
Рады сообщить о важном обновлении формы поиска на сайте Национального корпуса русского языка! Теперь пользователи могут добавлять слова перед Словом 1, что значительно упрощает составление и редактирование сложных запросов.

Ранее добавлять слова можно было только справа от Слова 1 и последующих слов. Например, если вы искали конструкцию вида «прилагательное + местоимение + дорога», задав синтаксические отношения между этими словами, но затем решили искать вариант «союз + прилагательное + местоимение + дорога», вам пришлось бы пересобирать запрос с нуля. Теперь всё проще: достаточно нажать кнопку «+» слева от Слова 1 и указать любой признак, например «союз».

Обратите внимание: принцип расчета расстояния между словами остался неизменным. Расстояние всегда задаётся слева направо: от нового Слова 1 до исходного Слова 1, а затем — к последующим словам.
🔥26👍8🎉321🙏1
Чтобы лучше понять, как вы используете Национальный корпус русского языка для решения своих задач, и сделать Корпус еще удобнее и понятнее, мы запускаем исследование аудитории.

Первый этап исследования — это интервью с пользователями. Если вы применяете Корпус в работе, учебе или другой деятельности, мы будем рады услышать ваше мнение. Чтобы принять участие в интервью, заполните небольшую форму: https://forms.yandex.ru/u/675159c7f47e738d9a20e5fc/

После отправки формы наш менеджер свяжется с вами для согласования удобной даты и времени для интервью. Видеозвонок пройдет в Zoom и займет 30–40 минут.

Ваше мнение поможет нам улучшить сервис и лучше учитывать потребности наших пользователей!
🔥14👍6
Уже завтра состоится открытие Конференции, посвященной 20-летию Национального корпуса русского языка!

В течение двух дней участники мероприятия обсудят широкий круг вопросов – от корпусных методов лингвистических исследований и достоверности корпусных данных до вопросов создания корпусов и разработки пользовательского интерфейса, от применения нейросетевых моделей в подготовке корпусных данных до использования НКРЯ в преподавании гуманитарных дисциплин в университете и в школе.

Мероприятия пройдут очно в Инстиуте русского языка РАН по адресу: ул. Волхонка, 18/2.

Программу конференции можно найти на сайте института.

Предусмотрена онлайн-трансляция пленарных докладов по ссылке.
🔥28👍105🙏2
В Диалектный корпус добавлены новые тексты объемом примерно 100 тыс. словоупотреблений. Новые тексты представляют говоры севера (Архангельская область, Карелия, Коми), Поволжья (большая хрестоматия диалектов Нижегородской области) и юга (Смоленская, Калужская области, молокане Кавказа). В пополнение входят как записи дореволюционного времени и 30-х годов, так и материалы недавних экспедиций. Добавлено несколько сот аудио- и десять кинозаписей, на которых можно не только услышать диалект, но и увидеть, как на севере смолят лодку, а в Азербайджане разводят пчел.
🔥1711👎1
В Региональном корпусе обновлена разметка ключевых слов в текстах. Использование ключевых слов облегчает анализ узких тематических категорий и помогает ориентироваться в текстах разных тематик.

Для разметки использовалась модель T-lite-instruct-0.1, обученная на материалах корпуса. Новые ключевые слова содержат меньше ошибок нормализации и грамматических ошибок, а также более точно описывают тематику текста. Как и раньше, одно ключевое слово может состоять из однословного ключа (похолодание, гололед) либо из двусловного сочетания (таяние снега). По однословному запросу (община) находится как точное соответствие, так и двусловные сочетания с этим словом (сельская община). Для каждого текста сгенерировано от 5 до 10 ключевых слов, которые упорядочены по значимости.
👍29
В последний рабочий день уходящего года по традиции команда Национального корпуса русского языка подводит итоги и вспоминает, что нового произошло за год.

В 2024 году Корпус увеличился более чем на 109 миллионов слов. Во многих корпусах появились поисковые и статистические инструменты, доступные ранее только в Основном, Газетном и других «передовых» корпусах.

Мы надеемся, что на этой картинке каждый найдет для себя инструменты, которые сделают работу с Корпусом ещё более продуктивной и приятной. Пусть Новый год принесёт вам множество интересных открытий и вдохновляющих находок!

Отдельную благодарность мы выражаем создателям Корпуса чувашского языкаОткрытого корпуса вепсского и карельского языков (ВепКар)Электронного корпуса хакасского языка за плодотворное сотрудничество.

С самыми тёплыми пожеланиями в Новом году,
Команда Национального корпуса русского языка
35🔥7👍5🏆5🙏1
Поздравляем вас с наступающим Новым годом!

Пусть 2025 год принесёт вам как можно больше светлых и радостных событий!
51🎉8👍2
Первые рабочие дни этого года подходят к концу. Предлагаем провести выходные с пользой и погрузиться в мир новых знаний и исторических открытий. Мы подготовили для вас подборку увлекательных материалов о Корпусе и не только:

Берестяные грамоты — 2024: дело о похищенной невесте, вдова и ее друг, а также совет удавиться. Ежегодный репортаж Дмитрия Сичинавы об уникальных находках и исторических фактах, связанных с ними.

Разметка по правилам: как Национальный корпус русского языка помогает изучать орфографию. Эллина Куцевал, создательница алгоритма разметки сложных мест русской орфографии, рассказывает, как Национальный корпус русского языка помогает изучать орфографию.

Сборник материалов международной научной конференции, посвященной 20-летию Национального корпуса русского языка. В сборник включены материалы по самым разным темам – от обзоров актуального состояния отдельных корпусов НКРЯ и применения инструментов обработки естественного языка на базе машинного обучения при разработке корпусов до использования НКРЯ в преподавании и исследовательской деятельности в школе и университете.
🔥26👍65
Сегодня отмечается 230 лет со дня рождения Александра Сергеевича Грибоедова, автора комедии «‎Горе от ума»‎, талантливого российского дипломата, лингвиста, драматурга, историка, пианиста, композитора и поэта. Его имя заслуженно стоит в одном ряду с именами А.С. Пушкина, М.Ю. Лермонтова и других классиков русской литературы. 

Творчество Грибоедова знаменито своей афористичностью. Его остроумные и меткие выражения — «Служить бы рад, прислуживаться тошно», «А судьи кто?», «Злые языки страшнее пистолета», «Свежо предание, а верится с трудом» — стали частью национального культурного кода. А. С. Пушкин, оценивая «Горе от ума», пророчески заметил в письме к Пущину: «О стихах я не говорю, половина — должны войти в пословицу».

Цитаты из «‎Горя от ума»‎ широко используются и в художественной литературе, что легко проверить с помощью Панхронического корпуса НКРЯ. Например, выражение с чувством, с толком, с расстановкой‌‎ встречается в «‎Вешних водах»‎ И.С. Тургенева, «‎Недоконченных беседах»‎ М. Е. Салтыкова-Щедрина, «‎Ряженых»‎ А. П. Чехова. Значительно влияние Грибоедов оказал и на творчество Ф. М. Достоевского: фразы из его комедии можно найти в «Идиоте», «‎Бесах»‎, «‎Подростке» и других произведениях‎.
🔥26🎉83🏆2
Сегодня мы хотим напомнить вам о поиске по словообразовательной структуре слова, доступном в Основном корпусе НКРЯ. Этот тип поиска будет полезен тем, кто исследует морфемные связи или просто хочет глубже понять устройство слов русского языка.

Словообразовательная разметка в Основном корпусе НКРЯ основывается на специально разработанном для корпуса словаре морфемного анализа и может иногда отличаться от морфемного разбора в средней школе. Подробнее о разметке читайте на сайте Корпуса. Для слов, которые отсутствуют в словаре, морфемные разборы формируются нейросетевым алгоритмом и могут содержать небольшую долю ошибок. Подробнее об алгоритме и качестве автоматической разметки можно узнать в нашей новой статье, вышедшей в журнале Journal of Language and Education.

Как пользоваться поиском по словообразовательной структуре — смотрите в наших карточках.
🔥2712👏3👍1🤩1