НКРЯ Национальный корпус русского языка
2.18K subscribers
86 photos
36 videos
184 links
Канал об обновлениях, пополнениях и советах по работе с НКРЯ не только для лингвистов, но и для всех интересующихся русским языком.
Сайт Корпуса http://ruscorpora.ru
Download Telegram
Media is too big
VIEW IN TELEGRAM
В Национальном корпусе русского языка появилась возможность скачивать результаты запроса в формате Word.

Новый вид выгрузки доступен во всех корпусах НКРЯ. Он будет полезен лексикографам, занимающимся описанием слов и словосочетаний, преподавателям, создающим упражнения на основе материалов Корпуса, а также всем пользователям, которым удобно просматривать большие массивы примеров в текстовом формате.

Структура файла одинакова для всех корпусов. На первой странице в разделе Info вы найдете информацию о параметрах запроса, результаты которого были скачаны, а также ссылку на сам запрос.

В конце каждого примера вы увидите последовательность букв и цифр в квадратных скобках. Это – идентификационный номер примера. Он остается неизменным с момента первого попадания текста в корпус и не зависит от изменений корпуса. Этот номер позволяет отслеживать изменения в результатах одних и тех же запросов – разделять примеры на старые и новые.
20🔥9👍4🤩1
Поэтический корпус НКРЯ на сегодняшний день является одним из наиболее представительных поэтических корпусов в мире. В нем представлены все основные течения в русской поэзии XVIII-XX веков.

Уникальной особенностью Поэтического корпуса НКРЯ является его стиховедческая разметка. Она отражает как свойства поэтического текста, так и особенности структуры самого стиха и его отдельных строк.

Благодаря стиховедческой разметке можно решать самые разные задачи. Например, можно получить сведения о распространенности жанра «‎басня»‎ в русской поэзии: всего басен в корпусе 940 из 101 521 текста по данным на август 2024 г. Воспользовавшись инструментами сортировки, можно узнать, что первая басня в корпусе написана в 1731 году поэтом-сатириком и российским дипломатом А. Д. Кантемиром.

Для стиховедов более интересна разметка стиха. С ее помощью, например, можно исследовать историю русского ударения и историю русского произношения.

Подробнее о составе и возможностях использования Поэтического корпуса можно почитать в разделе «‎Публикации о корпусе»‎.
11👍5🥰1👌1
Media is too big
VIEW IN TELEGRAM
Современный пользовательский интерфейс Национального корпуса русского языка призван отвечать растущим потребностям интернет-аудитории.

Одна из таких потребностей – быстрое решение стандартных задач: получить информацию о составе и статистических характеристиках корпуса или пользовательского подкорпуса, изменить вид выдачи, получить короткую ссылку для обмена результатами исследований. Смотрите наш новый видеоролик о том, как пользоваться основными функциями НКРЯ и делиться своими результатами с другими.

Посмотреть другие полезные видеоролики о возможностях корпуса вы можете на нашем YouTube-канале и в группе корпуса в социальной сети «ВКонтакте».
9👍4🔥4🏆1
В некоторых корпусах на сайте НКРЯ в Портрете слова можно увидеть виджет «‎Похожие‎ слова». Обратите внимание, что похожие слова — это не синонимы, а такие слова, контексты употребления которых похожи на контексты употребления искомого слова.

Мы провели эксперимент на данных Основного корпуса и отследили, как похожие слова изменялись с течением времени. Попробуйте догадаться, для каких слов получился следующий перечень похожих слов в разные временные периоды.
🔥7👍3
Вопрос 1. На этой картинке представлены слова, похожие по контексту употребления на слово …
Anonymous Quiz
47%
линейка
48%
дорожка
6%
черта
👍1
Вопрос 2. На этой картинке представлены слова, похожие по контексту употребления на слово …
Anonymous Quiz
5%
лавка
91%
рынок
4%
площадь
🔥1👌1
Вопрос 3. На этой картинке представлены слова, похожие по контексту употребления на слово …
Anonymous Quiz
12%
снаряд
4%
корень
84%
ядро
👏43
В период с 20:00 12 сентября до 18:00 13 сентября (по московскому времени) на наших серверах будут проводиться технические работы.

Из-за этого возможны перебои в работе сайта Корпуса.
👌3👀2🤝2
Media is too big
VIEW IN TELEGRAM
Древнерусский корпус пополнился новыми текстами и вырос на 43 тысячи слов. С одной стороны, в него вошли поздние тексты XIV в. (например, украинские и московские деловые грамоты, псковская «Повесть о Довмонте»), с другой – расширена разметка ранних текстов (Повести временных лет по Лаврентьевскому списку или житий). В словарь корпуса теперь входят предки таких привычных слов, как напрасно, перемолвиться, шапка или разногласие.

В древнерусском корпусе теперь можно отбирать подкорпус и получать статистику по стандартным критериям (включая дату текста и списка, жанр текста, объем текста) и узнать, насколько персонажи летописей ходят чаще, чем фигуранты грамот и повестей. Появилась возможность поиска по греческим леммам и словоформам для переводных произведений. Греческие слова можно ввести на виртуальной клавиатуре. Например, слово δόγμα (догма) передавалось славянскими переводчиками не только через заимствование догмат, но и как повеление, учение или устав.

В Портрете слова доступен новый функционал – «Формы слова». Для древнерусских существительных даны все формы чисел и падежей в разных орфографиях, встретившиеся в корпусе. Можно узнать частотность этих форм и перейти по ссылкам на примеры в поиске. Например, можно узнать, какие формы в текстах имело слово друг. Некоторые формы редко употребляющегося двойственного числа пока в корпусе не встретились (такие формы можно найти в грамматиках, где даны полные стандартные таблицы – парадигмы).
🔥15👍4🤩21
Media is too big
VIEW IN TELEGRAM
На сайте Корпуса появился личный кабинет.

Его основная задача – сделать индивидуальную работу с сайтом удобнее. Теперь пользователи могут сохранять в личный кабинет интересующие их запросы (в любом корпусе) и сравнения запросов (в тех корпусах, где есть эта функция) и возвращаться к ним.

Чтобы сохранить запрос или сравнение, нужно нажать кнопку «‎Сохранить запрос»‎ в выдаче или «‎Сохранить сравнение» на странице сравнения запросов. В личном кабинете в соответствующих вкладках можно просматривать сохраненные запросы и сравнения, давать им названия, копировать короткие ссылки, чтобы поделиться с другими, и удалять сохраненное. Количество запросов и сравнений, которые можно сохранить, не ограничено.

Вместе с появлением личного кабинета расширились и настройки профиля. Пользователи могут заполнить информацию о себе (эти данные сможет видеть только сам пользователь), изменить пароль или удалить аккаунт. В будущем с согласия пользователя некоторые его данные, такие как имя и место работы, будут видны другим. 

Личный кабинет доступен на компьютере и в мобильной версии.
👍17🔥95🤔1
Сегодня на 78-ом году жизни скончался выдающийся российский лингвист, специалист по современному синтаксису и семантике, компьютерной лингвистике и машинному переводу, ведущий научный сотрудник Института проблем передачи информации РАН Леонид Лейбович Иомдин.

Леонид Лейбович был активным участником проекта «Национальный корпус русского языка» и одним из создателей Синтаксического корпуса в составе НКРЯ.

Приносим искренние соболезнования родным и близким Леонида Лейбовича.
💔90😭53🙏2112
Приглашаем на лекцию о Корпусе

19 сентября в рамках 48-й конференции «Информационные технологии и системы», организованной Институтом проблем передачи информации им. А.А. Харкевича Российской академии наук, пройдет лекция о Национальном корпусе русского языка.

Анастасия Козеренко, менеджер Национального корпуса русского языка и старший научный сотрудник Отдела экспериментальной лексикографии Института русского языка имени В. В. Виноградова Российской академии наук, расскажет о том, как устроен Корпус, об изменениях, произошедших в нем за последние четыре года, а также о том, как сделать индивидуальную работу с Корпусом еще удобнее и полезнее.

Лекция состоится сегодня, 19 сентября, в 14:00 по московскому времени. Вы можете принять участие в ней дистанционно по ссылке: https://telemost.yandex.ru/j/85045971393761

С подробной программой конференции и другими докладами можно ознакомиться на сайте конференции.
13👍1
Приглашаем на вебинар с техническим директором Национального корпуса русского языка!

Завтра, 24 сентября, в 17:00 по московскому времени, технический директор НКРЯ, специалист в области компьютерной лингвистики Дмитрий Морозов проведёт вебинар, посвященный машинному обучению в Национальном корпусе русского языка.

Участники вебинара узнают:
- что такое Национальный корпус русского языка и как начать им пользоваться
- как и для чего применяется машинное обучение в НКРЯ
- чем НКРЯ может быть полезен переводчикам
- как НКРЯ помогает изучать языки народов России

Вебинар организует «Лаборатория перевода» совместно с магистерской программой МИСИС «Цифровая лингвистика и локализация».

Ссылка для подключения к вебинару будет опубликована в телеграм-канале @tradulab в день события. Не пропустите!
20👍15🔥4
В Корпусе берестяных грамот появились 19 берестяных грамот из Новгорода и Старой Руссы, найденные в прошлом, 2023 году. Их объем — более 300 слов. Кроме того, внесены поправки в тексты и переводы ранее найденных берестяных грамот. В корпус попали такие новые слова, как ѣздець (‘ездок’), шида (‘шелк’), немочи (‘хворать’), крута (‘приданое’). Такие обычные слова, как огородъ, капуста, боꙗринъ тоже встретились впервые в новых грамотах.

Значительно улучшен поиск по корпусу, в форме запроса можно задавать новые пометы, связанные с грамматикой и интерпретацией слова.
33🔥16👍7🎉5
Приглашаем на конференцию, посвященную 20-летию Национального корпуса русского языка!

20–21 декабря 2024 года в Институте русского языка им. В.В. Виноградова РАН состоится международная конференция, посвященная 20-летию Национального корпуса русского языка.

Тематика конференции охватывает широкий спектр проблем – от корпусных методов лингвистических исследований и достоверности корпусных данных до вопросов создания корпусов и разработки пользовательского интерфейса. Отдельное внимание будет уделено применению нейросетевых моделей в подготовке корпусных данных, а также использованию НКРЯ в преподавании гуманитарных дисциплин в университете и в школе.

На конференции можно выступить с докладом или принять участие в качестве слушателя очно или онлайн. Более подробная информация, а также все обновления публикуются на сайте Института.

Зарегистрироваться можно до 1 ноября.
🔥30👍6
В корпус «‎Восточнославянская эпиграфика»‎ добавлено 86 разнообразных надписей – от XI до XV века, от Лукки, Вифлеема и Константинополя до Киева и Твери, от подписи на княжеском оружии до загадок и проклятий. Корпус достиг объема в 6 тысяч словоформ.

В корпусе появилась возможность отбирать тексты по количеству словоформ, а также задавать условия поиска только в переводах.
18👍12🔥4🤩2
В октябре были пополнены коллекции устной речи в Акцентологическом и Устном корпусах. Добавлены записи текстов устной профессиональной речи, монологов-воспоминаний, повседневной диалогической речи, записанной в разных регионах — Воронежской, Московской, Томской областях, Республике Бурятии, Марий Эл. За участие в сборе и подготовке текстов благодарим студентов и сотрудников Воронежского государственного университета, студентов МГУ им М.В. Ломоносова, Г.В. Коротких (АНО «Межэтническая ассоциация «Ильсат» («Душа»), г. Томск), Е.В. Кашкина (Группа по изучению контактного взаимодействия русского языка с языками коренных народов России, ИРЯ РАН).

Объем Устного корпуса теперь составляет 14,8 млн словоупотреблений, общий объем Акцентологического корпуса, вместе с наивной поэзией, — 135,5 млн словоупотреблений.

В обоих корпусах появилась возможность отбирать тексты по количеству словоформ. В форме отбора подкорпуса Устного корпуса регионы теперь сгруппированы по странам для удобства поиска.
👍17🔥5🤩1