НКРЯ Национальный корпус русского языка
2.17K subscribers
86 photos
36 videos
184 links
Канал об обновлениях, пополнениях и советах по работе с НКРЯ не только для лингвистов, но и для всех интересующихся русским языком.
Сайт Корпуса http://ruscorpora.ru
Download Telegram
В некоторых корпусах на сайте НКРЯ в Портрете слова можно увидеть виджет «‎Похожие‎ слова». Обратите внимание, что похожие слова — это не синонимы, а такие слова, контексты употребления которых похожи на контексты употребления искомого слова.

Мы провели эксперимент на данных Основного корпуса и отследили, как похожие слова изменялись с течением времени. Попробуйте догадаться, для каких слов получился следующий перечень похожих слов в разные временные периоды.
🔥7👍3
Вопрос 1. На этой картинке представлены слова, похожие по контексту употребления на слово …
Anonymous Quiz
47%
линейка
48%
дорожка
6%
черта
👍1
Вопрос 2. На этой картинке представлены слова, похожие по контексту употребления на слово …
Anonymous Quiz
5%
лавка
91%
рынок
4%
площадь
🔥1👌1
Вопрос 3. На этой картинке представлены слова, похожие по контексту употребления на слово …
Anonymous Quiz
12%
снаряд
4%
корень
84%
ядро
👏43
В период с 20:00 12 сентября до 18:00 13 сентября (по московскому времени) на наших серверах будут проводиться технические работы.

Из-за этого возможны перебои в работе сайта Корпуса.
👌3👀2🤝2
Media is too big
VIEW IN TELEGRAM
Древнерусский корпус пополнился новыми текстами и вырос на 43 тысячи слов. С одной стороны, в него вошли поздние тексты XIV в. (например, украинские и московские деловые грамоты, псковская «Повесть о Довмонте»), с другой – расширена разметка ранних текстов (Повести временных лет по Лаврентьевскому списку или житий). В словарь корпуса теперь входят предки таких привычных слов, как напрасно, перемолвиться, шапка или разногласие.

В древнерусском корпусе теперь можно отбирать подкорпус и получать статистику по стандартным критериям (включая дату текста и списка, жанр текста, объем текста) и узнать, насколько персонажи летописей ходят чаще, чем фигуранты грамот и повестей. Появилась возможность поиска по греческим леммам и словоформам для переводных произведений. Греческие слова можно ввести на виртуальной клавиатуре. Например, слово δόγμα (догма) передавалось славянскими переводчиками не только через заимствование догмат, но и как повеление, учение или устав.

В Портрете слова доступен новый функционал – «Формы слова». Для древнерусских существительных даны все формы чисел и падежей в разных орфографиях, встретившиеся в корпусе. Можно узнать частотность этих форм и перейти по ссылкам на примеры в поиске. Например, можно узнать, какие формы в текстах имело слово друг. Некоторые формы редко употребляющегося двойственного числа пока в корпусе не встретились (такие формы можно найти в грамматиках, где даны полные стандартные таблицы – парадигмы).
🔥15👍4🤩21
Media is too big
VIEW IN TELEGRAM
На сайте Корпуса появился личный кабинет.

Его основная задача – сделать индивидуальную работу с сайтом удобнее. Теперь пользователи могут сохранять в личный кабинет интересующие их запросы (в любом корпусе) и сравнения запросов (в тех корпусах, где есть эта функция) и возвращаться к ним.

Чтобы сохранить запрос или сравнение, нужно нажать кнопку «‎Сохранить запрос»‎ в выдаче или «‎Сохранить сравнение» на странице сравнения запросов. В личном кабинете в соответствующих вкладках можно просматривать сохраненные запросы и сравнения, давать им названия, копировать короткие ссылки, чтобы поделиться с другими, и удалять сохраненное. Количество запросов и сравнений, которые можно сохранить, не ограничено.

Вместе с появлением личного кабинета расширились и настройки профиля. Пользователи могут заполнить информацию о себе (эти данные сможет видеть только сам пользователь), изменить пароль или удалить аккаунт. В будущем с согласия пользователя некоторые его данные, такие как имя и место работы, будут видны другим. 

Личный кабинет доступен на компьютере и в мобильной версии.
👍17🔥95🤔1
Сегодня на 78-ом году жизни скончался выдающийся российский лингвист, специалист по современному синтаксису и семантике, компьютерной лингвистике и машинному переводу, ведущий научный сотрудник Института проблем передачи информации РАН Леонид Лейбович Иомдин.

Леонид Лейбович был активным участником проекта «Национальный корпус русского языка» и одним из создателей Синтаксического корпуса в составе НКРЯ.

Приносим искренние соболезнования родным и близким Леонида Лейбовича.
💔90😭53🙏2112
Приглашаем на лекцию о Корпусе

19 сентября в рамках 48-й конференции «Информационные технологии и системы», организованной Институтом проблем передачи информации им. А.А. Харкевича Российской академии наук, пройдет лекция о Национальном корпусе русского языка.

Анастасия Козеренко, менеджер Национального корпуса русского языка и старший научный сотрудник Отдела экспериментальной лексикографии Института русского языка имени В. В. Виноградова Российской академии наук, расскажет о том, как устроен Корпус, об изменениях, произошедших в нем за последние четыре года, а также о том, как сделать индивидуальную работу с Корпусом еще удобнее и полезнее.

Лекция состоится сегодня, 19 сентября, в 14:00 по московскому времени. Вы можете принять участие в ней дистанционно по ссылке: https://telemost.yandex.ru/j/85045971393761

С подробной программой конференции и другими докладами можно ознакомиться на сайте конференции.
13👍1
Приглашаем на вебинар с техническим директором Национального корпуса русского языка!

Завтра, 24 сентября, в 17:00 по московскому времени, технический директор НКРЯ, специалист в области компьютерной лингвистики Дмитрий Морозов проведёт вебинар, посвященный машинному обучению в Национальном корпусе русского языка.

Участники вебинара узнают:
- что такое Национальный корпус русского языка и как начать им пользоваться
- как и для чего применяется машинное обучение в НКРЯ
- чем НКРЯ может быть полезен переводчикам
- как НКРЯ помогает изучать языки народов России

Вебинар организует «Лаборатория перевода» совместно с магистерской программой МИСИС «Цифровая лингвистика и локализация».

Ссылка для подключения к вебинару будет опубликована в телеграм-канале @tradulab в день события. Не пропустите!
20👍15🔥4
В Корпусе берестяных грамот появились 19 берестяных грамот из Новгорода и Старой Руссы, найденные в прошлом, 2023 году. Их объем — более 300 слов. Кроме того, внесены поправки в тексты и переводы ранее найденных берестяных грамот. В корпус попали такие новые слова, как ѣздець (‘ездок’), шида (‘шелк’), немочи (‘хворать’), крута (‘приданое’). Такие обычные слова, как огородъ, капуста, боꙗринъ тоже встретились впервые в новых грамотах.

Значительно улучшен поиск по корпусу, в форме запроса можно задавать новые пометы, связанные с грамматикой и интерпретацией слова.
33🔥16👍7🎉5
Приглашаем на конференцию, посвященную 20-летию Национального корпуса русского языка!

20–21 декабря 2024 года в Институте русского языка им. В.В. Виноградова РАН состоится международная конференция, посвященная 20-летию Национального корпуса русского языка.

Тематика конференции охватывает широкий спектр проблем – от корпусных методов лингвистических исследований и достоверности корпусных данных до вопросов создания корпусов и разработки пользовательского интерфейса. Отдельное внимание будет уделено применению нейросетевых моделей в подготовке корпусных данных, а также использованию НКРЯ в преподавании гуманитарных дисциплин в университете и в школе.

На конференции можно выступить с докладом или принять участие в качестве слушателя очно или онлайн. Более подробная информация, а также все обновления публикуются на сайте Института.

Зарегистрироваться можно до 1 ноября.
🔥30👍6
В корпус «‎Восточнославянская эпиграфика»‎ добавлено 86 разнообразных надписей – от XI до XV века, от Лукки, Вифлеема и Константинополя до Киева и Твери, от подписи на княжеском оружии до загадок и проклятий. Корпус достиг объема в 6 тысяч словоформ.

В корпусе появилась возможность отбирать тексты по количеству словоформ, а также задавать условия поиска только в переводах.
18👍12🔥4🤩2
В октябре были пополнены коллекции устной речи в Акцентологическом и Устном корпусах. Добавлены записи текстов устной профессиональной речи, монологов-воспоминаний, повседневной диалогической речи, записанной в разных регионах — Воронежской, Московской, Томской областях, Республике Бурятии, Марий Эл. За участие в сборе и подготовке текстов благодарим студентов и сотрудников Воронежского государственного университета, студентов МГУ им М.В. Ломоносова, Г.В. Коротких (АНО «Межэтническая ассоциация «Ильсат» («Душа»), г. Томск), Е.В. Кашкина (Группа по изучению контактного взаимодействия русского языка с языками коренных народов России, ИРЯ РАН).

Объем Устного корпуса теперь составляет 14,8 млн словоупотреблений, общий объем Акцентологического корпуса, вместе с наивной поэзией, — 135,5 млн словоупотреблений.

В обоих корпусах появилась возможность отбирать тексты по количеству словоформ. В форме отбора подкорпуса Устного корпуса регионы теперь сгруппированы по странам для удобства поиска.
👍17🔥5🤩1
Для пользователей, которые только знакомятся с Корпусом, на главной странице доступен функционал «Обзор возможностей».

В октябре мы усовершенствовали его работу, добавив новые виджеты и сделав существующие виджеты более информативными. Теперь «‎Обзор возможностей»‎ общий для всех корпусов НКРЯ.

Появился новый текстовый виджет, с помощью которого пользователь познакомится с основными терминами, используемыми в интерфейсе НКРЯ, узнает как приступить к поиску, какие бывают виды поиска и где можно подробнее о них прочитать.

Лексико-грамматический поиск, поиск точных форм и коллокаций теперь выдают результаты только из Основного корпуса.

В виджете «‎Случайное стихотворение»‎ теперь видно не только само произведение, но и его название, автор и дата создания.

Названия корпусов в заголовках виджетов стали кликабельными – по ссылке пользователь перейдет в «‎Портрет корпуса»‎, где сможет ознакомиться с его структурой и составом, узнать больше о создателях корпуса и прочитать публикации о нем.
🔥16👍115👌1🤝1
21 декабря в рамках Конференции, посвященной 20-летию Национального корпуса русского языка, состоятся круглые столы и мастер-классы по следующим темам:

🔹НКРЯ в преподавании русского языка и литературы
🔹Корпусные платформы для корпусов разного типа
🔹Корпусные методы в исследовании языковых контактов
🔹Корпус как исследовательский инструмент: как его собрать и почему ему можно доверять?
🔹Новые инструменты НКРЯ: формат выдачи «Частотность» и новые графики диахронической статистики
🔹Новые инструменты НКРЯ: как использовать новые функции для популяризации корпуса

Подробнее ознакомиться с содержанием круглых столов и мастер-классов вы можете на сайте Института русского языка.

Зарегистрироваться на мероприятия в качестве слушателя можно по этой ссылке. Если вы хотите выступить на круглом столе или мастер-классе, оформите тезисы или аннотацию своего выступления в соответствии с требованиями, изложенными в информационном письме № 2, и отправьте их через общую регистрационную форму до 10 ноября.
🔥12👍7
Параллельный корпус пополнен на 3 млн слов. Половина этого объема приходится на англоязычные нехудожественные (научно-популярные и публицистические) тексты. Кроме того, пополнены, в основном художественными произведениями, испанская и немецкая языковые пары.

В трех языковых парах, включающих записи устных текстов — вепсской, карельской и хакасской — доступен отбор подкорпуса по диалекту.
13🔥9👍3🥰3
Национальный корпус русского языка — это мощный инструмент для анализа и исследования языка. В нем собраны миллионы текстов, которые позволяют пользователям Корпуса лучше понять язык во всех его многообразных проявлениях. Один из важнейших аспектов работы с корпусом — анализ статистических данных.

Сводная статистика НКРЯ доступна с главной страницы сайта. В этом разделе содержится информация об объеме входящих в НКРЯ корпусов в текстах, предложениях и словоупотреблениях, а также таблицы с распределением текстов Основного корпуса по видам и другим метапризнакам.

Кликнув на название корпуса в таблице, вы можете перейти к статистике в Портрете выбранного корпуса. Перейти к статистике корпуса также можно из формы поиска по корпусу, кликнув на значок (i). Сейчас статистика корпуса доступна для Основного, Обучающего, Газетных корпусов, некоторых исторических корпусов, а также корпусов «‎Русская классика»‎ и «‎От 2 до 15».

В корпусах с расширенной статистикой также доступно сравнение пользовательского подкорпуса с целым корпусом. Для просмотра сравнительных данных нажмите на значок (i) в шапке подкорпуса.
👍1631