НКРЯ Национальный корпус русского языка
1K subscribers
23 photos
22 videos
98 links
Канал об обновлениях, пополнениях и советах по работе с НКРЯ не только для лингвистов, но и для всех интересующихся русским языком.
Сайт Корпуса http://ruscorpora.ru
Download Telegram
Акцентологический корпус переведен на новый интерфейс. Теперь поиск по корпусу отображается в новом дизайне, доступны «Портреты слов» акцентологического корпуса. Корпус подключен к «Обзору возможностей».

Усовершенствован Портрет слова в основном корпусе:
В виджете «Морфемный разбор» разведены альтернативные морфемные разборы для разных частей речи. Например, слово тепло как существительное разбирается иначе, чем как наречие. Разные разборы можно увидеть, переключаясь в портрете между частями речи.
Сегодня отмечается Европейский день языков. Для тех, кто изучает языки всю свою жизнь и хочет владеть не одним иностранным языком, в НКРЯ есть особенный корпус — параллельный, в котором тексту сопоставлен перевод этого текста на другой язык. 

Параллельный корпус используется для научных исследований, в практике перевода, при обучении иностранным языкам, а так же при изучении русского как иностранного.

В настоящее время на сайте размещены 25 двуязычных пар параллельных корпусов включающие как переводы иноязычных (и не только европейских) текстов на русский, так и русских текстов на другой язык. Двадцать шестой параллельный корпус — многоязычный, в котором художественные тексты с оригиналом на разных языках переведены на несколько десятков языков.
В новой версии Портрета слова в Основном корпусе "гнезда" однокоренных слов дополнены с помощью нейросетевой модели НейроКРЯ. Например, для слова актер все однокоренные слова, кроме актриса и киноактриса, подобраны НейроКРЯ. А еще, если НейроКРЯ находит хотя бы 5 слов с таким же корнем, мы показываем однокоренные слова в Портрете слова, даже если искомого слова нет в словаре морфемных разборов. Смотрите, например, какой красивый портрет получился для слова эстет.
Media is too big
VIEW IN TELEGRAM
Для того, чтобы помочь нашим пользователям интерпретировать результаты поисковых запросов, мы сопоставили каждому тегу семантической разметки названия на русском и английском языках. Теперь в карточке слова в поисковой выдаче и в портрете слова можно увидеть сверхъестественных существ, вещества и материалы или положительные оценки вместо t:hum:supernat, t:stuff, sc:thing, ev:posit.
Media is too big
VIEW IN TELEGRAM
Старожилы помнят, что в Основном корпусе НКРЯ существовала возможность сравнить результаты поиска точных форм на графиках. Теперь в Корпусе доступен расширенный функционал сравнения результатов запросов:

Можно сравнивать поисковые запросы разных типов, например, результаты двух лексико-грамматических запросов. Так нам удалось узнать, когда стали говорить не более чем вместо не более как.
В разных запросах можно задавать разные подкорпусы, например, сравнивать разных авторов или типы текстов.
Все сравнения ведутся в пределах одного корпуса, и теперь функционал доступен почти во всех корпусах в новом интерфейсе. Вот такое исследование ударений нам удалось провести в Поэтическом корпусе.

Для работы с новым функционалом сравнений мы просим пользователя авторизоваться (ввести логин и пароль). Это необходимо, чтобы иметь возможность хранить большое количество параметров запросов и возвращаться к сохраненному сравнению.
Поздравляем с Днем Учителя и напоминаем, что на нашем сайте есть раздел «Упражнения на основе Корпуса». Здесь можно найти готовые задания, составленные на материале Обучающего корпуса и других корпусов НКРЯ. Упражнения относятся к разным разделам школьного курса русского языка и пригодятся для работы на уроке и заданий на дом, а также для контроля знаний. Мы планируем развивать и пополнять набор заданий и приглашаем учителей и преподавателей принять в этом участие. Присылайте свои уникальные упражнения на адрес info@ruscorpora.ru с темой письма «Упражнения», и мы разместим их в этом разделе.
Подготовили для вас подборку идей применения наших новых инструментов. Смотрите, как

- с помощью сравнения запросов узнать, как чаще говорят — надо или нужно (надо почти в два раза чаще) 
- в скетчах в портрете слова увидеть, какие определения самые характерные для слова хлеб (насущный, ржаной, черствый, печеный, пшеничный)
- в новом интерфейсе поэтического корпуса посмотреть, с чем рифмовали слово селедка (водка, подметка, подбородка, чётко, кроткий, лодка, сковородка, серёдка...)
- благодаря НейроКРЯ обнаружить, какие слова в XX веке ассоциировались со словом собес (загс, поликлиника, жэк, профком... — ведь тогда никто не называл так собеседование)

Попробуйте сами — это увлекательно. А для тех, кто хочет разобраться подробнее, у нас есть руководство пользователя.
Сегодня день рождения книги о Винни-Пухе (хотя сам медведь чуть постарше): 97 лет назад, в 1926 году, вышла первая из четырех книжек Алана Александра Милна о нем. Винни-Пух — один из главных героев параллельного корпуса НКРЯ. В многоязычный параллельный корпус сейчас входит 22 перевода на 19 языков, в основном славянских (а оцифровано и со временем пополнит корпус еще больше переводов). Вот как украинский, белорусский и польский переводчики передали возглас Пуха Oh, bother!
Сегодня вышло большое обновление, следите за нашими анонсами в ближайшие дни.
Мы обновили Обучающий корпус, добавив в него более 1000 новых текстов. Теперь в нем есть все основные произведения из школьной программы по литературе, включая те, которые рекомендуются для внеклассного чтения.

Но это еще не всё. Для морфологической разметки всех текстов мы использовали нейросетевые модели. В процессе автоматической разметки снята грамматическая омонимия, что позволило нам добавить в Обучающий корпус современные инструменты для анализа слов и текстов.

Портрет слова показывает его сочетаемость, похожие слова, частоту использования, формы и историю употребления, а также примеры из текстов корпуса. Для сравнения частоты употребления слов и словосочетаний можно использовать Сравнение запросов.

Можно анализировать и тексты. Для этого есть инструмент Портрет Корпуса, который предоставляет информацию об истории создания и о составе корпуса, а также статистику и частотный словарь. С помощью Портрета подкорпуса можно анализировать особенности выбранных текстов и сравнивать их с остальными текстами в корпусе.

При помощи новых инструментов можно составлять более разнообразные задания для школьников. Ученики могут использовать их и для самостоятельных исследований, например, чтобы написать реферат. А для тех преподавателей и студентов, кто готов проводить более сложные исследования, мы добавили новые виды выдачи результатов поиска (Статистика, Частотность, N-граммы) и новый вид поиска – Поиск коллокаций.
Мультимедийный корпус переведен на новый интерфейс. Теперь поиск по корпусу отображается в новом дизайне, доступны «Портреты слов».

Особенностью корпуса является возможность мультимедийного поиска, когда можно задать одновременно три поисковых запроса: для слов, жестов и речевых действий. Найдутся клипотексты, где и в видео/аудио, и в тексте встретились соответствия этим запросам: например, те, где в речи есть слово за, а в значении жеста — тост.

Обратите внимание, что по умолчанию в форме скрыта часть условий на слова, жесты и речевые действия. Эти условия можно добавить, нажав на кнопку «Добавить условия».

Например, чтобы найти клипотексты, в которых человек определенным образом двигает головой, необходимо добавить в форму два условия для Жестов — на активный орган и на направление движения — и задать значения голова и из стороны в сторону, а чтобы найти клипотексты, в которых шепчут, добавить в форму условие на Манеру говорения и выбрать значение шепот.

Дополнительно можно задавать условия, описывающие вокалическую и орфоэпическую структуру слов.
Для того, чтобы вы могли отбирать собственные подкорпуса и пользоваться нашими статистическими сервисами, нужна метаразметка. Количество текстов в корпусах НКРЯ уже превышает 6 млн и постоянно растет. Такие объемы материала все менее реально размечать вручную, поэтому мы развиваем сервисы нейроразметки (НейроКРЯ). Сегодня мы представляем новые результаты в этой области.

Ключевые слова в текстах корпуса Региональных СМИ размечены автоматически с помощью доработанной модели rutermextract. Одно ключевое слово может состоять из однословного ключа (праздник, переломы) либо из двусловного сочетания (таяние снега). По однословному запросу (община) находится как точное соответствие, так и двусловные сочетания с этим словом (католическая община).

В корпусе Социальные сети для основного массива текстов корпуса автоматически размечены жанры. Для разметки использована модель RuRoBERTa, дообученная на текстах корпуса. Один или несколько жанров можно выбрать из списка, например, рекомендации и советы.

В информации о тексте поля, значения которых заполняет НейроКРЯ, помечены специальным значком. В том же всплывающем окне есть кнопка “Сообщить об ошибке”. Сообщайте нам о всех неточностях и ошибках в определении ключевых слов и жанров.
В составе Национального корпуса русского языка появился новый исторический корпус – «Восточнославянская эпиграфика».

В этот корпус входят 663 морфологически размеченные текста XI-XV веков с территории современных Украины, России и Беларуси, а также найденные за пределами Восточной Европы – в Германии, Франции, Турции. Это надписи, в основном краткие, на стенах церквей, на камнях, на предметах, найденных при раскопках или хранящихся много веков. Эпиграфика – ценный источник как по истории повседневной древнерусской речи, так и по бытованию церковных, литературных и фольклорных текстов. Из каждого текста можно перейти на сайт epigraphica.ru, где помещены более подробные данные о тексте и фотографии.
Пополнен Древнерусский корпус. Его объем достиг 800 тысяч словоупотреблений, в него включены несколько десятков официально-деловых текстов XII–XIV веков: княжеские уставы, грамоты из Новгорода, Полоцка, Украины и Литвы. Впервые в ранний корпус вошли предки таких современных слов, как блистать, больница, великолепие, доход, дружить, наслаждение, околица, простоволосый, ящерица.

Русский и Англо-русский Мультипарки переведены на новый интерфейс. Теперь поиск по этим корпусам отображается в новом дизайне, доступны «Портреты слов». Корпуса подключены к «Обзору возможностей».
Известная переводчица и историк культуры Вера Аркадьевна Мильчина в интервью сайту Arzamas говорит о том, чем Корпус может быть полезен переводчику:

Недавно я выучила словосочетание «темпоральная стилизация». Для меня это значит прежде всего, что нужно стараться не влеплять в перевод книги XIX века современные слова. Например, «выматываются» вместо «сильно устают»: в XIX веке никто не выматывался. Я сама так однажды написала в 1995 году, а через двадцать лет, когда переиздавала эту книгу, «Физиологию брака» Бальзака, исправила. Но в 1979 или 1980 году, когда мы начали переводить, было очень трудно узнать, когда какое слово появилось. Сейчас можно залезть в Национальный корпус русского языка. А тогда можно было, конечно, посмотреть в академический словарь, но там ведь всех случаев употребления того или иного слова не найдешь. То есть в принципе мы, конечно, сознавали, что не нужно вставлять в перевод современные слова, но ориентироваться могли в основном на собственные ощущения. И не знали, что это называется «темпоральная стилизация».