Синтаксическая разметка представлена в Национальном корпусе русского языка в двух форматах – в формате CинТагРус, используемом в одноименном корпусе, и в формате Универсальных зависимостей (Universal Dependencies), используемом в Основном, Газетных и ряде других корпусов.
Благодаря синтаксической разметке можно получать гораздо более точные результаты поиска, чем с использованием только морфологической аннотации. Без синтаксической разметки было бы невозможно реализовать некоторые имеющиеся сейчас в корпусе функции, например, выявление «скетчей» слов — устойчивых словосочетаний с заданными синтаксическими отношениями — или более точную настройку поиска коллокаций.
С подробным описанием двух форматов синтаксической разметки можно ознакомиться на сайте. А в карточках – пошаговая инструкция и пример использования поиска по синтаксическим отношениям.
Благодаря синтаксической разметке можно получать гораздо более точные результаты поиска, чем с использованием только морфологической аннотации. Без синтаксической разметки было бы невозможно реализовать некоторые имеющиеся сейчас в корпусе функции, например, выявление «скетчей» слов — устойчивых словосочетаний с заданными синтаксическими отношениями — или более точную настройку поиска коллокаций.
С подробным описанием двух форматов синтаксической разметки можно ознакомиться на сайте. А в карточках – пошаговая инструкция и пример использования поиска по синтаксическим отношениям.
❤26🔥3👍2
Media is too big
VIEW IN TELEGRAM
Мы продолжаем совершенствовать Портрет слова в НКРЯ. Недавно в нем появилась возможность сравнивать скетчи, а теперь в Портрете слова Основного корпуса можно изучить, как менялись слова-ассоциаты во времени, а также ознакомиться с толкованием слова.
Виджет «Толкование β» содержит определения искомого слова, сгенерированные нейросетью. Сейчас авторизованным пользователям сайта доступны определения примерно для 5,5 тысяч слов, которые чаще всего искали в Основном корпусе. Толкования могут содержать ошибки и неточности – мы просим вас сообщать о них, используя кнопку «Оценить» рядом с виджетом. Ваша обратная связь поможет нам улучшить генерацию толкований.
Виджет «Похожие слова» теперь позволяет изучать список слов-ассоциатов (то есть слов, употребляемых в таких же контекстах, как искомое слово – не путать с синонимами!) не только по всему корпусу, но и по текстам, созданным в определенный период времени. Все тексты Основного корпуса с 1700 по 2022 год поделены на 11 временных периодов. Пользователи могут посмотреть на похожие слова одного периода или сравнить два периода, а также скачать скриншот. Например, интересно проследить, как менялись семантические ассоциаты слова поезд или машина.
Виджет «Толкование β» содержит определения искомого слова, сгенерированные нейросетью. Сейчас авторизованным пользователям сайта доступны определения примерно для 5,5 тысяч слов, которые чаще всего искали в Основном корпусе. Толкования могут содержать ошибки и неточности – мы просим вас сообщать о них, используя кнопку «Оценить» рядом с виджетом. Ваша обратная связь поможет нам улучшить генерацию толкований.
Виджет «Похожие слова» теперь позволяет изучать список слов-ассоциатов (то есть слов, употребляемых в таких же контекстах, как искомое слово – не путать с синонимами!) не только по всему корпусу, но и по текстам, созданным в определенный период времени. Все тексты Основного корпуса с 1700 по 2022 год поделены на 11 временных периодов. Пользователи могут посмотреть на похожие слова одного периода или сравнить два периода, а также скачать скриншот. Например, интересно проследить, как менялись семантические ассоциаты слова поезд или машина.
❤20🔥15👍7
Сравнение скетчей, недавно появившееся в Корпусе, можно использовать для изучения паронимов – слов, сходных по звучанию и морфемному составу, но различающихся по значению. Новый функционал помогает выявить ключевые различия и сходства в значении и употреблении таких слов.
Предлагаем вам изучить инструкцию в карточках, а затем самостоятельно разобраться в значениях и особенностях употребления таких пар слов, как хозяйский и хозяйственный, органический и органичный, архаичный и архаический.
Предлагаем вам изучить инструкцию в карточках, а затем самостоятельно разобраться в значениях и особенностях употребления таких пар слов, как хозяйский и хозяйственный, органический и органичный, архаичный и архаический.
👍28🔥12🥰8❤7⚡2🤝1
Объем корпуса «Русская классика» увеличился на 7,5 млн слов. В него добавлены академические полные собрания сочинений Ф. М. Достоевского и Н. А. Некрасова, большая часть написанных по-русски писем И. С. Тургенева, а также некоторые ранее не включенные тексты других авторов. Работы по пополнению корпуса «Русская классика» текстами Ф.М. Достоевского в 2024–2025 гг. поддержаны Благотворительным фондом содействия образованию «ДАР».
Сервис «Похожие слова» теперь доступен не только для всего корпуса в целом, но и отдельно для произведений 9 авторов, объем сочинений которых достаточно велик. При помощи этого виджета можно сравнивать употребление слова в авторском стиле разных писателей.
Не всегда ассоциаты слова у того или иного автора информативны (особенно если слово у него встречается редко или в слишком разнообразных контекстах), однако во многих случаях они дают ярко индивидуальную картину. Например, слово страсть у Пушкина окрашено в целом положительно (в ряду с красотой и свободой), а у Толстого – резко отрицательно (как похоть и злоба); лошадка у Лескова – примета быта, а у Чехова – одно из многочисленных прозвищ жены писателя, Ольги Книппер.
Расширены возможности экспорта данных из Многоязычного параллельного корпуса. Теперь при выгрузке в Excel, Word и CSV автоматически сохраняются параллельные контексты и дополнительная информация – язык перевода и данные о переводчике.
Сервис «Похожие слова» теперь доступен не только для всего корпуса в целом, но и отдельно для произведений 9 авторов, объем сочинений которых достаточно велик. При помощи этого виджета можно сравнивать употребление слова в авторском стиле разных писателей.
Не всегда ассоциаты слова у того или иного автора информативны (особенно если слово у него встречается редко или в слишком разнообразных контекстах), однако во многих случаях они дают ярко индивидуальную картину. Например, слово страсть у Пушкина окрашено в целом положительно (в ряду с красотой и свободой), а у Толстого – резко отрицательно (как похоть и злоба); лошадка у Лескова – примета быта, а у Чехова – одно из многочисленных прозвищ жены писателя, Ольги Книппер.
Расширены возможности экспорта данных из Многоязычного параллельного корпуса. Теперь при выгрузке в Excel, Word и CSV автоматически сохраняются параллельные контексты и дополнительная информация – язык перевода и данные о переводчике.
❤25👍6🔥5
27 марта отмечается Международный день театра. В связи с этим мы хотим вам напомнить (а кому-то – рассказать впервые) о возможностях русского Мультимедийного параллельного корпуса.
В настоящее время русский МультиПАРК включает пьесу Н. В. Гоголя «Ревизор», представленную в 9 постановках, пьесы А. П. Чехова «Вишневый сад» в 4 постановках, «Дядя Ваня» в 5 постановках и «Три сестры» в 4 постановках.
Русский МультиПАРК дает возможность сопоставительного изучения одной и той же реплики, произнесенной разными говорящими в одинаковых обстоятельствах. Это позволяет выявить, как могут варьироваться различные аспекты звучащей речи и её жестового сопровождения в зависимости от личности актёра, времени и стиля постановки, замысла режиссёра и других факторов.
Например, можно посмотреть и послушать, с какой разной интонацией сестры у Чехова выражают желание поехать «в Москву», или как разные актеры произносили фразу «К нам едет ревизор».
В настоящее время русский МультиПАРК включает пьесу Н. В. Гоголя «Ревизор», представленную в 9 постановках, пьесы А. П. Чехова «Вишневый сад» в 4 постановках, «Дядя Ваня» в 5 постановках и «Три сестры» в 4 постановках.
Русский МультиПАРК дает возможность сопоставительного изучения одной и той же реплики, произнесенной разными говорящими в одинаковых обстоятельствах. Это позволяет выявить, как могут варьироваться различные аспекты звучащей речи и её жестового сопровождения в зависимости от личности актёра, времени и стиля постановки, замысла режиссёра и других факторов.
Например, можно посмотреть и послушать, с какой разной интонацией сестры у Чехова выражают желание поехать «в Москву», или как разные актеры произносили фразу «К нам едет ревизор».
👍15❤9🥰3🔥2
3 апреля в 11.00 магистерская программа «Обработка естественного языка» МИСиС организует вебинар с Анной Глазковой, к. т. н., специалистом группы нейросетевой разметки НКРЯ, преподавателем Тюменского государственного университета.
Анна расскажет об опыте генерации ключевых слов для русскоязычных текстов Корпуса:
- сравнит подходы к выделению ключевых слов: генерация vs извлечение;
- поделится результатами экспериментов на текстах корпуса региональных СМИ Национального корпуса русского языка;
- оценит надежность (робастность) генерации ключевых слов с помощью LLM.
Зарегистрироваться на вебинар можно по ссылке.
Анна расскажет об опыте генерации ключевых слов для русскоязычных текстов Корпуса:
- сравнит подходы к выделению ключевых слов: генерация vs извлечение;
- поделится результатами экспериментов на текстах корпуса региональных СМИ Национального корпуса русского языка;
- оценит надежность (робастность) генерации ключевых слов с помощью LLM.
Зарегистрироваться на вебинар можно по ссылке.
❤19👍3🤩1
В шапке запроса появилась информация об относительной частоте запроса – IPM. В настоящее время эта функция доступна во всех корпусах, кроме Параллельных, англо-русского МультиПАРКа, а также корпусов «Берестяные грамоты» и «Эпиграфика». Если пользователь ограничил запрос конкретным подкорпусом, то показатель рассчитывается как отношение количества примеров в запросе к количеству слов в этом подкорпусе, умноженное на миллион. Если же подкорпус не выбран, то количество примеров в запросе делится на общее количество слов в корпусе и умножается на миллион. IPM рассчитывается для любого количества слов в запросе.
Кроме того, мы обновили страницу нейросетевых моделей, используемых в НКРЯ, добавив две новые модели, основанные на RuRoBERTа и обученные на данных Корпуса. Новые модели и инструкции по их запуску доступны для скачивания и использования в исследовательских и некоммерческих целях. Основное преимущество этих моделей — улучшенная работа с незнакомыми корнями. Подробнее о том, чем этим модели отличаются от применявшихся раньше, можно будет узнать в ходе доклада нашей команды на конференции Диалог 2025.
Кроме того, мы обновили страницу нейросетевых моделей, используемых в НКРЯ, добавив две новые модели, основанные на RuRoBERTа и обученные на данных Корпуса. Новые модели и инструкции по их запуску доступны для скачивания и использования в исследовательских и некоммерческих целях. Основное преимущество этих моделей — улучшенная работа с незнакомыми корнями. Подробнее о том, чем этим модели отличаются от применявшихся раньше, можно будет узнать в ходе доклада нашей команды на конференции Диалог 2025.
👍12❤8
23-25 апреля проводится международная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог-2025».
Сегодня на конференции c рассказом о настоящем и будущем корпуса выступят сразу несколько участников нашей команды.
В первой секции конференции, которая начнется в 14.00 по московскому времени, технический директор НКРЯ, руководитель группы нейросетевой разметки Дмитрий Морозов выступит с докладом о моделях автоматической морфемной разметки для русского языка. В секции «Большие языковые корпуса» Сергей Гладилин, старший научный сотрудник ИППИ РАН, технический директор НП «НКРЯ» (2019-2022), и Ольга Ляшевская, профессор факультета филологии Высшей школы экономики (Москва), старший научный сотрудник Института русского языка им. В. В. Виноградова РАН, обсудят будущее лингвистических корпусов, в том числе НКРЯ.
В четверг в 10.00 Светлана Тимошенко, научный сотрудник ИППИ РАН, расскажет, как статистические метрики, примененные к данным Основного корпуса, помогают отбирать составные коннекторы (союзы и составные единицы в функции союза, соединяющие части сложного предложения) для специализированной базы данных.
Принять участие в конференции в онлайн-формате можно по ссылке. Ознакомиться с полной программой и материалами конференции можно на сайте.
Сегодня на конференции c рассказом о настоящем и будущем корпуса выступят сразу несколько участников нашей команды.
В первой секции конференции, которая начнется в 14.00 по московскому времени, технический директор НКРЯ, руководитель группы нейросетевой разметки Дмитрий Морозов выступит с докладом о моделях автоматической морфемной разметки для русского языка. В секции «Большие языковые корпуса» Сергей Гладилин, старший научный сотрудник ИППИ РАН, технический директор НП «НКРЯ» (2019-2022), и Ольга Ляшевская, профессор факультета филологии Высшей школы экономики (Москва), старший научный сотрудник Института русского языка им. В. В. Виноградова РАН, обсудят будущее лингвистических корпусов, в том числе НКРЯ.
В четверг в 10.00 Светлана Тимошенко, научный сотрудник ИППИ РАН, расскажет, как статистические метрики, примененные к данным Основного корпуса, помогают отбирать составные коннекторы (союзы и составные единицы в функции союза, соединяющие части сложного предложения) для специализированной базы данных.
Принять участие в конференции в онлайн-формате можно по ссылке. Ознакомиться с полной программой и материалами конференции можно на сайте.
🔥13👍9❤7
Проведено масштабное пополнение Регионального корпуса, в результате которого объем корпуса почти удвоился и достиг 69 млн слов!
В состав корпуса добавлены издания 11 регионов России, которые ранее не были включены в корпус: Архангельская область, Астраханская область, Бурятия, Калмыкия, Камчатский край, Карелия, Костромская область, Рязанская область, Сахалинская область, Тамбовская область, Ямало-Ненецкий автономный округ.
Кроме того, пополнен состав изданий тех регионов, которые до сих пор были слабо представлены в корпусе: Вологодской, Курской, Ростовской областей, Республики Мордовии. Общее количество региональных СМИ, вошедших в состав пополнения, превышает 60. Среди них как традиционные районные, городские, областные газеты, так и информационные порталы, сетевые издания, материалы с официальных сайтов органов власти.
Большая коллекция СМИ регионов этого пополнения подготовлена коллективом Воронежского государственного университета. Работы по пополнению Регионального корпуса в 2024–2025 гг. поддержаны Благотворительным фондом содействия образованию «ДАР».
В состав корпуса добавлены издания 11 регионов России, которые ранее не были включены в корпус: Архангельская область, Астраханская область, Бурятия, Калмыкия, Камчатский край, Карелия, Костромская область, Рязанская область, Сахалинская область, Тамбовская область, Ямало-Ненецкий автономный округ.
Кроме того, пополнен состав изданий тех регионов, которые до сих пор были слабо представлены в корпусе: Вологодской, Курской, Ростовской областей, Республики Мордовии. Общее количество региональных СМИ, вошедших в состав пополнения, превышает 60. Среди них как традиционные районные, городские, областные газеты, так и информационные порталы, сетевые издания, материалы с официальных сайтов органов власти.
Большая коллекция СМИ регионов этого пополнения подготовлена коллективом Воронежского государственного университета. Работы по пополнению Регионального корпуса в 2024–2025 гг. поддержаны Благотворительным фондом содействия образованию «ДАР».
🔥17👏10❤6👍2
Media is too big
VIEW IN TELEGRAM
В Портрете слова Основного и четырех исторических корпусов НКРЯ появился новый виджет с информацией о первом упоминании слова в текстах корпуса. Помимо даты первого упоминания, виджет также предоставляет контекстуальную информацию о нем: имя автора, название документа, а в корпусах берестяных грамот и эпиграфики — также тип носителя и локализация находки.
Информация в виджете основывается на данных того корпуса, в Портрете слова которого находится пользователь. Для комплексного анализа и более достоверных выводов о первом упоминании слова во всем НКРЯ рекомендуется проверить его наличие в корпусах более ранних периодов. Это легко сделать, кликнув на соответствующую кнопку.
Информация в виджете основывается на данных того корпуса, в Портрете слова которого находится пользователь. Для комплексного анализа и более достоверных выводов о первом упоминании слова во всем НКРЯ рекомендуется проверить его наличие в корпусах более ранних периодов. Это легко сделать, кликнув на соответствующую кнопку.
❤13🔥7
В апреле мы обновили главную страницу сайта, чтобы сделать работу с корпусом более эффективной и комфортной для начинающих пользователей. Поисковая строка теперь автоматически определяет тип запроса и направляет пользователя в оптимальный вид поиска. При вводе одного слова (словоформы или леммы) — система активирует лексико-грамматический поиск в Основном корпусе. При вводе фразы или словосочетания — выполняется поиск по точным формам в Основном корпусе.
Непосредственно под поисковой строкой добавлены интерактивные примеры запросов. Эта функция существенно упрощает знакомство с форматами поисковых запросов.
Обзор возможностей, ранее доступный из поисковой строки, теперь вызывается по клику на соответствующий виджет под поисковой строкой.
Непосредственно под поисковой строкой добавлены интерактивные примеры запросов. Эта функция существенно упрощает знакомство с форматами поисковых запросов.
Обзор возможностей, ранее доступный из поисковой строки, теперь вызывается по клику на соответствующий виджет под поисковой строкой.
❤27👏4⚡1👎1
Сегодня отечественная лингвистика отмечает сразу две значимые даты: 90 лет со дня рождения Андрея Анатольевича Зализняка (1935-2017) и 21 год со дня запуска Национального корпуса русского языка.
Символично, что эти даты совпадают. Научные принципы, которые отстаивал А. А. Зализняк, — объективность, строгость метода, уважение к фактам языка — стали фундаментом для создания НКРЯ. Его труды по русской грамматике, включая знаменитый «Грамматический словарь», легли в основу морфологической разметки Корпуса.
Андрей Анатольевич был не только гениальным лингвистом, расшифровавшим множество памятников древней письменности и доказавшим подлинность «Слова о полку Игореве», но и неутомимым защитником научного подхода к языку. Его знаменитое высказывание «Истина существует, и целью науки является её поиск» остаётся девизом для всех, кто работает с Корпусом.
За 21 год НКРЯ стал незаменимым ресурсом для исследователей, преподавателей, переводчиков и всех любителей русского языка. Сегодня Корпус насчитывает более 2 миллиардов словоупотреблений и продолжает расти, с каждым годом привлекая все больше пользователей и становясь важнейшим инструментом для изучения языка, в том числе – языковых изменений во времени.
Символично, что эти даты совпадают. Научные принципы, которые отстаивал А. А. Зализняк, — объективность, строгость метода, уважение к фактам языка — стали фундаментом для создания НКРЯ. Его труды по русской грамматике, включая знаменитый «Грамматический словарь», легли в основу морфологической разметки Корпуса.
Андрей Анатольевич был не только гениальным лингвистом, расшифровавшим множество памятников древней письменности и доказавшим подлинность «Слова о полку Игореве», но и неутомимым защитником научного подхода к языку. Его знаменитое высказывание «Истина существует, и целью науки является её поиск» остаётся девизом для всех, кто работает с Корпусом.
За 21 год НКРЯ стал незаменимым ресурсом для исследователей, преподавателей, переводчиков и всех любителей русского языка. Сегодня Корпус насчитывает более 2 миллиардов словоупотреблений и продолжает расти, с каждым годом привлекая все больше пользователей и становясь важнейшим инструментом для изучения языка, в том числе – языковых изменений во времени.
❤72👍8⚡7