Сегодня отечественная лингвистика отмечает сразу две значимые даты: 90 лет со дня рождения Андрея Анатольевича Зализняка (1935-2017) и 21 год со дня запуска Национального корпуса русского языка.
Символично, что эти даты совпадают. Научные принципы, которые отстаивал А. А. Зализняк, — объективность, строгость метода, уважение к фактам языка — стали фундаментом для создания НКРЯ. Его труды по русской грамматике, включая знаменитый «Грамматический словарь», легли в основу морфологической разметки Корпуса.
Андрей Анатольевич был не только гениальным лингвистом, расшифровавшим множество памятников древней письменности и доказавшим подлинность «Слова о полку Игореве», но и неутомимым защитником научного подхода к языку. Его знаменитое высказывание «Истина существует, и целью науки является её поиск» остаётся девизом для всех, кто работает с Корпусом.
За 21 год НКРЯ стал незаменимым ресурсом для исследователей, преподавателей, переводчиков и всех любителей русского языка. Сегодня Корпус насчитывает более 2 миллиардов словоупотреблений и продолжает расти, с каждым годом привлекая все больше пользователей и становясь важнейшим инструментом для изучения языка, в том числе – языковых изменений во времени.
Символично, что эти даты совпадают. Научные принципы, которые отстаивал А. А. Зализняк, — объективность, строгость метода, уважение к фактам языка — стали фундаментом для создания НКРЯ. Его труды по русской грамматике, включая знаменитый «Грамматический словарь», легли в основу морфологической разметки Корпуса.
Андрей Анатольевич был не только гениальным лингвистом, расшифровавшим множество памятников древней письменности и доказавшим подлинность «Слова о полку Игореве», но и неутомимым защитником научного подхода к языку. Его знаменитое высказывание «Истина существует, и целью науки является её поиск» остаётся девизом для всех, кто работает с Корпусом.
За 21 год НКРЯ стал незаменимым ресурсом для исследователей, преподавателей, переводчиков и всех любителей русского языка. Сегодня Корпус насчитывает более 2 миллиардов словоупотреблений и продолжает расти, с каждым годом привлекая все больше пользователей и становясь важнейшим инструментом для изучения языка, в том числе – языковых изменений во времени.
❤72👍8⚡7
Умеете ли вы анализировать не только сами тексты, но и их метаданные?
Национальный корпус русского языка — это не просто собрание текстов, а мощный инструмент для изучения языка через призму множества параметров: тематики, авторства, времени создания, региональной принадлежности и других характеристик текста.
Сравнение метаатрибутов позволяет понять, как контекст влияет на выбор слов: одни лексемы тяготеют к определённым жанрам, авторам или эпохам, другие распределены равномерно. Сравнение помогает выявлять стилистические особенности, культурные закономерности и решать практические задачи — от атрибуции текстов до изучения языковой эволюции.
Если для ответа на тест вы решите использовать корпусные инструменты вместо интуиции (что мы настоятельно рекомендуем!), ориентируйтесь на относительную частотность слов (ipm).
Национальный корпус русского языка — это не просто собрание текстов, а мощный инструмент для изучения языка через призму множества параметров: тематики, авторства, времени создания, региональной принадлежности и других характеристик текста.
Сравнение метаатрибутов позволяет понять, как контекст влияет на выбор слов: одни лексемы тяготеют к определённым жанрам, авторам или эпохам, другие распределены равномерно. Сравнение помогает выявлять стилистические особенности, культурные закономерности и решать практические задачи — от атрибуции текстов до изучения языковой эволюции.
Если для ответа на тест вы решите использовать корпусные инструменты вместо интуиции (что мы настоятельно рекомендуем!), ориентируйтесь на относительную частотность слов (ipm).
👀11👍4
В текстах какой тематики «истина» встречается в Основном корпусе реже, чем «прогресс»?
Anonymous Quiz
44%
политология
19%
астрология, парапсихология, эзотерика
16%
логика
20%
философия
👍4
В текстах какого автора, представленного в корпусе «Русская классика», «пироги» встречаются чаще, чем «булки» и «хлеб»?
Anonymous Quiz
43%
Н. В. Гоголь
24%
И. А. Крылов
34%
М. Е. Салтыков-Щедрин
👍4⚡2
В СМИ какого региона России (по данным корпуса Региональных СМИ) «инвестиции» встречаются чаще, чем «урожай»?
Anonymous Quiz
30%
Камчатский край
12%
Амурская область
58%
Санкт-Петербург
👍4🤩1
Media is too big
VIEW IN TELEGRAM
На сайте Корпуса появилась возможность сравнить распределение метаатрибутов у нескольких запросов.
Теперь исследователи могут не только анализировать частотность отдельных слов и конструкций, но и наглядно сопоставлять, как разные языковые единицы распределяются по авторам, жанрам, тематикам и другим параметрам текстов.
Сравнение запросов по метаатрибутам доступно во всех корпусах, где ранее было доступно сравнение графиков: в Основном, Газетных, Устном, Обучающем, Старорусском, а также корпусах «От 2 до 15» и «Русская классика».
Визуализация распределения метатрибутов доступна в виде линейчатого и столбчатого графиков. При наведении курсора мыши на график можно увидеть абсолютную или относительную величину атрибута. Картинку с графиком можно сохранить, кликнув на кнопку «Скачать».
Теперь исследователи могут не только анализировать частотность отдельных слов и конструкций, но и наглядно сопоставлять, как разные языковые единицы распределяются по авторам, жанрам, тематикам и другим параметрам текстов.
Сравнение запросов по метаатрибутам доступно во всех корпусах, где ранее было доступно сравнение графиков: в Основном, Газетных, Устном, Обучающем, Старорусском, а также корпусах «От 2 до 15» и «Русская классика».
Визуализация распределения метатрибутов доступна в виде линейчатого и столбчатого графиков. При наведении курсора мыши на график можно увидеть абсолютную или относительную величину атрибута. Картинку с графиком можно сохранить, кликнув на кнопку «Скачать».
❤15👍8🔥5
6 июня отмечается День русского языка. В этот день родился А.С. Пушкин, чьи произведения оказали значительное влияние на формирование современного русского литературного языка.
А знаете ли вы, как менялся русский язык со времён Пушкина? Проследить эту эволюцию помогает Национальный корпус русского языка — настоящая машина времени для лингвистических исследований!
Предлагаем пройти тест на знание того, как трансформировался русский язык. Для ответа на вопросы рекомендуем использовать Основной корпус НКРЯ.
А знаете ли вы, как менялся русский язык со времён Пушкина? Проследить эту эволюцию помогает Национальный корпус русского языка — настоящая машина времени для лингвистических исследований!
Предлагаем пройти тест на знание того, как трансформировался русский язык. Для ответа на вопросы рекомендуем использовать Основной корпус НКРЯ.
🎉16❤10
Когда слово «компьютер» обогнало по частотности «ЭВМ»?
Anonymous Quiz
6%
1970-е гг.
39%
1980-е гг.
55%
2000-е гг.
Какие два слова сравниваются на графике?
Anonymous Quiz
53%
господин и товарищ
33%
гражданин и товарищ
14%
Россия и СССР
👍2🤔1
Когда «телевизор» окончательно обогнал «радио» по частотности упоминаний в письменных текстах?
Anonymous Quiz
3%
1940-е гг.
46%
1960-е гг.
51%
1980-е гг.
🤔3🔥1
Нам часто задают вопросы: Почему слова нет в корпусе? Почему в корпусе есть ошибки? Если в корпусе так написано, значит, так правильно говорить? Иногда пользователи ошибочно интерпретируют данные корпуса. Мы решили разобрать наиболее частотные вопросы и заблуждения.
❤50👍18🔥12
Команда разработчиков НКРЯ завершила очередной этап масштабной работы по совершенствованию лингвистической разметки Основного корпуса.
Основные улучшения:
• Повышено качество лемматизации слов. Среди прочего устранена массовая ошибка в определении словарных форм существительных, оканчивающихся на -лец и -сец. Например, ранее словам живописец, пришелец приписывались некорректные леммы «живописц» и «пришельц». Теперь лемматизация таких слов выполняется правильно.
• Автоматические морфемные разборы для слов, отсутствующих в словаре, теперь генерируются не алгоритмом на базе ансамбля свёрточных нейронных сетей, а дообученной моделью RuRoberta. Вследствие улучшения морфемной разметки улучшилось и качество определения однокоренных слов, например, для таких слов как офис и аварийность.
Для пользователей это обновление означает более точные результаты поиска по грамматическим параметрам и улучшение работы корпусных инструментов анализа выдачи.
Обновленная разметка, охватившая почти 2 млн слов Основного корпуса, выполнена современными методами машинного обучения с привлечением экспертов-лингвистов для контроля качества. Несмотря на проделанную работу, в корпусе всё ещё может сохраняться небольшое количество ошибок разметки. Просим вас сообщать о найденных неточностях при помощи кнопки «Сообщить об ошибке» — мы исправим их при следующем обновлении.
Основные улучшения:
• Повышено качество лемматизации слов. Среди прочего устранена массовая ошибка в определении словарных форм существительных, оканчивающихся на -лец и -сец. Например, ранее словам живописец, пришелец приписывались некорректные леммы «живописц» и «пришельц». Теперь лемматизация таких слов выполняется правильно.
• Автоматические морфемные разборы для слов, отсутствующих в словаре, теперь генерируются не алгоритмом на базе ансамбля свёрточных нейронных сетей, а дообученной моделью RuRoberta. Вследствие улучшения морфемной разметки улучшилось и качество определения однокоренных слов, например, для таких слов как офис и аварийность.
Для пользователей это обновление означает более точные результаты поиска по грамматическим параметрам и улучшение работы корпусных инструментов анализа выдачи.
Обновленная разметка, охватившая почти 2 млн слов Основного корпуса, выполнена современными методами машинного обучения с привлечением экспертов-лингвистов для контроля качества. Несмотря на проделанную работу, в корпусе всё ещё может сохраняться небольшое количество ошибок разметки. Просим вас сообщать о найденных неточностях при помощи кнопки «Сообщить об ошибке» — мы исправим их при следующем обновлении.
❤22👍16🔥9
Обучающий корпус пополнен почти на 1 млн словоупотреблений. В корпус добавлена коллекция научно-популярных и учебно-научных текстов: три словаря из популярной серии энциклопедических словарей, предназначенных для среднего и старшего школьного возраста (словари юного филолога, литературоведа, художника), широко известные научно-популярные издания по русскому языку и литературе.
Пополнение увеличит долю научных текстов, обогатит лексику терминологией из области гуманитарных наук, расширит информацию по истории языка и предоставит материал для составления упражнений и творческих заданий по русскому языку и литературе.
Вторая часть пополнения – тексты детской литературы, в том числе рекомендуемые для внеклассного чтения. В коллекцию вошли рассказы и повести для детей и подростков В. Инбер, Т. Александровой, Ю. Томина, А. Усачева и современных молодых авторов С. Востокова, А. Игнатовой, Ю. Кузнецовой, А. Никольской, Д. Сиротина.
Работы по пополнению Обучающего корпуса в 2024–2025 гг. поддержаны благотворительным фондом содействия образованию «ДАР».
В Обучающем корпусе появился поиск по словообразованию, то есть поиск морфем (приставок, корней, суффиксов) в составе слова. В карточке слова доступен словообразовательный разбор.
Пополнение увеличит долю научных текстов, обогатит лексику терминологией из области гуманитарных наук, расширит информацию по истории языка и предоставит материал для составления упражнений и творческих заданий по русскому языку и литературе.
Вторая часть пополнения – тексты детской литературы, в том числе рекомендуемые для внеклассного чтения. В коллекцию вошли рассказы и повести для детей и подростков В. Инбер, Т. Александровой, Ю. Томина, А. Усачева и современных молодых авторов С. Востокова, А. Игнатовой, Ю. Кузнецовой, А. Никольской, Д. Сиротина.
Работы по пополнению Обучающего корпуса в 2024–2025 гг. поддержаны благотворительным фондом содействия образованию «ДАР».
В Обучающем корпусе появился поиск по словообразованию, то есть поиск морфем (приставок, корней, суффиксов) в составе слова. В карточке слова доступен словообразовательный разбор.
🔥21🥰5❤4🎉3🏆2👍1
Media is too big
VIEW IN TELEGRAM
В Портрете слова в разделе Сравнение скетчей теперь можно добавлять новые слова прямо на странице сравнения, не возвращаясь в Портрет слова. Поисковые поля расположены вверху страницы над сравнительными таблицами.
Функционал доступен полностью только авторизованным пользователям. Неавторизованные пользователи могут просматривать готовые сравнения, однако для самостоятельного сравнения слов потребуется вход в систему.
Функционал доступен полностью только авторизованным пользователям. Неавторизованные пользователи могут просматривать готовые сравнения, однако для самостоятельного сравнения слов потребуется вход в систему.
🔥18🤩2🏆1
В феврале мы сообщали о появлении в Портрете слова нового виджета «Толкования» для 5,5 тысяч слов. Теперь в Портрете слова Основного корпуса доступны автоматически сгенерированные определения для примерно 96 тысяч слов, что значительно расширяет справочные возможности сервиса. Толкования охватывают существительные, прилагательные, глаголы и наречия, представленные в корпусе.
Толкования доступны как для общеупотребительных слов, так и для неологизмов — например, кидалт и байопик. При создании определений мы руководствовались четырьмя принципами: корректность (соответствие действительности), доступность для понимания учащимися средней школы, грамотность с точки зрения русского языка и неизбыточность формулировок.
Эксперименты по генерации толкований проведены при поддержке Центра технологий для общества Yandex Cloud. В настоящее время функционал доступен в режиме бета-тестирования для авторизованных пользователей. Приглашаем вас оставлять обратную связь с помощью кнопки «Оценить» — это поможет нам совершенствовать качество толкований.
Толкования доступны как для общеупотребительных слов, так и для неологизмов — например, кидалт и байопик. При создании определений мы руководствовались четырьмя принципами: корректность (соответствие действительности), доступность для понимания учащимися средней школы, грамотность с точки зрения русского языка и неизбыточность формулировок.
Эксперименты по генерации толкований проведены при поддержке Центра технологий для общества Yandex Cloud. В настоящее время функционал доступен в режиме бета-тестирования для авторизованных пользователей. Приглашаем вас оставлять обратную связь с помощью кнопки «Оценить» — это поможет нам совершенствовать качество толкований.
❤20🔥4