На сайте Национального корпуса русского языка появился новый раздел, посвящённый нейросетевым моделям, которые используются для разметки слов и текстов Корпуса.
Теперь пользователям доступны:
- токенизатор
- векторные word2vec модели, обученные на текстах из 7 корпусов, которые мы используем для поиска слов-ассоциатов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов
Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.
Теперь пользователям доступны:
- токенизатор
- векторные word2vec модели, обученные на текстах из 7 корпусов, которые мы используем для поиска слов-ассоциатов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов
Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.
🔥17👍6👏1🤔1🤩1🏆1
Национальному корпусу русского языка – 20 лет!
29 апреля 2004 года сайт Корпуса был открыт для свободного доступа. Но работы по созданию НКРЯ начались значительно раньше, еще в 2000 году. Символично, что официальным «днем рождения» Корпуса стало именно 29 апреля – день рождения российского лингвиста, автора Грамматического словаря русского языка А. А. Зализняка (1935-2017).
Всё началось с идеи создать полное собрание текстов, которые были бы показательными с культурной точки зрения и отражали бы разнообразие прозы, написанной в период с 1965 по 2000 год. Сейчас НКРЯ – это 49 корпусов текстов общим объемом более двух миллиардов слов. За 20 лет Корпус стал незаменимым инструментом для лингвистов, преподавателей, студентов и всех, кто интересуется русским языком.
Поздравляем создателей проекта и тех, кто помогает ему развиваться! Благодаря вам НКРЯ продолжает расти и совершенствоваться, предоставляя новые возможности для изучения русского языка.
Для тех, кому интересно узнать больше об истории и современных возможностях Корпуса, мы подготовили подборку материалов:
— Посмотрите, как выглядел сайт Корпуса 20 лет назад, в Музее НКРЯ.
— Погрузитесь в историю создания Корпуса «из первых уст» в специальном проекте «Большого города».
— Изучите публикации о Корпусе в недавно обновленном разделе. Рекомендуем обратить внимание на свежую публикацию в журнале «Вопросы языкознания» о фундаментальной реконструкции и модернизации платформы НКРЯ.
— Скачайте и примените для собственных задач нейросетевые модели, которые используются для разметки слов и текстов Корпуса.
— Узнайте, как получить офлайновую версию Корпуса для исследований.
Тех, кто хочет принимать участие в развитии корпуса, приглашаем вступить в группу «Друзья НейроКРЯ». Вы будете первыми узнавать о готовящихся проектах и сможете принимать в них участие. Недавно мы запустили новый эксперимент, чтобы выяснить, какие определения слов лучше воспринимаются пользователями: взятые из словарей или сгенерированные нейросетью.
29 апреля 2004 года сайт Корпуса был открыт для свободного доступа. Но работы по созданию НКРЯ начались значительно раньше, еще в 2000 году. Символично, что официальным «днем рождения» Корпуса стало именно 29 апреля – день рождения российского лингвиста, автора Грамматического словаря русского языка А. А. Зализняка (1935-2017).
Всё началось с идеи создать полное собрание текстов, которые были бы показательными с культурной точки зрения и отражали бы разнообразие прозы, написанной в период с 1965 по 2000 год. Сейчас НКРЯ – это 49 корпусов текстов общим объемом более двух миллиардов слов. За 20 лет Корпус стал незаменимым инструментом для лингвистов, преподавателей, студентов и всех, кто интересуется русским языком.
Поздравляем создателей проекта и тех, кто помогает ему развиваться! Благодаря вам НКРЯ продолжает расти и совершенствоваться, предоставляя новые возможности для изучения русского языка.
Для тех, кому интересно узнать больше об истории и современных возможностях Корпуса, мы подготовили подборку материалов:
— Посмотрите, как выглядел сайт Корпуса 20 лет назад, в Музее НКРЯ.
— Погрузитесь в историю создания Корпуса «из первых уст» в специальном проекте «Большого города».
— Изучите публикации о Корпусе в недавно обновленном разделе. Рекомендуем обратить внимание на свежую публикацию в журнале «Вопросы языкознания» о фундаментальной реконструкции и модернизации платформы НКРЯ.
— Скачайте и примените для собственных задач нейросетевые модели, которые используются для разметки слов и текстов Корпуса.
— Узнайте, как получить офлайновую версию Корпуса для исследований.
Тех, кто хочет принимать участие в развитии корпуса, приглашаем вступить в группу «Друзья НейроКРЯ». Вы будете первыми узнавать о готовящихся проектах и сможете принимать в них участие. Недавно мы запустили новый эксперимент, чтобы выяснить, какие определения слов лучше воспринимаются пользователями: взятые из словарей или сгенерированные нейросетью.
🔥30🎉19❤16👍4🥰2
В составе Национального корпуса русского языка сейчас 28 параллельных корпусов. Начиналось все с русско-английской и англо-русской языковых пар, которые появились в 2005 году, а в этом году в корпус добавлены хакасский и японский языки.
Параллельный корпус – это особый тип корпуса, в котором тексту сопоставлен его перевод на другой язык. Между фрагментами (обычно – предложениями) оригинального и переводного текста устанавливается соответствие, называемое выравниванием. Выравнивание и разметка текстов позволяют использовать параллельный корпус как инструмент исследования.
Параллельные корпуса нужны не только лингвистам. Они полезны литературоведам, преподавателям языков, переводчикам, редакторам. Благодаря этим корпусам можно узнать способы перевода слов в разных контекстах, в том числе слов, у которых нет хороших эквивалентов в других языках. Посмотрите, как переводили захолустье на немецкий язык или удаль на английский. А если вам интересно узнать подробнее о составе, возможностях и любопытных открытиях, сделанных благодаря параллельным корпусам НКРЯ, рекомендуем заглянуть на страницу публикаций.
Параллельный корпус – это особый тип корпуса, в котором тексту сопоставлен его перевод на другой язык. Между фрагментами (обычно – предложениями) оригинального и переводного текста устанавливается соответствие, называемое выравниванием. Выравнивание и разметка текстов позволяют использовать параллельный корпус как инструмент исследования.
Параллельные корпуса нужны не только лингвистам. Они полезны литературоведам, преподавателям языков, переводчикам, редакторам. Благодаря этим корпусам можно узнать способы перевода слов в разных контекстах, в том числе слов, у которых нет хороших эквивалентов в других языках. Посмотрите, как переводили захолустье на немецкий язык или удаль на английский. А если вам интересно узнать подробнее о составе, возможностях и любопытных открытиях, сделанных благодаря параллельным корпусам НКРЯ, рекомендуем заглянуть на страницу публикаций.
🔥16👍12❤10🤩3⚡1
13-14 мая прошла первая стратегическая сессия «Информационные технологии и языки народов России». На мероприятии собрались специалисты в области цифровых языковых технологий, представители науки и образования, лингвисты, разработчики IT-проектов, языковые активисты.
Во второй день конференции старший менеджер продукта НКРЯ Ирина Виноградова рассказала о том, как оцифрованные тексты становятся корпусом, а также об особенностях работы с параллельными корпусами. Запись выступления можно посмотреть по ссылке (с 00:27:42)
В этом году наша команда продолжит увеличивать количество параллельных корпусов в НКРЯ. Мы приглашаем научные и образовательные коллективы, которые занимаются созданием таких корпусов, к сотрудничеству. Включение ваших текстов в НКРЯ позволит применить к ним передовые инструменты разметки и обработки, расширит возможности поиска, предоставит инструменты для визуализации данных, увеличит число пользователей вашего корпуса. Чтобы обсудить сотрудничество и включить ваши тексты в НКРЯ, пишите нам на info@ruscorpora.ru.
Во второй день конференции старший менеджер продукта НКРЯ Ирина Виноградова рассказала о том, как оцифрованные тексты становятся корпусом, а также об особенностях работы с параллельными корпусами. Запись выступления можно посмотреть по ссылке (с 00:27:42)
В этом году наша команда продолжит увеличивать количество параллельных корпусов в НКРЯ. Мы приглашаем научные и образовательные коллективы, которые занимаются созданием таких корпусов, к сотрудничеству. Включение ваших текстов в НКРЯ позволит применить к ним передовые инструменты разметки и обработки, расширит возможности поиска, предоставит инструменты для визуализации данных, увеличит число пользователей вашего корпуса. Чтобы обсудить сотрудничество и включить ваши тексты в НКРЯ, пишите нам на info@ruscorpora.ru.
🔥13👍10👏2
24 мая отмечается День славянской письменности и культуры. Язык, на котором мы говорим сегодня, начал формироваться более тысячи лет назад. Cозданием славянской письменности мы обязаны братьям-проповедникам из Греции, чьи имена знакомы нам еще со школы, — Кириллу (до принятия схимы известен как Константин Философ) и Мефодию.
На протяжении веков русский язык менялся – одни слова появлялись, другие выходили из употребления, менялись нормы языка, правила управления и ударение в словах. Проследить эти изменения можно с помощью инструментов, доступных на сайте Национального корпуса русского языка.
Знали ли вы, что слово продажник употреблялось еще в XII веке? Продажник сейчас — это менеджер по продажам. На первый взгляд – это новое слово, появившееся в конце XX или начале XXI века. Но в слове продажник нет ничего такого, чего не могло бы быть и в XIX, и в XVIII веке и так далее вплоть до самых седых веков, когда еще не было письменности. В нем есть приставка «про-», корень «-даж-» и суффикс «-ник». Есть слово продажа, которое, конечно, существовало задолго до менеджеров. Оказывается, нашим предкам ничто не мешало составлять слова типа продажник, наезд или продать и в XII веке, и в XIII. Правда, они значили не совсем то, что сейчас. Значение слова наезд, в общем, довольно близко к нынешнему: это была агрессия, когда кто-то кого-то атаковал, приехав на коне. Продажа означала штраф, а не действие по глаголу продать. А глагол продать означал «наложить штраф на кого-то». Значит, продажник был, говоря нынешним русским языком, коллектором. Похожая история со словом философствовать. Интуитивно кажется, что это слово связано с философией Нового времени, но в Ипатьевской летописи философствовали еще в конце XII века.
На протяжении веков русский язык менялся – одни слова появлялись, другие выходили из употребления, менялись нормы языка, правила управления и ударение в словах. Проследить эти изменения можно с помощью инструментов, доступных на сайте Национального корпуса русского языка.
Знали ли вы, что слово продажник употреблялось еще в XII веке? Продажник сейчас — это менеджер по продажам. На первый взгляд – это новое слово, появившееся в конце XX или начале XXI века. Но в слове продажник нет ничего такого, чего не могло бы быть и в XIX, и в XVIII веке и так далее вплоть до самых седых веков, когда еще не было письменности. В нем есть приставка «про-», корень «-даж-» и суффикс «-ник». Есть слово продажа, которое, конечно, существовало задолго до менеджеров. Оказывается, нашим предкам ничто не мешало составлять слова типа продажник, наезд или продать и в XII веке, и в XIII. Правда, они значили не совсем то, что сейчас. Значение слова наезд, в общем, довольно близко к нынешнему: это была агрессия, когда кто-то кого-то атаковал, приехав на коне. Продажа означала штраф, а не действие по глаголу продать. А глагол продать означал «наложить штраф на кого-то». Значит, продажник был, говоря нынешним русским языком, коллектором. Похожая история со словом философствовать. Интуитивно кажется, что это слово связано с философией Нового времени, но в Ипатьевской летописи философствовали еще в конце XII века.
🔥12❤9👍9⚡8
Хотите провести вечер с пользой? Посмотрите запись открытой лекции «Что такое Национальный корпус русского языка?».
Лекция будет интересна как новичкам, которые хотят разобраться в том, кому и зачем нужен Корпус, так и специалистам в области компьютерной лингвистики и обработки естественного языка, желающим узнать, с какими трудностями приходится сталкиваться при разработке корпусной платформы и как появление нейросетевых инструментов разметки меняет парадигму развития НКРЯ. Обо всем этом рассказал Дмитрий Морозов – технический директор НКРЯ, младший научный сотрудник Лаборатории прикладных цифровых технологий ММЦ НГУ.
Лекция была организована в рамках магистерской программы «Прикладное машинное обучение и большие данные» ММФ НГУ, реализуемой совместно со Школой анализа данных компании Яндекс. Узнать больше о магистерской программе, а также посмотреть записи прошлых лекций можно в группе ВКонтакте или Telegram-канале.
Лекция будет интересна как новичкам, которые хотят разобраться в том, кому и зачем нужен Корпус, так и специалистам в области компьютерной лингвистики и обработки естественного языка, желающим узнать, с какими трудностями приходится сталкиваться при разработке корпусной платформы и как появление нейросетевых инструментов разметки меняет парадигму развития НКРЯ. Обо всем этом рассказал Дмитрий Морозов – технический директор НКРЯ, младший научный сотрудник Лаборатории прикладных цифровых технологий ММЦ НГУ.
Лекция была организована в рамках магистерской программы «Прикладное машинное обучение и большие данные» ММФ НГУ, реализуемой совместно со Школой анализа данных компании Яндекс. Узнать больше о магистерской программе, а также посмотреть записи прошлых лекций можно в группе ВКонтакте или Telegram-канале.
👍21❤6🔥4👏1
В мае мы значительно расширили возможности сразу нескольких корпусов: Старорусского, Церковнославянского и Устного. В этих корпусах теперь доступны новые виды выдачи: Статистика, Частотность и n-граммы. Благодаря новому функционалу можно узнать, например, какие сочетания глаголов в богослужебных текстах встречаются чаще — пойте и превозносите или радуйтеся и веселитеся, а также определить, какие глаголы в императиве чаще встречаются с дополнением руку.
Статистические данные также появились в Портрете слова и Портрете корпуса. Кроме того, пользователям Старорусского, Церковнославянского и Устного корпусов доступна настройка выгрузки примеров и сортировки в режиме KWIC.
В этих корпусах, а также в Древнерусском корпусе и корпусах «Русская классика» и «От 2 до 15» теперь действует поиск по лемме и словоформе с помощью регулярных выражений.
Статистические данные также появились в Портрете слова и Портрете корпуса. Кроме того, пользователям Старорусского, Церковнославянского и Устного корпусов доступна настройка выгрузки примеров и сортировки в режиме KWIC.
В этих корпусах, а также в Древнерусском корпусе и корпусах «Русская классика» и «От 2 до 15» теперь действует поиск по лемме и словоформе с помощью регулярных выражений.
🔥13👍7❤3👏1🤩1
Древнерусский корпус пополнен на 31 тыс. словоупотреблений. В него включены, в частности, памятники древнерусской литературы «Слово о погибели Русской земли» и «Задонщина», а также официально-деловые документы: «Устав князя Ярослава» и грамоты XIII—XV веков из Украины, Молдовы, литовско-белорусских земель, Смоленска, Новгорода, Пскова и Москвы. Словарь корпуса пополнился почти на тысячу лексем, в том числе добавлены более ранние упоминания таких современных слов, как чемодан, таможенник и странствие.
В Портрете слова Древнерусского корпуса появился виджет «Похожие слова». Как и в других корпусах, где доступен этот виджет, ближайшие семантические ассоциаты слова сгенерированы автоматически. Модель, использованная для поиска слов-ассоциатов в Древнерусском корпусе, а также обновленная векторная модель для Старорусского корпуса доступны для скачивания в разделе Нейросетевые модели НКРЯ.
В Портрете слова Древнерусского корпуса появился виджет «Похожие слова». Как и в других корпусах, где доступен этот виджет, ближайшие семантические ассоциаты слова сгенерированы автоматически. Модель, использованная для поиска слов-ассоциатов в Древнерусском корпусе, а также обновленная векторная модель для Старорусского корпуса доступны для скачивания в разделе Нейросетевые модели НКРЯ.
🔥25👍8❤5🤩2👏1🏆1
На этой неделе вышел новый эпизод подкаста «Азы языка». В нем приняла участие Анастасия Козеренко — менеджер Национального корпуса русского языка и старший научный сотрудник Отдела экспериментальной лексикографии Института русского языка имени В. В. Виноградова Российской академии наук.
Ведущая подкаста Мимоза Фахрутдинова и Анастасия обсудили, что такое Корпус и какие задачи он помогает решать, кем и как создается НКРЯ, какие виды поиска и разметки есть в Корпусе. Особое внимание было уделено нейроразметке, благодаря которой можно быстрее размечать большие объемы текстов корпуса.
Слушайте эпизод на любимых платформах по ссылке.
Ведущая подкаста Мимоза Фахрутдинова и Анастасия обсудили, что такое Корпус и какие задачи он помогает решать, кем и как создается НКРЯ, какие виды поиска и разметки есть в Корпусе. Особое внимание было уделено нейроразметке, благодаря которой можно быстрее размечать большие объемы текстов корпуса.
Слушайте эпизод на любимых платформах по ссылке.
👍21👏3🏆2
6 июня в России и в мире отмечают День русского языка. Дата этого праздника была выбрана не случайно — в этот день родился великий русский поэт Александр Сергеевич Пушкин. В этом году мы отмечаем 225-летие со дня его рождения.
В честь этих событий мы подготовили для вас викторину. Проверьте, насколько хорошо вы знакомы с наследием А. С. Пушкина. Ответить на вопросы викторины можно, используя корпус «Русская классика».
В честь этих событий мы подготовили для вас викторину. Проверьте, насколько хорошо вы знакомы с наследием А. С. Пушкина. Ответить на вопросы викторины можно, используя корпус «Русская классика».
🔥13❤3👍3
Какой музыкальный инструмент чаще других встречается в произведениях А. С. Пушкина?
Anonymous Quiz
7%
рог
82%
лира
11%
арфа
Какое имя собственное со значительным отрывом лидирует в текстах, написанных А.С. Пушкиным?
Anonymous Quiz
39%
Петр
40%
Евгений
21%
Татьяна
Какие дни чаще всего проживают герои произведений А.С. Пушкина?
Anonymous Quiz
35%
счастливые
14%
великие
52%
златые
👏3
На картинке вы видите результаты сравнения двух запросов к текстам А. С. Пушкина в корпусе «Русская классика». Сможете ли вы догадаться, какие именно запросы мы сделали?
Anonymous Quiz
29%
мороз и солнце
13%
Руслан и Людмила
58%
Москва и Петербург
👏6
В корпусе «Социальные сети» появилась разметка тональностей текстов. Теперь для исследования можно отобрать тексты положительной или отрицательной тональности. Тексты, тональность которых определить не удалось, отнесены к неопределенной категории.
Разметка тональностей в корпусе «Социальные сети» появилась благодаря нашим Друзьям НейроКРЯ – с их помощью мы собрали данные для обучающего датасета, обучили нейросетевую модель, а затем разметили тексты корпуса. Поле в форме отбора подкорпуса и в информации о тексте отмечено специальным значком, означающим, что значения для атрибута сгенерированы НейроКРЯ.
В автоматической разметке могут встречаться ошибки. Если вы обнаружите их, пожалуйста, сообщите нам об этом с помощью кнопки «Сообщить об ошибке» в информации о тексте. Это поможет нам улучшить качество разметки.
Разметка тональностей в корпусе «Социальные сети» появилась благодаря нашим Друзьям НейроКРЯ – с их помощью мы собрали данные для обучающего датасета, обучили нейросетевую модель, а затем разметили тексты корпуса. Поле в форме отбора подкорпуса и в информации о тексте отмечено специальным значком, означающим, что значения для атрибута сгенерированы НейроКРЯ.
В автоматической разметке могут встречаться ошибки. Если вы обнаружите их, пожалуйста, сообщите нам об этом с помощью кнопки «Сообщить об ошибке» в информации о тексте. Это поможет нам улучшить качество разметки.
🔥13❤5👍5🏆3🤩2
Media is too big
VIEW IN TELEGRAM
В Портрете слова теперь можно исследовать отношение количества вхождений слова в категорию к объёму этой категории, умноженное на миллион (ipm). С помощью этого виджета можно определить, например, действительно ли Лев Толстой употреблял слово мир, чаще других русских классиков, учитывая объём написанных ими текстов, и в чьих текстах больше всадников — М.Ю. Лермонтова или А.С. Пушкина.
Новая диаграмма доступна в виджете «Статистика текстов» Портрета слова. Пользователь может выбрать метаатрибут, для которого нужно построить диаграмму, из списка наиболее показательных атрибутов корпуса. Чтобы увидеть круговую диаграмму, содержащую точное число вхождений слова в категорию или число текстов, содержащих искомое слово, нужно переключиться с ipm на слова или тексты.
Кроме того, в виде выдачи «Статистика» появилась информация об ipm в таблице. По умолчанию таблица отсортирована по количеству вхождений. Чтобы изменить критерий сортировки, кликните на название колонки.
Новая диаграмма доступна в виджете «Статистика текстов» Портрета слова. Пользователь может выбрать метаатрибут, для которого нужно построить диаграмму, из списка наиболее показательных атрибутов корпуса. Чтобы увидеть круговую диаграмму, содержащую точное число вхождений слова в категорию или число текстов, содержащих искомое слово, нужно переключиться с ipm на слова или тексты.
Кроме того, в виде выдачи «Статистика» появилась информация об ipm в таблице. По умолчанию таблица отсортирована по количеству вхождений. Чтобы изменить критерий сортировки, кликните на название колонки.
🔥15👍5🤩3🏆2🤔1
Лето — пора путешествий! Приглашаем вас в виртуальное путешествие в компании русских поэтов и писателей. Попробуйте угадать, какая страна, регион или географическая область зашифрована на скриншотах новой диаграммы в «Портрете слова». Чтобы найти точный ответ на вопрос, вы можете использовать корпус «Русская классика».
🏆10
🔥1