Древнерусский корпус пополнен на 31 тыс. словоупотреблений. В него включены, в частности, памятники древнерусской литературы «Слово о погибели Русской земли» и «Задонщина», а также официально-деловые документы: «Устав князя Ярослава» и грамоты XIII—XV веков из Украины, Молдовы, литовско-белорусских земель, Смоленска, Новгорода, Пскова и Москвы. Словарь корпуса пополнился почти на тысячу лексем, в том числе добавлены более ранние упоминания таких современных слов, как чемодан, таможенник и странствие.
В Портрете слова Древнерусского корпуса появился виджет «Похожие слова». Как и в других корпусах, где доступен этот виджет, ближайшие семантические ассоциаты слова сгенерированы автоматически. Модель, использованная для поиска слов-ассоциатов в Древнерусском корпусе, а также обновленная векторная модель для Старорусского корпуса доступны для скачивания в разделе Нейросетевые модели НКРЯ.
В Портрете слова Древнерусского корпуса появился виджет «Похожие слова». Как и в других корпусах, где доступен этот виджет, ближайшие семантические ассоциаты слова сгенерированы автоматически. Модель, использованная для поиска слов-ассоциатов в Древнерусском корпусе, а также обновленная векторная модель для Старорусского корпуса доступны для скачивания в разделе Нейросетевые модели НКРЯ.
🔥25👍8❤5🤩2👏1🏆1
На этой неделе вышел новый эпизод подкаста «Азы языка». В нем приняла участие Анастасия Козеренко — менеджер Национального корпуса русского языка и старший научный сотрудник Отдела экспериментальной лексикографии Института русского языка имени В. В. Виноградова Российской академии наук.
Ведущая подкаста Мимоза Фахрутдинова и Анастасия обсудили, что такое Корпус и какие задачи он помогает решать, кем и как создается НКРЯ, какие виды поиска и разметки есть в Корпусе. Особое внимание было уделено нейроразметке, благодаря которой можно быстрее размечать большие объемы текстов корпуса.
Слушайте эпизод на любимых платформах по ссылке.
Ведущая подкаста Мимоза Фахрутдинова и Анастасия обсудили, что такое Корпус и какие задачи он помогает решать, кем и как создается НКРЯ, какие виды поиска и разметки есть в Корпусе. Особое внимание было уделено нейроразметке, благодаря которой можно быстрее размечать большие объемы текстов корпуса.
Слушайте эпизод на любимых платформах по ссылке.
👍21👏3🏆2
6 июня в России и в мире отмечают День русского языка. Дата этого праздника была выбрана не случайно — в этот день родился великий русский поэт Александр Сергеевич Пушкин. В этом году мы отмечаем 225-летие со дня его рождения.
В честь этих событий мы подготовили для вас викторину. Проверьте, насколько хорошо вы знакомы с наследием А. С. Пушкина. Ответить на вопросы викторины можно, используя корпус «Русская классика».
В честь этих событий мы подготовили для вас викторину. Проверьте, насколько хорошо вы знакомы с наследием А. С. Пушкина. Ответить на вопросы викторины можно, используя корпус «Русская классика».
🔥13❤3👍3
Какой музыкальный инструмент чаще других встречается в произведениях А. С. Пушкина?
Anonymous Quiz
7%
рог
82%
лира
11%
арфа
Какое имя собственное со значительным отрывом лидирует в текстах, написанных А.С. Пушкиным?
Anonymous Quiz
39%
Петр
40%
Евгений
21%
Татьяна
Какие дни чаще всего проживают герои произведений А.С. Пушкина?
Anonymous Quiz
35%
счастливые
14%
великие
52%
златые
👏3
На картинке вы видите результаты сравнения двух запросов к текстам А. С. Пушкина в корпусе «Русская классика». Сможете ли вы догадаться, какие именно запросы мы сделали?
Anonymous Quiz
29%
мороз и солнце
13%
Руслан и Людмила
58%
Москва и Петербург
👏6
В корпусе «Социальные сети» появилась разметка тональностей текстов. Теперь для исследования можно отобрать тексты положительной или отрицательной тональности. Тексты, тональность которых определить не удалось, отнесены к неопределенной категории.
Разметка тональностей в корпусе «Социальные сети» появилась благодаря нашим Друзьям НейроКРЯ – с их помощью мы собрали данные для обучающего датасета, обучили нейросетевую модель, а затем разметили тексты корпуса. Поле в форме отбора подкорпуса и в информации о тексте отмечено специальным значком, означающим, что значения для атрибута сгенерированы НейроКРЯ.
В автоматической разметке могут встречаться ошибки. Если вы обнаружите их, пожалуйста, сообщите нам об этом с помощью кнопки «Сообщить об ошибке» в информации о тексте. Это поможет нам улучшить качество разметки.
Разметка тональностей в корпусе «Социальные сети» появилась благодаря нашим Друзьям НейроКРЯ – с их помощью мы собрали данные для обучающего датасета, обучили нейросетевую модель, а затем разметили тексты корпуса. Поле в форме отбора подкорпуса и в информации о тексте отмечено специальным значком, означающим, что значения для атрибута сгенерированы НейроКРЯ.
В автоматической разметке могут встречаться ошибки. Если вы обнаружите их, пожалуйста, сообщите нам об этом с помощью кнопки «Сообщить об ошибке» в информации о тексте. Это поможет нам улучшить качество разметки.
🔥13❤5👍5🏆3🤩2
Media is too big
VIEW IN TELEGRAM
В Портрете слова теперь можно исследовать отношение количества вхождений слова в категорию к объёму этой категории, умноженное на миллион (ipm). С помощью этого виджета можно определить, например, действительно ли Лев Толстой употреблял слово мир, чаще других русских классиков, учитывая объём написанных ими текстов, и в чьих текстах больше всадников — М.Ю. Лермонтова или А.С. Пушкина.
Новая диаграмма доступна в виджете «Статистика текстов» Портрета слова. Пользователь может выбрать метаатрибут, для которого нужно построить диаграмму, из списка наиболее показательных атрибутов корпуса. Чтобы увидеть круговую диаграмму, содержащую точное число вхождений слова в категорию или число текстов, содержащих искомое слово, нужно переключиться с ipm на слова или тексты.
Кроме того, в виде выдачи «Статистика» появилась информация об ipm в таблице. По умолчанию таблица отсортирована по количеству вхождений. Чтобы изменить критерий сортировки, кликните на название колонки.
Новая диаграмма доступна в виджете «Статистика текстов» Портрета слова. Пользователь может выбрать метаатрибут, для которого нужно построить диаграмму, из списка наиболее показательных атрибутов корпуса. Чтобы увидеть круговую диаграмму, содержащую точное число вхождений слова в категорию или число текстов, содержащих искомое слово, нужно переключиться с ipm на слова или тексты.
Кроме того, в виде выдачи «Статистика» появилась информация об ipm в таблице. По умолчанию таблица отсортирована по количеству вхождений. Чтобы изменить критерий сортировки, кликните на название колонки.
🔥15👍5🤩3🏆2🤔1
Лето — пора путешествий! Приглашаем вас в виртуальное путешествие в компании русских поэтов и писателей. Попробуйте угадать, какая страна, регион или географическая область зашифрована на скриншотах новой диаграммы в «Портрете слова». Чтобы найти точный ответ на вопрос, вы можете использовать корпус «Русская классика».
🏆10
🔥1
🔥14
Media is too big
VIEW IN TELEGRAM
В Основном и Региональном корпусах появилась диахроническая статистика подкорпуса. Теперь вы можете сравнивать графики, характеризующие объем и состав текстов подкорпуса, меняющийся во времени, с текстами всего корпуса. Например, можно увидеть, что женщины-авторы в XIX веке пишут чаще художественную литературу, чем тексты других жанров, а в XX веке положение выравнивается.
Чтобы увидеть графики диахронической статистики, нужно нажать на кнопку (i) в шапке подкорпуса, выбрать раздел Статистика и перейти во вкладку Распределение по времени.
Вы можете выбрать уровень детализации, задать диапазон дат и сглаживание. Как пользоваться новыми диаграммами и графиками и как интерпретировать полученные результаты, можно узнать в подсказке рядом с названием виджета.
Напомним, что в феврале пользователям стала доступна диахроническая статистика Основного и Регионального корпусов.
Чтобы увидеть графики диахронической статистики, нужно нажать на кнопку (i) в шапке подкорпуса, выбрать раздел Статистика и перейти во вкладку Распределение по времени.
Вы можете выбрать уровень детализации, задать диапазон дат и сглаживание. Как пользоваться новыми диаграммами и графиками и как интерпретировать полученные результаты, можно узнать в подсказке рядом с названием виджета.
Напомним, что в феврале пользователям стала доступна диахроническая статистика Основного и Регионального корпусов.
🔥12👍4🤩1👌1
В виде выдачи Частотность стало доступно больше результатов поиска, а еще больше можно скачать в виде электронной таблицы. Это очень важно для исследователя, которого интересуют не только самые распространенные варианты, но и более широкая картина. Теперь в таблице представлена 1000 самых частотных результатов запроса, а результаты выдачи с данными о частотности можно скачать в объеме до 5000 строк. Подробнее об этом и других видах выдачи читайте в Руководстве пользователя.
При выгрузке в формате Excel на вкладке Info теперь можно увидеть точное число не только найденных, но и скачанных документов и примеров. Пользователь сможет точнее оценить результаты выдачи и корректно их интерпретировать.
При выгрузке в формате Excel на вкладке Info теперь можно увидеть точное число не только найденных, но и скачанных документов и примеров. Пользователь сможет точнее оценить результаты выдачи и корректно их интерпретировать.
❤6🔥3🤩2🎉1
Сегодня отмечается День трудоголика. И хотя трудоголик и бездельник — антонимы, оба слова можно поставить в один ряд с другими, описывающими человека с негативной стороны.
Так что не засиживайтесь сегодня на работе допоздна! Уделите время себе и близким, отдохните и наберитесь сил перед новыми свершениями!
Так что не засиживайтесь сегодня на работе допоздна! Уделите время себе и близким, отдохните и наберитесь сил перед новыми свершениями!
👍15🥰13🤩6🔥3🤗1