RusVectōrēs
496 subscribers
11 photos
57 links
Новости проекта RusVectōrēs: анонсы обновлений и общение с пользователями
https://rusvectores.org
По любым вопросам обращайтесь к @lizaku
Download Telegram
Поскольку RusVectōrēs тоже в каком-то смысле сервис популяризации науки, то мы поддерживаем эту декларацию:

Декларация ученых и популяризаторов науки

В настоящее время на рассмотрении в Государственной Думе находится Законопроект № 1057895-7 «О внесении изменений в Федеральный закон «Об образовании в Российской Федерации»». Этот документ создает правовую базу для лицензирования и иных способов регламентации любой просветительской деятельности. Налицо попытка государства взять под контроль свободу распространения знаний. У нас нет сомнений в том, что принятие Законопроекта № 1057895-7 крайне негативно скажется на развитии науки, культуры и технологий в нашей стране.

Знание – одна из базовых ценностей нашей цивилизации. Для нас – ученых, журналистов, преподавателей, представителей других профессий – приумножение и распространение знания стало делом жизни. Просветительство и популяризация науки – наш профессиональный и гражданский долг, для выполнения которого нам не требуется чье-либо разрешение. Сама постановка вопроса о лицензировании или иной регламентации просветительской деятельности со стороны государственных структур глубоко оскорбительна для нас.

Руководствуясь ст. 29 Конституции РФ, гарантирующей нам свободу слова и отсутствие цензуры, мы, нижеподписавшиеся, заявляем, что в случае принятия Законопроекта № 1057895-7:

- Мы продолжим заниматься просветительской деятельностью, не признавая правомочности тех ограничительных мер, которые могут быть введены на основе этого закона.
- Мы не будем обращаться за каким-либо видом лицензии, если таковая будет введена законом или подзаконными актами.
- Мы не будем предоставлять предварительные тексты выступлений или презентаций для согласования с государственными органами.

Мы считаем глубоко порочной саму концепцию Законопроекта № 1057895-7, которая не может быть улучшена отдельными поправками. Мы требуем немедленного отзыва этого позорного законопроекта из Государственной Думы.
Forwarded from RuShiftEval
Соревнование RuShiftEval проходит в 2021 году для сравнения различных методов для определения семантических сдвигов в диахронических корпусах. В 2020 году с успехом прошли две аналогичные дорожки: SemEval Task 1 где использовались английские, немецкие, шведские и латинские корпуса и DIACR-Ita на материале итальянского языка.
RuShiftEval - это первое соревнование такого рода для русского.

В отличие от предыдущих дорожек, мы используем не два, а три временных периода, которые естественным образом вытекают из истории русского языка:

досоветский (1700-1916),
советский (1918-1991),
постсоветский (1992-2016).

Дорожка пройдет в рамках 27-й международной конференции "Диалог". Статьи с описанием решений будут опубликованы в трудах конференции.

Важные даты

20 января
- анонс соревнования, начало тренировочной фазы
1 февраля - публикация отладочного датасета, начало отладочной фазы
22 февраля - публикация тестового датасета, начало тестовой фазы
28 февраля - завершение тестовой фазы, закрытие загрузки ответов
1 марта - оглашение результатов соревнования
20 марта - срок подачи статей
Между тем, начинается соревнование RuShiftEval. Оно посвящено детектированию изменения семантики русских слов во времени. Не сомневаемся, что большинство участников будут так или иначе использовать дистрибутивные модели.
Присоединяйтесь к соревнованию!
Forwarded from RuShiftEval
Началась Отладочная фаза соревнования RuShiftEval!

Мы приглашаем вас загрузить предсказания ваших систем для следующих 12 слов:

верховье
возраст
завод
закладка
земля
лох
помощник
пролетарий
промышленность
радикал
спутник
четверть

Starting kit с примером файла для загрузки на Codalab можно найти тут. Не забудьте заменить числа в файле на предсказания вашей системы.

Также напоминаем, что вы можете использовать диахронические word2vec-модели, обученные на соответствующих временных периодах НКРЯ. Скачать их можно здесь.
RusVectōrēs pinned «Началась Отладочная фаза соревнования RuShiftEval! Мы приглашаем вас загрузить предсказания ваших систем для следующих 12 слов: верховье возраст завод закладка земля лох помощник пролетарий промышленность радикал спутник четверть Starting kit с примером…»
Forwarded from RuShiftEval
Сегодня началась Тестовая фаза соревнования RuShiftEval'21. Вы уже можете загружать свои предсказания степени семантических изменений для 99 русских слов.
Ваш ответ должен представлять из себя текстовый файл (одно слово на строку), разделенный символами табуляции на 4 колонки. Первая колонка содержит слово, а следующие - три положительных числа, соответствующие степени семантического сдвига для этого слова в трёх парах временных периодов:
- до-советский и советский периоды,
- советский и пост-советский периоды,
- до-советский и пост-советский периоды.

Ещё раз напоминаем, что чем сильнее сдвиг, тем ниже должно быть значение в соответствующей колонке (то есть, значения соответствуют близости значений слова в разные периоды). Итоговая оценка генерируется как среднее арифметическое трех коэффициентов ранговой корреляции Спирмена (для трёх пар временных периодов) между вашими предсказаниями и ручной аннотацией.

Список слов для генерации оценок семантического сдвига можно скачать как Evaluation phase starting kit (или прямо тут в канале в предыдущем посте). Starting kit cсодержит рандомные значения сдвигов, которые вы должны заменить на реальные предсказания ваших систем.

Тестовая фаза длится, пока хоть где-то на Земле всё ещё продолжается 28 февраля. Каждая команда может загрузить максимум 10 ответов в этой фазе, так что расходуйте их с умом!
Важно: во время тестовой фазы лидерборд скрыт, так что вы не увидите сразу свои результаты.

Примечание: прямо сейчас Codalab вновь испытывает проблемы с HTTPS-сертификатом. К счастью, использование Chrome/Chromium (пока что) спасает.
А вот и статья, описывающая, как под капотом работает наш ELMoViz (визуализация контекстуализированных векторных репрезентаций в виде "двумерного текста"):

https://www.aclweb.org/anthology/2021.eacl-demos.18/
Пример работы сервиса
Напоминаем о нашем сайд-проекте RusNLP. Это поисковик по статьям, опубликованным на российских конференциях по компьютерной лингвистике: "Диалог", AIST, AINL.

Прямо
сейчас на "Диалоге" мы представляем RusNLP на постерной сессии. Если вам интересно, заходите поболтать в Zoom (программа конференции)

Подробнее о RusNLP:
Мы обкачали все публикации на этих конференциях, начиная с 2001 года, и тщательно разметили статьи по авторам и их аффилиациям.

Наш поисковик позволяет искать публикации по вашим запросам и отображает списки статей на схожую тему, независим от языка текста (английский или русский). Результаты поиска можно фильтровать по любому сочетанию авторов, аффилиаций, годов и конференций.
В честь совсем уже наступившего лета посмотрите этот отчёт о проекте по курсу программирования.
В этом рэпе упоминается RusVectōrēs (честно)!

https://www.youtube.com/watch?v=-6WHP1VoOiA
Конференция АИСТ в этом году пройдёт в декабре в солнечной Грузии, а именно в Тбилиси (также частично онлайн при поддержке Сколтеха).
Как и в предыдущие годы, на АИСТе планируется сильная NLP-секция, и мы будем очень рады вашим статьям!

Важные даты:
- Подача краткой аннотации до 1 сентября
- Подача основного текста до 15 сентября
- Решение до 1 ноября
- Конференция 16-18 декабря

Call for Papers

Видеозаписи докладов NLP-трека с прошлогоднего АИСТа

Подавайтесь, АИСТ ждёт вас в Тбилиси!
Всем привет,

Мы добавили на страницу визуализаций графики, полученные методом PCA (в дополнение к t-SNE). Их преимущество состоит в детерминированности: в отличие от t-SNE, PCA-проекция для данных слов и данной модели всегда одинакова. Если воспроизводимость визуализаций для вас критична, используйте PCA.

Кроме того, мы исправили множество мелких ошибок.

В ближайшие недели ожидайте обновление списка доступных моделей!
На RusVectōrēs теперь по умолчанию используется новая статическая модель ruwikiruscorpora_upos_cbow_300_10_2021, обученная на НКРЯ и дампе русской Википедии за ноябрь 2021 года. Она пришла на смену старой модели ruwikiruscorpora_upos_skipgram_300_2_2019

Встречайте все ваши любимые коронавирусные неологизмы!
Внимание!
Сегодня могут наблюдаться проблемы с доступом к сайту RusVectōrēs, но мы работаем над этим, никакой катастрофы не случилось.
Мы против войны, которую развязала Россия и мы солидарны с Украиной. Поэтому сейчас RusVectōrēs по умолчанию переключен на модель, обученную на украинской Википедии и CommonCrawl (корпус CoNLL-2017).
Прежние модели по-прежнему доступны для выбора в соответствующих вкладках или через API.
#нетвойне
RusVectōrēs pinned «Мы против войны, которую развязала Россия и мы солидарны с Украиной. Поэтому сейчас RusVectōrēs по умолчанию переключен на модель, обученную на украинской Википедии и CommonCrawl (корпус CoNLL-2017). Прежние модели по-прежнему доступны для выбора в соответствующих…»