Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Один из наиболее востребованных сервисов Инфокультуры - это сервис оценки простоты языка PlainRussian.ru [1]. Я лично создавал его в 2013-2014 годах, а позже написал подробности этого в статье на Хабре [2].

Если вкратце, то есть набор признаков простоты и сложности языка, применимый, как минимум, к большинству европейских языков. Это такие параметры как:
- число слов на предложение
- число слогов на слово
- число многосложных слов (от 4-х и более слогов)
- число редких слов, за пределами 5000 наиболее употребляемых слов
- число знаков на слово

Это неполный список способов измерения сложности текста не прибегая к лексическому и смысловому анализу. Большинство сложных текстов быстро определяются по средним значениям этих параметров на текст и ещё с 40-х годов прошлого века в США велась разработка и применение этих формул. Тексты проверялись без компьютеров, вручную, по написанным правилам, формулам и с помощью калькулятора в итоге. Это такие формулы как SMOG, Coleman-Lian Readability Test, Flesch-Kinkaid Readability Test, Lexile и ещё многих других, применяемых и по сей день.

Особенность всех этих формул была в том что:
1. Они переводили результаты измерения сложности в шкалу лет обучения, выдавая оценку того сколько надо учиться чтобы понимать этот текст.
2. Они все сильно привязаны к языку, английскому языку, и требовалось много времени чтобы перенести их на другие языковые модели.

Я лично давно думал про то что надо уметь измерять простоту русского языка и вот тогда в 2013 я и взялся за перевод этих формул под русский язык. А чтобы это проделать надо было где-то раздобыть текстов у которых была бы чёткая возрастная пометка. В итоге мне тогда удалось собрать несколько десятков текстов для внеклассного чтения для классов с 1 по 11й и на основе этих текстов запустить алгоритм подбора коэффициентов для этих формул. Сейчас, наверняка, с распространием новых инструментов, data science и тд, всё это можно было сделать относительно быстрее, а тогда я поступил проще и на месяц на старом ноутбуке запустил процесс перебора всех вариантов коэффициентов с поиском комбинации наименьшего среднего отклонения и наименьшего максимального отклонения, а также кросс-проверку всех 5 формул с подобранными коэффициентами. Подход этот далёкий от изначального использованного разработчиками этих формул, они проводили проверку понимаемости текстов на большой социологической выборке, но, как итог, формулы получились рабочими.

Сейчас PlainRussian.ru используют сотни и тысячи людей в сутки, через сервис можно проверить текст или ссылку, он помогает исправить наиболее запутанные тексты. За эти 7 лет он практически не менялся, по прежнему основной его результат - это оценка сложности в годах обучения, а для более сложных редакционных задач в рунете много других сервисов помогающих улучшать собственные тексты.

Надо ли наш сервис улучшить, например, добавить рекомендации как работать над текстом? Или подсказывать какие слова можно заменить, а какие предложения переписать? Возможно. И мы довольно давно думаем над тем что более всего востребовано и нужно. Если у Вас есть идеи, пожелания и предложения - пишите на ibegtin@infoculture.ru или в чате к телеграм каналу @begtinchat

Ссылки:
[1] https://plainrussian.ru/
[2] https://habr.com/ru/company/infoculture/blog/238875/

#russian #plainrussian #language
За начало границы муниципального района Волжский Самарской области принята точка, расположенная в юго-западном углу лесного квартала 21 Советского лесничества Кинельского лесхоза на развилке лесных дорог (точка 1 – пересечение границ муниципальных районов Волжский, Красноярский и Кинельский Самарской области), далее граница проходит смежно границе муниципального района Кинельский Самарской области в восточном направлении по южным границам лесных кварталов 21, 22 Советского лесничества Кинельского лесхоза до юго-восточного угла квартала 22 Советского лесничества Кинельского лесхоза (точка 12), в южном направлении на расстоянии 360 м, пересекая автодорогу, идущую от поселка городского типа Новосемейкино муниципального района Красноярский Самарской области до кольца автодороги, идущей от города Самары до города Отрадного, далее в западном направлении по северной границе лесного квартала 99 Советского лесничества Кинельского лесхоза...

Именно так начинается самое длинное предложение современного русского языка в 9377 слов и 61 064 знака без пробелов и является это предложение приложением "Картографическое описание границ муниципального района Волжский Самарской области" к закону Самарской области №58-ГД от 25.02.2005 "Об установлении границ муниципального района Волжский Самарской области" [1].

Я писал о нём много лет назад, в декабре 2013 года и всё искал есть ли пример превосходящий этот по масштабам насилия над русским языком. Напишите, если такой знаете. Ищу новые и актуальные примеры наиболее закрученного замороченного и усложненного написания русскоязычных юридических и нормативных текстов.

Ссылки:
[1] https://www.samregion.ru/documents/laws/58-gd-ot-25-02-2005/

#plainrussian #language #russian
Ай-яй-яй-яй, как интересно.

Коллеги из Счетная палата Российской Федерации опубликовали видеоролик о том как писать отчеты [1]

Что, безусловно, очень правильно и полезно. Вообще всем бы органам власти следовать тем же путём.
Я на всякий случай напомню что где-то с 5-й минуты в ролике приводится пример сравнения сложности текста. Для этого сравнения используется сервис Простым языком plainrussian.ru [2] созданным в Информационная культура и автором которого я являюсь.

Этот сервис специально создавался максимально простым и понятным, с оценкой сложности текста в годах обучения.
Сервис некоммерческий, использовать его может каждый, не стесняйтесь. А если будут вопросы/предложения/идеи то пишите на infoculture@infoculture.ru или в чате @begtinchat

В ролике Счетной палаты и в аннотации к нему коллеги, почему-то не упомянули ни меня ни сервис, но уверен что они это исправят.

Ссылки:
[1] https://www.youtube.com/watch?v=HvqerB5Bb2A
[2] https://plainrussian.ru

#plainrussian #services #lingustics #russian
В Forensic News статья [1] о том что российский интегратор Infotecs помещён в ban list (чёрный список) Министерством торговли США и теперь американские компании не могут поставлять им продукцию двойного назначения.

Издание делает особенный акцент на особенностях компании:
- Infotecs производит средства безопасности и криптографии
- учредитель Андрей Капчаев десять лет проработал в исследовательском подразделении КГБ и назван shadowy engineer and businessman и основным владельцем
- у компании есть лицензии от многих госорганов, в том числе от ФСБ для защиты гостайны
- большая часть бизнеса компании в России
- при этом у компании есть несколько партнерств и юридических лиц в США, более 20 лет
- компания поставляет продукты и услуги Сбербанку, РЖД, Ростелекому и другим госструктурам

И там ещё много всего, не буду всё перечислять. В статье в Commnews делают акцент на том что лицензии на работу с гостайной [2] и СКЗИ [3] - это просто нормы российского рынка, судить по их наличию о связях с ФСБ это, несколько, скажем так, натянуто. Я полагаю что здесь присутствовал набор факторов, а не только этот, но, конечно, всё это очень похоже на охоту на ведьм. То что написано про Инфотекс можно сказать про многие бизнесы.

Российские ИТ компании со специализацией на инфобезе как и другие активно пытались выйти на зарубежные рынки, некоторые туда уходили совсем, вроде Лаборатории Касперского которые в России российские, а за рубежом давно позиционируют себя как международный холдинг.

И это нормальная бизнес логика, скажем так в этом ничего противоестественного нет, только деньги, только заработок на новых рынках. А если Министерство торговли США начнет развивать эту практику, то они могут забанить так почти всех российских интеграторов. Не то чтобы бы их очень жалко, но и выглядит это странно. Российские интеграторы всегда были ключевыми проводниками и распространителями железа и ПО как раз преимущественно американских вендоров.

И конечно, важно помнить, текущие ограничения - это не санкционные списки, это ограничения именно на поставку ПО и устройств двойного назначения.

Ссылки:
[1] https://forensicnews.net/russian-cybersecurity-firm-infotecs-draws-u-s-federal-scrutiny-concern-from-national-security-experts/
[2] https://www.comnews.ru/content/218461/2022-01-26/2022-w04/infoteks-napisali-donos

#russian #it #government #infotecs
В рубрике интересных наборов данных ДетКорпус [1] аннотированный корпус русской детской литературы, который отражает литературный процесс XX—XXI в. Включает включает более 2273 прозаических произведений, написанных на русском языке в период с 1900-х по 2010-е годы и адресованных детям и подросткам.

Опубликован в виде интерфейса для поиска и в виде набора данных, общим объёмом около 1 ГБ в архиве [2] и под лицензией Creative Commons Zero.

Полезный набор данных для многих задач связанных с анализом текстов для детей и изучением русского языка в принципе.

Ссылки:
[1] http://detcorpus.ru/
[2] https://dataverse.pushdom.ru/dataset.xhtml?persistentId=doi:10.31860/openlit-2021.4-C001

#opendata #datasets #russian #languages
В рубрике регулярных напоминаний не могу не рассказать про сервис оценки простоты языка Простой язык (plainrussian.ru) [1] который я много лет назад сделал и передал в Инфокультуру при её создании.

Это очень простой сервис который на вход получает текст на русском языке и на выходе выдает его сложность в баллах где баллы - это число лет учёбы которые необходимо пройти чтобы понимать этот текст. Например, 11.97 баллов - это, примерно, 1-3 курс ВУЗа, а то есть около 12 лет учебы.

При том что анализ текстов - это, довольно сложная задача в общем понимании, но в данном случае было целью сделать как можно более доходчивый сервис для всех и каждого.

У сервиса есть API [2] и открытый код [3]. Код не обновлялся примерно лет 10, во всяком случае та его часть которая использовалась для расчета формул.

И вот в формулах и было самое сложное и интересное. Алгоритмы сервиса работают на тех же принципах что формулы читабельности текста созданные изначально для английского языка: Flesch-Kincaid, SMOG, Automatic Readability Index и другие. В их основе подсчет числа слов на предложение, среднее число слогов на слово, среднее число букв на слово, число редких слов и так далее.

Когда я задумал впервые сделать такой же алгоритм для русского языка, то столкнулся что для него формул нет. Их надо было, или придумать с нуля, или адаптировать коэффициенты английского языка для русского. В итоге я пошёл вторым путем, но составление собственного языкового корпуса с нужной мне статистикой тогда казалось длительной и неэффективной задачей, поэтому коэффициенты были подобраны грубым перебором за несколько недель-месяцев (?) нескольких десятков миллиардов вариантов коэффициентов на обучающей предразмеченной выборке из пары десятков текстов литературы для внеклассного чтения.

Сейчас всё это можно было бы решить гораздо быстрее, с современными ML инструментами расчеты были бы быстрее чем их проектирование.

Особенность итогового результата в том что тексты простые/бытовые он идентифицирует хорошо, а вот тексты юридические или нормативно-государственные оценивает всегда как особо сложные.

По прежнему сайт остаётся одним из тех проектов которым регулярно пользуются несмотря на его неизменность в последние годы.

Ссылки:
[1] https://plainrussian.ru/
[2] https://github.com/ivbeg/readability.io/wiki/API
[3] https://github.com/infoculture/plainrussian/tree/master/textmetric

#plainrussian #russian #language #api #tools