В качестве того как устроена работа порталов открытых данных, найду место не только для критики в адрес органов власти.
Например, московский портал data.mos.ru про данные из которого я совсем недавно писал как загруженные в DataCrafter. Из порталов открытых данных которые в России эксплуатируются, он один из наиболее живых, хотя там и не обновляли новости с 2019 года на самом портале.
Почему? Потому что это один из немногих порталов со структурированным хранилищем внутри. Данные хранятся изначально в СУБД в табличном и иерархическом виде, а во внешний контур отдаются слепками с текущей версии и возможностью получения их в XML/JSON/CSV форматах. Таких порталов данных в России создавалось немного, они дороже в ведении чем файлоcборники, в них ведутся метаданные к базам данных и, в принципе, с точки зрения управления данными, это более зрелые продукты.
К таким же можно отнести портал открытых данных Санкт-Петербурга data.gov.spb.ru, портал НСИ ФФОМС РФ nsi.ffoms.ru, портал открытых данных Минкультуры РФ opendata.mkrf.ru и ещё несколько десятков, а также некоторые отраслевые системы такие как ЕСИМО esimo.ru тоже, факту, являются порталами данных, со своими системами метаданных, правилами регистрации баз данных, экспортом наборов данных и так далее.
Когда-то, я помню, что московский портал data.mos.ru появился ещё до федерального data.gov.ru и сейчас в нём несколько десятков гигабайт данных. 4 ГБ последних версий и точно не скажу, но больше 15 ГБ архивных слепков наборов данных.
Главная же беда всех порталов открытых данных в России без исключения в низкой актуальности публикуемых данных. Данные обновляются редко, наиболее чувствительные данные не обновляются. Я могу сказать что сейчас в DataCrafter'е количественно больше данных из каталогов данных, они составляют около 90% всех наборов данных, а после загрузки запланированных на этот год каталогов их будет 99%. Но объёмно, в числе записей и в гигабайтах, основные данные - это данные из государственных информационных систем. Они составляют более 70% всех хранимых данных, не считая данных о госзакупках и юрлицах, которые ведутся у нас отдельно.
Поэтому каталог открытых данных у Москвы не так уж плох, но, конечно, и он может быть лучше, сильно лучше.
#opendata #datacatalogs #moscow #nsi
Например, московский портал data.mos.ru про данные из которого я совсем недавно писал как загруженные в DataCrafter. Из порталов открытых данных которые в России эксплуатируются, он один из наиболее живых, хотя там и не обновляли новости с 2019 года на самом портале.
Почему? Потому что это один из немногих порталов со структурированным хранилищем внутри. Данные хранятся изначально в СУБД в табличном и иерархическом виде, а во внешний контур отдаются слепками с текущей версии и возможностью получения их в XML/JSON/CSV форматах. Таких порталов данных в России создавалось немного, они дороже в ведении чем файлоcборники, в них ведутся метаданные к базам данных и, в принципе, с точки зрения управления данными, это более зрелые продукты.
К таким же можно отнести портал открытых данных Санкт-Петербурга data.gov.spb.ru, портал НСИ ФФОМС РФ nsi.ffoms.ru, портал открытых данных Минкультуры РФ opendata.mkrf.ru и ещё несколько десятков, а также некоторые отраслевые системы такие как ЕСИМО esimo.ru тоже, факту, являются порталами данных, со своими системами метаданных, правилами регистрации баз данных, экспортом наборов данных и так далее.
Когда-то, я помню, что московский портал data.mos.ru появился ещё до федерального data.gov.ru и сейчас в нём несколько десятков гигабайт данных. 4 ГБ последних версий и точно не скажу, но больше 15 ГБ архивных слепков наборов данных.
Главная же беда всех порталов открытых данных в России без исключения в низкой актуальности публикуемых данных. Данные обновляются редко, наиболее чувствительные данные не обновляются. Я могу сказать что сейчас в DataCrafter'е количественно больше данных из каталогов данных, они составляют около 90% всех наборов данных, а после загрузки запланированных на этот год каталогов их будет 99%. Но объёмно, в числе записей и в гигабайтах, основные данные - это данные из государственных информационных систем. Они составляют более 70% всех хранимых данных, не считая данных о госзакупках и юрлицах, которые ведутся у нас отдельно.
Поэтому каталог открытых данных у Москвы не так уж плох, но, конечно, и он может быть лучше, сильно лучше.
#opendata #datacatalogs #moscow #nsi
Forwarded from APICrafter
В каталог DataCrafter загружены данные каталога справочников и классификаторов Минздрава РФ nsi.rosminzdrav.ru, это 1520 справочников помещенных в группы Справочники и классификаторы и Медицина. Их совокупный объём составляет более 7 гигабайт.
Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.
Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей
В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.
#opendata #datacatalogs #medicine #data #datasets
Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.
Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей
В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.
#opendata #datacatalogs #medicine #data #datasets
DataCrafter
Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем (10-й пересмотр, том…
<p><span style="color:black">Данный справочник является электронным представлением </span><span style="color:black">XX</span> <span style="color:black">класса Тома 3 Международной статистической классификации болезней и проблем, связанных со здоровьем, и…
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
В проекте СП РФ "Госрасходы" теперь доступен открытый и документированный API с данными о расходах федерального бюджета.
Мы продолжаем не только публиковать машиночитаемые открытые данные по госфинансам, но и расширять наборы данных, предоставляемых по API.
Теперь по API можно получать не только данные о контрактах, заказчиках, субсидиях, получателях субсидий и нацпроектах, но и о расходах федерального бюджета.
API содержит:
- строки бюджета;
- расходы бюджета в разрезах ГРБС, разделов и подразделов, нацпроектов и госпрограмм;
- справочники, используемые в модуле "Бюджет" (справочник по разделам бюджета, перечень ГРБС, перечень госпрограмм и непрограммных направлений расходов, перечень нацпроектов, перечень видов расходов).
Документация и подробности тут: https://spending.gov.ru/pages/devs_api/
Мы продолжаем не только публиковать машиночитаемые открытые данные по госфинансам, но и расширять наборы данных, предоставляемых по API.
Теперь по API можно получать не только данные о контрактах, заказчиках, субсидиях, получателях субсидий и нацпроектах, но и о расходах федерального бюджета.
API содержит:
- строки бюджета;
- расходы бюджета в разрезах ГРБС, разделов и подразделов, нацпроектов и госпрограмм;
- справочники, используемые в модуле "Бюджет" (справочник по разделам бюджета, перечень ГРБС, перечень госпрограмм и непрограммных направлений расходов, перечень нацпроектов, перечень видов расходов).
Документация и подробности тут: https://spending.gov.ru/pages/devs_api/
О том когда открытые данные - это не открытые данные. Например, Фонд пространственных данных Санкт-Петербурга упоминает многочисленные данные в своем каталоге как открытые данные. Но, в понимании создателей фонда, открытые данные - это такие данные по которым плата не взимается, но всё равно надо заполнить заявку с заполнением всех своих паспортных данных, то зачем тебе данные нужны и ещё много чего.
То есть открытое в их понимании - это бесплатное. Что, конечно же, не синонимы, а называть открытыми данными такое некорректно.
#opendata #spb #geodata
То есть открытое в их понимании - это бесплатное. Что, конечно же, не синонимы, а называть открытыми данными такое некорректно.
#opendata #spb #geodata
Интересные стартапы анализа качества данных и качества потоков данных, развивающиеся в мире, но пока малоприменимые в России.
* Metaplane - позиционируют себя как Datadog для данных, позводяют отслеживать резкие изменения в потоках данных и предупреждать при их возникновении. Подключаются к облачным хранилищам и сервисам вроде Amazon Redshift, Snowflake, Google BigQuery, dbt, Looker. Публикуют полезный обзор State of data quality monitoring
* Anomalo - сервис мониторинга аномалий в данных, на текущий момент существует в виде концепта/прототипа/демо, обещают высокую автоматизацию, если даже не автоматическое выявление аномалий в потоках данных
* Data Fold - сервис каталогизации, систематизации данных и предупреждений при нарушениях в потоках данных. У них фокус на такое явление как data outages - задержки в поставках данных и оперативное реагирование. Сервисы с которыми интегрируются практически те же что и у Metaplane
* Databand - платформа для наблюдаемости данных, data observability, с большим списком интегрируемых сервисов и системами предупреждений при аномалиях
Почему практически все они малоприменимы в Росии? Такие платформы оказываются полезны только когда компания уже перенесла или переносит мощности по обработке данных в облака. Когда хранение данных уже вынесено из внутрикорпоративного контура, гораздо легче принимается решение о их внешнем мониторинге и обработке. В России этот тренд всё ещё не настолько проявляется, но постепенно он формируется.
#observability #data #dataquality
* Metaplane - позиционируют себя как Datadog для данных, позводяют отслеживать резкие изменения в потоках данных и предупреждать при их возникновении. Подключаются к облачным хранилищам и сервисам вроде Amazon Redshift, Snowflake, Google BigQuery, dbt, Looker. Публикуют полезный обзор State of data quality monitoring
* Anomalo - сервис мониторинга аномалий в данных, на текущий момент существует в виде концепта/прототипа/демо, обещают высокую автоматизацию, если даже не автоматическое выявление аномалий в потоках данных
* Data Fold - сервис каталогизации, систематизации данных и предупреждений при нарушениях в потоках данных. У них фокус на такое явление как data outages - задержки в поставках данных и оперативное реагирование. Сервисы с которыми интегрируются практически те же что и у Metaplane
* Databand - платформа для наблюдаемости данных, data observability, с большим списком интегрируемых сервисов и системами предупреждений при аномалиях
Почему практически все они малоприменимы в Росии? Такие платформы оказываются полезны только когда компания уже перенесла или переносит мощности по обработке данных в облака. Когда хранение данных уже вынесено из внутрикорпоративного контура, гораздо легче принимается решение о их внешнем мониторинге и обработке. В России этот тренд всё ещё не настолько проявляется, но постепенно он формируется.
#observability #data #dataquality
www.metaplane.dev
Metaplane | Data Observability for Modern Data Teams
Metaplane is a data observability platform that helps data teams know when things break, what went wrong, and how to fix it.
Написал в сегодняшнюю рассылку [1] про платформу Гостех, где постарался изложить свою позицию насколько можно подробно.
А тут напишу что мой прогноз в том что платформа Гостех имеет следующие сценарии развития:
- Оптимистичный (для платформы): стать востребованным продуктом, на платформу начнут переносить существующие ФГИСы, а Сбербанк/ФКУ Гостех станут естественной монополией в этой области.
- Реалистичный: платформу будут использовать для создания новых ФГИС и расширения интеграционного контура с Госуслугами и ещё рядом ФГИС под прямым контролем Минцифры и нескольких ФОИВов и иных госструктур.
- Пессимистичный: появятся систематизированные требования для гособлаков, появится 2-3 платформы близких по масштабу к текущему Гостеху, скорее всего в отраслевом разрезе. Например, единая облачная платформа ВПК или единая облачная платформа транспортной отрасли и так далее, с выстраиванием отраслевой специфики.
Всё это сценарии развития Гостеха с точки зрения его создателей, каковы сценарии его развития для пользователей и разработчиков которые будут с ним работать - я предлагаю подумать всем вместе.
Ссылки:
[1] https://begtin.substack.com/p/17-
#government #tech #technology #clouds
А тут напишу что мой прогноз в том что платформа Гостех имеет следующие сценарии развития:
- Оптимистичный (для платформы): стать востребованным продуктом, на платформу начнут переносить существующие ФГИСы, а Сбербанк/ФКУ Гостех станут естественной монополией в этой области.
- Реалистичный: платформу будут использовать для создания новых ФГИС и расширения интеграционного контура с Госуслугами и ещё рядом ФГИС под прямым контролем Минцифры и нескольких ФОИВов и иных госструктур.
- Пессимистичный: появятся систематизированные требования для гособлаков, появится 2-3 платформы близких по масштабу к текущему Гостеху, скорее всего в отраслевом разрезе. Например, единая облачная платформа ВПК или единая облачная платформа транспортной отрасли и так далее, с выстраиванием отраслевой специфики.
Всё это сценарии развития Гостеха с точки зрения его создателей, каковы сценарии его развития для пользователей и разработчиков которые будут с ним работать - я предлагаю подумать всем вместе.
Ссылки:
[1] https://begtin.substack.com/p/17-
#government #tech #technology #clouds
Substack
#17. Гостех: оптимистичный, реалистичный и пессимистичный сценарии
План, что и говорить, был превосходный: простой и ясный, лучше не придумать. Недостаток у него был только один: было совершенно неизвестно, как привести его в исполнение (c) Льюис Кэролл
Ivan Begtin via @vote
Какой сценарий развития ГосТех'а до 2024 года Вам кажется наиболее вероятным (см подробности тут https://begtin.substack.com/p/17-) ?
anonymous poll
Пессимистичный: появятся систематизированные требования для гособлаков, появится 2-3 платформы близких по масштабу к текущему Го – 54
👍👍👍👍👍👍👍 65%
Реалистичный: платформу будут использовать для создания новых ФГИС и расширения интеграционного контура с Госуслугами и ещё рядо – 24
👍👍👍 29%
Оптимистичный (для платформы): стать востребованным продуктом, на платформу начнут переносить существующие ФГИСы, а Сбербанк/ФКУ – 5
👍 6%
👥 83 people voted so far.
anonymous poll
Пессимистичный: появятся систематизированные требования для гособлаков, появится 2-3 платформы близких по масштабу к текущему Го – 54
👍👍👍👍👍👍👍 65%
Реалистичный: платформу будут использовать для создания новых ФГИС и расширения интеграционного контура с Госуслугами и ещё рядо – 24
👍👍👍 29%
Оптимистичный (для платформы): стать востребованным продуктом, на платформу начнут переносить существующие ФГИСы, а Сбербанк/ФКУ – 5
👍 6%
👥 83 people voted so far.
Германский парламент как место для дискуссий и объект общественного наблюдения в проекте Open Parliament TV [1], созданном abgeordnetenwatch.de [2] при поддержке фонда Demokratie.io [3].
В проекте собраны видеозаписи всех дебатов парламента Германии с 2017 года и текстовые транскрипты к ним. Через поисковые запросы можно находить любые обсуждаемые темы, а при просмотре видео автоматически идёт движение и подсветка текста в транскрипте.
У всего этого открытый код на Python, PHP, Javascript [4] и открытые данные [5] через API, с хорошей спецификацией и документацией на хранимые данные.
Всё это возможно благодаря тому что Бундестаг открывает машиночитаемые данные у себя на сайте [6] и с помощью библиотеки aenas [7] возможность синхронизации текста и видео.
Авторы обещают постепенно подключать новые парламенты, как знать, может и до российских федерального и регионального парламента доберутся или может кто-то в России сделает это на основе их открытого кода.
Ссылки:
[1] https://de.openparliament.tv
[2] https://abgeordnetenwatch.de
[3] https://www.demokratie.io
[4] https://github.com/OpenParliamentTV
[5] https://de.openparliament.tv/api/
[6] https://www.bundestag.de/services/opendata
[7] https://www.readbeyond.it/aeneas/
#opengov #opendata #opensource #germany #parliaments
В проекте собраны видеозаписи всех дебатов парламента Германии с 2017 года и текстовые транскрипты к ним. Через поисковые запросы можно находить любые обсуждаемые темы, а при просмотре видео автоматически идёт движение и подсветка текста в транскрипте.
У всего этого открытый код на Python, PHP, Javascript [4] и открытые данные [5] через API, с хорошей спецификацией и документацией на хранимые данные.
Всё это возможно благодаря тому что Бундестаг открывает машиночитаемые данные у себя на сайте [6] и с помощью библиотеки aenas [7] возможность синхронизации текста и видео.
Авторы обещают постепенно подключать новые парламенты, как знать, может и до российских федерального и регионального парламента доберутся или может кто-то в России сделает это на основе их открытого кода.
Ссылки:
[1] https://de.openparliament.tv
[2] https://abgeordnetenwatch.de
[3] https://www.demokratie.io
[4] https://github.com/OpenParliamentTV
[5] https://de.openparliament.tv/api/
[6] https://www.bundestag.de/services/opendata
[7] https://www.readbeyond.it/aeneas/
#opengov #opendata #opensource #germany #parliaments
de.openparliament.tv
Open Parliament TV | Search Engine and Interactive Video Platform for Parliamentary Debates
Open Parliament TV is a search engine and interactive video platform that makes political debates more transparent, accessible and understandable.
Все обсуждают кодекс этики ИИ от ассоциации ИИ, я всё тоже думал что о нём написать. Хорошее, плохое, нейтральное.
Напишу альтернативное. И вопрос ключевой - что есть основа этики законы или убеждения?
В моём понимании Нагорная проповедь и 10 заповедей стоят по уровню выше уголовных кодексов, законов и договоров. Вначале идут общечеловеческие принципы, а далее "законники" вносят их в правила устанавливаемые государством.
Если внимательно читать кодекс ИИ - это не кодекс этики, это присяга в которой ведущие компании в России занимающиеся ИИ говорят нам примерно следующее "Мамой клянёмся законы все соблюдать будем!". Поэтому этот кодекс - это не фундаментальный документ на поколения вперед, а художественный акт саморегулирования без обязательств. Примерно того же уровня, слово пацана, секс без брака, работа под честное слово и тому подобное, но "с учётом законодательства".
Поэтому этот кодекс как присяга - да, как идеология и базовые ценности - нет
#ai #codex #regulation
Напишу альтернативное. И вопрос ключевой - что есть основа этики законы или убеждения?
В моём понимании Нагорная проповедь и 10 заповедей стоят по уровню выше уголовных кодексов, законов и договоров. Вначале идут общечеловеческие принципы, а далее "законники" вносят их в правила устанавливаемые государством.
Если внимательно читать кодекс ИИ - это не кодекс этики, это присяга в которой ведущие компании в России занимающиеся ИИ говорят нам примерно следующее "Мамой клянёмся законы все соблюдать будем!". Поэтому этот кодекс - это не фундаментальный документ на поколения вперед, а художественный акт саморегулирования без обязательств. Примерно того же уровня, слово пацана, секс без брака, работа под честное слово и тому подобное, но "с учётом законодательства".
Поэтому этот кодекс как присяга - да, как идеология и базовые ценности - нет
#ai #codex #regulation
Результаты опроса https://t.me/begtin/3192 предварительные о судьбе ГосТеха:
71% - пессимистичны
25% - реалистичны
2% - оптимистичны
Что тут скажешь, независимый опрос показывает довольно мощный скепсис. Чтото не так со стартом проекта и с коммуникациями по его перспективам.
71% - пессимистичны
25% - реалистичны
2% - оптимистичны
Что тут скажешь, независимый опрос показывает довольно мощный скепсис. Чтото не так со стартом проекта и с коммуникациями по его перспективам.
Telegram
Ivan Begtin
Какой сценарий развития ГосТех'а до 2024 года Вам кажется наиболее вероятным (см подробности тут https://begtin.substack.com/p/17-) ?
anonymous poll
Пессимистичный: появятся систематизированные требования для гособлаков, появится 2-3 платформы близких по…
anonymous poll
Пессимистичный: появятся систематизированные требования для гособлаков, появится 2-3 платформы близких по…
Вдогонку про регулирование ИИ. Я напомню документ доклада Верховного комиссара по правам человека ООН. Artificial intelligence risks to privacy demand urgent action – Bachelet [1] и прямая ссылка [2]. Этот документ о том что есть критические области такие как: правоохрана, нацбезопасность, уголовное производство и управление границами где использование ИИ особенно может привести к нарушению прав человека. Эти области точно не являются объектом "саморегулирования", они являются предметом юридического и нормативного самоограничения государства в их применении. Поэтому даже если есть некритические области применения ИИ где скорее значение имеет право потребителя, а не право человека, но как только в признании кодекса ИИ в России появляется государство (а оно появилось в лице вице-премьера и ещё в некоторых формах), то и возникает ситуация отсутствия этих самоограничений.
Я ещё раз повторюсь, кодексы декларируют базовые принципы, кому не нравится Библия, могут руководствоваться декларацией прав человека, а когда в кодексе прописано соответствие законам - это сразу девальвирует документ. А кто пишет законы? А что если эти законы несправедливы? А чем должны руководствоваться авторы законов? Законы в России - это не права, а контроль и надзор, чаще государственный, редко общественный. Но оценку на справедливость они не проходят, как и оценку на этику. Так чем руководствоваться законодателю, кодексом? Нет, этот кодекс для этого не годится.
Ссылки:
[1] https://www.ohchr.org/EN/NewsEvents/Pages/DisplayNews.aspx?NewsID=27469&LangID=E
[2] https://www.ohchr.org/EN/HRBodies/HRC/RegularSessions/Session48/Documents/A_HRC_48_31_AdvanceEditedVersion.docx
#ai #regulation
Я ещё раз повторюсь, кодексы декларируют базовые принципы, кому не нравится Библия, могут руководствоваться декларацией прав человека, а когда в кодексе прописано соответствие законам - это сразу девальвирует документ. А кто пишет законы? А что если эти законы несправедливы? А чем должны руководствоваться авторы законов? Законы в России - это не права, а контроль и надзор, чаще государственный, редко общественный. Но оценку на справедливость они не проходят, как и оценку на этику. Так чем руководствоваться законодателю, кодексом? Нет, этот кодекс для этого не годится.
Ссылки:
[1] https://www.ohchr.org/EN/NewsEvents/Pages/DisplayNews.aspx?NewsID=27469&LangID=E
[2] https://www.ohchr.org/EN/HRBodies/HRC/RegularSessions/Session48/Documents/A_HRC_48_31_AdvanceEditedVersion.docx
#ai #regulation
В рубрике "где не в России найти данные о России", Development portal (d-portal.org) [1] портал для навигации по сведениям раскрываемым крупнейшими международными фондами и иными институтами развития о финансировании проектов в развивающихся странах. Кроме стран Азии, Африки и Южной Америки, там есть и немало данных о проектах прошедших и идущих в странах Восточной Европы и СНГ.
Например, страница о России включает сведения о:
- 330 активных проектах
- 2564 завершенных проектах
- 37 организаций публикующих эти данные
Что важно, эти данные содержат не только сведения о средствах которые получают(-ли) некоммерческие и коммерческие организации организации в рамках программ развития, но и средства выделенные на государственные проекты. Например, на развитие второй очереди государственной системы статистики, проект заканчивается в декабре 2021 года или на модернизацию гидрометеорологических услуг, проект заканчивается в декабре 2022 года и многих других которые заинтересованные могут найти.
Все данные доступны как открытые данные в CSV, XML и JSON форматах, а также через SQL интерфейс.
Открытый код проекта доступен на Github, первоисточником данных является IATI Registry, реестр раскрытия сведения о проектах на развитие, включающий стандарт раскрытия этих данных.
В целом же D-Portal - это хороший пример реализации системы раскрытия сведений. С открытыми данными, API, открытым кодом и ещё и способом получения данных через SQL.
#opendata #data #development #world #iati
Например, страница о России включает сведения о:
- 330 активных проектах
- 2564 завершенных проектах
- 37 организаций публикующих эти данные
Что важно, эти данные содержат не только сведения о средствах которые получают(-ли) некоммерческие и коммерческие организации организации в рамках программ развития, но и средства выделенные на государственные проекты. Например, на развитие второй очереди государственной системы статистики, проект заканчивается в декабре 2021 года или на модернизацию гидрометеорологических услуг, проект заканчивается в декабре 2022 года и многих других которые заинтересованные могут найти.
Все данные доступны как открытые данные в CSV, XML и JSON форматах, а также через SQL интерфейс.
Открытый код проекта доступен на Github, первоисточником данных является IATI Registry, реестр раскрытия сведения о проектах на развитие, включающий стандарт раскрытия этих данных.
В целом же D-Portal - это хороший пример реализации системы раскрытия сведений. С открытыми данными, API, открытым кодом и ещё и способом получения данных через SQL.
#opendata #data #development #world #iati
GitHub
GitHub - devinit/D-Portal
Contribute to devinit/D-Portal development by creating an account on GitHub.
Forwarded from APICrafter
В каталог DataCrafter были добавлены 40 наборов данных судебной системы города Москвы, они собраны в разделе Судебная система и включают такие наборы данных как:
- Перечень всех дел, находящихся в судах общей юрисдикции города Москвы - 5,3 миллиона дел
- Информация по первичным документам гражданского производства в судах общей юрисдикции города Москвы - 757 тысяч документов
- Расписание судебных заседаний в судах общей юрисдикции города Москвы - 3,7 миллиона записей
и многие другие наборы данных в общей сложности на 20 гигабайт структурированных данных.
Для работы с этими данными требуется регистрация на портале, доступ к ним осуществляется через ключ выдаваемый автоматически в личном кабинете.
Общая статистика
В общей сложности в каталоге DataCrafter на 27.10.2021 собрано 5952 наборов данных, 6094 таблицы, 433 миллиона строк (записей) в СУБД, 312 ГБ структурированных данных, 75 813 уникальных полей метаданных из которых классифицировано 9731 поле (выявлен один из идентификаторов - ИНН/ОГРН/ОКАТО и др).
- Перечень всех дел, находящихся в судах общей юрисдикции города Москвы - 5,3 миллиона дел
- Информация по первичным документам гражданского производства в судах общей юрисдикции города Москвы - 757 тысяч документов
- Расписание судебных заседаний в судах общей юрисдикции города Москвы - 3,7 миллиона записей
и многие другие наборы данных в общей сложности на 20 гигабайт структурированных данных.
Для работы с этими данными требуется регистрация на портале, доступ к ним осуществляется через ключ выдаваемый автоматически в личном кабинете.
Общая статистика
В общей сложности в каталоге DataCrafter на 27.10.2021 собрано 5952 наборов данных, 6094 таблицы, 433 миллиона строк (записей) в СУБД, 312 ГБ структурированных данных, 75 813 уникальных полей метаданных из которых классифицировано 9731 поле (выявлен один из идентификаторов - ИНН/ОГРН/ОКАТО и др).
DataCrafter
Судебная система
Данные из судебной системы относящиеся к Верховному суду, Арбитражным судам, Судам общей юрисдикции, Судебному департаменту и так далее.
В рубрике Особо крупные наборы данных представляю, GeneralIndex - огромная база n-gram, последовательностей слов, собранная из 107 миллионов научных журнальных статей, состоит из 19,7 миллиардов строк извлеченных с помощью SpaCy. Невероятная по масштабу работа проделанная командой Public Resource.
Зачем это нужно? Как минимум для обучения языковых моделей, как минимум для выявления основных направлений исследовательских мыслей, как минимум для задач классификации текстов. И ещё много для чего.
Уже хочется сделать такое для русского языка, но где найти столько статей в открытом доступе?
За наводку спасибо Григорию Бакунову .
Ссылки:
[1] https://archive.org/details/GeneralIndex
[2] https://spacy.io/
#opendata #data #datasets
Зачем это нужно? Как минимум для обучения языковых моделей, как минимум для выявления основных направлений исследовательских мыслей, как минимум для задач классификации текстов. И ещё много для чего.
Уже хочется сделать такое для русского языка, но где найти столько статей в открытом доступе?
За наводку спасибо Григорию Бакунову .
Ссылки:
[1] https://archive.org/details/GeneralIndex
[2] https://spacy.io/
#opendata #data #datasets
Internet Archive
The General Index : Public Resource : Free Download, Borrow, and Streaming : Internet Archive
Welcome to the General Index The General Index consists of 3 tables derived from 107,233,728 journal articles. A table of n-grams, ranging from unigrams to...
Один из наиболее востребованных сервисов Инфокультуры - это сервис оценки простоты языка PlainRussian.ru [1]. Я лично создавал его в 2013-2014 годах, а позже написал подробности этого в статье на Хабре [2].
Если вкратце, то есть набор признаков простоты и сложности языка, применимый, как минимум, к большинству европейских языков. Это такие параметры как:
- число слов на предложение
- число слогов на слово
- число многосложных слов (от 4-х и более слогов)
- число редких слов, за пределами 5000 наиболее употребляемых слов
- число знаков на слово
Это неполный список способов измерения сложности текста не прибегая к лексическому и смысловому анализу. Большинство сложных текстов быстро определяются по средним значениям этих параметров на текст и ещё с 40-х годов прошлого века в США велась разработка и применение этих формул. Тексты проверялись без компьютеров, вручную, по написанным правилам, формулам и с помощью калькулятора в итоге. Это такие формулы как SMOG, Coleman-Lian Readability Test, Flesch-Kinkaid Readability Test, Lexile и ещё многих других, применяемых и по сей день.
Особенность всех этих формул была в том что:
1. Они переводили результаты измерения сложности в шкалу лет обучения, выдавая оценку того сколько надо учиться чтобы понимать этот текст.
2. Они все сильно привязаны к языку, английскому языку, и требовалось много времени чтобы перенести их на другие языковые модели.
Я лично давно думал про то что надо уметь измерять простоту русского языка и вот тогда в 2013 я и взялся за перевод этих формул под русский язык. А чтобы это проделать надо было где-то раздобыть текстов у которых была бы чёткая возрастная пометка. В итоге мне тогда удалось собрать несколько десятков текстов для внеклассного чтения для классов с 1 по 11й и на основе этих текстов запустить алгоритм подбора коэффициентов для этих формул. Сейчас, наверняка, с распространием новых инструментов, data science и тд, всё это можно было сделать относительно быстрее, а тогда я поступил проще и на месяц на старом ноутбуке запустил процесс перебора всех вариантов коэффициентов с поиском комбинации наименьшего среднего отклонения и наименьшего максимального отклонения, а также кросс-проверку всех 5 формул с подобранными коэффициентами. Подход этот далёкий от изначального использованного разработчиками этих формул, они проводили проверку понимаемости текстов на большой социологической выборке, но, как итог, формулы получились рабочими.
Сейчас PlainRussian.ru используют сотни и тысячи людей в сутки, через сервис можно проверить текст или ссылку, он помогает исправить наиболее запутанные тексты. За эти 7 лет он практически не менялся, по прежнему основной его результат - это оценка сложности в годах обучения, а для более сложных редакционных задач в рунете много других сервисов помогающих улучшать собственные тексты.
Надо ли наш сервис улучшить, например, добавить рекомендации как работать над текстом? Или подсказывать какие слова можно заменить, а какие предложения переписать? Возможно. И мы довольно давно думаем над тем что более всего востребовано и нужно. Если у Вас есть идеи, пожелания и предложения - пишите на ibegtin@infoculture.ru или в чате к телеграм каналу @begtinchat
Ссылки:
[1] https://plainrussian.ru/
[2] https://habr.com/ru/company/infoculture/blog/238875/
#russian #plainrussian #language
Если вкратце, то есть набор признаков простоты и сложности языка, применимый, как минимум, к большинству европейских языков. Это такие параметры как:
- число слов на предложение
- число слогов на слово
- число многосложных слов (от 4-х и более слогов)
- число редких слов, за пределами 5000 наиболее употребляемых слов
- число знаков на слово
Это неполный список способов измерения сложности текста не прибегая к лексическому и смысловому анализу. Большинство сложных текстов быстро определяются по средним значениям этих параметров на текст и ещё с 40-х годов прошлого века в США велась разработка и применение этих формул. Тексты проверялись без компьютеров, вручную, по написанным правилам, формулам и с помощью калькулятора в итоге. Это такие формулы как SMOG, Coleman-Lian Readability Test, Flesch-Kinkaid Readability Test, Lexile и ещё многих других, применяемых и по сей день.
Особенность всех этих формул была в том что:
1. Они переводили результаты измерения сложности в шкалу лет обучения, выдавая оценку того сколько надо учиться чтобы понимать этот текст.
2. Они все сильно привязаны к языку, английскому языку, и требовалось много времени чтобы перенести их на другие языковые модели.
Я лично давно думал про то что надо уметь измерять простоту русского языка и вот тогда в 2013 я и взялся за перевод этих формул под русский язык. А чтобы это проделать надо было где-то раздобыть текстов у которых была бы чёткая возрастная пометка. В итоге мне тогда удалось собрать несколько десятков текстов для внеклассного чтения для классов с 1 по 11й и на основе этих текстов запустить алгоритм подбора коэффициентов для этих формул. Сейчас, наверняка, с распространием новых инструментов, data science и тд, всё это можно было сделать относительно быстрее, а тогда я поступил проще и на месяц на старом ноутбуке запустил процесс перебора всех вариантов коэффициентов с поиском комбинации наименьшего среднего отклонения и наименьшего максимального отклонения, а также кросс-проверку всех 5 формул с подобранными коэффициентами. Подход этот далёкий от изначального использованного разработчиками этих формул, они проводили проверку понимаемости текстов на большой социологической выборке, но, как итог, формулы получились рабочими.
Сейчас PlainRussian.ru используют сотни и тысячи людей в сутки, через сервис можно проверить текст или ссылку, он помогает исправить наиболее запутанные тексты. За эти 7 лет он практически не менялся, по прежнему основной его результат - это оценка сложности в годах обучения, а для более сложных редакционных задач в рунете много других сервисов помогающих улучшать собственные тексты.
Надо ли наш сервис улучшить, например, добавить рекомендации как работать над текстом? Или подсказывать какие слова можно заменить, а какие предложения переписать? Возможно. И мы довольно давно думаем над тем что более всего востребовано и нужно. Если у Вас есть идеи, пожелания и предложения - пишите на ibegtin@infoculture.ru или в чате к телеграм каналу @begtinchat
Ссылки:
[1] https://plainrussian.ru/
[2] https://habr.com/ru/company/infoculture/blog/238875/
#russian #plainrussian #language
www.plainrussian.ru
Проверка на понятность текстов — PlainRussian.ru
Инструмент оценки понятности текстов позволяет определить удобство чтения и простоту восприятия материалов.
Тем временем казахские СМИ тоже пишут про Гостех, только в Казахстане, но тоже на платформе Сбер'а [1]. Я лично недостаточно разбираюсь в казахских реалиях чтобы квалифицированно комментировать то что там пишут, но похоже что внутриполитические баталии там идут довольно сильные.
Ссылки:
[1] https://vlast.kz/obsshestvo/46896-cifrovoj-peredel.html
#govtech
Ссылки:
[1] https://vlast.kz/obsshestvo/46896-cifrovoj-peredel.html
#govtech
Власть
Цифровой передел
Казахстан долгие годы гордился своим электронным правительством и цифровизацией. Для этого были основания: мировые рейтинги указывали, что республика входит в 30-ку ведущих стран мира по развитию электронного правительства. Тем удивительнее оказалось подписание…
Если кратко Яндекс собрал Консультативный совет по развитию экосистемы [1] [2] [3].
Ссылки:
[1] https://yandex.ru/company/advisory-board/yandeks-sobral-konsultativnyy-sovet-po-razvitiyu-ekosistemy
[2] https://tass.ru/ekonomika/12785797
[3] https://vc.ru/offline/311667-yandeks-sozdal-konsultativnyy-sovet-po-razvitiyu-ekosistemy
#yandex #councils
Ссылки:
[1] https://yandex.ru/company/advisory-board/yandeks-sobral-konsultativnyy-sovet-po-razvitiyu-ekosistemy
[2] https://tass.ru/ekonomika/12785797
[3] https://vc.ru/offline/311667-yandeks-sozdal-konsultativnyy-sovet-po-razvitiyu-ekosistemy
#yandex #councils
Forwarded from APICrafter
В каталог APICrafter'а загружен архив экстренных оповещений Росгидромета с 2013 по 2021 год включительно, актуальные сведения на 28 октября 2021 года [1]. В архиве 7672 записи, общим объёмом 2,9 мегабайта. Поскольку в первоисточнике присутствуют только записи о точной дате и времени оповещения и краткий текст, то и здесь представлены эти же данные.
Данные можно скачать без авторизации в формате пакета данных в формате MongoDB (BSON) [2], а также через API.
Они могут быть полезны исследователям обучающих алгоритмы выявления именованных объектов, разработчикам систем оповещения с расшифровкой упоминаемых географических объектов и погодных явлений, журналистам исследующим природные катастрофы и их частоту в нашей стране.
Ссылки:
[1] https://data.apicrafter.ru/packages/meteorf-extramessage
[2] https://data.apicrafter.ru/packages/meteorf-extramessage/builds
#opendata #datasets #weather
Данные можно скачать без авторизации в формате пакета данных в формате MongoDB (BSON) [2], а также через API.
Они могут быть полезны исследователям обучающих алгоритмы выявления именованных объектов, разработчикам систем оповещения с расшифровкой упоминаемых географических объектов и погодных явлений, журналистам исследующим природные катастрофы и их частоту в нашей стране.
Ссылки:
[1] https://data.apicrafter.ru/packages/meteorf-extramessage
[2] https://data.apicrafter.ru/packages/meteorf-extramessage/builds
#opendata #datasets #weather
DataCrafter
Архив экстренных сообщений Росгидромета
Экстренные сообщения с официального сайта Росгидромета http://www.meteorf.ru/product/emergency/ с 2013 по 2021 годы
PrivaSeer [1] специальная поисковая система по 1.4 миллионам политикам приватности на английском языке. Создано командой Penn State College of Information Science and Technology, в качестве первоисточников используются наборы данных Free Company Dataset [2] и Common Crawl [3]. Собранный набор данных составляет более 13,85 гигабайт и его можно скачать как открытые данные [4] под лицензией CC BY-NC (свободно для некоммерческого использования).
Особенности поисковика в определении технологий указанных в политиках приватности, например, Cookies или Fingerprinting, выявление упоминания соответствия регулированию GDPR, Coppa, Privacy Shield, CalOPPA, а также поиск и фильтрация текстов по уровню сложности, для этого использовалась формула Flesch-Kincaid Reading Level.
Ссылки:
[1] https://privaseer.ist.psu.edu/
[2] https://docs.peopledatalabs.com/docs/free-company-dataset
[3] https://commoncrawl.org/
[4] https://bit.ly/2ZB6Y7F
#privacy #datasets #opendata
Особенности поисковика в определении технологий указанных в политиках приватности, например, Cookies или Fingerprinting, выявление упоминания соответствия регулированию GDPR, Coppa, Privacy Shield, CalOPPA, а также поиск и фильтрация текстов по уровню сложности, для этого использовалась формула Flesch-Kincaid Reading Level.
Ссылки:
[1] https://privaseer.ist.psu.edu/
[2] https://docs.peopledatalabs.com/docs/free-company-dataset
[3] https://commoncrawl.org/
[4] https://bit.ly/2ZB6Y7F
#privacy #datasets #opendata