Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Pinterest выложили в открытый доступ и с открытым кодом QueryBook [1], IDE для управления запросами к СУБД, их обменом, аналитике и тд. Выглядит весьма привлекательно, мне чем-то напомнило Trevor.io, только там ещё и визуальный запросо-построитель.

Полезное пополнение списка инструментов.

Ссылки:
[1] https://github.com/pinterest/querybook

#data #opensource #datatools #pinterest
Симпатичная, хотя и не полная, картинка о современных инфраструктурах данных от Indicative, стартапа по продуктовой аналитике. К ней же публикация у них на сайте [1]

Конечно, надо делать оговорку на то что они рисуют инфраструктуру только по тому рынку в котором существуют, а это рынок облачных решений в работе с данными. С другой стороны, корпоративный рынок данных за пределами России и вокруг корпораций/стартапов примерно такой. Во всяком случае в какой-то его части. Это полезно помнить в поиске собственной ниши в этих экосистемах.

Ссылки:
[1] https://www.indicative.com/data-warehouse/modern-data-infrastructure/

#data #clouddatamarket
Несмотря на скепсис в реализуемости этой концепции, конечно, движение в этом направлении - это скорее хорошо и правильно. Машиночитаемость права/правил/регулирования, а также автоматизация проверки реализуемости правил и многое другое вокруг этого - всё это очень важно.
🔹В «Сколково» подготовили концепцию машиночитаемого, то есть понятного для алгоритмов, права. Концепция посвящена анализу возможных сфер и способов применения технологий искусственного интеллекта, создания и использования формальных языков и работы с логическими языковыми моделями для работы с правом. Ее внедрение позволит снизить затраты граждан на юристов, а также трансформировать сферу контрольно-надзорной деятельности государства. Рабочая группа «Нормативное регулирование» организации «Цифровая экономика» одобрила документ и направила ее в Минэкономразвития для подготовки к принятию.

🔹Сферы применения технологий машиночитаемого права:
• Стандартизация и сертификация;
• Заключение и исполнение сделок в машиночитаемом формате;
• Контрольная (надзорная) деятельность;
• Отчетность и обмен данными;
• Административное производство и судопроизводство;
• Нормотворчество и управление изменениями в целях создания благоприятной юрисдикции для развития новых технологий;
• Возможности для применения машиночитаемого права при взаимодействии государственных информационных систем с цифровыми платформами.

💬«Развитие технологий машиночитаемого права крайне актуально для экономики страны и правовой сферы сегодня. Обсуждение проекта данной концепции на площадке рабочей группы “Нормативное регулирование” позволило вовлечь в ее подготовку ведущих экспертов из области права и науки, руководителей компаний цифрового бизнеса, представителей государства. Следующим шагом будет ее обсуждение с широким кругом органов власти на площадке Минэкономразвития России в ходе межведомственного согласования», — прокомментировал Дмитрий Тер-Степанов, заместитель генерального директора — директор по направлению «Нормативное регулирование» организации «Цифровая экономика».

#цифроваяэкономика
#нормативноерегулирование
#искусственныйинтеллект

https://bit.ly/3rLZQwZ
Zoom запретили продавать свои лицензии российским госорганами и госучреждениям [1], а это не только министерства, но и ВУЗы, школы и госкомпании. Так или иначе, но много альтернатив, не лучших, но каких-то существует. Гораздо важнее понять с чем связан этот запрет. Является ли это политикой конкретно Zoom или это первая ласточка во введении экспортных ограничений которые США, например, применяли к Ирану. Поэтому вот меня лично более всего тревожит отсутствие публично анонсированных причин ограничений.



Ссылки:
[1] https://secretmag.ru/news/zoom-zapretil-rossiiskim-chinovnikam-polzovatsya-videosvyazyu.htm

#government #it
Google выиграли суд против Oracle в Верховном суде США [1] [2] и суд признал что то что Google копировали 11 тысяч строк кода Java API - это было fair use и Google не должны ничего платить Oracle. В Oracle с этим, конечно же, не согласны [3], но что будут делать далее непонятно поскольку Верховный суд финальная судебная инстанция в США.

Ссылки:
[1] https://edition.cnn.com/2021/04/05/tech/google-oracle-supreme-court-ruling/index.html
[2] https://blog.archive.org/2021/04/06/a-good-day-for-the-open-web/
[3] https://www.oracle.com/news/announcement/oracle-statement-regarding-oracle-v-google-040521.html

#oracle #google #java #api
Регулярные напоминания

Я время от времени, по мере роста числа подписчиков, напоминаю о проектах которые я и моя команда ведём. Это не исчерпывающий список, а самое что ни на есть основное.

В телеграм
- @begtin - мой канал в телеграм где я пишу про данные, госданные, иногда про госфинансы и госуправление, ИТ в гос-ве и около, технологии и про госзакупки.
- @infoculture - телеграм канал АНО "Инфокультура" которое я возглавляю
- @ahminfin - телеграм канал моей коллеги, Ольги Пархимович, она ведёт разработку проекта Госрасходы (spending.gov.ru) и руководит проектом Госзатраты (clearspending.ru) и регулярно пишет о разных проблемах и достижениях профильных органов власти в этой области и про открытые данные, не только в госфинансах.

Проекты (активные)

По госфинансам
- Госрасходы (spending.gov.ru) - аналитический портал Счетной палаты РФ с анализом данных о госрасходах включая полную базу госконтрактов, субсидий (до ноября 2020 года), иных данных. С открытыми данными, API и так далее. А также с аналитикой по нацпроектам и госпрограммам.
- Госзатраты (clearspending.ru) - изначальный общественный негосударственный проект по анализу госконтрактов созданный для Комитета Гражданских Инициатив. Сейчас поддерживается и развивается Инфокультурой. Также с открытыми данными и API.

По НКО
- Открытые НКО - портал по всем некоммерческим организациям которые существуют в России, включая данные по их контрактам, субсидиям, полученным грантам, идущим арбитражным делам и сдаваемых ими отчетам. С открытыми данными и API.
- Данные НКО - портал открытых данных созданных специально для НКО для раскрытия данных о их деятельности. На базе CKAN с открытыми данными и API.

По открытым данным
- Хаб открытых данных - общественный портал открытых данных, включает многие данные которые мы собирали параллельно официальным порталам открытых данных. В последнее время обновляется сильно реже, давно думаем о его реорганизации. На базе CKAN с открытыми данными и API.

Другое
- Простой русский язык - простой инструмент измерения сложности текстов, выдает показатель в годах обучения. С открытым API и открытым кодом
- Национальный цифровой архив - проект по архивации веб-сайтов Рунета и иных цифровых объектов/артефактов. На практике совокупность проектов под одним брендом. С большими данными в виде дампов архивов сайтов.
- День открытых данных - ежегодное мероприятие по открытым данным в России/Москве.

Исследования
-
Приватность государственных мобильных приложений в России - о том какие трекеры в каких госприложениях.
- Open Data Review - Открытые данные в российском правовом поле: обзор лучших практик, рекомендаций и барьеров
- Оценка открытости государственных информационных систем в России - о том какие ГИС есть в России и насколько они открыты
- Открытость государства в России - ежегодный доклад Счетной палаты и ряда НКО
- Утечки данных из государственных информационных систем - о том как персональные данные утекают из государственных и регулируемых государством информационных систем

Блоги и медиа
- Блог Инфокультуры на Хабре - тексты большого формата, пишем туда нечасто, не писали много лет, но начали снова.
- Рассылка Инфокультуры - регулярные новости про открытые данные и события, и иную деятельность как нашу Инфокультуры так и партнёров. 7,5 тысяч подписчиков.
- Моя личная рассылка на Substack - я стараюсь писать туда 2-4 раза в месяц. Темы шире чем у рассылки Инфокультуры и веду я её лично, с середины прошлого года специально для лонгридов.
- Блог begtin.tech - мой блог для публикаций "среднего размера", регулярно возвращаюсь к нему, хотя пишу даже реже чем в рассылку.

Дополнительные ресурсы
- открытый код на Github infoculture, datacoon, ruarxive, ivbeg
- открытые данные на data.world infoculture, ibegtin
- документированные госAPI на Postman infoculture-public
- профили на международном портале данных гуманитарных кризисов infoculture

#opendata #opengov
Кстати, не могу не напомнить что сайт Открытого правительства open.gov.ru [1] окончательно выродился и не обновлялся ни в какой форме уже более года. Его вначале переименовали в сайт Экспертного совета, хотя это и было странно потому что у Экспертного совета при Пр-ве был другой сайт ec.ac.gov.ru [2], за него отвечал аналитический центр при Пр-ве, сейчас сайт не живой.

За open.gov.ru также стал отвечать аналит. центр при Пр-ве, а ранее его вели в АЦ Форум [3], у которых остался только один ресурс/артефакт в виде Вики по деятельности Открытого пр-ва [3]

Сейчас ни Экспертного совета, ни Открытого правительства, ни какой-либо структуры на их смену в федеральном пр-ве не возникло. Артефакты их деятельности постепенно исчезают. На всякий случай, конечно, у нас есть архивы, но это не отменяет ситуации в том что за открытость гос-ва в России давно уже ни одно ведомство не отвечает.

Ссылки:
[1] https://open.gov.ru
[2] https://ec.ac.gov.ru/
[3] http://wiki.ac-forum.ru

#opendata #opengov #webarchive #archive
Весьма разумные слова, лично я всё более и более убеждаюсь что вся эта затея и "хайп" с CDTO очень сильно обесценили само направление развития что госорганов что госкомпаний. Когда в организации нет CIO, то о каком CDTO может идти речь? CDTO необходимы в тех редких случаях когда у компаний уже хорошо выстроены процессы, хорошо развито ИТ и нужен "рывок" в переходе от классической бизнес модели к цифре и тогда возникает временная роль в виде CDTO на период этого перехода.

#cdto #cdo #cio
Forwarded from TAdviser
Перестаньте строить маркетплейсы и увольте директоров, которые нуждаются в CDTO - выступление основателя «220 Вольт» Алексея Федорова на конференции TAdviser https://www.tadviser.ru/a/590219
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
В 2018 году было принято Постановление Правительства о проведении ежегодного «Всероссийского конкурса лучших проектов создания комфортной городской среды в малых городах и исторических поселениях» [0].

Идея была в том, чтобы историческим поселениям и городам численностью до 100 тыс. человек выделить средства на мероприятия по благоустройству территорий и создание благоприятной и комфортной городской среды [1].

Хорошая идея, но привела она к тому, что участники конкурса начали проводить закупки на разработку конкурсных заявок, например:

- Гулькевичское городское поселение оценило разработку конкурсной заявки в 3,5 млн руб. [2]. Для сравнения: расходы поселения в прошлом году составили 254 млн руб., т.е. на заявку готовы потратить почти 1,5% годового бюджета.
- Администрация Югорска готова была потратить 2,2 млн руб. [3], но заключила контракт на 1,4 млн руб. [4]
- Онежский муниципальный район объявил закупку на 500 тыс. руб. [5]
- Администрация города Уварово - 4 млн руб. [6]
- Город Галич Костромской области - 1,1 млн руб. [7]
- Город Армавир - 2,5 млн руб. [8]
- и т.д.

Как говорил кот Матроскин: «чтобы получить бюджетные деньги, нужно потратить бюджетные деньги», ведь все закупки проводятся по 44-ФЗ.

Корректно ли закупать разработку конкурсной заявки? Зависит ли победа в конкурсе от наличия закупки на его участия? Зависит ли объем выигранного в конкурсе финансирования от стоимости разработки заявки?

[0] https://konkurs.gorodsreda.ru (сайт конкурса выдает ошибку 404)
[1] http://government.ru/awards/698/about/
[2] https://zakupki.gov.ru/epz/order/notice/ok504/view/documents.html?regNumber=0118300000621000093
[3] https://zakupki.gov.ru/epz/order/notice/ea44/view/common-info.html?regNumber=0187300005820000260
[4] https://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=3862201231020000036
[5] https://zakupki.gov.ru/epz/order/notice/ea44/view/common-info.html?regNumber=0124300016421000048
[6] https://zakupki.gov.ru/epz/order/notice/ok504/view/common-info.html?regNumber=0164300006921000009
[7] https://zakupki.gov.ru/epz/order/notice/ea44/view/common-info.html?regNumber=0141300019221000011
[8] https://zakupki.gov.ru/epz/order/notice/ok504/view/common-info.html?regNumber=0318300552920000662
Есть органы власти на которых можно рассказывать про архивацию сайтов, инвентаризацию ИТ ресурсов и открытость данных одновременно, потому что на них все эти темы сходятся.

В 2018 году при "расщеплении" и "слиянии" Минобрнауки и ФАНО и появления Минпросвещения и нового Минобрнауки одним из ключевых вопросов был в том как будут поделены активы/подведы двух ФОИВов. Делили их очень долго, поделили, насколько я знаю, с большим трудом и один из ключевых подведов Минобранауки, ФГАУ ГНИИ ИТТ «Информика» было присоединено к ФГАОУ ДПО «Академия Минпросвещения России». У Информики в активе было несколько десятков если не сотен проектов которые делались для прошлых реинкарнаций Минобрнауки РФ и собственные ресурсы. Какие-то из этих ресурсов имели статус государственных информационных систем, какие-то не имели никакого статуса, полной картины, я подозреваю, ни у кого нет ну или она есть только внутри самого Минпросвещения.

Что мы имеем сейчас:
1. Сайт Информики [1] не обновлялся 2.5 года, а с января месяца у него "протух" сертификат. Обычно это признак того что сайт относительно скоро исчезнет.
2. Судьба проектов вроде сайтов о дошкольном образовании do.edu.ru [2] и eo.edu.ru [3], непонятна. do.edu.ru не обновлялся уже 4 года, а eo.edu.ru не имеет вообще никаких выходных данных.
3. В списках информационных систем Минпросвещения РФ нет ничего про их текущие эксплуатируемые системы [4] и упоминается только Единая государственная информационная система. «Информационно-аналитическая платформа» [5] (сейчас недоступна).
4. Несмотря на то что у Минпросвещения РФ есть раздел открытых данных [5] и там даже публикуются какие-то данные, но нет никаких ресурсов значительно объёма именно из систем Информики. Например, более 10 тысяч образовательных материалов из системы ФЦИОР [6] или ФПУ (Федеральный перечень учебников) [7] и ещё многое другое.

Я могу продолжать ещё долго, таких ресурсов у Информики ещё много.

Что в итоге
- организация ликвидируется
- её информационные ресурсы не инвентаризируются
- данные из них не архивируются
- данные не преобразуются в открытые данные
- информационные ресурсы постепенно исчезают или начнут исчезать

Отдельный вопрос о том почему возникает такая ситуация и ответов на него много. Главный из них - это отсутствие культуры работы с данными и информацией во многих оранах власти. Ведомственная статистика, данные, документы и иные материалы, зачастую, доступны только за последние 4-7 лет. А в случаях такой реорганизации как в случае разделения и слияния ФОИВов и того хуже.

Ссылки:
[1] https://informika.ru
[2] https://do.edu.ru
[3] https://eo.edu.ru
[4] https://edu.gov.ru/activity/information_systems/
[5] https://opendata.edu.gov.ru/opendata/
[6] http://fcior.edu.ru
[7] https://fpu.informika.ru

#data #webarchive #opendata #archive
Ещё про архивацию данных, на сей раз институтов развития. К примеру, ВЭБ.РФ много лет публикует много материалов на своём сайте, обязательную отчетность и, например, отчетность об устойчивом развитии . Они есть в разделе на сайте в PDF формате [1], но только за 3 года: 2013, 2014 и 2016 они создавали (заказывали подготовку) отчётность в интерактивном формате и отчетность за 2016 год в таком виде уже не открывается [2], хотя и за 2013 и 2014 годы доступна [3] [4]. Это не критично, поскольку отчет за 2016 год есть в PDF, но странно. Аналогичным образом исчезли:
- годовой отчет ВЭБ.рф за 2016 год [5]. Последний раз он наблюдался в веб-архиве в сентябре 2019 года [6].
- корпоративный журнал Внешэкономбанка [7], последний раз был доступен в октябре 2019 года [8]

Всё это я привожу как пример культуры отсутствия сохранения материалов, сайтов и данных. Причём не злонамерянный, поскольку в данном случае есть копии этих материалов в других формах и ещё с учётом того что ВЭБ.рф живёт по корпоративным правилам и свою отчетность публикует достаточно строго.

Я таких примеров могу приводить ещё много, а вот примеров обратного немного.

Из российских публичных институтов только ЦБ РФ вызывает большое уважение потому что у них есть сохранённые архивы сайтов СБРФР, ФСФР и ФКЦБ с 2003 по 2014 годы [9], а также архив баз данных [10], в некоторых случаях с 1996 года, и много других архивов.

Другой пример - это портал АИС УП у Минэкономразвития РФ [11] где с 2004 года и до 2020 года публиковались результаты контрактов Минэка вначале по Электронной России, далее по госпрограмме развития Информационного общества. Для российской контрактной системы и российских госпрограмм такие порталы и тогда были редки, а теперь и безусловная редкость.

Ссылки:
[1] https://veb.ru/investoram/otchetnost/otchetnost-ob-ustoychivom-razvitii/
[2] http://csr2016.veb.ru/
[3] http://csr2013.veb.ru/ru/
[4] http://csr2014.veb.ru/ru/
[5] https://annual2016.veb.ru/
[6] https://web.archive.org/web/20190915153602/https://annual2016.veb.ru/
[7] http://magazine.veb.ru/
[8] https://web.archive.org/web/20191020023946/http://magazine.veb.ru/
[9] http://www.cbr.ru/archive/archive_fkcb/
[10] http://www.cbr.ru/archive/db/
[11] https://aisup.economy.gov.ru

#webarchive #archive #data
В рубрике интересные наборы данных.

В РБК вышла публикация об утечке данных о 1.3 миллионах пользователей Clubhouse [1] со ссылкой на какое-то издание Cybernews. Это пример, конечно, слабой журналистской работы. Да, ссылка на эти данные опубликована на одном из профессиональных форумов, но это ссылка на вполне легальный датасет опубликованный на платформе Kaggle [2] как открытые данные под лицензией Creative Commons. А в наборе данных довольно таки минимальная информация для базового сетевого анализа.

Всё что там есть это следующие поля:
- username
- twitter
- Instagram
- num_followers
- num_following
- time_created
- invitedbyuser_profile

Набор опубликован 3-го апреля и собран с помощью API Clubhouse с помощью программной библиотеки clubhouse-py [3]

Поэтому, конечно, Clubhouse может потребовать убрать этот набор данных из открытого доступа если сочтут что его сбор нарушает их условия использования, но называть это "утечкой данных" - это очень сильно грешить против истины.

Ссылки:
[1] https://www.rbc.ru/technology_and_media/11/04/2021/607267e59a79479abb304045?from=from_main_7
[2] https://www.kaggle.com/johntukey/clubhouse-dataset
[3] https://github.com/stypr/clubhouse-py

#opendata #kaggle #data
Коротко про обновлённый "реестр отечественного ПО" [1], в формате "мелких придирок":

1. Раздела "Открытые данные" нет
2. Экспорт реестра в Excel и в XML не работает и давно
3. API для получения данных в JSON нет
4. В записях есть ошибки, в реквизитах, названиях организаций и не только. Пример [2], у организации ИНН 7257777608 не существующий
5. В протоколах заседаний экспертного совета ссылки на приказы из будущего с датой 31.12.2021 [3], см. последнюю страницу.
6. Зачем приказы министра и протоколы эксп. совета публиковать сканами я не понимаю. Это же демонстрация что в министерстве нет электронного документооборота.

Концептуально тоже есть что написать, но это уже про другой жанр и формат.

Ссылки:
[1] https://reestr.digital.gov.ru/reestr/
[2] https://reestr.digital.gov.ru/reestr/303592/
[3] https://reestr.digital.gov.ru/upload/iblock/7b6/%D0%9F%D1%80%D0%BE%D1%82%D0%BE%D0%BA%D0%BE%D0%BB%20220%D0%BF%D1%80%20%D0%BE%D1%82%2019.03.2021.pdf

#it #registry #digital