Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Сервисы Google: Gmail, Google Диск и Youtube недоступны. Пока не было сообщений о причинах сбоя
Статистическое ведомство Канады внедрило сервис виртуальной лаборатории для данных связанных с COVID-19 [1]. Лаборатория представлена в виде дистанционного рабочего места в которое включены такие продукты как Jupiter Notebook, R Studio, Kubeflow, Seldon, Shiny и другие. Подробнее в презентации [2] и в документации [3]

Все инструменты приведены с исходным кодом [4].

Все вместе они формируют Data analytics as a Platform (DaaP).

Ссылки:
[1] https://analytics-platform.statcan.gc.ca/covid19
[2] https://govcloud.blob.core.windows.net/docs/daaas-cncf.pdf
[3] https://statcan.github.io/daaas/en/
[4] https://github.com/StatCan

#data #canada #analytics
Многие тезисы которые я пишу в этом канале и в текстах докладов которые готовлю или в которых участвую написаны ещё довольно давно. Чтобы не повторятся по многу раз, привожу тут ссылки на предыдущие публикации

Например, за вот уже много лет у меня накопилось очень много колонок в СМИ в которых они изложены.

Ведомости
- Прозрачность госзакупок в России не означает достоверности публикуемой информации https://www.vedomosti.ru/politics/articles/2011/06/23/prozrachnost_goszakupok_v_rossii_ne_oznachaet_dostovernosti
- Пространственные данные: Надо открываться https://www.vedomosti.ru/newspaper/articles/2013/09/13/nado-otkryvatsya
- От общественного контроля к общественному аудиту https://www.vedomosti.ru/opinion/articles/2016/02/11/628492-ot-obschestvennogo-kontrolya-obschestvennomu-auditu
- Генетическая дискриминация https://www.vedomosti.ru/opinion/articles/2016/08/08/652204-geneticheskaya-diskriminatsiya
- Право знать о преступлениях https://www.vedomosti.ru/opinion/articles/2016/10/17/661144-pravo-znat
- Несознательная информатизация https://www.vedomosti.ru/opinion/articles/2017/05/18/690333-nesoznatelnaya-informatizatsiya
- Плохой ответ на мнимые угрозы https://www.vedomosti.ru/opinion/articles/2017/06/14/694228-otvet-ugrozi

РБК
- Открытые данные против коррупции: в чем Россия перегнала Запад https://www.rbc.ru/opinions/society/27/01/2016/56a869f19a7947c257896897
- Apple против ФБР: что важнее — безопасность или частная жизнь? https://www.rbc.ru/opinions/technology_and_media/25/02/2016/56cee4949a79476d29c67c10
- Темная сторона открытости: почему не все данные стоит раскрывать https://www.rbc.ru/opinions/technology_and_media/16/05/2016/5739b2639a79474f9a96e10f
- Неприкосновенный реестр: почему не получится закрыть данные госорганов https://www.rbc.ru/opinions/politics/30/08/2016/57c542999a7947542d3df910
- Профилактика преступлений: какое будущее ждет правоохранительную систему https://www.rbc.ru/opinions/technology_and_media/08/06/2017/593911d19a7947bd6ab766ef
- Блокировка смысла: о чем говорит решение суда по делу Telegram https://www.rbc.ru/opinions/politics/13/04/2018/5ad0782e9a79470a8e5fa03d
- Поиск виновного: почему стала возможной утечка данных из Google Docs https://www.rbc.ru/opinions/technology_and_media/09/07/2018/5b3f505e9a794748ac73914f
- Сокровища для Alibaba: почему Россия готова поделиться данными с Китаем https://www.rbc.ru/opinions/technology_and_media/12/09/2018/5b98b7ba9a7947152b7b4073
- Тихие омуты: как распределяются субсидии и субвенции российского бюджета https://www.rbc.ru/opinions/economics/18/01/2019/5c407c0f9a7947e05b486207
- Информационный барьер: как нацпроекты сделали бюджет менее прозрачным https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea
- Потеря связи: чем плох законопроект о почтовых сервисах https://www.rbc.ru/opinions/politics/14/10/2019/5da033ea9a79478f25ca783c
- Данные неверны: почему российские госсайты вводят граждан в заблуждение https://www.rbc.ru/opinions/society/20/12/2019/5dfb4e169a79470b46b4f98c
- Некоммерческий бюджет: как чиновники стали использовать НКО в своих целях https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3
- Незачет по НКО: чем плох реестр социально ориентированных организаций https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585

Republic
- Бизнес против гражданина. Как правильно торговать персональными данными? https://republic.ru/posts/91866
- Цифровой профиль и анфас. Будет ли в России свой Синьцзян? https://republic.ru/posts/92148
- Страшная экономика. Законопроект об изоляции рунета и административный рынок угроз https://republic.ru/posts/92720
- Надзорное государство. Как новые технологии и пандемия сняли ограничения для российского Большого брата https://republic.ru/posts/98869

+ ещё было много текстов написанных для Полит.ру
+ какое-то количество текстов в моём блоге begtin.tech

#writings
В блоге PicNic Engeneering интересные подробности [1] внутренностей работы с данными в этом стартапе (PicNic - один из крупных онлайн ритейлеров со штаб квартирой в Нидерландах и $350 млрд. инвестициями [2])

Как пример цифровой среды компании изначально существующей в цифровом мире интересны цифры:
- 120 микросервисов/источников данных/сервисов
- около 1000 ежедневных ELT/ETL задач по сбору и агрегации данных
- около 50% сотрудников не относящихся к технарям владеют SQL
- средний бизнес аналитик делает до 300 SQL запросов в сутки
- в хранилище данных 15 тысяч таблиц, 247 тысяч полей и 121 миллиард строк

Там же много рассказа про организацию работу, используемый стек технологий из смеси облачных решений и открытого кода.

Публикация ещё ноябрьская этого года, но своей актуальности не потеряла, а их блог [3] могу порекомендовать как хороший пример качественной коммуникации с сообществом, много любопытного по Data Engineering там есть, как технического, так и, что лично мне интереснее, организационного.

К сожалению, к государственным проектам такой опыт применим лишь в малой степени, потому большая часть примеров инфраструктуры данных крупных дата-стартапов построена на облачных решениях и общедоступных решениях. А в госпроектах куда ни ткни, либо тех технологической инфраструктуры удобной для быстрого запуска, или такие ограничения по безопасности что применять современные технологии/стеки невозможно.

Ссылки:
[1] https://blog.picnic.nl/picnics-lakeless-data-warehouse-8ec02801d50b
[2] https://www.crunchbase.com/organization/picnic-3
[3] https://blog.picnic.nl

#data #dataengineering
Хороший обзор платформы данных в Financial Times [1] вернее продолжение предыдущей их же публикации от мая 2020 г. [2] о том как внутри издания построена полноценная платформа сбора данных, с озером данных, обработкой, разными командами загружающими и обрабатывающими данные. Интересно не только с точки зрения технологий, но и с точки зрения погружения в data-driven культуру современных зарабатывающих медиа. Не знаю с какими российскими проектами можно было бы сравнить FT.com, но кто знает, может однажды спрос на полноценную инфраструктуру данных появится и в российских СМИ.

Ссылки:
[1] https://medium.com/ft-product-technology/financial-times-data-platform-from-zero-to-hero-143156bffb1d
[2] https://medium.com/ft-product-technology/enabling-data-driven-decisions-564359b79788

#data #dataplatforms #datalakes #media
Продолжаю публиковать крупнейшие наборы данных для исследователей.

Крупнейший в России архив всех сайтов сохраненных в Национальном цифровом архиве [1] размещён в каталоге NGOData [2].
Архив включает CSV файл с метаданными по 50 тысячам файлам хранимым в рамках сфокусированной архивации с 2012 по 2020 годы включительно. В общей сложности - это 9 ТБ в сжатом виде и сильном большее в распакованном виде, около 20-30 ТБ. Этот список пополняется, потому что значительная часть работы ещё не закончена и по мере систематизации ранее сделанной работы и продолжения архивации данных будет больше. Для внешних пользователей также приведены ссылки для выгрузки самих архивов, для этого все они загружены в резервное хранилище из которого может скачивать файлы любой желающий.

Отвечая заранее на вопросы.
1. Что содержится в архиве?
В основном это архивы госсайтов и ресурсов находящихся под риском закрытия. Например, сайты закрывавшихся банков или институтов развития.

2. Зачем нужно архивировать сайты есть есть Интернет-архив?
Интернет-архив собирает далеко не всё, а в первую очередь наиболее часто посещаемые и цитируемые сайты и он не собирает иные файлы помимо HTML. В нашем архиве хранится файлы всех типов, архивация проводится по "тотальному принципу" и, обычно, не архивируются только видео файлы

3. Можно ли с этими данными работать через веб-интерфейс?
Пока нет, мы работаем над тем чтобы он появился в следующем году. Помощь и волонтеры очень востребованы. Пишите мне на https://t.me/ibegtin если владеете навыками программирования.

4. Кто ведёт этот проект?
Проект национального цифрового архива ведёт АНО "Информационная культура' помочь ему можно, например, пожертвованием здесь https://ruarxive.org/donate/

5. Откуда финансирование?
Это негосударственный некоммерческий проект созданный АНО Инфокультура без какой-либо государственной поддержки и с небольшой частной поддержкой мощностями для хранения данных.

6. Какая польза от данных веб-архивов?
В веб архивах оказываются многочисленные данные публикуемые, например, органами власти в XLS/XLSX формате и многое другое. Автоматические роботы могут извлекать их из WARC файлов напрямую. Чтобы понять содержимое WARC файлов достаточно скачивать файлы в формате CDX.

Ссылки:
[1] https://ruarxive.org
[2] https://ngodata.ru/dataset/groups/ruarxive-dump

#webarchive #data #datasets
Sony представили [1] [2] Gastronomy Flagship Project по применению искусственного интеллекта в разработке гастрономических рецептов. Хорошее направление для ИИ и такой помощник на кухне это ровно то чего не хватает. Правда от ИИ до полноценного ассистента надо ещё будет подождать, но хочется надеяться.

И, до сих пор актуально преодоление двух сложностей - это сенсоры вкуса и запахов. Вот когда и это произойдёт то будет большой прорыв.

Ссылки:
[1] https://www.zdnet.com/article/sony-ai-launches-new-project-dedicated-to-gastronomy-research/
[2] https://ai.sony/projects/

#ai #data
Свежий отчет по зрелости открытых данных в Европе за 2020 год [1]. Лучшие результаты в Дании, Испании и Франции. Худшие у Лихтенштейна, Грузии и Азербайджана. Последние хотя и не входят в ЕС, но оцениваются в данном исследовании в рамках "Eastern Partnership" .

Краткие выводы: уровень развития открытых данных высокий в большинстве стран довольно высокий и сама тема развивается и становится более зрелой, как в обеспечении качества данных, так и оперативности их публикации.

Цифры и факты:
- у 96% стран ЕС есть принятые стратегии открытости данных или эквивалентные им законы определяющие эти стратегии. Например, в Венгрии принята 2020 AI Strategy [2] включающая тему открытых данных.
- в феврале 2020 года в Нидерландах принята Национальная API стратегия по предоставлению данных и сервисов через интерфейсы API
- у 78% стран есть определение влияния открытых данных и у 70% есть национальные методики измерения этого влияния
- у 30% стран данные обновляются не позднее одного дня после обновления в первоисточнике
- в 78% странах метаданные поддерживаются в актуальном состоянии
- в 89% стран осуществляется мониторинг качества метаданных
- в 74% стран порталы соответствуют требованиям публикации обязательных полей стандарта DCAT-AP используемого для публикации каталогов данных

А также там же ещё много примеров, цифр и фактов на которые стоит обратить внимание.

Ссылки:
[1] https://www.europeandataportal.eu/en/dashboard/2020
[2] https://ai-hungary.com/en

#opendata #data #eu
А это вдогонку, о том что с открытыми данными на федеральном уровне творится в России. Я давно говорю что если отдать портал открытых данных и полномочия тому же Минкультуры РФ или Минцифре РФ, то хуже бы точно не было, а лучше могло бы.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Минэкономразвития отключило портал открытых данных
Я регулярно хвалю зарубежный опыт, то там делают что-то полезное, то там, в общем может показаться что всё замечательно. Недавно я приводил пример с проблемами в доступности сведений о судебных решений в США, а в этот раз будет пример из Польши.

В Польше есть портал открытых данных Otwarte Dane [1] имеющий довольно высокие оценки в оценках зрелости открытых данных в странах Европейского союза [2], но обратим внимание на такой факт как то что на портале декларируется 18765 наборов данных ( Liczba danych ) от 138 поставщиков.

Но заглянув в раздел фильтры можно увидеть что там фильтр по категориям охватывает только около 1 тысячи наборов данных.

В итоге выяснилось что из 18 тысяч наборов данных чуть более 7500 - это маленькие файлы CSV помесячных данных опубликованных патентным ведомством Польши [3]. Конечно нет никаких оснований публиковать их с такой дробностью, а не одним набором.

Вот так делать не надо.

Ссылки:
[1] https://dane.gov.pl/pl
[2] https://t.me/begtin/2371

#data #opendata #poland
Я помню этот портал ещё с 2013 года, в 2014 году я писал о нём [1] и за все эти годы я про этот портал не могу сказать ничего хорошего.

Конечно, подобное можно пронаблюдать за многими государственными информационными системами. Но федеральный портал открытых данных - это "наша боль" вот уже 6 лет. Он был плохо сделан изначально и очень тяжело развивается (разваливается) все эти годы. И проблемы технические там вторичны по сравнению со смыслом организации портала и отрицательным отбором поставщиков его обслуживающих.

И в последние годы я перестал писать о нём только по причине того что было очевидно что его не "поддерживать и развивать" надо, а радикально переделывать и не совмещать технические работы с экспертными работами. Но на это Минэкономразвития решиться всё никак не может.

Так что мне про data.gov.ru писать уже надоело много лет, а вот Оле @ahminfin всё ещё не надоедает, за что ей и спасибо. Может и я когда-нибудь напишу на эту тему очень большой лонгрид.

Ссылки:
[1] https://old.begtin.tech/2014/03/27/ministerstvodraniheconomicheskihkotov/

#data #opendata #opengov
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Хорошая новость: Минэкономразвития восстановил портал открытых данных (ну как "восстановил", реестра наборов данных как не было, так и нет).
Плохая новость: На портале открытых данных "задними числами" размещены новости (как будто они размещались на протяжении первого этапа госконтракта). Похоже, без РНП, ФАС и других органов и в этом году не обойтись. Главный вопрос: кто занимался "подделкой" публикации новостей: заказчик или поставщик?
В The Bell вышла заметка про стоимость расследования отравления Навального [1] с оценками того что как и сколько стоит на чёрном рынке купить информацию о человеке [1]. Всё это, не так дорого, в общей сложности сбор данных на 11 человек обошёлся чуть более миллиона. Что, впрочем, в любом случае было с нарушением российского законодательства, но показательно то насколько доступны эти данные и насколько отечественные правоохранители не способны предотвращать доступ к ним.

И здесь же, специально для тех кто считает что рядовому человеку ничего не грозит, в Lenta.ru время от времени проскакивают любопытные лонгриды и один из них «Тюрьма — это самый дорогой отель» [2] про профессионального мошенника. Чтение весьма познавательно и, если людям с небольшими доходами опасаться (возможно) почти нечего, то людям с доходами выше среднего ещё как есть чего бояться.

Я сам очень не люблю приводить примеры того как можно злоупотреблять персональными данными, но тут раз уж опубликовано, то почитайте.

Ссылки:
[1] https://thebell.io/million-za-vseh-skolko-stoilo-rassledovanie-bellingcat-o-navalnom
[2] https://lenta.ru/articles/2020/12/14/baltazar/

#privacy #crime #personaldata
Я, кстати, ранее это упоминал и не жаль напомнить ещё раз что один из лучших в мире порталов открытых данных с очень чётким целеполаганием - это Humanitarian Data Exchange [1] портал созданный UN OCHA (Управление по координации гуманитарных вопросов ООН) и где публикуется более 18 тысяч наборов данных необходимых в создании инструментов координации НКО оказывающих помощь на местах катастроф и бедствий.

Почему проект хорош и полезен? Помимо чёткого целеполагания, они реализуют:
- инструмент проверки данных [2]
- стандарт HXL для тегов для разметки запутанных данных [3]
- разметка данных по территориям [4], например, с Россией связаны 74 набора данных [5]
- кроме государственных и общественных организаций, многие наборы данные публикуются частными компаниями, например [6] [7]

Этот и подобные проекты - это ответ на вопрос "Может ли бизнес публиковать открытые данные?". Есть много случаев когда может и желает. Например, когда это хороший ценностный проект.

Ссылки:
[1] https://data.humdata.org/
[2] https://tools.humdata.org/wizard/#datacheck
[3] https://tools.humdata.org/examples/hxl/
[4] https://data.humdata.org/group
[5] https://data.humdata.org/group/rus
[6] https://data.humdata.org/organization/alhasan-systems-private-limited
[7] https://data.humdata.org/organization/esri

#opendata #opengov #un
Есть ли у цифровой архивации персональный контур? Как собирать личные архивы страниц? Как сохранять букмарки даже если ссылки на них пропадут и исчезнут?

Инструментов довольно много, например, Conifer [1] от Rhizome, но есть один с открытым кодом и уже достаточно зрелый для удобного использования - это ArchiveBox [2].

ArchiveBox - это сервер и утилита для архивации закладок и просто ссылок, он не просто сохраняет веб-страницу, а делает это сразу во многих форматах:
- скриншот
- полная страница одним файлом (внутри всё, включая скрипты и изображения)
- файл веб-архивации WARC
- просто веб-страница

Для совсем полной идеальности ему нехватает интеграции через расширение для браузера, но и так он вполне неплох.

Ссылки:
[1] https://conifer.rhizome.org/
[2] https://archivebox.io/

#archives #personal #webarchive
Комментировать совсем не хочется, хочется задаться одним лишь вопросом - а откуда таки эта утечка?