Общепринято считать что открытость - это продолжение или следствие демократии, но с оговоркой, что демократии да, а вот капитализма не всегда. Давним примером была приватизация Ordnance Survey, госпредприятия аналога Росреестра в Великобритании которое финансировалось из бюджета страны и Правительство Великобритании решило сократить расходы через его приватизацию [1].
А вот и свежий пример. В США законодатели решили сделать открытую, бесплатную и общедоступную федеральную базу всех судебных решений, против, совершенно неожиданно, оказались судьи. В статье в Washington Post [2] о том что судейское сообщество приводит следующие аргументы:
- ведение картотек судебных дел сейчас в США на 87% оплачивают юридические фирмы и крупные клиенты
- неизвестно насколько вырастет нагрузка на аппараты судов
- в некоторых штатах такие базы уже создаются и возникает дублирование работы и финансирования
Юридическая сторона, в принципе, одна из самых сложных именно в США. Если сравнивать по открытости законотворческого процесса, то прозрачность законотворческого процесса в США высокая, а вот общефедеральной базы законов никогда не было, по тем же самым причинам что сейчас сопротивляются судьи.
Ещё 11 лет назад Карл Маламуд, известный активист по открытию общественно значимых юридических текстов, выдвигал инициативу по созданию базы law.gov [3], но, видимо, 10 лет недостаточно.
Это, кстати, и вопрос про то почему в международных рейтингах открытость обычно лидируют скандинавские страны или Австралия и Новая Зеландия, иногда Сингапур. В странах со сложившимся с развитым, даже если и демократическим капитализмом, некоторые решения ломают или сильно трансформируют рынки. А у крупных лоббистов слишком много влияния чтобы откладывать необходимые решения или сильно их ослаблять.
Поэтому когда я, например, пишу про опыт открытости в США и Великобритании, я всегда держу в голове что даже у очень хорошего опыта и стран сильными сообществами по открытости, есть свои ограничения.
Ссылки:
[1] https://en.wikipedia.org/wiki/Ordnance_Survey#Data_access_and_criticisms
[2] https://www.washingtonpost.com/local/legal-issues/judiciary-opposes-free-online-court-records-database/2020/12/03/02b10a3c-357f-11eb-b59c-adb7153d10c2_story.html
[3] https://law.resource.org/index.law.gov.html
#opendata #opengov #data
А вот и свежий пример. В США законодатели решили сделать открытую, бесплатную и общедоступную федеральную базу всех судебных решений, против, совершенно неожиданно, оказались судьи. В статье в Washington Post [2] о том что судейское сообщество приводит следующие аргументы:
- ведение картотек судебных дел сейчас в США на 87% оплачивают юридические фирмы и крупные клиенты
- неизвестно насколько вырастет нагрузка на аппараты судов
- в некоторых штатах такие базы уже создаются и возникает дублирование работы и финансирования
Юридическая сторона, в принципе, одна из самых сложных именно в США. Если сравнивать по открытости законотворческого процесса, то прозрачность законотворческого процесса в США высокая, а вот общефедеральной базы законов никогда не было, по тем же самым причинам что сейчас сопротивляются судьи.
Ещё 11 лет назад Карл Маламуд, известный активист по открытию общественно значимых юридических текстов, выдвигал инициативу по созданию базы law.gov [3], но, видимо, 10 лет недостаточно.
Это, кстати, и вопрос про то почему в международных рейтингах открытость обычно лидируют скандинавские страны или Австралия и Новая Зеландия, иногда Сингапур. В странах со сложившимся с развитым, даже если и демократическим капитализмом, некоторые решения ломают или сильно трансформируют рынки. А у крупных лоббистов слишком много влияния чтобы откладывать необходимые решения или сильно их ослаблять.
Поэтому когда я, например, пишу про опыт открытости в США и Великобритании, я всегда держу в голове что даже у очень хорошего опыта и стран сильными сообществами по открытости, есть свои ограничения.
Ссылки:
[1] https://en.wikipedia.org/wiki/Ordnance_Survey#Data_access_and_criticisms
[2] https://www.washingtonpost.com/local/legal-issues/judiciary-opposes-free-online-court-records-database/2020/12/03/02b10a3c-357f-11eb-b59c-adb7153d10c2_story.html
[3] https://law.resource.org/index.law.gov.html
#opendata #opengov #data
Wikipedia
Ordnance Survey
organisation that creates maps of Great Britain
Приводить в пример США или Великобританию в части того что происходит в цифровизации с каждым годом всё сложнее, политика, санкции и так далее. Я регулярно привожу примеры из других стран, главные же ограничения по тому чтобы привести их опыт в том что английский язык в России знают многие, а вот другие языки не так много кто.
В этот раз и на фоне инвентаризации информационных систем в России, приведу итальянский опыт.
В Италии действует портал разработчиков developers.italia.it [1] (кстати, отвлекусь, в Италии как и во многих странах есть национальный туристический портал italia.it [2]).
На портале для разработчиков ПО приведён каталог [3] из 226 продуктов из которых:
- 15 платформ
- 145 решений с открытым кодом сделанных органами власти для повторного использования
- 66 решений с открытым кодом третьих сторон используемые органами власти
По ним доступны:
- исходный код, всегда на Github в открытом доступе
- документация
- обсуждение в канале в Slack для разработчиков для гос-ва в Италии
- обсуждение на форуме
- для платформ также приведены ресурсы в виде: API, SDK и возможность обсудить прототипы
Что характерно, этот и другие цифровые порталы, создаются в Италии в рамках трёхлетнего плана информатизации государства Piano Triennale per l’informatica nella Pubblica Amministrazione 2020 - 2022 [4]
Это краткий, чётко изложенный план из 8 пунктов:
1. Сервисы
2. Данные
3. Платформы
4. Инфраструктура
5. Интеграция
6. Кибербезопасность
7. Инструменты и модель инновации
8. Управление цифровой трансформацией
Кстати, обратите внимание что первое что сделали в Италии это сделали систему публикации государственных документов в понятном виде docs.italia.it [5] и об этом они писали ещё в 2018 году, все документы там редактируются через Github [6]
Ссылки:
[1] https://developers.italia.it/
[2] http://www.italia.it
[3] https://developers.italia.it/it/search?page=0&sort=relevance
[4] https://docs.italia.it/italia/piano-triennale-ict/pianotriennale-ict-doc/it/2020-2022/index.html
[5] https://docs.italia.it/
[6] https://medium.com/team-per-la-trasformazione-digitale/docs-italia-open-government-collaborazione-pubblica-amministrazione-progetti-linguaggio-b89ff330e21b
#opengov #opendata #opensource #italy
В этот раз и на фоне инвентаризации информационных систем в России, приведу итальянский опыт.
В Италии действует портал разработчиков developers.italia.it [1] (кстати, отвлекусь, в Италии как и во многих странах есть национальный туристический портал italia.it [2]).
На портале для разработчиков ПО приведён каталог [3] из 226 продуктов из которых:
- 15 платформ
- 145 решений с открытым кодом сделанных органами власти для повторного использования
- 66 решений с открытым кодом третьих сторон используемые органами власти
По ним доступны:
- исходный код, всегда на Github в открытом доступе
- документация
- обсуждение в канале в Slack для разработчиков для гос-ва в Италии
- обсуждение на форуме
- для платформ также приведены ресурсы в виде: API, SDK и возможность обсудить прототипы
Что характерно, этот и другие цифровые порталы, создаются в Италии в рамках трёхлетнего плана информатизации государства Piano Triennale per l’informatica nella Pubblica Amministrazione 2020 - 2022 [4]
Это краткий, чётко изложенный план из 8 пунктов:
1. Сервисы
2. Данные
3. Платформы
4. Инфраструктура
5. Интеграция
6. Кибербезопасность
7. Инструменты и модель инновации
8. Управление цифровой трансформацией
Кстати, обратите внимание что первое что сделали в Италии это сделали систему публикации государственных документов в понятном виде docs.italia.it [5] и об этом они писали ещё в 2018 году, все документы там редактируются через Github [6]
Ссылки:
[1] https://developers.italia.it/
[2] http://www.italia.it
[3] https://developers.italia.it/it/search?page=0&sort=relevance
[4] https://docs.italia.it/italia/piano-triennale-ict/pianotriennale-ict-doc/it/2020-2022/index.html
[5] https://docs.italia.it/
[6] https://medium.com/team-per-la-trasformazione-digitale/docs-italia-open-government-collaborazione-pubblica-amministrazione-progetti-linguaggio-b89ff330e21b
#opengov #opendata #opensource #italy
Developers Italia
Sviluppiamo i servizi pubblici, insieme
Открытость данных по испански - это когда на национальном портале данных datos.gob.es публикуются данные не только органов власти, но и университетов [1] и других исследовательских центров. А также университеты объединяются [2] и создают негосударственный проект UniversiDATA [3] посвящённый прозрачности университетов и предназначенный для раскрытия ими информации об их деятельности: бюджеты, состав преподавателей, исследовательские центры и программы,
Фактически открытые данные используются как часть инфраструктуры прозрачности как государства в целом, так и в частных случаях требований к организациям.
Ссылки:
[1] https://datos.gob.es/en/catalogo?administration_level=U&_res_format_label_limit=0
[2] https://datos.gob.es/es/noticia/nace-universidata-el-portal-colaborativo-de-datos-abiertos-especializado-en-el-sector-de-la
[3] https://www.universidata.es/
#opendata #data #spain
Фактически открытые данные используются как часть инфраструктуры прозрачности как государства в целом, так и в частных случаях требований к организациям.
Ссылки:
[1] https://datos.gob.es/en/catalogo?administration_level=U&_res_format_label_limit=0
[2] https://datos.gob.es/es/noticia/nace-universidata-el-portal-colaborativo-de-datos-abiertos-especializado-en-el-sector-de-la
[3] https://www.universidata.es/
#opendata #data #spain
datos.gob.es
Conjuntos de datos | datos.gob.es
Datos.gob.es reutiliza la información pública
Не все знают, Интернет-архив, archive.org, помимо возможности найти архивную копию страницы также вот уже какое-то время в режиме бета предоставляет возможность:
- сравнить архивные копии одной страницы, в сравнении синим цветом подкрашивается удалённое и жёлным измененное/добавленное
- увидеть в каких коллекциях есть выбранная веб-страница (да, одну и ту же страницу могут проинтексировать десятки роботов, и она будет в разных коллекциях)
Для журналистов расследователей это может быть просто находка, например можно посмотреть изменения в составе экспертного совета Фонда Кино [1] за этот год.
Ссылки:
[1] https://web.archive.org/web/diff/20200427153240/20200201180534/http://www.fond-kino.ru/about/expert-council/
#opendata #archives #digitalpreservation #archives
- сравнить архивные копии одной страницы, в сравнении синим цветом подкрашивается удалённое и жёлным измененное/добавленное
- увидеть в каких коллекциях есть выбранная веб-страница (да, одну и ту же страницу могут проинтексировать десятки роботов, и она будет в разных коллекциях)
Для журналистов расследователей это может быть просто находка, например можно посмотреть изменения в составе экспертного совета Фонда Кино [1] за этот год.
Ссылки:
[1] https://web.archive.org/web/diff/20200427153240/20200201180534/http://www.fond-kino.ru/about/expert-council/
#opendata #archives #digitalpreservation #archives
Для тех кто ищет большие (особенно большие) открытые данные для экспериментов, анализа и тренировки навыков, не всегда связанных с практическими задачами, подборка крупнейших источников открытых данных.
- Открытые данные CERN http://opendata.cern.ch/ - более 2 петабайт данных физики частиц. В виду их объёма доступ к ним открыт, но через специальные инструменты
- Common Crawl https://commoncrawl.org/ - огромный поисковый индекс по всем веб-сайтам в Интернете. Аналог поисковых индексов Google, Bing или Яндекс, но без веб интерфейса и доступный в виде гигантских слепков в формате WARC. Особенно удобно тем кто работает с данными через облако Amazon, поскольку сейчас весь ресурс хостится именно там
- Archive.org collections https://archive.org/ - коллекции медиа и данных на Archive.org, практически бесконечные объёмы данных на самые разные темы
- многочисленные наборы данных по COVID-19 https://t.me/begtin/2066 - в облаках Amazon, Google BigQuery и Azure и других
- Awesome Public Datasets https://github.com/awesomedata/awesome-public-datasets - один из наиболее популярных репозиториев на Github с каталогом общедоступных данных большого объёма
- DataCatalogs http://datacatalogs.org/ - каталог порталов открытых данных, около 599 порталов всего (очень неполный, на самом деле)
- Re3Data http://re3data.org - каталог научных репозиториев содержащих данные по результатам исследований, включает, в том числе, репозитории с большими данными
Важно помнить что, как правило, только на общедоступных данных сложно сделать востребованный продукт. Как правило на них отрабатывают технологии, а продукты создают уже в другой среде и на других данных.
#opendata #data #bigdata #datasource
- Открытые данные CERN http://opendata.cern.ch/ - более 2 петабайт данных физики частиц. В виду их объёма доступ к ним открыт, но через специальные инструменты
- Common Crawl https://commoncrawl.org/ - огромный поисковый индекс по всем веб-сайтам в Интернете. Аналог поисковых индексов Google, Bing или Яндекс, но без веб интерфейса и доступный в виде гигантских слепков в формате WARC. Особенно удобно тем кто работает с данными через облако Amazon, поскольку сейчас весь ресурс хостится именно там
- Archive.org collections https://archive.org/ - коллекции медиа и данных на Archive.org, практически бесконечные объёмы данных на самые разные темы
- многочисленные наборы данных по COVID-19 https://t.me/begtin/2066 - в облаках Amazon, Google BigQuery и Azure и других
- Awesome Public Datasets https://github.com/awesomedata/awesome-public-datasets - один из наиболее популярных репозиториев на Github с каталогом общедоступных данных большого объёма
- DataCatalogs http://datacatalogs.org/ - каталог порталов открытых данных, около 599 порталов всего (очень неполный, на самом деле)
- Re3Data http://re3data.org - каталог научных репозиториев содержащих данные по результатам исследований, включает, в том числе, репозитории с большими данными
Важно помнить что, как правило, только на общедоступных данных сложно сделать востребованный продукт. Как правило на них отрабатывают технологии, а продукты создают уже в другой среде и на других данных.
#opendata #data #bigdata #datasource
Сервисы Google: Gmail, Google Диск и Youtube недоступны. Пока не было сообщений о причинах сбоя
Статистическое ведомство Канады внедрило сервис виртуальной лаборатории для данных связанных с COVID-19 [1]. Лаборатория представлена в виде дистанционного рабочего места в которое включены такие продукты как Jupiter Notebook, R Studio, Kubeflow, Seldon, Shiny и другие. Подробнее в презентации [2] и в документации [3]
Все инструменты приведены с исходным кодом [4].
Все вместе они формируют Data analytics as a Platform (DaaP).
Ссылки:
[1] https://analytics-platform.statcan.gc.ca/covid19
[2] https://govcloud.blob.core.windows.net/docs/daaas-cncf.pdf
[3] https://statcan.github.io/daaas/en/
[4] https://github.com/StatCan
#data #canada #analytics
Все инструменты приведены с исходным кодом [4].
Все вместе они формируют Data analytics as a Platform (DaaP).
Ссылки:
[1] https://analytics-platform.statcan.gc.ca/covid19
[2] https://govcloud.blob.core.windows.net/docs/daaas-cncf.pdf
[3] https://statcan.github.io/daaas/en/
[4] https://github.com/StatCan
#data #canada #analytics
Многие тезисы которые я пишу в этом канале и в текстах докладов которые готовлю или в которых участвую написаны ещё довольно давно. Чтобы не повторятся по многу раз, привожу тут ссылки на предыдущие публикации
Например, за вот уже много лет у меня накопилось очень много колонок в СМИ в которых они изложены.
Ведомости
- Прозрачность госзакупок в России не означает достоверности публикуемой информации https://www.vedomosti.ru/politics/articles/2011/06/23/prozrachnost_goszakupok_v_rossii_ne_oznachaet_dostovernosti
- Пространственные данные: Надо открываться https://www.vedomosti.ru/newspaper/articles/2013/09/13/nado-otkryvatsya
- От общественного контроля к общественному аудиту https://www.vedomosti.ru/opinion/articles/2016/02/11/628492-ot-obschestvennogo-kontrolya-obschestvennomu-auditu
- Генетическая дискриминация https://www.vedomosti.ru/opinion/articles/2016/08/08/652204-geneticheskaya-diskriminatsiya
- Право знать о преступлениях https://www.vedomosti.ru/opinion/articles/2016/10/17/661144-pravo-znat
- Несознательная информатизация https://www.vedomosti.ru/opinion/articles/2017/05/18/690333-nesoznatelnaya-informatizatsiya
- Плохой ответ на мнимые угрозы https://www.vedomosti.ru/opinion/articles/2017/06/14/694228-otvet-ugrozi
РБК
- Открытые данные против коррупции: в чем Россия перегнала Запад https://www.rbc.ru/opinions/society/27/01/2016/56a869f19a7947c257896897
- Apple против ФБР: что важнее — безопасность или частная жизнь? https://www.rbc.ru/opinions/technology_and_media/25/02/2016/56cee4949a79476d29c67c10
- Темная сторона открытости: почему не все данные стоит раскрывать https://www.rbc.ru/opinions/technology_and_media/16/05/2016/5739b2639a79474f9a96e10f
- Неприкосновенный реестр: почему не получится закрыть данные госорганов https://www.rbc.ru/opinions/politics/30/08/2016/57c542999a7947542d3df910
- Профилактика преступлений: какое будущее ждет правоохранительную систему https://www.rbc.ru/opinions/technology_and_media/08/06/2017/593911d19a7947bd6ab766ef
- Блокировка смысла: о чем говорит решение суда по делу Telegram https://www.rbc.ru/opinions/politics/13/04/2018/5ad0782e9a79470a8e5fa03d
- Поиск виновного: почему стала возможной утечка данных из Google Docs https://www.rbc.ru/opinions/technology_and_media/09/07/2018/5b3f505e9a794748ac73914f
- Сокровища для Alibaba: почему Россия готова поделиться данными с Китаем https://www.rbc.ru/opinions/technology_and_media/12/09/2018/5b98b7ba9a7947152b7b4073
- Тихие омуты: как распределяются субсидии и субвенции российского бюджета https://www.rbc.ru/opinions/economics/18/01/2019/5c407c0f9a7947e05b486207
- Информационный барьер: как нацпроекты сделали бюджет менее прозрачным https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea
- Потеря связи: чем плох законопроект о почтовых сервисах https://www.rbc.ru/opinions/politics/14/10/2019/5da033ea9a79478f25ca783c
- Данные неверны: почему российские госсайты вводят граждан в заблуждение https://www.rbc.ru/opinions/society/20/12/2019/5dfb4e169a79470b46b4f98c
- Некоммерческий бюджет: как чиновники стали использовать НКО в своих целях https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3
- Незачет по НКО: чем плох реестр социально ориентированных организаций https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585
Republic
- Бизнес против гражданина. Как правильно торговать персональными данными? https://republic.ru/posts/91866
- Цифровой профиль и анфас. Будет ли в России свой Синьцзян? https://republic.ru/posts/92148
- Страшная экономика. Законопроект об изоляции рунета и административный рынок угроз https://republic.ru/posts/92720
- Надзорное государство. Как новые технологии и пандемия сняли ограничения для российского Большого брата https://republic.ru/posts/98869
+ ещё было много текстов написанных для Полит.ру
+ какое-то количество текстов в моём блоге begtin.tech
#writings
Например, за вот уже много лет у меня накопилось очень много колонок в СМИ в которых они изложены.
Ведомости
- Прозрачность госзакупок в России не означает достоверности публикуемой информации https://www.vedomosti.ru/politics/articles/2011/06/23/prozrachnost_goszakupok_v_rossii_ne_oznachaet_dostovernosti
- Пространственные данные: Надо открываться https://www.vedomosti.ru/newspaper/articles/2013/09/13/nado-otkryvatsya
- От общественного контроля к общественному аудиту https://www.vedomosti.ru/opinion/articles/2016/02/11/628492-ot-obschestvennogo-kontrolya-obschestvennomu-auditu
- Генетическая дискриминация https://www.vedomosti.ru/opinion/articles/2016/08/08/652204-geneticheskaya-diskriminatsiya
- Право знать о преступлениях https://www.vedomosti.ru/opinion/articles/2016/10/17/661144-pravo-znat
- Несознательная информатизация https://www.vedomosti.ru/opinion/articles/2017/05/18/690333-nesoznatelnaya-informatizatsiya
- Плохой ответ на мнимые угрозы https://www.vedomosti.ru/opinion/articles/2017/06/14/694228-otvet-ugrozi
РБК
- Открытые данные против коррупции: в чем Россия перегнала Запад https://www.rbc.ru/opinions/society/27/01/2016/56a869f19a7947c257896897
- Apple против ФБР: что важнее — безопасность или частная жизнь? https://www.rbc.ru/opinions/technology_and_media/25/02/2016/56cee4949a79476d29c67c10
- Темная сторона открытости: почему не все данные стоит раскрывать https://www.rbc.ru/opinions/technology_and_media/16/05/2016/5739b2639a79474f9a96e10f
- Неприкосновенный реестр: почему не получится закрыть данные госорганов https://www.rbc.ru/opinions/politics/30/08/2016/57c542999a7947542d3df910
- Профилактика преступлений: какое будущее ждет правоохранительную систему https://www.rbc.ru/opinions/technology_and_media/08/06/2017/593911d19a7947bd6ab766ef
- Блокировка смысла: о чем говорит решение суда по делу Telegram https://www.rbc.ru/opinions/politics/13/04/2018/5ad0782e9a79470a8e5fa03d
- Поиск виновного: почему стала возможной утечка данных из Google Docs https://www.rbc.ru/opinions/technology_and_media/09/07/2018/5b3f505e9a794748ac73914f
- Сокровища для Alibaba: почему Россия готова поделиться данными с Китаем https://www.rbc.ru/opinions/technology_and_media/12/09/2018/5b98b7ba9a7947152b7b4073
- Тихие омуты: как распределяются субсидии и субвенции российского бюджета https://www.rbc.ru/opinions/economics/18/01/2019/5c407c0f9a7947e05b486207
- Информационный барьер: как нацпроекты сделали бюджет менее прозрачным https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea
- Потеря связи: чем плох законопроект о почтовых сервисах https://www.rbc.ru/opinions/politics/14/10/2019/5da033ea9a79478f25ca783c
- Данные неверны: почему российские госсайты вводят граждан в заблуждение https://www.rbc.ru/opinions/society/20/12/2019/5dfb4e169a79470b46b4f98c
- Некоммерческий бюджет: как чиновники стали использовать НКО в своих целях https://www.rbc.ru/opinions/politics/13/03/2020/5e69e70a9a7947737fc79cf3
- Незачет по НКО: чем плох реестр социально ориентированных организаций https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585
Republic
- Бизнес против гражданина. Как правильно торговать персональными данными? https://republic.ru/posts/91866
- Цифровой профиль и анфас. Будет ли в России свой Синьцзян? https://republic.ru/posts/92148
- Страшная экономика. Законопроект об изоляции рунета и административный рынок угроз https://republic.ru/posts/92720
- Надзорное государство. Как новые технологии и пандемия сняли ограничения для российского Большого брата https://republic.ru/posts/98869
+ ещё было много текстов написанных для Полит.ру
+ какое-то количество текстов в моём блоге begtin.tech
#writings
Ведомости
Прозрачность госзакупок в России не означает достоверности публикуемой информации
Популярность дискуссий вокруг государственных закупок и законодательства в этой области растет с каждым днем, и главный вопрос при этом - куда идут наши деньги?
В блоге PicNic Engeneering интересные подробности [1] внутренностей работы с данными в этом стартапе (PicNic - один из крупных онлайн ритейлеров со штаб квартирой в Нидерландах и $350 млрд. инвестициями [2])
Как пример цифровой среды компании изначально существующей в цифровом мире интересны цифры:
- 120 микросервисов/источников данных/сервисов
- около 1000 ежедневных ELT/ETL задач по сбору и агрегации данных
- около 50% сотрудников не относящихся к технарям владеют SQL
- средний бизнес аналитик делает до 300 SQL запросов в сутки
- в хранилище данных 15 тысяч таблиц, 247 тысяч полей и 121 миллиард строк
Там же много рассказа про организацию работу, используемый стек технологий из смеси облачных решений и открытого кода.
Публикация ещё ноябрьская этого года, но своей актуальности не потеряла, а их блог [3] могу порекомендовать как хороший пример качественной коммуникации с сообществом, много любопытного по Data Engineering там есть, как технического, так и, что лично мне интереснее, организационного.
К сожалению, к государственным проектам такой опыт применим лишь в малой степени, потому большая часть примеров инфраструктуры данных крупных дата-стартапов построена на облачных решениях и общедоступных решениях. А в госпроектах куда ни ткни, либо тех технологической инфраструктуры удобной для быстрого запуска, или такие ограничения по безопасности что применять современные технологии/стеки невозможно.
Ссылки:
[1] https://blog.picnic.nl/picnics-lakeless-data-warehouse-8ec02801d50b
[2] https://www.crunchbase.com/organization/picnic-3
[3] https://blog.picnic.nl
#data #dataengineering
Как пример цифровой среды компании изначально существующей в цифровом мире интересны цифры:
- 120 микросервисов/источников данных/сервисов
- около 1000 ежедневных ELT/ETL задач по сбору и агрегации данных
- около 50% сотрудников не относящихся к технарям владеют SQL
- средний бизнес аналитик делает до 300 SQL запросов в сутки
- в хранилище данных 15 тысяч таблиц, 247 тысяч полей и 121 миллиард строк
Там же много рассказа про организацию работу, используемый стек технологий из смеси облачных решений и открытого кода.
Публикация ещё ноябрьская этого года, но своей актуальности не потеряла, а их блог [3] могу порекомендовать как хороший пример качественной коммуникации с сообществом, много любопытного по Data Engineering там есть, как технического, так и, что лично мне интереснее, организационного.
К сожалению, к государственным проектам такой опыт применим лишь в малой степени, потому большая часть примеров инфраструктуры данных крупных дата-стартапов построена на облачных решениях и общедоступных решениях. А в госпроектах куда ни ткни, либо тех технологической инфраструктуры удобной для быстрого запуска, или такие ограничения по безопасности что применять современные технологии/стеки невозможно.
Ссылки:
[1] https://blog.picnic.nl/picnics-lakeless-data-warehouse-8ec02801d50b
[2] https://www.crunchbase.com/organization/picnic-3
[3] https://blog.picnic.nl
#data #dataengineering
Medium
Picnic’s Lakeless Data Warehouse
Revealing the technology and architecture behind our single source of truth
Хороший обзор платформы данных в Financial Times [1] вернее продолжение предыдущей их же публикации от мая 2020 г. [2] о том как внутри издания построена полноценная платформа сбора данных, с озером данных, обработкой, разными командами загружающими и обрабатывающими данные. Интересно не только с точки зрения технологий, но и с точки зрения погружения в data-driven культуру современных зарабатывающих медиа. Не знаю с какими российскими проектами можно было бы сравнить FT.com, но кто знает, может однажды спрос на полноценную инфраструктуру данных появится и в российских СМИ.
Ссылки:
[1] https://medium.com/ft-product-technology/financial-times-data-platform-from-zero-to-hero-143156bffb1d
[2] https://medium.com/ft-product-technology/enabling-data-driven-decisions-564359b79788
#data #dataplatforms #datalakes #media
Ссылки:
[1] https://medium.com/ft-product-technology/financial-times-data-platform-from-zero-to-hero-143156bffb1d
[2] https://medium.com/ft-product-technology/enabling-data-driven-decisions-564359b79788
#data #dataplatforms #datalakes #media
Medium
Financial Times Data Platform: From zero to hero
An in-depth walkthrough of the evolution of our Data Platform
Продолжаю публиковать крупнейшие наборы данных для исследователей.
Крупнейший в России архив всех сайтов сохраненных в Национальном цифровом архиве [1] размещён в каталоге NGOData [2].
Архив включает CSV файл с метаданными по 50 тысячам файлам хранимым в рамках сфокусированной архивации с 2012 по 2020 годы включительно. В общей сложности - это 9 ТБ в сжатом виде и сильном большее в распакованном виде, около 20-30 ТБ. Этот список пополняется, потому что значительная часть работы ещё не закончена и по мере систематизации ранее сделанной работы и продолжения архивации данных будет больше. Для внешних пользователей также приведены ссылки для выгрузки самих архивов, для этого все они загружены в резервное хранилище из которого может скачивать файлы любой желающий.
Отвечая заранее на вопросы.
1. Что содержится в архиве?
В основном это архивы госсайтов и ресурсов находящихся под риском закрытия. Например, сайты закрывавшихся банков или институтов развития.
2. Зачем нужно архивировать сайты есть есть Интернет-архив?
Интернет-архив собирает далеко не всё, а в первую очередь наиболее часто посещаемые и цитируемые сайты и он не собирает иные файлы помимо HTML. В нашем архиве хранится файлы всех типов, архивация проводится по "тотальному принципу" и, обычно, не архивируются только видео файлы
3. Можно ли с этими данными работать через веб-интерфейс?
Пока нет, мы работаем над тем чтобы он появился в следующем году. Помощь и волонтеры очень востребованы. Пишите мне на https://t.me/ibegtin если владеете навыками программирования.
4. Кто ведёт этот проект?
Проект национального цифрового архива ведёт АНО "Информационная культура' помочь ему можно, например, пожертвованием здесь https://ruarxive.org/donate/
5. Откуда финансирование?
Это негосударственный некоммерческий проект созданный АНО Инфокультура без какой-либо государственной поддержки и с небольшой частной поддержкой мощностями для хранения данных.
6. Какая польза от данных веб-архивов?
В веб архивах оказываются многочисленные данные публикуемые, например, органами власти в XLS/XLSX формате и многое другое. Автоматические роботы могут извлекать их из WARC файлов напрямую. Чтобы понять содержимое WARC файлов достаточно скачивать файлы в формате CDX.
Ссылки:
[1] https://ruarxive.org
[2] https://ngodata.ru/dataset/groups/ruarxive-dump
#webarchive #data #datasets
Крупнейший в России архив всех сайтов сохраненных в Национальном цифровом архиве [1] размещён в каталоге NGOData [2].
Архив включает CSV файл с метаданными по 50 тысячам файлам хранимым в рамках сфокусированной архивации с 2012 по 2020 годы включительно. В общей сложности - это 9 ТБ в сжатом виде и сильном большее в распакованном виде, около 20-30 ТБ. Этот список пополняется, потому что значительная часть работы ещё не закончена и по мере систематизации ранее сделанной работы и продолжения архивации данных будет больше. Для внешних пользователей также приведены ссылки для выгрузки самих архивов, для этого все они загружены в резервное хранилище из которого может скачивать файлы любой желающий.
Отвечая заранее на вопросы.
1. Что содержится в архиве?
В основном это архивы госсайтов и ресурсов находящихся под риском закрытия. Например, сайты закрывавшихся банков или институтов развития.
2. Зачем нужно архивировать сайты есть есть Интернет-архив?
Интернет-архив собирает далеко не всё, а в первую очередь наиболее часто посещаемые и цитируемые сайты и он не собирает иные файлы помимо HTML. В нашем архиве хранится файлы всех типов, архивация проводится по "тотальному принципу" и, обычно, не архивируются только видео файлы
3. Можно ли с этими данными работать через веб-интерфейс?
Пока нет, мы работаем над тем чтобы он появился в следующем году. Помощь и волонтеры очень востребованы. Пишите мне на https://t.me/ibegtin если владеете навыками программирования.
4. Кто ведёт этот проект?
Проект национального цифрового архива ведёт АНО "Информационная культура' помочь ему можно, например, пожертвованием здесь https://ruarxive.org/donate/
5. Откуда финансирование?
Это негосударственный некоммерческий проект созданный АНО Инфокультура без какой-либо государственной поддержки и с небольшой частной поддержкой мощностями для хранения данных.
6. Какая польза от данных веб-архивов?
В веб архивах оказываются многочисленные данные публикуемые, например, органами власти в XLS/XLSX формате и многое другое. Автоматические роботы могут извлекать их из WARC файлов напрямую. Чтобы понять содержимое WARC файлов достаточно скачивать файлы в формате CDX.
Ссылки:
[1] https://ruarxive.org
[2] https://ngodata.ru/dataset/groups/ruarxive-dump
#webarchive #data #datasets
Telegram
Ivan Begtin
Data, Data engineering, Tech, Open Government and 🦝. Join my channel https://t.me/begtin
Sony представили [1] [2] Gastronomy Flagship Project по применению искусственного интеллекта в разработке гастрономических рецептов. Хорошее направление для ИИ и такой помощник на кухне это ровно то чего не хватает. Правда от ИИ до полноценного ассистента надо ещё будет подождать, но хочется надеяться.
И, до сих пор актуально преодоление двух сложностей - это сенсоры вкуса и запахов. Вот когда и это произойдёт то будет большой прорыв.
Ссылки:
[1] https://www.zdnet.com/article/sony-ai-launches-new-project-dedicated-to-gastronomy-research/
[2] https://ai.sony/projects/
#ai #data
И, до сих пор актуально преодоление двух сложностей - это сенсоры вкуса и запахов. Вот когда и это произойдёт то будет большой прорыв.
Ссылки:
[1] https://www.zdnet.com/article/sony-ai-launches-new-project-dedicated-to-gastronomy-research/
[2] https://ai.sony/projects/
#ai #data
ZDNet
Sony AI launches new project dedicated to gastronomy research
It plans to deliver an AI-powered recipe creation app and an in-kitchen assistant robot.
Свежий отчет по зрелости открытых данных в Европе за 2020 год [1]. Лучшие результаты в Дании, Испании и Франции. Худшие у Лихтенштейна, Грузии и Азербайджана. Последние хотя и не входят в ЕС, но оцениваются в данном исследовании в рамках "Eastern Partnership" .
Краткие выводы: уровень развития открытых данных высокий в большинстве стран довольно высокий и сама тема развивается и становится более зрелой, как в обеспечении качества данных, так и оперативности их публикации.
Цифры и факты:
- у 96% стран ЕС есть принятые стратегии открытости данных или эквивалентные им законы определяющие эти стратегии. Например, в Венгрии принята 2020 AI Strategy [2] включающая тему открытых данных.
- в феврале 2020 года в Нидерландах принята Национальная API стратегия по предоставлению данных и сервисов через интерфейсы API
- у 78% стран есть определение влияния открытых данных и у 70% есть национальные методики измерения этого влияния
- у 30% стран данные обновляются не позднее одного дня после обновления в первоисточнике
- в 78% странах метаданные поддерживаются в актуальном состоянии
- в 89% стран осуществляется мониторинг качества метаданных
- в 74% стран порталы соответствуют требованиям публикации обязательных полей стандарта DCAT-AP используемого для публикации каталогов данных
А также там же ещё много примеров, цифр и фактов на которые стоит обратить внимание.
Ссылки:
[1] https://www.europeandataportal.eu/en/dashboard/2020
[2] https://ai-hungary.com/en
#opendata #data #eu
Краткие выводы: уровень развития открытых данных высокий в большинстве стран довольно высокий и сама тема развивается и становится более зрелой, как в обеспечении качества данных, так и оперативности их публикации.
Цифры и факты:
- у 96% стран ЕС есть принятые стратегии открытости данных или эквивалентные им законы определяющие эти стратегии. Например, в Венгрии принята 2020 AI Strategy [2] включающая тему открытых данных.
- в феврале 2020 года в Нидерландах принята Национальная API стратегия по предоставлению данных и сервисов через интерфейсы API
- у 78% стран есть определение влияния открытых данных и у 70% есть национальные методики измерения этого влияния
- у 30% стран данные обновляются не позднее одного дня после обновления в первоисточнике
- в 78% странах метаданные поддерживаются в актуальном состоянии
- в 89% стран осуществляется мониторинг качества метаданных
- в 74% стран порталы соответствуют требованиям публикации обязательных полей стандарта DCAT-AP используемого для публикации каталогов данных
А также там же ещё много примеров, цифр и фактов на которые стоит обратить внимание.
Ссылки:
[1] https://www.europeandataportal.eu/en/dashboard/2020
[2] https://ai-hungary.com/en
#opendata #data #eu
data.europa.eu
Open Data in Europe 2020 | data.europa.eu
A series of indicators have been selected to measure Open Data maturity across Europe. These indicators cover the level of development of national policies promoting Open Data, an assessment of the features made available on national data portals as well…
А это вдогонку, о том что с открытыми данными на федеральном уровне творится в России. Я давно говорю что если отдать портал открытых данных и полномочия тому же Минкультуры РФ или Минцифре РФ, то хуже бы точно не было, а лучше могло бы.