В рубрике как это устроено у них Единый портал научных данных Республики Корея DataOn [1].
Объединяет систему публикации научных данных и поисковую систему по наборам данных в мире.
Включает более 37 тысяч наборов данных опубликованных корейскими учёными в 14 отраслевых репозиториях и более чем 1.6 миллионов наборов данных из репозиториев научных данных других стран.
Репозиторий был создан в декабре 2018 года и с той поры активно развивается.
Ссылки:
[1] https://dataon.kisti.re.kr/
#opendata #datasets #openaccess #openresearch #datacatalogs #korea
Объединяет систему публикации научных данных и поисковую систему по наборам данных в мире.
Включает более 37 тысяч наборов данных опубликованных корейскими учёными в 14 отраслевых репозиториях и более чем 1.6 миллионов наборов данных из репозиториев научных данных других стран.
Репозиторий был создан в декабре 2018 года и с той поры активно развивается.
Ссылки:
[1] https://dataon.kisti.re.kr/
#opendata #datasets #openaccess #openresearch #datacatalogs #korea
У меня уже целая коллекция поисковиков по данным, напомню самый известный и популярный в мире это Google Dataset Search, но это не значит что нет попыток создать другие агрегаторы и поисковые системы по наборам данных. Я ранее писал про Auctus, и ряд других, а вот нашёл ещё один IDRA [1] небольшой проект от итальянской компании Engineering, они создают этот проект на средства одной из исследовательских программ Евросоюза.
Судя по документации умеют харвестить данные из примерно 10 видов каталогов, к ним есть коннекторы, но в примере приведены только 9 каталогов 2-х типов: CKAN и DKAN.
Из интересного, делают акцент на поддержке протокола Orion Context Broker (NGSI v2) которые относятся скорее к инженерному миру чем к дата-инженерному или открытым данным, полагаю что это следствие интересов именно этой команды.
По многим параметрам выглядят неплохо, в первую очередь по охвату потенциальных источников данных. Поэтому лично я за этим проектом наблюдаю, но считаю что надо идти другим путём и этот путь в создании итеративно: реестра каталогов данных, базу первичных индексов и только потом поисковую систему.
Об этом всём я тоже рассказываю в телеграм канале. А пока +1 пример поисковой системы по данным.
Ссылки:
[1] https://idra.opsi-lab.it/IdraPortal/#/about
#opendata #data #datasearch #opensource
Судя по документации умеют харвестить данные из примерно 10 видов каталогов, к ним есть коннекторы, но в примере приведены только 9 каталогов 2-х типов: CKAN и DKAN.
Из интересного, делают акцент на поддержке протокола Orion Context Broker (NGSI v2) которые относятся скорее к инженерному миру чем к дата-инженерному или открытым данным, полагаю что это следствие интересов именно этой команды.
По многим параметрам выглядят неплохо, в первую очередь по охвату потенциальных источников данных. Поэтому лично я за этим проектом наблюдаю, но считаю что надо идти другим путём и этот путь в создании итеративно: реестра каталогов данных, базу первичных индексов и только потом поисковую систему.
Об этом всём я тоже рассказываю в телеграм канале. А пока +1 пример поисковой системы по данным.
Ссылки:
[1] https://idra.opsi-lab.it/IdraPortal/#/about
#opendata #data #datasearch #opensource
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Открытые данные Минэка больше недоступны
Ровно месяц прошел с «закрытия» Портала открытых данных и бодрого обещания Минэка «присылать данные по запросу». В день закрытия портала отправила запрос на получение данных Минэка, которые сейчас недоступны, т.к. публиковались только на Портале открытых данных, что противоречит законодательству.
Спустя месяц получаем следующую картину:
- Портал открытых данных недоступен, вместе с этим и недоступен ни один набор данных Минэкономразиватия
- Запрос на получение открытых данных, отправленный на почту mineconom@economy.gov.ru, рассматривается месяц в рамках рассмотрения обращений граждан
- В ответе на запрос (напомню, готовили его месяц) дублируется информация, которая была опубликована на сайте Минэка: «Портал временно закрыт, но данные можно получить по запросу». Фактически это больше похоже на «Данных нет, но вы держитесь», т.к. данные-то я запросила, но не получила.
- Вся контактная информация для запросов данных повторно удалена с портала открытых данных и заменена на заглушку: «Ведутся технические работы», телеграм-чат, созданный Минэком, молчит.
Пруф с ответом прикреплен к посту.
Ровно месяц прошел с «закрытия» Портала открытых данных и бодрого обещания Минэка «присылать данные по запросу». В день закрытия портала отправила запрос на получение данных Минэка, которые сейчас недоступны, т.к. публиковались только на Портале открытых данных, что противоречит законодательству.
Спустя месяц получаем следующую картину:
- Портал открытых данных недоступен, вместе с этим и недоступен ни один набор данных Минэкономразиватия
- Запрос на получение открытых данных, отправленный на почту mineconom@economy.gov.ru, рассматривается месяц в рамках рассмотрения обращений граждан
- В ответе на запрос (напомню, готовили его месяц) дублируется информация, которая была опубликована на сайте Минэка: «Портал временно закрыт, но данные можно получить по запросу». Фактически это больше похоже на «Данных нет, но вы держитесь», т.к. данные-то я запросила, но не получила.
- Вся контактная информация для запросов данных повторно удалена с портала открытых данных и заменена на заглушку: «Ведутся технические работы», телеграм-чат, созданный Минэком, молчит.
Пруф с ответом прикреплен к посту.
Я несколько раз писал про то сколько открытых данных публикуют в Китае, в первую очередь в научной сфере, в централизованной базе SciDb.cn для исследовательских данных. Но, честно говоря, я уже ощущаю что сильно недооценивал масштаб их публикаций. А он таков что практически у каждой из провинций Китая есть портал открытых данных, данные на них регулярно обновляются. Их, китайская специфика, в большом числе открытых API и акценте на данных городской/провинциальной инфраструктуры в виде API к их инфраструктурным информационным системам.
И даже у компаний вроде Baidu есть программы предоставления данных партнёрам открытым образом [1], это не open data, но подпадает под data sharing.
В Университете Фуданя есть ежегодный обзор и рейтинг провинций Китая по открытости данных [2] и рейтинг этот вырос вдвое за 3 года, с 102 пунктов в 2019 г. до 208 пунктов в 2022 г.
Можно обратить внимание насколько там было ещё неразвито в 2013-2016 годах когда как раз в России у практически всех регионов были порталы открытых данных.
В Китае они стали появляться позже и медленнее, и всё ещё нет общенационального, но явно до него осталось недолго, 1-2 года максимум, а скорее раньше.
Я об этом ещё напишу подробнее, материалов накопилось уже на большой обзор.
Ссылки:
[1] https://open.baidu.com/
[2] http://ifopendata.cn/
#opendata #china #data
И даже у компаний вроде Baidu есть программы предоставления данных партнёрам открытым образом [1], это не open data, но подпадает под data sharing.
В Университете Фуданя есть ежегодный обзор и рейтинг провинций Китая по открытости данных [2] и рейтинг этот вырос вдвое за 3 года, с 102 пунктов в 2019 г. до 208 пунктов в 2022 г.
Можно обратить внимание насколько там было ещё неразвито в 2013-2016 годах когда как раз в России у практически всех регионов были порталы открытых данных.
В Китае они стали появляться позже и медленнее, и всё ещё нет общенационального, но явно до него осталось недолго, 1-2 года максимум, а скорее раньше.
Я об этом ещё напишу подробнее, материалов накопилось уже на большой обзор.
Ссылки:
[1] https://open.baidu.com/
[2] http://ifopendata.cn/
#opendata #china #data
В рубрике интересных инструментов работы с данными AutoProfiler [1]
Расширение для Jupyter Notebook для автоматической визуализации данных в дата фреймах. Выглядит просто, когда видишь в первый раз кажется что "это же очевидно!", а на практике имеет большую пользу. Интересно останется ли только поддержка Pandas или добавят и Polars, например?
В любом случае это полезный практический инструмент.
Внутри него используется библиотека Vega-Altair [2] которая для таких визуализацией представляется весьма практичной.
А сама идея сопровождать таблицы данных визуализациями не нова, вот такой подход с отображением технических параметров датасета мне нравится, в первую очередь пригодностью к автоматизации.
Ссылки:
[1] https://github.com/cmudig/AutoProfiler
[2] https://altair-viz.github.io/index.html
#data #datatools #opensource #codenotebooks
Расширение для Jupyter Notebook для автоматической визуализации данных в дата фреймах. Выглядит просто, когда видишь в первый раз кажется что "это же очевидно!", а на практике имеет большую пользу. Интересно останется ли только поддержка Pandas или добавят и Polars, например?
В любом случае это полезный практический инструмент.
Внутри него используется библиотека Vega-Altair [2] которая для таких визуализацией представляется весьма практичной.
А сама идея сопровождать таблицы данных визуализациями не нова, вот такой подход с отображением технических параметров датасета мне нравится, в первую очередь пригодностью к автоматизации.
Ссылки:
[1] https://github.com/cmudig/AutoProfiler
[2] https://altair-viz.github.io/index.html
#data #datatools #opensource #codenotebooks
Интересное чтение про данные, технологии и не только:
- World’s largest battery maker announces major breakthrough in energy density [1] в компании CATL, ведущем производителе аккумуляторов в мире заявили о прорыве в хранении энергии и научились хранить до 500Wh на килограмм, для сравнения у батарей Tesla примерно вдвое меньше. Такая энергоёмкость снова возвращает к возможности создания электрических двигателей для самолётов. Если что CATL китайский производитель и это особенно интересно на фоне нынешних торговых войн. Подхлестнёт ли это исследования энергоёмкости в США и ЕС?
- Games are problems people pay to solve [2] короткий внятный текст про то что игры про то что люди платят за то что они решают задачи в изолированных безопасных пространствах. Со ссылками на хорошие книги по теме, а автор же написал книгу Mental Models Book.
- Prompt engineering [3] про инженерные методы взаимодействия с большими языковыми моделями. Без воды, много примеров, хорошо изложено. Отложил на почитать в ближайшие поездки.
- A genealogy of open [4] лонгрид о природе понятия открытости. Речь, в первую очередь, от открытости образования и образовательных материалов, но автор касается и других связанных тем: открытая наука, открытые данные и тд.
- Whose data commons? Whose city? [5] авторы рассуждают об открытости данных городов и важности инициатив в этой области. Выводы у них правда в форме: "надо об этом много говорить", кто же спорит. Но пишут со ссылками, хорошими аргументами и по делу.
Ссылки:
[1] https://thedriven.io/2023/04/21/worlds-largest-battery-maker-announces-major-breakthrough-in-battery-density/
[2] https://invertedpassion.com/games-are-problems-people-pay-to-solve/
[3] https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
[4] https://www.inthelibrarywiththeleadpipe.org/2023/genealogy-of-open/
[5] https://www.bennettinstitute.cam.ac.uk/blog/whose-data-commons-part-one/
#opendata #technology #readings #data #games #open
- World’s largest battery maker announces major breakthrough in energy density [1] в компании CATL, ведущем производителе аккумуляторов в мире заявили о прорыве в хранении энергии и научились хранить до 500Wh на килограмм, для сравнения у батарей Tesla примерно вдвое меньше. Такая энергоёмкость снова возвращает к возможности создания электрических двигателей для самолётов. Если что CATL китайский производитель и это особенно интересно на фоне нынешних торговых войн. Подхлестнёт ли это исследования энергоёмкости в США и ЕС?
- Games are problems people pay to solve [2] короткий внятный текст про то что игры про то что люди платят за то что они решают задачи в изолированных безопасных пространствах. Со ссылками на хорошие книги по теме, а автор же написал книгу Mental Models Book.
- Prompt engineering [3] про инженерные методы взаимодействия с большими языковыми моделями. Без воды, много примеров, хорошо изложено. Отложил на почитать в ближайшие поездки.
- A genealogy of open [4] лонгрид о природе понятия открытости. Речь, в первую очередь, от открытости образования и образовательных материалов, но автор касается и других связанных тем: открытая наука, открытые данные и тд.
- Whose data commons? Whose city? [5] авторы рассуждают об открытости данных городов и важности инициатив в этой области. Выводы у них правда в форме: "надо об этом много говорить", кто же спорит. Но пишут со ссылками, хорошими аргументами и по делу.
Ссылки:
[1] https://thedriven.io/2023/04/21/worlds-largest-battery-maker-announces-major-breakthrough-in-battery-density/
[2] https://invertedpassion.com/games-are-problems-people-pay-to-solve/
[3] https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
[4] https://www.inthelibrarywiththeleadpipe.org/2023/genealogy-of-open/
[5] https://www.bennettinstitute.cam.ac.uk/blog/whose-data-commons-part-one/
#opendata #technology #readings #data #games #open
The Driven
World’s largest battery maker announces major breakthrough in energy density
"A new era of universal electrification of sea, land and air transportation." CATL announces new battery that doubles energy intensity.
Я регулярно пишу про то как устроено в части работы с данными в разных странах, а в последнее время и чаще про страны постсоветского пространства и редко, но нахожу время для критики Минэкономразвития и Минцифры, это не значит что в РФ нет разумных проектов и инициатив о которых нельзя было бы рассказать.
Я приведу в пример три из них.
Открытые данные Минкультуры РФ (opendata.mkrf.ru)
Хорошо спроектированный и профессиональный движок для публикации открытых данных и для работы с данными в принципе. При том что там опубликовано всего 62 набора данных, но это данные относительно большого объёма, доступные по API, в разных форматах и с визуализацией. Очень хочется чтобы Минкультуры РФ непрополимерило потеряло его, потому что то что я знаю так то что после кадровых преобразований в Минкультуры уже неизвестно кто им занимается. Ещё жаль что ни одного внедрения этого движка кроме как на сайте Минкультуры нет.
Платформа поставки данных ФНС России (vpd.nalog.gov.ru)
Это не открытые данные идеологически, но это инициатива по предоставлению чувствительных данных, как ещё говорят data sharing. Я слышал много положительных отзывов от людей в региональной власти в РФ о том что жаль что у других ФОИВов нет подобного или что они не предоставляют свои данные также через такую платформу.
История финансовой системы (https://minfin.gov.ru/ru/ministry/historylib/common/finance/fin_history)
Большая коллекция книг исторических бюджетов и других материалов опубликованных Минфином России в разделе у себя на сайте. Что важно - многие документы ещё Российской Империи и СССР. Полезно для тех кто изучает территорий входящих и входивших в эту местность. Активно используется многими историками. За многое Минфину РФ спасибо не скажешь, а за это конкретно спасибо.
Госрасходы (spending.gov.ru)
Здесь немного бесстыдной рекламы проектам к которые я когда-то создавал. Проект создан на базе госконтрактов, данных по госпрограммам, госпроектам и многим другим данным относящимся к госфинансам и расходам/доходам гос-ва. После того как я ушёл снова заниматься коммерческими и общественными проектами им уже несколько лет занимается Ольга Пархимович (@ahminfin), она изредка пишет про открытость госфинансов и открытые данные. Подписывайтесь, думаю что прирост подписчиков промотивирует её писать чаще;)
—
Я знаю очень много других весьма неплохих практик открытости и работы с данными, о каких то не могу писать, потому что о них ничего нет публичного, о каких-то пишу, но редко, потому что чаще пишу на русском языке о том что происходит в мире.
В России же, к сожалению, хорошие практики теряются в общем тренде не закрытость гос-ва и то что лучшие практики не применяются. Если бы к примеру, новость о закрытии федерального портала data.gov.ru звучала бы как то что Минэк договорился с командой Минкульта о переносе их портала и создании качественного нового портала - то ну что бы их критиковал? Или если бы сотрудники Минэка покаялись бы и озвучили что сами понимают что всё продолбали и теперь передают полномочия налоговой службе по новой версии портала, то и такому можно было бы лишь апплодировать.
Но ничего такого не будет;)
Поэтому заканчиваю на минорной ноте, хорошие примеры есть, хорошие практики есть, люди с компетенциями есть даже внутри государства и его подрядчиков, но что-то в консерватории поправить надо (с) как говорил Жванецкий
#bestpractices #russia #government #opendata #data
Я приведу в пример три из них.
Открытые данные Минкультуры РФ (opendata.mkrf.ru)
Хорошо спроектированный и профессиональный движок для публикации открытых данных и для работы с данными в принципе. При том что там опубликовано всего 62 набора данных, но это данные относительно большого объёма, доступные по API, в разных форматах и с визуализацией. Очень хочется чтобы Минкультуры РФ не
Платформа поставки данных ФНС России (vpd.nalog.gov.ru)
Это не открытые данные идеологически, но это инициатива по предоставлению чувствительных данных, как ещё говорят data sharing. Я слышал много положительных отзывов от людей в региональной власти в РФ о том что жаль что у других ФОИВов нет подобного или что они не предоставляют свои данные также через такую платформу.
История финансовой системы (https://minfin.gov.ru/ru/ministry/historylib/common/finance/fin_history)
Большая коллекция книг исторических бюджетов и других материалов опубликованных Минфином России в разделе у себя на сайте. Что важно - многие документы ещё Российской Империи и СССР. Полезно для тех кто изучает территорий входящих и входивших в эту местность. Активно используется многими историками. За многое Минфину РФ спасибо не скажешь, а за это конкретно спасибо.
Госрасходы (spending.gov.ru)
Здесь немного бесстыдной рекламы проектам к которые я когда-то создавал. Проект создан на базе госконтрактов, данных по госпрограммам, госпроектам и многим другим данным относящимся к госфинансам и расходам/доходам гос-ва. После того как я ушёл снова заниматься коммерческими и общественными проектами им уже несколько лет занимается Ольга Пархимович (@ahminfin), она изредка пишет про открытость госфинансов и открытые данные. Подписывайтесь, думаю что прирост подписчиков промотивирует её писать чаще;)
—
Я знаю очень много других весьма неплохих практик открытости и работы с данными, о каких то не могу писать, потому что о них ничего нет публичного, о каких-то пишу, но редко, потому что чаще пишу на русском языке о том что происходит в мире.
В России же, к сожалению, хорошие практики теряются в общем тренде не закрытость гос-ва и то что лучшие практики не применяются. Если бы к примеру, новость о закрытии федерального портала data.gov.ru звучала бы как то что Минэк договорился с командой Минкульта о переносе их портала и создании качественного нового портала - то ну что бы их критиковал? Или если бы сотрудники Минэка покаялись бы и озвучили что сами понимают что всё продолбали и теперь передают полномочия налоговой службе по новой версии портала, то и такому можно было бы лишь апплодировать.
Но ничего такого не будет;)
Поэтому заканчиваю на минорной ноте, хорошие примеры есть, хорошие практики есть, люди с компетенциями есть даже внутри государства и его подрядчиков, но что-то в консерватории поправить надо (с) как говорил Жванецкий
#bestpractices #russia #government #opendata #data
Пишут что у Сбера появился свой аналог ChatGPT к которому, правда, доступ только по приглашениям. Я его не видел, зато не могу не вспомнить про проект AIID AI Incident Database [1] база из более чем 500 "инцидентов" произошедших с AI. Например, когда машина под управлением AI сбивает пешехода или когда рекомендательный алгоритм с использованием ИИ рекомендует совсем не то и тд. Судя по описаниям некоторых инцидентов, там объектом рассмотрения являются не только ИИ системы, но и нейросети и другие результаты машинного обучения. Я бы скорее говорил что там речь про ADM системы (ADM - automated decision making), но авторы используют термин AI.
И да, данные из этой базы можно скачать одним архивом в машиночитаемой форме [2]
Ссылки:
[1] https://incidentdatabase.ai/
[2] https://incidentdatabase.ai/research/snapshots/
#ai #ethics #incidents #datasets
И да, данные из этой базы можно скачать одним архивом в машиночитаемой форме [2]
Ссылки:
[1] https://incidentdatabase.ai/
[2] https://incidentdatabase.ai/research/snapshots/
#ai #ethics #incidents #datasets
Команда российского Гостех'а в своём телеграм канале пишет поёт себе хвалу [1] о том что Россия признана одним из лидеров гостехизации в рейтиге GTMI (GovTech Maturity Index), но как бы помягче сказать. Библейскими словами - это лукавство.
Действительно, 11 апреля вышло обновление индекса GovTech Maturity Index, 2022 Update — Europe and Central Asia Regional Brief [2].
Так вот обратите внимание что:
1. Кроме России в лидерах там ещё и: Азербайджан, Украина, Сербия, Албания, Хорватия, Молдавия и др.
2. GMTI - это не оценка проектов под названием "ГосТех", а совокупность технологий и решений. Например, гособлака, платформа для госзаказа, электронный бюджет и тд. Если вы почитаете документ внимательно то обнаружите что ни одна из упомянутых там систем к российской системе гостех не относятся.
3. Важно помнить про смысловые отличия терминов. В мире и у Всемирного Банка Гостех - это технологические инновации в госсекторе. Такие же как Edutech, Fintech, Legaltech. В России Гостехом обозвали некий продукт на базе платформы V от Сбербанка.
4. Про все страны в этом документе есть дополнения, про Россию даже не стали упоминать, она есть в рейтингах, но в текстовом описании начисто отсутствует.
Даже не знаю что добавить. Подитожу, да, в российском госсекторе есть технологические проекты позволяющими ему быть на уровне Молдавии и Азербайджана, и да, никакого отношения к этим проектам российский Гостех не имеет и иметь не может.
Ссылки:
[1] https://t.me/gosteh/488
[2] https://openknowledge.worldbank.org/items/f6ec889a-13aa-4eda-9b5f-42ac35f262fe
#government #govtech #worldbank #technology
Действительно, 11 апреля вышло обновление индекса GovTech Maturity Index, 2022 Update — Europe and Central Asia Regional Brief [2].
Так вот обратите внимание что:
1. Кроме России в лидерах там ещё и: Азербайджан, Украина, Сербия, Албания, Хорватия, Молдавия и др.
2. GMTI - это не оценка проектов под названием "ГосТех", а совокупность технологий и решений. Например, гособлака, платформа для госзаказа, электронный бюджет и тд. Если вы почитаете документ внимательно то обнаружите что ни одна из упомянутых там систем к российской системе гостех не относятся.
3. Важно помнить про смысловые отличия терминов. В мире и у Всемирного Банка Гостех - это технологические инновации в госсекторе. Такие же как Edutech, Fintech, Legaltech. В России Гостехом обозвали некий продукт на базе платформы V от Сбербанка.
4. Про все страны в этом документе есть дополнения, про Россию даже не стали упоминать, она есть в рейтингах, но в текстовом описании начисто отсутствует.
Даже не знаю что добавить. Подитожу, да, в российском госсекторе есть технологические проекты позволяющими ему быть на уровне Молдавии и Азербайджана, и да, никакого отношения к этим проектам российский Гостех не имеет и иметь не может.
Ссылки:
[1] https://t.me/gosteh/488
[2] https://openknowledge.worldbank.org/items/f6ec889a-13aa-4eda-9b5f-42ac35f262fe
#government #govtech #worldbank #technology
WBG_GovTech Dataset_Mar2023.xlsx
5 MB
Вдогонку к тому о чём я только что писал про Гостех, таблица с данными по всем странам которые оценивали в рамках индекса GMTI. Там все первичные данные, ссылки на законы, госполитику и тд. Заодно можно увидеть что эксперты Всемирного банка чаще всего сомнительные случаи трактуют в пользу страны и там есть какое-то количество устаревших пунктов, вроде того что в России ещё есть национальный портал открытых данных, тем не менее полезно посмотреть для того чтобы посмотреть на основе чего формируются оценки и из чего складываются оценки других стран.
#govtech #ratings #datasets
#govtech #ratings #datasets
Сколько вообще в мире порталов с общедоступными данными? Я всё пополняю реестр каталогов данных в рамках Common Data Index [1] и статистики всё больше, понимание что ещё много осталось неохваченного тоже, но тем не мене.
Итак:
- 1508 внесенных каталогов данных и 497 найденных и ещё не систематизированных. Вместе около 2005
- 450 порталов на базе CKAN, самое популярное решение для порталов с открытыми данными
- 208 порталов Geonetwork, самый популярный каталог геоданных в мире. Не всегда там сами данные, иногда только метаданные. Размеры каталогов варьируются от 2 до 500 тысяч датасетов
- 178 порталов на базе облачного сервиса ArcGIS Hub. Это геосервис от ArcGIS позиционируемый как SaaS портал открытых данных
- 169 порталов на базе Geoserver, как правило не видных снаружи, но очень активно используемых
- 103 каталога научных данных на базе Dataverse
- 78 порталов на базе коммерческого продукта OpenDataSoft
- 63 портала на базе коммерческого продукта Socrata
- 58 порталов Geonode, упрощённого каталога геоданных. Он проще чем Geonetwork, но уже содержит ряд методанных о слоях
- 52 портала на базе опенсорсного каталога микроданных NADA
- 44 инсталляции ПО DKAN, аналог CKAN написанный на PHP и Drupal. Опенсорсный продукт
- 33 инсталляции PxWeb, ПО для публикации статистических индикаторов
- 21 научный портал данных на базе облачного сервиса Figshare
и не менее 247 порталов работающих на собственных разработках. Про Россию однозначно можно говорить про бесконечное изобретение велосипедов, типовое ПО используется крайне редко, международные стандарты метаданных почти не поддерживаются. Это касается и открытых данных и геоданных.
По числу порталов открытых данных и геокаталогов примерно поровну. По числу наборов данных геоданных многократно больше. По объёмам, наибольшего размера научные данные.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry
#opendata #datasets #data #commondataindex
Итак:
- 1508 внесенных каталогов данных и 497 найденных и ещё не систематизированных. Вместе около 2005
- 450 порталов на базе CKAN, самое популярное решение для порталов с открытыми данными
- 208 порталов Geonetwork, самый популярный каталог геоданных в мире. Не всегда там сами данные, иногда только метаданные. Размеры каталогов варьируются от 2 до 500 тысяч датасетов
- 178 порталов на базе облачного сервиса ArcGIS Hub. Это геосервис от ArcGIS позиционируемый как SaaS портал открытых данных
- 169 порталов на базе Geoserver, как правило не видных снаружи, но очень активно используемых
- 103 каталога научных данных на базе Dataverse
- 78 порталов на базе коммерческого продукта OpenDataSoft
- 63 портала на базе коммерческого продукта Socrata
- 58 порталов Geonode, упрощённого каталога геоданных. Он проще чем Geonetwork, но уже содержит ряд методанных о слоях
- 52 портала на базе опенсорсного каталога микроданных NADA
- 44 инсталляции ПО DKAN, аналог CKAN написанный на PHP и Drupal. Опенсорсный продукт
- 33 инсталляции PxWeb, ПО для публикации статистических индикаторов
- 21 научный портал данных на базе облачного сервиса Figshare
и не менее 247 порталов работающих на собственных разработках. Про Россию однозначно можно говорить про бесконечное изобретение велосипедов, типовое ПО используется крайне редко, международные стандарты метаданных почти не поддерживаются. Это касается и открытых данных и геоданных.
По числу порталов открытых данных и геокаталогов примерно поровну. По числу наборов данных геоданных многократно больше. По объёмам, наибольшего размера научные данные.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry
#opendata #datasets #data #commondataindex
GitHub
GitHub - commondataio/dataportals-registry: Registry of data portals, catalogs, data repositories including data catalogs dataset…
Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry
Я, кстати, зачитался просто оценкой России по GMTI, она есть в файле который я ранее постил [1]. Открываете вкладку Metadata, выбираете страну Russia и смотрите оценки по каждому пункту. А там столько интересного что я даже не знаю, заполняли ли это эксперты на зарплате у Российского пр-ва или просто не знающие что тут реально происходило и происходит.
Итак, по пунктам:
- I-33.1 - знаете какая основная структура отвечает за Гостех в России? Можно пару попыток. Нет, не угадали. Это Агентство стратегических инициатив https://asi.ru😐 .
- I-34.6 - оказывается в России есть документ определяющий Data Governance strategy / policy. А знаете куда ведёт ссылка? В корень сайта аналитического центра при Пр-ве. 😱 Куда же они его спрятали там ?!
- I-35.1 - оказывается в России есть стратегия цифровой трансформации и это. трам-пара-рам - это Паспорт национальной программы «Цифровая экономика Российской Федерации». В файле ссылка приведена битая, но смысл не меняется. Те кто не читал этот паспорт, могут почитать тут [2]. Это не стратегия, это дорожная карта которые обычно пишут на основе стратегий, но стратегий нет.😡
- I-37.4.1 - оказывается в России есть очень крутой закон о доступе к информации и он даже мониторится Росстатом [3] (вот этот пункт похож даже не на лукавство, а на чистый подлог, ничего такого нет по этой ссылке и мониторинг если и ведётся то в закрытом режиме и в АП РФ, а не Росстатом. Можно говорить что не ведётся). 😠
И так ещё десятки пунктов, у меня сейчас нет времени все их разбирать.
Но два тезиса я могу точно сформулировать.
1) Оценка России в индексе GMTI завышена и это на совести экспертов Всемирного банка которые её осуществляли. Если бы эта оценка хоть кого-то в мире волновала, то давно был бы скандал где индекс прополоскали бы в не-российских СМИ, но индекс не волнует никого кроме тех кто на него рукоблудит, например, пиарщиков Гостеха.
2) Там вообще нигде, никоим боком нет упоминания платформы Сбербанка которую называют в России Гостехом. Впрочем я об этом писал уже ранее.
Ссылки:
[1] https://t.me/begtin/4835
[2] http://static.government.ru/media/files/urKHm0gTPPnzJlaKw3M5cNLo6gczMkPF.pdf
[3] https://rosstat.gov.ru/gosusligi1
#ratings #govtech #rant
Итак, по пунктам:
- I-33.1 - знаете какая основная структура отвечает за Гостех в России? Можно пару попыток. Нет, не угадали. Это Агентство стратегических инициатив https://asi.ru
- I-34.6 - оказывается в России есть документ определяющий Data Governance strategy / policy. А знаете куда ведёт ссылка? В корень сайта аналитического центра при Пр-ве. 😱 Куда же они его спрятали там ?!
- I-35.1 - оказывается в России есть стратегия цифровой трансформации и это. трам-пара-рам - это Паспорт национальной программы «Цифровая экономика Российской Федерации». В файле ссылка приведена битая, но смысл не меняется. Те кто не читал этот паспорт, могут почитать тут [2]. Это не стратегия, это дорожная карта которые обычно пишут на основе стратегий, но стратегий нет.
- I-37.4.1 - оказывается в России есть очень крутой закон о доступе к информации и он даже мониторится Росстатом [3] (вот этот пункт похож даже не на лукавство, а на чистый подлог, ничего такого нет по этой ссылке и мониторинг если и ведётся то в закрытом режиме и в АП РФ, а не Росстатом. Можно говорить что не ведётся). 😠
И так ещё десятки пунктов, у меня сейчас нет времени все их разбирать.
Но два тезиса я могу точно сформулировать.
1) Оценка России в индексе GMTI завышена и это на совести экспертов Всемирного банка которые её осуществляли. Если бы эта оценка хоть кого-то в мире волновала, то давно был бы скандал где индекс прополоскали бы в не-российских СМИ, но индекс не волнует никого кроме тех кто на него рукоблудит, например, пиарщиков Гостеха.
2) Там вообще нигде, никоим боком нет упоминания платформы Сбербанка которую называют в России Гостехом. Впрочем я об этом писал уже ранее.
Ссылки:
[1] https://t.me/begtin/4835
[2] http://static.government.ru/media/files/urKHm0gTPPnzJlaKw3M5cNLo6gczMkPF.pdf
[3] https://rosstat.gov.ru/gosusligi1
#ratings #govtech #rant
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Ivan Begtin
Вдогонку к тому о чём я только что писал про Гостех, таблица с данными по всем странам которые оценивали в рамках индекса GMTI. Там все первичные данные, ссылки на законы, госполитику и тд. Заодно можно увидеть что эксперты Всемирного банка чаще всего сомнительные…
Про сжатие данных и о том почему я регулярно пишу что Parquet - это реально значимый формат хранения и обмена данными, важнее довольно многих.
Я приведу в пример данные с которыми я лично работал в аналитических задачах. У меня есть выгрузка слепка данных из российского реестра юридических лиц ЕГРЮЛ в виде 11 миллионов записей в которых 12 полей-признаков места организации, её типа, кода окопф, оквэд, кладр, статус ликвидации и тд. Без названий и без идентификаторов, данные нужны только для аналитической работы и построения кубов и срезов для BI. В общеё сложности - это 4.07ГБ. Не очень много когда один файл и много когда таких файлов десятки. С файлом нужно иметь возможность работать, загружать в СУБД или библиотеку вроде Pandas. Как сжать эти данные?
Самое очевидное - это сжать классическими архиваторами и хранить так. Gzip даёт сжатие до 337 МБ это примерно 8.3%, альтернативный Gzip'у архиватор LZ4 для быстрого сжатия и разжатия даёт компрессию до 340МБ это тоже примерно 8.3%, а LMA-архивация с помощь. XZ даёт 136МБ это примерно 3%, но она работает значительно медленнее. Все архиваторы проверялись в режиме максимального сжатия (ключ -9).
Так вот, а если этот же CSV файл преобразовать в parquet формат со сжатием, то итоговый файл получается размером в 109МБ, это примерно 2.7% от оригинального и, при этом, с ним весьма удобно работать с инструментами вроде Pandas при том что скорость преобразования значительно быстрее чем сжатие с помощью xz, к примеру. Во многом, похоже, это происходит из-заавтоматической идентификации типов полей и их преобразования.
Причём даже если повторить используемый в parquet трюк с колоночным сжатием, так просто такой результат повторить непросто. Например, у меня есть код который из CSV файла создаёт пучёк одноколоночных CSV файлов сжатие которых по отдельности должно быть лучше чем сжатие оригинального файла. Сжатые одноколоночные файлы дают дополнительное сжатие. GZIP файлы таких файлов занимают 221 МБ вместо 337 МБ. Аналогично для lz4 и только для xz размер общий файлов увеличивается до 139 МБ.
Конечно никто такие одноколочные файлы не делает, это трюк из давнего прошлого, я привожу его исключительно как иллюстрацию. Речь о том что Parquet файл значительно меньше и практичнее в общим случаях.
Отдельная история про сжатие данных для долгосрочного хранения и для сохранения интеграции с унаследованными системами. Тем не менее, имея выбор формата для хранения данных - Parquet это хороший выбор.
Для того чтобы он стал отличным ему нехватает только некоторых опций работы стандартными инструментами. Чтобы его можно было открыть в Excel, в браузере, в чтобы были аналоги grep/cat/awk/sed или csvkit и ещё много разных других инструментов. Тем не менее и сейчас его уже можно использовать.
#dataengineering #data #compression #parquet
Я приведу в пример данные с которыми я лично работал в аналитических задачах. У меня есть выгрузка слепка данных из российского реестра юридических лиц ЕГРЮЛ в виде 11 миллионов записей в которых 12 полей-признаков места организации, её типа, кода окопф, оквэд, кладр, статус ликвидации и тд. Без названий и без идентификаторов, данные нужны только для аналитической работы и построения кубов и срезов для BI. В общеё сложности - это 4.07ГБ. Не очень много когда один файл и много когда таких файлов десятки. С файлом нужно иметь возможность работать, загружать в СУБД или библиотеку вроде Pandas. Как сжать эти данные?
Самое очевидное - это сжать классическими архиваторами и хранить так. Gzip даёт сжатие до 337 МБ это примерно 8.3%, альтернативный Gzip'у архиватор LZ4 для быстрого сжатия и разжатия даёт компрессию до 340МБ это тоже примерно 8.3%, а LMA-архивация с помощь. XZ даёт 136МБ это примерно 3%, но она работает значительно медленнее. Все архиваторы проверялись в режиме максимального сжатия (ключ -9).
Так вот, а если этот же CSV файл преобразовать в parquet формат со сжатием, то итоговый файл получается размером в 109МБ, это примерно 2.7% от оригинального и, при этом, с ним весьма удобно работать с инструментами вроде Pandas при том что скорость преобразования значительно быстрее чем сжатие с помощью xz, к примеру. Во многом, похоже, это происходит из-заавтоматической идентификации типов полей и их преобразования.
Причём даже если повторить используемый в parquet трюк с колоночным сжатием, так просто такой результат повторить непросто. Например, у меня есть код который из CSV файла создаёт пучёк одноколоночных CSV файлов сжатие которых по отдельности должно быть лучше чем сжатие оригинального файла. Сжатые одноколоночные файлы дают дополнительное сжатие. GZIP файлы таких файлов занимают 221 МБ вместо 337 МБ. Аналогично для lz4 и только для xz размер общий файлов увеличивается до 139 МБ.
Конечно никто такие одноколочные файлы не делает, это трюк из давнего прошлого, я привожу его исключительно как иллюстрацию. Речь о том что Parquet файл значительно меньше и практичнее в общим случаях.
Отдельная история про сжатие данных для долгосрочного хранения и для сохранения интеграции с унаследованными системами. Тем не менее, имея выбор формата для хранения данных - Parquet это хороший выбор.
Для того чтобы он стал отличным ему нехватает только некоторых опций работы стандартными инструментами. Чтобы его можно было открыть в Excel, в браузере, в чтобы были аналоги grep/cat/awk/sed или csvkit и ещё много разных других инструментов. Тем не менее и сейчас его уже можно использовать.
#dataengineering #data #compression #parquet
Я, кстати, ранее ругался что на портале открытых данных Казахстана [1] ничего не скачать не имея местного ИИ, данные были доступны только после регистрации, теперь скачивать данные можно без регистрации, наверное они меня читают;) Но и тут без подвоха не обошлось, скачивать можно только до 100 записей за раз. Это, конечно, совершенно "потрясающе" как можно было до такого додуматься. Настолько смешно, что даже не знаю что добавить. В общем, портал по прежнему не про открытые данные. А вот где у них открытые данные точно есть так это в Портале открытых пространственных данных Республики Казахстан [2]. Там взяли готовый продукт Geonode и опубликовали более 500 слоёв. Но ленятся бессовестно, не указывают условия использования данных, язык везде указан как английский, хотя названия слоёв на русском. Описания есть далеко не у всех наборов данных.
Это вообще странно что решили делать каталог на GeoNode, а не GeoNetwork, не то чтобы это невозможно, но продукт другого типа.
Ссылки:
[1] https://data.egov.kz
[2] https://map.gov.kz/
#opendata #data #opengov #kazakhstan
Это вообще странно что решили делать каталог на GeoNode, а не GeoNetwork, не то чтобы это невозможно, но продукт другого типа.
Ссылки:
[1] https://data.egov.kz
[2] https://map.gov.kz/
#opendata #data #opengov #kazakhstan
Хороший обзор по выбору баз данных в блоге ByteByteGo [1], но блог под платную подписку поэтому ещё один текст ещё 2021 года тоже про выбор базы данных.
К примерам продуктов из которых выбирать можно относится сдержанно и реальная жизнь шире, но как систематизированное описание очень хорошо.
Я же обращу внимание на NoSQL базы данных для документов наиболее известной из которых является MongoDB. Так вот выбор там, конечно, не только между базами данных своего типа, MongoDB, ArangoDB и тд. Чаще всего выбор между NoSQL и NewSQL. Например, недавно в разговоре для подготовки к одной из конференций речь зашла о том что будет использоваться в Common Data Index, реестре и поисковике по данным который я проектирую. Для меня по умолчанию - если объект хранения иерархичный документ то это MongoDB. Но для очень многих корпоративных дата инженеров - это Postgres, что тоже логично, там есть поддержка хранения JSON и некоторые функции.
За чем правда? Я скажу так, когда речь идёт о хранении от сотнях миллионов объектов по которым могут быть сложные запросы, то Postgres показывает себя лучше. Но если данных поменьше, то MongoDB вполне себе подходит.
Случаи разные, задачи разные. Главный недостаток MongoDB в том что там там многие ветки развития для Community Edition перекрыты тем что это продукт коммерческий и если в облачной версии есть поддержка GraphQL из коробки, то в бесплатной версии и не будет похоже. Но альтернатив не так много как кажется.
Ссылки:
[1] https://blog.bytebytego.com/p/understanding-database-types
[2] https://towardsdatascience.com/datastore-choices-sql-vs-nosql-database-ebec24d56106
#opensource #databases #dbengines #data #datatools
К примерам продуктов из которых выбирать можно относится сдержанно и реальная жизнь шире, но как систематизированное описание очень хорошо.
Я же обращу внимание на NoSQL базы данных для документов наиболее известной из которых является MongoDB. Так вот выбор там, конечно, не только между базами данных своего типа, MongoDB, ArangoDB и тд. Чаще всего выбор между NoSQL и NewSQL. Например, недавно в разговоре для подготовки к одной из конференций речь зашла о том что будет использоваться в Common Data Index, реестре и поисковике по данным который я проектирую. Для меня по умолчанию - если объект хранения иерархичный документ то это MongoDB. Но для очень многих корпоративных дата инженеров - это Postgres, что тоже логично, там есть поддержка хранения JSON и некоторые функции.
За чем правда? Я скажу так, когда речь идёт о хранении от сотнях миллионов объектов по которым могут быть сложные запросы, то Postgres показывает себя лучше. Но если данных поменьше, то MongoDB вполне себе подходит.
Случаи разные, задачи разные. Главный недостаток MongoDB в том что там там многие ветки развития для Community Edition перекрыты тем что это продукт коммерческий и если в облачной версии есть поддержка GraphQL из коробки, то в бесплатной версии и не будет похоже. Но альтернатив не так много как кажется.
Ссылки:
[1] https://blog.bytebytego.com/p/understanding-database-types
[2] https://towardsdatascience.com/datastore-choices-sql-vs-nosql-database-ebec24d56106
#opensource #databases #dbengines #data #datatools