Governing Urban Data for the Public Interest [1] свежий документ от команды The New Institute and the Free and Hanseatic City of Hamburg подготовленный в рамках инициативы The New Hanse (Новая Ганза) и посвящённый управлению данными и открытым данным в Гамбурге. Документ раскрывает темы Urban Data Platform (UDP) / Городской платформы данных (ГПД) и подход через посредников в работе с данными (data intermediaries).
Ключевые акценты сосредоточены в утверждении необходимости сдвига парадигмы обмена городскими данными через обеспечение столь широкого доступа к ним сколь это возможно.
Документ полезный, с большим числом схем организационной работы. При этом со своими ограничениями. В его авторах экономисты, юристы и ИТ менеджеры, но совсем нет инженеров/технарей/людей с практическим опытом работы с данными поэтому технические разделы вроде Parametrised data transformations и Parametrised contracts довольно общие, а технические характеристики и интеграция Urban Data Platform практически не прописаны.
В документе есть несколько интересных отсылок на работы и центры в этом же направлении. Например, The International Data Spaces Association (IDSA) [2] и многие другие.
Ссылки:
[1] https://thenewhanse.eu/en/blueprint
[2] https://internationaldataspaces.org/
#opendata #cities #europe #readings
Ключевые акценты сосредоточены в утверждении необходимости сдвига парадигмы обмена городскими данными через обеспечение столь широкого доступа к ним сколь это возможно.
Документ полезный, с большим числом схем организационной работы. При этом со своими ограничениями. В его авторах экономисты, юристы и ИТ менеджеры, но совсем нет инженеров/технарей/людей с практическим опытом работы с данными поэтому технические разделы вроде Parametrised data transformations и Parametrised contracts довольно общие, а технические характеристики и интеграция Urban Data Platform практически не прописаны.
В документе есть несколько интересных отсылок на работы и центры в этом же направлении. Например, The International Data Spaces Association (IDSA) [2] и многие другие.
Ссылки:
[1] https://thenewhanse.eu/en/blueprint
[2] https://internationaldataspaces.org/
#opendata #cities #europe #readings
International Data Spaces
Home - International Data Spaces
The International Data Spaces Association (IDSA) is on a mission to create the future of the global, digital economy with IDS, a secure, sovereign system of data exchange in which all participants can realize the full value of their data. IDS enables new…
В качестве регулярных напоминаний о том какие некоммерческие проекты делают наши команды в Open Data Center (Армения) и в Инфокультура (Россия):
В Армении
- Мы запустили портал открытых данных data.opendata.am на котором уже 809 наборов данных. В ближайших планах организация конкурса на открытых данных и подготовка Open Data Day в Ереване в марте 2024 г. Изначально планировали конкурс ещё в сентябре, но гуманитарный кризис вокруг Арцаха сейчас создаёт совсем другие приоритеты у общества в стране. Тем не менее наши планы не изменились, лишь сдвинулись. Подробности будут регулярно в телеграм канале https://t.me/opendataam
- Любая помощь в поиске, сборе данных, финансовая поддержка, партнерство в конкурсе и в подготовке Дня открытых данных всячески приветствуется. Пишите мне (на русском, армянском или английском) если готовы помочь и в чате https://t.me/opendataamchat
- И, конечно, не могу не напомнить про наш негосударственный портал открытых данных https://data.opendata.am
В России
- Мы продолжаем, как минимум поддерживать, как максимум развивать где это возможно проекты созданные в России связанные с открытыми данными, открытостью госфинансов, НКО, цифровым сохранением и так далее. Это такие проекты как:
— Госзатраты https://clearspending.ru продолжает обновляться, база госконтрактов и открытые данные.
— Открытые НКО https://openngo.ru база и открытые данные по российским некоммерческим организациям. Полузаморожен, но актуализируется насколько возможно. Многие данные более не публикуется госорганами, например, сведения об учредителях НКО.
— Простой русский язык https://plainrussian.ru не столько про открытость, сколько про понятность документов на русском языке
— Национальный цифровой архив https://ruarxive.org про архивацию цифрового исчезающего контента
- Есть и другие проекты, о которых можно будет говорить когда они будут готовы. В любом случае много усилий сейчас про то как сохранить и не потерять сделанное ранее.
Глобальное
- Продолжается проект каталога порталов открытых данных https://registry.commondata.io и поисковой системы поверх него. Проект продолжается, каталогов всё больше, метаданные с их описанием всё лучше, но самое главное будет поисковой системы поверх них.
Если Вы видите возможности и идеи для кооперации и партнерства, пишите мне.
#opendata #russia #armenia #projects #digitalpreservation
В Армении
- Мы запустили портал открытых данных data.opendata.am на котором уже 809 наборов данных. В ближайших планах организация конкурса на открытых данных и подготовка Open Data Day в Ереване в марте 2024 г. Изначально планировали конкурс ещё в сентябре, но гуманитарный кризис вокруг Арцаха сейчас создаёт совсем другие приоритеты у общества в стране. Тем не менее наши планы не изменились, лишь сдвинулись. Подробности будут регулярно в телеграм канале https://t.me/opendataam
- Любая помощь в поиске, сборе данных, финансовая поддержка, партнерство в конкурсе и в подготовке Дня открытых данных всячески приветствуется. Пишите мне (на русском, армянском или английском) если готовы помочь и в чате https://t.me/opendataamchat
- И, конечно, не могу не напомнить про наш негосударственный портал открытых данных https://data.opendata.am
В России
- Мы продолжаем, как минимум поддерживать, как максимум развивать где это возможно проекты созданные в России связанные с открытыми данными, открытостью госфинансов, НКО, цифровым сохранением и так далее. Это такие проекты как:
— Госзатраты https://clearspending.ru продолжает обновляться, база госконтрактов и открытые данные.
— Открытые НКО https://openngo.ru база и открытые данные по российским некоммерческим организациям. Полузаморожен, но актуализируется насколько возможно. Многие данные более не публикуется госорганами, например, сведения об учредителях НКО.
— Простой русский язык https://plainrussian.ru не столько про открытость, сколько про понятность документов на русском языке
— Национальный цифровой архив https://ruarxive.org про архивацию цифрового исчезающего контента
- Есть и другие проекты, о которых можно будет говорить когда они будут готовы. В любом случае много усилий сейчас про то как сохранить и не потерять сделанное ранее.
Глобальное
- Продолжается проект каталога порталов открытых данных https://registry.commondata.io и поисковой системы поверх него. Проект продолжается, каталогов всё больше, метаданные с их описанием всё лучше, но самое главное будет поисковой системы поверх них.
Если Вы видите возможности и идеи для кооперации и партнерства, пишите мне.
#opendata #russia #armenia #projects #digitalpreservation
Telegram
Open Data Armenia
Open Data Armenia news channel. English/Armenian/Russian
Join chat at https://t.me/opendataamchat
Join chat at https://t.me/opendataamchat
В рубрике регулярного чтения про данные, технологии и не только:
Приватность
- В Канаде запретили установку WeChat и продуктов Kaspersky на всех государственных устройствах [1], а также со всех государственных устройств удаляют принудительно уже установленные их продукты. Поскольку, дословно, CIO Канады определил что WeChat и Kaspersky suit создают неприемлемые риски для безопасности и приватности. (!). С другой стороны, а могли же и сразу санкции вводить или что похуже, а тут только ограничения на госдевайсах.
Данные
- OpenMetadata 1.2.0 [2] новая версия опенсорс корпоративного каталога для ведения данных/метаданных. Обещают много всего, в частности много новых плагинов для импорта данных из Greenplum, Elasticsearch и тд.
- Data Visualization Guide [3] на Европейском портале открытых данных, лично по мне так всё безобразно-единообразно. Не стоит воспринимать это как обучающий курс, а скорее это эдакий справочник.
- Marimo [4] ещё один продукт по превращению тетрадок на Python в интерактивные приложения
- Quarto Dashboards [5] свежий инструмент с открытым кодом для построения дашбордов с помощью Python R, Julia или Observable.
- GeoParquet 1.0 [6] расширение стандарта Parquet для работы с геоданными. Всем кто сейчас работает с шэйпфайлами и GeoPackage
Искусственный интеллект
- Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence [7] указ Президента США регулирующий компании создающие ИИ. Затрагивает, в первую очередь, то что компании должны предоставлять результаты тестирования безопасности их ИИ продуктов и разработку национальных стандартов безопасности государственными агентствами. Иначе говоря, в первую очередь это техническое регулирование. А также там же анонс ai.gov [8] госпортала США по поиску ИИ талантов.
- With its New M3 Chips, Apple joins the AI party. [9] новые чипы от Apple обещают значительное лучшую работу с ML задачами. Для тех кто обсчитывает большие объёмы данных и преимущественно техникой и ПО Apple может быть особенно полезно.
Другое
- European Drug Report 2023: Trends and Developments [10] отчёт/доклад о ситуации с наркотиками в Евросоюзе. Сразу много на что можно обратить внимание: доклад сверстан под интернет публикацию, к нему приложены интерактивные визуализации, все таблицы из текста выделены и представлены для выгрузки в CSV и Excel, у доклада есть DOI.
Ссылки:
[1] https://www.canada.ca/en/treasury-board-secretariat/news/2023/10/minister-anand-announces-a-ban-on-the-use-of-wechat-and-kaspersky-suite-of-applications-on-government-mobile-devices.html
[2] https://open-metadata.org/
[3] https://data.europa.eu/apps/data-visualisation-guide
[4] https://marimo.io/
[5] https://quarto.org/docs/dashboards/
[6] https://geoparquet.org/releases/v1.0.0-beta.1/
[7] https://www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/
[8] https://ai.gov
[9] https://om.co/2023/10/30/apple-launches-m3-chips-with-ai/
[10] https://www.emcdda.europa.eu/publications/european-drug-report/2023_en
#readings #opensource #data #datatools #ai #privacy
Приватность
- В Канаде запретили установку WeChat и продуктов Kaspersky на всех государственных устройствах [1], а также со всех государственных устройств удаляют принудительно уже установленные их продукты. Поскольку, дословно, CIO Канады определил что WeChat и Kaspersky suit создают неприемлемые риски для безопасности и приватности. (!). С другой стороны, а могли же и сразу санкции вводить или что похуже, а тут только ограничения на госдевайсах.
Данные
- OpenMetadata 1.2.0 [2] новая версия опенсорс корпоративного каталога для ведения данных/метаданных. Обещают много всего, в частности много новых плагинов для импорта данных из Greenplum, Elasticsearch и тд.
- Data Visualization Guide [3] на Европейском портале открытых данных, лично по мне так всё безобразно-единообразно. Не стоит воспринимать это как обучающий курс, а скорее это эдакий справочник.
- Marimo [4] ещё один продукт по превращению тетрадок на Python в интерактивные приложения
- Quarto Dashboards [5] свежий инструмент с открытым кодом для построения дашбордов с помощью Python R, Julia или Observable.
- GeoParquet 1.0 [6] расширение стандарта Parquet для работы с геоданными. Всем кто сейчас работает с шэйпфайлами и GeoPackage
Искусственный интеллект
- Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence [7] указ Президента США регулирующий компании создающие ИИ. Затрагивает, в первую очередь, то что компании должны предоставлять результаты тестирования безопасности их ИИ продуктов и разработку национальных стандартов безопасности государственными агентствами. Иначе говоря, в первую очередь это техническое регулирование. А также там же анонс ai.gov [8] госпортала США по поиску ИИ талантов.
- With its New M3 Chips, Apple joins the AI party. [9] новые чипы от Apple обещают значительное лучшую работу с ML задачами. Для тех кто обсчитывает большие объёмы данных и преимущественно техникой и ПО Apple может быть особенно полезно.
Другое
- European Drug Report 2023: Trends and Developments [10] отчёт/доклад о ситуации с наркотиками в Евросоюзе. Сразу много на что можно обратить внимание: доклад сверстан под интернет публикацию, к нему приложены интерактивные визуализации, все таблицы из текста выделены и представлены для выгрузки в CSV и Excel, у доклада есть DOI.
Ссылки:
[1] https://www.canada.ca/en/treasury-board-secretariat/news/2023/10/minister-anand-announces-a-ban-on-the-use-of-wechat-and-kaspersky-suite-of-applications-on-government-mobile-devices.html
[2] https://open-metadata.org/
[3] https://data.europa.eu/apps/data-visualisation-guide
[4] https://marimo.io/
[5] https://quarto.org/docs/dashboards/
[6] https://geoparquet.org/releases/v1.0.0-beta.1/
[7] https://www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/
[8] https://ai.gov
[9] https://om.co/2023/10/30/apple-launches-m3-chips-with-ai/
[10] https://www.emcdda.europa.eu/publications/european-drug-report/2023_en
#readings #opensource #data #datatools #ai #privacy
www.canada.ca
Minister Anand announces a ban on the use of WeChat and Kaspersky suite of applications on government mobile devices - Canada.ca
President of the Treasury Board, Anita Anand, announced a ban on the use of the WeChat and Kaspersky suite of applications on government-issued mobile devices.
Команда исследователей из Microsoft и Github'а разместили препринт статьи Open Data on GitHub: Unlocking the Potential of AI [1], о том что на Github'е хостится порядка 800 миллионов файлов открытых данных общим объёмом около 142 терабайт.
Статья интересная самим фактом рассмотрения Github'а в роли портала открытых данных, но с большими методическими ошибками из-за которых цифрам верить нельзя. Я также анализировал Github как источник наборов данных и главное что понял что как хостинг файлов он хорош, а в остальном, не особо.
Конкретно в этом случае у исследователей есть три фундаментальные ошибки:
1. Недостаточная фильтрация файлов с расширениями вроде .json которые не про данные, а разного рода конфиги из-за чего завышенное число файлов
2. Отсутствие учёта файлов в формате XML, что особенно поразительно, из-за чего, наоборот, занижение числа файлов
3. Отсутствие учёта файлов архивов XZ, GZip, BZ2 и ZIP, которые могут использоваться для хранения всякого, но можно было хотя бы учесть файлы с двойными расширениями .csv.xz, .xml.gz и так далее. Из-за этого очень сильное занижение объёмов хранимых данных.
В любом случае статья полезна для всех кто ищет данные, думает о том как их искать, и, в целом, думает про данные.
Ссылки:
[1] https://arxiv.org/abs/2306.06191
#opendata #research #microsoft #github #readings
Статья интересная самим фактом рассмотрения Github'а в роли портала открытых данных, но с большими методическими ошибками из-за которых цифрам верить нельзя. Я также анализировал Github как источник наборов данных и главное что понял что как хостинг файлов он хорош, а в остальном, не особо.
Конкретно в этом случае у исследователей есть три фундаментальные ошибки:
1. Недостаточная фильтрация файлов с расширениями вроде .json которые не про данные, а разного рода конфиги из-за чего завышенное число файлов
2. Отсутствие учёта файлов в формате XML, что особенно поразительно, из-за чего, наоборот, занижение числа файлов
3. Отсутствие учёта файлов архивов XZ, GZip, BZ2 и ZIP, которые могут использоваться для хранения всякого, но можно было хотя бы учесть файлы с двойными расширениями .csv.xz, .xml.gz и так далее. Из-за этого очень сильное занижение объёмов хранимых данных.
В любом случае статья полезна для всех кто ищет данные, думает о том как их искать, и, в целом, думает про данные.
Ссылки:
[1] https://arxiv.org/abs/2306.06191
#opendata #research #microsoft #github #readings
Возвращаюсь из недельной командировки совмещённой с отпуском, надеюсь что читатели не заскучали по материалам про данные. И сразу же интересный свежий доклад The State of Open Data 2023 [1] от команды Digital Science, стартапа/компании предоставляющих Figshare и другие порталы и сервисы для открытой инфраструктуры для научных публикаций.
Доклад не про то что вы можете подумать публикуется на порталах открытых данных, а про то как исследователи публикуют свои данные. В каких дисциплинах чаще, с какой мотивацией, что они об этом думают, помогают ли им и так далее. Тем кто хочет знать как развивается открытость науки в головах исследователей - это полезный документ. Он составлен через опросы как и большая часть докладов жанра "The State of ...", и главный вывод который можно сделать в том что открытость данных в науке - это долговременный постепенно развивающийся и не останавливающийся тренд.
Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2023/24428194
#opendata #openaccess #research #science
Доклад не про то что вы можете подумать публикуется на порталах открытых данных, а про то как исследователи публикуют свои данные. В каких дисциплинах чаще, с какой мотивацией, что они об этом думают, помогают ли им и так далее. Тем кто хочет знать как развивается открытость науки в головах исследователей - это полезный документ. Он составлен через опросы как и большая часть докладов жанра "The State of ...", и главный вывод который можно сделать в том что открытость данных в науке - это долговременный постепенно развивающийся и не останавливающийся тренд.
Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2023/24428194
#opendata #openaccess #research #science
У меня тут основательно поднакопилось "долгов" по написанию длинных текстов и пока в приоритете те что пишу не на публику, поэтому и пишу реже, а некоторые запланированные статьи/тексты пытаюсь переосмыслить и, иногда отказываться от них. Например, пока я начал писать серию заметок про корпоративные каталоги данных то чем больше думал про них тем больше приходил к выводам о том что "Если вам нужен корпоративный портал [мета]данных, то поставьте DataHub и не парьтесь (с)". Благо он с открытым кодом, но не без своих нюансов. Сравнивать платные глобальные продукты для большинства российских пользователей смысла нет, а open source продукты сейчас сводятся к DataHub или OpenMetadata. В итоге лонгрид не выходит, могу лишь напомнить про предыдущий текст Data discovery в корпоративном секторе. Часть 1. Зачем всё это нужно? [1] можно прочитать на Substack. Честно говоря я очень не люблю вот так останавливать мысль на полпути, поэтому может быть я к ней ещё и вернусь.
Другая тема про которую я думаю регулярно и которая просится в текст - это фрагментация сообществ по работе с данными и слабая их взаимосвязь. Вокруг открытости данных есть такие группы как:
- активисты/евангелисты/пользователи открытых государственных данных - open data community
- исследователи работающие с открытыми научными данными - open access / fair data community
- географы/геоинформатики/урбанисты и тд. работающие с геоданными - geodata community
- дата-инженеры и дата-сайентисты как правила из коммерческого сектора - data engineering and data science community
- статистики и социологи - statistics community
Все эти группы частично пересекаются, но куда меньше чем могли бы быть и ещё внутри них множество своих подгрупп и ещё какие-то сильно меньше/незаметнее.
Это не-пересечение и разный опыт приводит, например, к тому что когда я спрашиваю разработчиков некоторых национальных порталов с открытыми данными о том почему они дают экспорт в JSON и CSV, но, к примеру, не дают экспорта в форматы Parquet или Avro, то ответ всегда один и тот же: "А мы об этом даже не думали как-то".
Кроме того везде своя специфическая терминология, разные названия для одного и того же. В итоге всё выглядит как разные наборы ментальных установок часто приводящих к разному восприятию темы. Ранее упомянутый мной доклад The State of Open Data написан с сообщества исследователей, но за пределами этой среды Open Data - это несколько иное, если не по определению объектов наблюдения, то по логике существования тех кто этим живёт.
Ещё одно направление мыслей у меня было и частично есть для упаковки в текст - это вот эти вот все инициативы Минцифры в РФ по созданию портала с наборами данных для ИИ. Много умных мыслей я мог бы написать о том как это делают или стараются не-делать в мире, почему плохо организовывать авторизацию через ЕСИА и тд. Но всё в сводится к вопросу который, в приличном варианте, звучит как "А зачем это делается?". Если цель в практических результатах, то никакие порталы не нужны, нужно выкладывать данные для обучения ИИ на Kaggle и/или HuggingFace, а деньги тратить не на разработку софта, а на создание наборов данных. Если цель в развитии науки, то надо обязывать исследователей публиковать в открытом доступе данные на которых построены их выводы в их статьях и результаты публикации наборов данных измерять в числе статей в профильных научных журналах в которых используются эти наборы данных. Но, будем честными, заниматься в Минцифре РФ этому некому, а "Правительство - это просто группа людей, как правило, плохо организованных (с)".
Ссылки:
[1] https://begtin.substack.com/p/corporate-data-discovery-1
#thoughts #data #opendata #texts #reflections
Другая тема про которую я думаю регулярно и которая просится в текст - это фрагментация сообществ по работе с данными и слабая их взаимосвязь. Вокруг открытости данных есть такие группы как:
- активисты/евангелисты/пользователи открытых государственных данных - open data community
- исследователи работающие с открытыми научными данными - open access / fair data community
- географы/геоинформатики/урбанисты и тд. работающие с геоданными - geodata community
- дата-инженеры и дата-сайентисты как правила из коммерческого сектора - data engineering and data science community
- статистики и социологи - statistics community
Все эти группы частично пересекаются, но куда меньше чем могли бы быть и ещё внутри них множество своих подгрупп и ещё какие-то сильно меньше/незаметнее.
Это не-пересечение и разный опыт приводит, например, к тому что когда я спрашиваю разработчиков некоторых национальных порталов с открытыми данными о том почему они дают экспорт в JSON и CSV, но, к примеру, не дают экспорта в форматы Parquet или Avro, то ответ всегда один и тот же: "А мы об этом даже не думали как-то".
Кроме того везде своя специфическая терминология, разные названия для одного и того же. В итоге всё выглядит как разные наборы ментальных установок часто приводящих к разному восприятию темы. Ранее упомянутый мной доклад The State of Open Data написан с сообщества исследователей, но за пределами этой среды Open Data - это несколько иное, если не по определению объектов наблюдения, то по логике существования тех кто этим живёт.
Ещё одно направление мыслей у меня было и частично есть для упаковки в текст - это вот эти вот все инициативы Минцифры в РФ по созданию портала с наборами данных для ИИ. Много умных мыслей я мог бы написать о том как это делают или стараются не-делать в мире, почему плохо организовывать авторизацию через ЕСИА и тд. Но всё в сводится к вопросу который, в приличном варианте, звучит как "А зачем это делается?". Если цель в практических результатах, то никакие порталы не нужны, нужно выкладывать данные для обучения ИИ на Kaggle и/или HuggingFace, а деньги тратить не на разработку софта, а на создание наборов данных. Если цель в развитии науки, то надо обязывать исследователей публиковать в открытом доступе данные на которых построены их выводы в их статьях и результаты публикации наборов данных измерять в числе статей в профильных научных журналах в которых используются эти наборы данных. Но, будем честными, заниматься в Минцифре РФ этому некому, а "Правительство - это просто группа людей, как правило, плохо организованных (с)".
Ссылки:
[1] https://begtin.substack.com/p/corporate-data-discovery-1
#thoughts #data #opendata #texts #reflections
Ivan’s Begtin Newsletter on digital, open and preserved government
Data discovery в корпоративном секторе. Часть 1. Зачем всё это нужно?
Ничто не делается просто так. Просто нам не всегда известны мотивы. (с) Доктор Хаус
В рубрике как это устроено у них портал открытых данных Торонто [1], крупнейшего города Канады с численностью в 2.7 миллиона человек.
Портал построен на базе ПО каталога открытых данных CKAN поверх API которого сделан веб-интерфейс включающий дополнительные возможности такие как:
- отображение содержания набора данных
- отображение схемы/структуры данных
- метрики качества набора данных
- возможность выгрузки в разных форматах JSON/CSV/XML
- примеры кода для работы с API
- автоматизированная визуализация данных
Любопытная надстройка с открытым кодом [2].
Сам проект создан и развивается в рамках городского плана развития открытых данных [3] весьма детально описывающего стратегию города по публикации данных.
Ссылки:
[1] https://open.toronto.ca
[2] https://github.com/open-data-toronto/ckan-customization-open-data-toronto
[3] https://www.toronto.ca/legdocs/mmis/2018/ex/bgrd/backgroundfile-110740.pdf
#opendata #canada #datacatalogs
Портал построен на базе ПО каталога открытых данных CKAN поверх API которого сделан веб-интерфейс включающий дополнительные возможности такие как:
- отображение содержания набора данных
- отображение схемы/структуры данных
- метрики качества набора данных
- возможность выгрузки в разных форматах JSON/CSV/XML
- примеры кода для работы с API
- автоматизированная визуализация данных
Любопытная надстройка с открытым кодом [2].
Сам проект создан и развивается в рамках городского плана развития открытых данных [3] весьма детально описывающего стратегию города по публикации данных.
Ссылки:
[1] https://open.toronto.ca
[2] https://github.com/open-data-toronto/ckan-customization-open-data-toronto
[3] https://www.toronto.ca/legdocs/mmis/2018/ex/bgrd/backgroundfile-110740.pdf
#opendata #canada #datacatalogs
Кто-то говорит что скоро ИИ заменит разработчиков, а на сайте фонда Sequoia статья о следующем миллиарде разработчиков [1]. Сейчас их около 100 миллионов, достижим ли миллиард? Оптимистично ли это для рынка/человечества или наоборот катастрофа ? Интересно что автор ссылается на отчёт Github'а The State of Octoverse [2] где упоминается 100 миллионов разработчиков на Github'е и 26% (21 миллион) рост их числа за прошедший год.
Интересное предсказание, вполне возможно что небезосновательное.
Ссылки:
[1] https://www.sequoiacap.com/article/the-next-billion-developers-perspective/
[2] https://github.blog/2023-11-08-the-state-of-open-source-and-ai/
#opensource #it
Интересное предсказание, вполне возможно что небезосновательное.
Ссылки:
[1] https://www.sequoiacap.com/article/the-next-billion-developers-perspective/
[2] https://github.blog/2023-11-08-the-state-of-open-source-and-ai/
#opensource #it
Sequoia Capital
The Next Billion Developers
David Cahn contends that the developer revolution will be as important as the AI revolution.
Forwarded from Open Data Armenia
Постепенно возвращаясь к нашим публичным активностям, хотим поблагодарить тех наших подписчиков и единомышленников, кто уже помог нам с автоматизацией сбора данных из различных важных источников. Будем очень рады, если круг таких людей расширится, потому что наша миссия – не только собрать все важные для Армении и армян данные в машиночитаемом и общедоступном виде, но и развивать сообщество неравнодушных к этой теме людей.
Вот список задач, ожидающих своих героев. Не забывайте прокомментировать задачу, если берётесь за неё.
Stay tuned!
Вот список задач, ожидающих своих героев. Не забывайте прокомментировать задачу, если берётесь за неё.
Stay tuned!
GitHub
Issues · opendataam/opendatam-tasks
Public tasks for volunteers, hackathons and contests - Issues · opendataam/opendatam-tasks
В рубрике как это устроено у них центры научных данных и другие проекты распространения научных данных Китайской республики.
Центры научных данных
- National Basic Sciences Public Science Data Center [1] - центр данных по базовым дисциплинам: физика, химия, астрономия, биология и т.д.
- National Marine Science Data Center [2] - центр данных о море и водных объектах
- National Earthquake Science Data Center [3] - центр данных о землетрясениям
- National Meteorological Science Data Center [4] - центр данных по метеорологии
- National Forestry and Grassland Science Data Center [5] - центр данных о лесе и зеленых насаждениях
- National Agricultural Science Data Center [6] - центр данных о сельском хозяйстве
- National Population Health Science Data Center [7] - центр данных о здоровье граждан
- National Metrological Science Data Center [8] - центр данных по метрологии
- National Cryosphere Desert Data Center [9] - центр данных о засушливых и холодных территориях
Другие ресурсы
- CSDB [10] центр научных данных академии наук Китая. Действует с 1987 года, включает более 45 тысяч наборов данных
- Science Data Bank [11] портал для публикации данных исследователями Китая. Интегрирован с большинством поисковых систем, сервисов цитирования и иными глобальными сервисами открытой науки
- CSData [12] научный журнал посвящённый доступности научных данных Китая и для китайских исследователей
- FinData [13] поисковик по научным данным Китая и данным используемых китайскими исследователями
Не все из научных порталов данных предоставляют открытые данные, через многие доступны данные только по запросу или авторизации, в некоторых случаях существуют градации режимов доступа, в ряде случаев есть требования/рекомендации поделиться Вашими исследованиями на этих данных. Однако широко распространены свободные лицензии и большая часть данных общедоступны и не требуют никаких усилий кроме как скачать их напрямую и знать китайский язык.
Ссылки:
[1] http://www.nsdata.cn
[2] http://mds.nmdis.org.cn
[3] https://data.earthquake.cn
[4] http://data.cma.cn/en
[5] http://www.forestdata.cn
[6] http://www.agridata.cn
[7] http://www.geodata.cn
[8] https://www.nms.org.cn
[9] http://www.ncdc.ac.cn/portal/?lang=en
[10] https://www.casdc.cn
[11] https://www.scidb.cn/en
[12] http://www.csdata.org/en/
[13] https://findata.cn
#opendata #datasets #china #datacatalogs #openaccess #openresearch
Центры научных данных
- National Basic Sciences Public Science Data Center [1] - центр данных по базовым дисциплинам: физика, химия, астрономия, биология и т.д.
- National Marine Science Data Center [2] - центр данных о море и водных объектах
- National Earthquake Science Data Center [3] - центр данных о землетрясениям
- National Meteorological Science Data Center [4] - центр данных по метеорологии
- National Forestry and Grassland Science Data Center [5] - центр данных о лесе и зеленых насаждениях
- National Agricultural Science Data Center [6] - центр данных о сельском хозяйстве
- National Population Health Science Data Center [7] - центр данных о здоровье граждан
- National Metrological Science Data Center [8] - центр данных по метрологии
- National Cryosphere Desert Data Center [9] - центр данных о засушливых и холодных территориях
Другие ресурсы
- CSDB [10] центр научных данных академии наук Китая. Действует с 1987 года, включает более 45 тысяч наборов данных
- Science Data Bank [11] портал для публикации данных исследователями Китая. Интегрирован с большинством поисковых систем, сервисов цитирования и иными глобальными сервисами открытой науки
- CSData [12] научный журнал посвящённый доступности научных данных Китая и для китайских исследователей
- FinData [13] поисковик по научным данным Китая и данным используемых китайскими исследователями
Не все из научных порталов данных предоставляют открытые данные, через многие доступны данные только по запросу или авторизации, в некоторых случаях существуют градации режимов доступа, в ряде случаев есть требования/рекомендации поделиться Вашими исследованиями на этих данных. Однако широко распространены свободные лицензии и большая часть данных общедоступны и не требуют никаких усилий кроме как скачать их напрямую и знать китайский язык.
Ссылки:
[1] http://www.nsdata.cn
[2] http://mds.nmdis.org.cn
[3] https://data.earthquake.cn
[4] http://data.cma.cn/en
[5] http://www.forestdata.cn
[6] http://www.agridata.cn
[7] http://www.geodata.cn
[8] https://www.nms.org.cn
[9] http://www.ncdc.ac.cn/portal/?lang=en
[10] https://www.casdc.cn
[11] https://www.scidb.cn/en
[12] http://www.csdata.org/en/
[13] https://findata.cn
#opendata #datasets #china #datacatalogs #openaccess #openresearch
mds.nmdis.org.cn
国家海洋科学数据中心
海洋数据共享,海洋科学数据,海洋科学数据共享,海洋数据中心,海洋科学数据中心,国家海洋科学数据中心
Любопытная статья [1] и связанные с ней наборы данных [2] про WikiWebQuestions, набор данных SPARQL аннотированных данных из Wikidata и о том что большие языковые модели вроде LLaMa меньше галлюцинируют и точность их ответов повышается. Всячески полезное чтение и возвращение к вопросу о том насколько и как структурированные и качественно аннотированные базы данных могут повлиять на качество ИИ-инструментов. До сих пор в основе больших языковых моделей были очень большие базы текстов, а тут базы фактов. При всей неидеальности и неполноте Wikidata баз таких объёмов и такой структуризации одновременно очень мало.
Ссылки:
[1] https://arxiv.org/abs/2305.14202
[2] https://github.com/stanford-oval/wikidata-emnlp23
#ai #opendata #wikidata #datasets #research #readings
Ссылки:
[1] https://arxiv.org/abs/2305.14202
[2] https://github.com/stanford-oval/wikidata-emnlp23
#ai #opendata #wikidata #datasets #research #readings
Я давно не писал про проект реестра всех каталогов данных в мире Common Data Index [1], а там довольно много обновлений.
1. У каждого каталога данных добавлен макрорегион к которому он относится. Макрорегионы - это группировки стран по местонахождению, например, Северная Африка или Юго-восточная Азия. В основе привязки классификатор UN M49. Это удобно для поиска каталогов данных по странам и территориям
2. Для каталогов добавлено свойство is_national, является ли каталог данных национальным порталом открытых данных. Таких каталогов не так много
3. Охвачены практически все страны кроме 31 и все из неохваченных, или беднейшие страны мира, или мельчайшие островные государства. Это не значит что по ним нет наборов данных, а значит что по ним нет отдельных каталогов данных.
4. Сейчас всего 9912 каталогов данных. Какие-то записи удаляются как дубликаты, какие-то добавляются как новые. Большая часть нового - это каталоги геоданных
5. Самая сложная часть - это повышение качества реестра поскольку в большинстве случаев, например, наименование владельца каталога можно указать только вручную.
6. Для языков каталогов данных добавлена их расшифровка. Теперь не только код "ES", но и его название на английском "Spanish" и так для всех языков всех каталогов.
В целом могу сказать что не хватает какого-то гибридного инструмента между Semantic Mediawiki, Airtable и базой данных так чтобы можно было бы вносить изменения, и вручную, и через API, и отображать данные без труда при любых изменениях схем.
Потому что сейчас работа над реестров ведётся полувручную через автоматизированные скрипты изменения сразу кучи YAML файлов. Файловая система используется как аналог СУБД, а потом изменения собираются в JSON lines датасеты.
Следующим шагом за реестром был и остаётся поисковик по наборам данных о котором я ещё обязательно напишу, но тут уже без промежуточных результатов. Его получится увидеть только когда он будет хотя бы MVP.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry
#opendata #datacatalogs #datasets
1. У каждого каталога данных добавлен макрорегион к которому он относится. Макрорегионы - это группировки стран по местонахождению, например, Северная Африка или Юго-восточная Азия. В основе привязки классификатор UN M49. Это удобно для поиска каталогов данных по странам и территориям
2. Для каталогов добавлено свойство is_national, является ли каталог данных национальным порталом открытых данных. Таких каталогов не так много
3. Охвачены практически все страны кроме 31 и все из неохваченных, или беднейшие страны мира, или мельчайшие островные государства. Это не значит что по ним нет наборов данных, а значит что по ним нет отдельных каталогов данных.
4. Сейчас всего 9912 каталогов данных. Какие-то записи удаляются как дубликаты, какие-то добавляются как новые. Большая часть нового - это каталоги геоданных
5. Самая сложная часть - это повышение качества реестра поскольку в большинстве случаев, например, наименование владельца каталога можно указать только вручную.
6. Для языков каталогов данных добавлена их расшифровка. Теперь не только код "ES", но и его название на английском "Spanish" и так для всех языков всех каталогов.
В целом могу сказать что не хватает какого-то гибридного инструмента между Semantic Mediawiki, Airtable и базой данных так чтобы можно было бы вносить изменения, и вручную, и через API, и отображать данные без труда при любых изменениях схем.
Потому что сейчас работа над реестров ведётся полувручную через автоматизированные скрипты изменения сразу кучи YAML файлов. Файловая система используется как аналог СУБД, а потом изменения собираются в JSON lines датасеты.
Следующим шагом за реестром был и остаётся поисковик по наборам данных о котором я ещё обязательно напишу, но тут уже без промежуточных результатов. Его получится увидеть только когда он будет хотя бы MVP.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry
#opendata #datacatalogs #datasets
В рубрике как это работает у них портал показателей и одновременно портал открытых данных статистической службы Ирландии data.cso.ie [1]. Каждый показатель рассматривается, одновременно, ещё и как набор данных и на каждой отдельной странице показателя есть, как отображение для статистиков и аналитиков, с выбором параметров и визуализацией так и для разработчиков с API и возможностью полной выгрузки набора данных в форматах XLSX, CSV, PX, JSON-Stat.
В основе продукт PxStat с открытым кодом [2] разработанный статслужбой достаточно давно и поддерживаемый в рамках открытой разработки.
Ссылки:
[1] https://data.cso.ie
[2] https://github.com/CSOIreland/PxStat
#opendata #datasets #opensource #datacatalogs #statistics #ireland
В основе продукт PxStat с открытым кодом [2] разработанный статслужбой достаточно давно и поддерживаемый в рамках открытой разработки.
Ссылки:
[1] https://data.cso.ie
[2] https://github.com/CSOIreland/PxStat
#opendata #datasets #opensource #datacatalogs #statistics #ireland
Я ничего не писал про увольнение Сэма Альтмана из OpenAI ожидая когда станут известны подробности и подробности уже прозвучали, он переходит в Microsoft, что, для Microsoft, несомненно большой выигрыш. Тем временем просто интереса ради почитать обзор того как менялся состав правления OpenAI за 6 лет [2], там немало любопытного и непрозрачного было.
Почему это важно?
OpenAI сейчас лидер рынка генеративного ИИ и изменения в связи с уходом Альтмана могут отразится на рынке в целом. Например, то что Microsoft сейчас наберёт компетенций и откажется от финансовой поддержки OpenAI.
Ссылки:
[1] https://twitter.com/satyanadella/status/1726509045803336122
[2] https://loeber.substack.com/p/a-timeline-of-the-openai-board
#ai #microsoft
Почему это важно?
OpenAI сейчас лидер рынка генеративного ИИ и изменения в связи с уходом Альтмана могут отразится на рынке в целом. Например, то что Microsoft сейчас наберёт компетенций и откажется от финансовой поддержки OpenAI.
Ссылки:
[1] https://twitter.com/satyanadella/status/1726509045803336122
[2] https://loeber.substack.com/p/a-timeline-of-the-openai-board
#ai #microsoft
OneTable [1] новый ожидаемый стандарт/инструмент по преобразованию табличных данных из Apache Hudi, Delta Lake и Apache Iceberg. Развивают его OneHouse, Google и Microsoft и уже заявлена поддержка 4-х видов каталогов данных и 8 движков для запросов. Стандарт никак не затрагивает открытые данные, потому что никто не использует в них такие форматы, но затрагивает корпоративные системы использующие подобные форматы.
Обещают что проект в итоге будет передан в Apache Foundation, уже сейчас можно опробовать через репозиторий открытого кода и демо на Docker.
Ссылки:
[1] https://onetable.dev/
#data #datatools #opensource
Обещают что проект в итоге будет передан в Apache Foundation, уже сейчас можно опробовать через репозиторий открытого кода и демо на Docker.
Ссылки:
[1] https://onetable.dev/
#data #datatools #opensource
В рубрике как это устроено у них проект OpenEI (Open Energy Initiative) [1] развивается Департаментом энергетики США и включает инфраструктурные ресурсы для исследователей в области энергетики. В том числе репозитории открытых научных данных:
- Open Energy Data Initiative [2] 26 озёр данных посвящённых теме энергетики, общим объёмом 2.7 петабайта
- Geothermal Data Repository [3] данных по геотермальным источникам, 271 терабайт
- Marine and Hydrokinetic Data Repository [4] данных по морским и гидрокинетическим источникам, 29 терабайт
А также многие другие данные [5].
Все данные, включая наиболее крупные наборы данных, доступны без взимания платы. К большинству наборов данных приложены примеры в Jupyter Notebook, доступ предоставляется через инфраструктуру Amazon AWS, Azure или Google Cloud. Всё за что нужно платить исследователям - это за использование инфраструктуры облачных сервисов Microsoft, Amazon или Google, и только в тех случаях, когда им нужны высокопроизводительные расчёты.
От себя добавлю что 3 петабайта открытых данных это не предел, есть наборы данных и общедоступные озёра данных и большего размера.
Ссылки:
[1] https://openei.org
[2] https://data.openei.org
[3] https://gdr.openei.org/
[4] https://mhkdr.openei.org/
[5] https://openei.org/wiki/Data
#energy #opendata #usa #datacatalogs #datasets
- Open Energy Data Initiative [2] 26 озёр данных посвящённых теме энергетики, общим объёмом 2.7 петабайта
- Geothermal Data Repository [3] данных по геотермальным источникам, 271 терабайт
- Marine and Hydrokinetic Data Repository [4] данных по морским и гидрокинетическим источникам, 29 терабайт
А также многие другие данные [5].
Все данные, включая наиболее крупные наборы данных, доступны без взимания платы. К большинству наборов данных приложены примеры в Jupyter Notebook, доступ предоставляется через инфраструктуру Amazon AWS, Azure или Google Cloud. Всё за что нужно платить исследователям - это за использование инфраструктуры облачных сервисов Microsoft, Amazon или Google, и только в тех случаях, когда им нужны высокопроизводительные расчёты.
От себя добавлю что 3 петабайта открытых данных это не предел, есть наборы данных и общедоступные озёра данных и большего размера.
Ссылки:
[1] https://openei.org
[2] https://data.openei.org
[3] https://gdr.openei.org/
[4] https://mhkdr.openei.org/
[5] https://openei.org/wiki/Data
#energy #opendata #usa #datacatalogs #datasets
Большая симпатичная подборка того как не надо и как надо рисовать графики Friends Don't Let Friends Make Bad Graphs [1].
Все примеры скорее про научные публикации чем про дата журналистику, с открытым кодом для R Studio.
Ссылки:
[1] https://github.com/cxli233/FriendsDontLetFriends
#dataviz #opensource
Все примеры скорее про научные публикации чем про дата журналистику, с открытым кодом для R Studio.
Ссылки:
[1] https://github.com/cxli233/FriendsDontLetFriends
#dataviz #opensource