Forwarded from LegalTech
❌Упразднена подкомиссия по ИИ.
Правительство упразднило подкомиссию по развитию искусственного интеллекта правительственной комиссии по цифровому развитию, использованию информационных технологий для улучшения качества жизни и условий ведения предпринимательской деятельности.
Правительство упразднило подкомиссию по развитию искусственного интеллекта правительственной комиссии по цифровому развитию, использованию информационных технологий для улучшения качества жизни и условий ведения предпринимательской деятельности.
publication.pravo.gov.ru
Постановление Правительства Российской Федерации от 13.05.2022 № 864 ∙ Официальное опубликование правовых актов ∙ Официальный интернет…
Постановление Правительства Российской Федерации от 13.05.2022 № 864
"Об упразднении подкомиссии по развитию искусственного интеллекта Правительственной комиссии по цифровому развитию, использованию информационных технологий для улучшения качества жизни…
"Об упразднении подкомиссии по развитию искусственного интеллекта Правительственной комиссии по цифровому развитию, использованию информационных технологий для улучшения качества жизни…
На днях я выступал на X Васильевских чтениях организованных журналом Бюджет и как всегда говорил о том что в России средний уровень открытости, высокий в финансовой сфере, и низкий в теме качества жизни. Вот тут выложили мою презентацию [1]. В ней не так много нового как хотелось бы, конечно.
Ссылки:
[1] https://bujet.ru/action/X_chteniya/propramm_Xvch/
#opendata #opengov #budget
Ссылки:
[1] https://bujet.ru/action/X_chteniya/propramm_Xvch/
#opendata #opengov #budget
bujet.ru
Программа и материалы форума
Васильевские чтения — ежегодный форум «Общественные финансы: наука и практика»
В рубрике интересных наборов данных, датасет о религиозных группах в разных штатах США за пару сотен лет Government Religious Preference 2.0 (GRP 2.0), Composite [1]. Датасет опубликован в ARDA [2] ассоциации религиозных архивов в США, включающем более 1200 наборов данных опросов, переписей, исследований и иных данных посвящённых религиозным группам.
Можно только позавидовать их социологам возможности работы с такими данными.
Ссылки:
[1] https://www.thearda.com/Archive/Files/Descriptions/GRPCOMP.asp
[2] https://www.thearda.com/
#opendata #datasets #research #sociology
Можно только позавидовать их социологам возможности работы с такими данными.
Ссылки:
[1] https://www.thearda.com/Archive/Files/Descriptions/GRPCOMP.asp
[2] https://www.thearda.com/
#opendata #datasets #research #sociology
Thearda
Summary | Government Religious Preference 2.0 (GRP 2.0), Composite | Data Archive | The Association of Religion Data Archives
The Government Religious Preference dataset (GRP) measures government-level favoritism toward, and disfavor against, 30 religious denominations. The unit of observation is the state-year. A series of ordered categorical variables index the state's institutional…
Forwarded from Национальный цифровой архив
Опубликована программа конференции по цифровым архивам
Уже завтра 19 мая в 16:00 начнется конференция по цифровым архивам. В программе:
1. Пленарная сессия «Цифровые архивы. Готовы ли мы к сохранению современного культурного наследия?»
2. Дискуссия о цифровом сохранении культурного наследия. Участники:
— Анастасия Бонч-Осмоловская, проект «Цифровой Толстой».
— Анна Буали и Алина Стуликова, отдел кино- и медиаискусства ГМИИ им. А.С.Пушкина.
— Константин Корягин и Валентин Голев, Syg.ma, проект archive.syg.ma.
— Анна Зеликова, Открытая база данных междисциплинарного искусства «Мир».
— Никита Нечаев и Анастасия Тарасова, Музей современного искусства «Гараж», проект «Хрупкий архив».
А также запланирована секция докладов на темы:
— Технологические особенности долговременного хранения в современных реалиях.
— Проблематика хранения цифровых объектов современного искусства в государственных музеях.
— Первый в России учебник по веб-истории и подготовка профессиональных исследователей веб-архивов.
— И другие!
Подробнее о программе: conference.ruarxive.org.
Организаторы: АНО «Инфокультура» и Российская государственная библиотека. Конференция пройдет в сотрудничестве с Музеем современного искусства «Гараж».
Ссылка на онлайн-трансляцию: https://youtu.be/1YAXTUOq9sI.
Уже завтра 19 мая в 16:00 начнется конференция по цифровым архивам. В программе:
1. Пленарная сессия «Цифровые архивы. Готовы ли мы к сохранению современного культурного наследия?»
2. Дискуссия о цифровом сохранении культурного наследия. Участники:
— Анастасия Бонч-Осмоловская, проект «Цифровой Толстой».
— Анна Буали и Алина Стуликова, отдел кино- и медиаискусства ГМИИ им. А.С.Пушкина.
— Константин Корягин и Валентин Голев, Syg.ma, проект archive.syg.ma.
— Анна Зеликова, Открытая база данных междисциплинарного искусства «Мир».
— Никита Нечаев и Анастасия Тарасова, Музей современного искусства «Гараж», проект «Хрупкий архив».
А также запланирована секция докладов на темы:
— Технологические особенности долговременного хранения в современных реалиях.
— Проблематика хранения цифровых объектов современного искусства в государственных музеях.
— Первый в России учебник по веб-истории и подготовка профессиональных исследователей веб-архивов.
— И другие!
Подробнее о программе: conference.ruarxive.org.
Организаторы: АНО «Инфокультура» и Российская государственная библиотека. Конференция пройдет в сотрудничестве с Музеем современного искусства «Гараж».
Ссылка на онлайн-трансляцию: https://youtu.be/1YAXTUOq9sI.
YouTube
Конференция по цифровым архивам
19 мая 2022 года состоится онлайн-конференция о цифровых архивах.
Организаторами мероприятия выступили АНО «Инфокультура» (infoculture.ru) с проектом «Национальный цифровой архив» (ruarxive.org) и Российская государственная библиотека.
Мероприятие проходит…
Организаторами мероприятия выступили АНО «Инфокультура» (infoculture.ru) с проектом «Национальный цифровой архив» (ruarxive.org) и Российская государственная библиотека.
Мероприятие проходит…
В рубрике инструментов работы с данными ArangoDb [1] NoSQL СУБД для хранения документов, с акцентом на графовые данные и собственный язык запросов AQL [2].
Довольно развитый продукт, сравнимый с MongoDB по многим возможностям, со своими плюсами и ограничениями.
Из плюсов:
- JSON Native
- поддержка графовых данных
- реально свободная лицензия Apache 2 в сравнении с ограниченной SSPL у MongoDB
- поддержка JOIN՛ов (редкость для NoSQL)
Из ограничений:
- поскольку внутри JSON, то нет родных типов date и datetime, работа с датами через функции
- значительно меньшее сообщество чем у MongoDB
- по некоторым тестам ArangoDB работает медленнее чем MongoDB или OrientDB [3]
Ссылки:
[1] https://www.arangodb.com
[2] https://www.arangodb.com/docs/stable/aql/
[3] https://www.diva-portal.org/smash/get/diva2:1567918/FULLTEXT01.pdf
#tools #opensource
Довольно развитый продукт, сравнимый с MongoDB по многим возможностям, со своими плюсами и ограничениями.
Из плюсов:
- JSON Native
- поддержка графовых данных
- реально свободная лицензия Apache 2 в сравнении с ограниченной SSPL у MongoDB
- поддержка JOIN՛ов (редкость для NoSQL)
Из ограничений:
- поскольку внутри JSON, то нет родных типов date и datetime, работа с датами через функции
- значительно меньшее сообщество чем у MongoDB
- по некоторым тестам ArangoDB работает медленнее чем MongoDB или OrientDB [3]
Ссылки:
[1] https://www.arangodb.com
[2] https://www.arangodb.com/docs/stable/aql/
[3] https://www.diva-portal.org/smash/get/diva2:1567918/FULLTEXT01.pdf
#tools #opensource
ArangoDB
Home
ArangoDB is the leading multi-model database for high-performance applications. Try it now for flexible data modeling and efficient querying.
Кстати, к вопросу об архивации сайтов, есть группа сайтов до которых у нас ещё не дошли руки, но которые уже пора архивировать - это сайты международных организаций представленных в России. Например, русскоязычные сайты структур ООН и сайты подразделений ООН в России.
Некоторые из них уже исчезли. Например, сайт УВКБ ООН www.unhcr.ru перенаправляет теперь на раздел их официального сайта www.unhcr.org/ru/. Аналогично вместо IOM Moscow moscow.iom.int теперь сайт russia.iom.int
А вот сайт ЮНФПА в России unfpa.ru уже не открывается, а материалы на сайте ООН в России www.unrussia.ru не обновлялись уже с декабря 2020 г. Сайт ЮНИСЕФ в России unicef.ru давно потерян и предлагается для регистрации, как и сайт ЮНЭИДС unaids.ru
Непонятно обновляются или нет материалы на сайте UNHabitat в России unhabitat.ru последние новости были от начала апреля, но у них в публикациях и раньше были паузы.
Активно публикуются материалы только на сайте Информационного центра ООН в Москве unic.ru и ЮНИДО в в России unido.ru․
Всё это лишь косвенные признаки присутствия/отсутствия ООН в России, но то что ряд информационных ресурсов исчез за эти годы, это признак того что их сайты необходимо архивировать.
#webarchives #digitalpreservation #un
Некоторые из них уже исчезли. Например, сайт УВКБ ООН www.unhcr.ru перенаправляет теперь на раздел их официального сайта www.unhcr.org/ru/. Аналогично вместо IOM Moscow moscow.iom.int теперь сайт russia.iom.int
А вот сайт ЮНФПА в России unfpa.ru уже не открывается, а материалы на сайте ООН в России www.unrussia.ru не обновлялись уже с декабря 2020 г. Сайт ЮНИСЕФ в России unicef.ru давно потерян и предлагается для регистрации, как и сайт ЮНЭИДС unaids.ru
Непонятно обновляются или нет материалы на сайте UNHabitat в России unhabitat.ru последние новости были от начала апреля, но у них в публикациях и раньше были паузы.
Активно публикуются материалы только на сайте Информационного центра ООН в Москве unic.ru и ЮНИДО в в России unido.ru․
Всё это лишь косвенные признаки присутствия/отсутствия ООН в России, но то что ряд информационных ресурсов исчез за эти годы, это признак того что их сайты необходимо архивировать.
#webarchives #digitalpreservation #un
УВКБ ООН Россия
Главная - УВКБ ООН Россия
Новое регулирование в области открытых данных.
Принято Постановление Пр-ва РФ от 17.05.2022 № 894 [1] которое, в том числе, вносит изменения в Постановление Пр-ва РФ от 24.11.2009 г. № 953 "Об обеспечении доступа к информации о деятельности Правительства Российской Федерации и федеральных органов исполнительной власти" [2].
Переписан 4-й пункт постановления 953 и, если перевести его на русский язык, то там два ключевых изменения:
1. Минэкономразвития России теперь осуществляет мониторинга официальных сайтов государственных органов власти с использованием Портала открытых данных.
2. Технологическое обеспечение портала Открытых данных и системы мониторинга официальных сайтов передано Минцифры РФ.
В том же постановлении ещё несколько информационных систем передаваемых Минцифре России от Минэкономразвития.
- система мониторинга МФЦ и госуслуг
- портал regulation.gov.ru
- портал техобеспечения ГАС Управление
Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202205180021?index=1&rangeSize=1
[2] http://government.ru/docs/all/70318/
#opendata #regulation #laws
Принято Постановление Пр-ва РФ от 17.05.2022 № 894 [1] которое, в том числе, вносит изменения в Постановление Пр-ва РФ от 24.11.2009 г. № 953 "Об обеспечении доступа к информации о деятельности Правительства Российской Федерации и федеральных органов исполнительной власти" [2].
Переписан 4-й пункт постановления 953 и, если перевести его на русский язык, то там два ключевых изменения:
1. Минэкономразвития России теперь осуществляет мониторинга официальных сайтов государственных органов власти с использованием Портала открытых данных.
2. Технологическое обеспечение портала Открытых данных и системы мониторинга официальных сайтов передано Минцифры РФ.
В том же постановлении ещё несколько информационных систем передаваемых Минцифре России от Минэкономразвития.
- система мониторинга МФЦ и госуслуг
- портал regulation.gov.ru
- портал техобеспечения ГАС Управление
Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202205180021?index=1&rangeSize=1
[2] http://government.ru/docs/all/70318/
#opendata #regulation #laws
publication.pravo.gov.ru
Постановление Правительства Российской Федерации от 17.05.2022 № 894 ∙ Официальное опубликование правовых актов ∙ Официальный интернет…
Постановление Правительства Российской Федерации от 17.05.2022 № 894
"О внесении изменений в некоторые акты Правительства Российской Федерации"
"О внесении изменений в некоторые акты Правительства Российской Федерации"
В рубрике интересного чтения о данных и не только
- The Definitive Guide to Decision Intelligence [1] электронная книжка от стартапа Tellium о аналитике принятия решений
- Новый оператор match ... case в Python 3.10 [2] для выстраивания цепочки "если ... то". Выглядит любопытно, но терять совместимости с более ранними версиями Python не хотелось бы
- о том что такое хорошо смоделированные данные для аналитики [3]
- мощная критика Dbt от одного из пользователей [4], с акцентом на непрозрачности будущего продукта
- и ответ на эту критику от одного из создателей Dbt [5]
Ссылки:
[1] https://www.tellius.com/decision-intelligence-the-definitive-guide-ebook/
[2] https://medium.com/short-bits/python-3-10-match-a-new-way-to-find-patterns-8452d1460407
[3] https://towardsdatascience.com/what-is-well-modeled-data-for-analysis-28f73146bf96
[4] https://pedram.substack.com/p/we-need-to-talk-about-dbt
[5] https://roundup.getdbt.com/p/the-response-you-deserve
#reading #datasets
- The Definitive Guide to Decision Intelligence [1] электронная книжка от стартапа Tellium о аналитике принятия решений
- Новый оператор match ... case в Python 3.10 [2] для выстраивания цепочки "если ... то". Выглядит любопытно, но терять совместимости с более ранними версиями Python не хотелось бы
- о том что такое хорошо смоделированные данные для аналитики [3]
- мощная критика Dbt от одного из пользователей [4], с акцентом на непрозрачности будущего продукта
- и ответ на эту критику от одного из создателей Dbt [5]
Ссылки:
[1] https://www.tellius.com/decision-intelligence-the-definitive-guide-ebook/
[2] https://medium.com/short-bits/python-3-10-match-a-new-way-to-find-patterns-8452d1460407
[3] https://towardsdatascience.com/what-is-well-modeled-data-for-analysis-28f73146bf96
[4] https://pedram.substack.com/p/we-need-to-talk-about-dbt
[5] https://roundup.getdbt.com/p/the-response-you-deserve
#reading #datasets
Tellius
The Definitive Guide to Decision Intelligence: Rise of AI & Augmented Analytics for Better Business Outcomes | Tellius eBook
Оборотные штрафы для компаний за утечку данных могут составить 1% их годового оборота как пишут Ведомости [1] со ссылкой на слова директор департамента обеспечения кибербезопасности Минцифры Владимир Бенгина.
Кроме того компании должны будут уведомлять об утечках и штраф за неуведомление будет даже больше.
Много это или мало? Это, конечно много, и существенно больше текущих минимальных штрафов. Законодатель идёт явно по пути GDPR'изации регулирования с приданию преимущества интересам граждан, но не интересам бизнеса.
Хорошо это или плохо? Для рынка информационной безопасности - хорошо, для рядовых пользователей - лучше, для интернет компаний, конечно хуже, но никто их уже давно не идеализирует, часто, исходя из того что в гонке за сверхдоходами они жертвуют приватностью и безопасностью пользовательских данных, применяют "теневые шаблоны" (dark patterns) для манипуляции потребителями.
Но в реализации закона, если он таки будет, будут очень важны нюансы. Оборотные штрафы будут с головной компании, со всего холдинга или с того юр. лица с которым пользователь подписывает соглашение о конфиденциальности (соглашается на оферту, для онлайн сервисов) ?
Вопрос не праздный. Вот к примеру, есть какой-нибудь "Навоз Банк" со своей цифровой экосистемой из кучей интернет продуктов. Они учреждают дочернее предприятие "Оператор Доения Данных" через пару уровней подчинения и вешают на него функции оператора по управлению данными пользователей со всех других дочерних структур. "Оператор Доения Данных" может иметь годовой оборот не более 200млн руб., а весь "Навоз Банк" в несколько сотен миллиардов. Если что-то случится, то штраф наложат на этого оператора на пару миллионов, а "Навоз Банк" практически не пострадает.
Реалистичная схема? Реалистичная
P.S. Все названия выдуманы, все измышления умозрительны. Заранее извинения сотрудникам "Навоз Банка" если раскрыл какие-то их корпоративные секреты.
Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2022/05/18/922625-oborotnie-shtrafi-utechku
#privacy #security #regulation
Кроме того компании должны будут уведомлять об утечках и штраф за неуведомление будет даже больше.
Много это или мало? Это, конечно много, и существенно больше текущих минимальных штрафов. Законодатель идёт явно по пути GDPR'изации регулирования с приданию преимущества интересам граждан, но не интересам бизнеса.
Хорошо это или плохо? Для рынка информационной безопасности - хорошо, для рядовых пользователей - лучше, для интернет компаний, конечно хуже, но никто их уже давно не идеализирует, часто, исходя из того что в гонке за сверхдоходами они жертвуют приватностью и безопасностью пользовательских данных, применяют "теневые шаблоны" (dark patterns) для манипуляции потребителями.
Но в реализации закона, если он таки будет, будут очень важны нюансы. Оборотные штрафы будут с головной компании, со всего холдинга или с того юр. лица с которым пользователь подписывает соглашение о конфиденциальности (соглашается на оферту, для онлайн сервисов) ?
Вопрос не праздный. Вот к примеру, есть какой-нибудь "Навоз Банк" со своей цифровой экосистемой из кучей интернет продуктов. Они учреждают дочернее предприятие "Оператор Доения Данных" через пару уровней подчинения и вешают на него функции оператора по управлению данными пользователей со всех других дочерних структур. "Оператор Доения Данных" может иметь годовой оборот не более 200млн руб., а весь "Навоз Банк" в несколько сотен миллиардов. Если что-то случится, то штраф наложат на этого оператора на пару миллионов, а "Навоз Банк" практически не пострадает.
Реалистичная схема? Реалистичная
P.S. Все названия выдуманы, все измышления умозрительны. Заранее извинения сотрудникам "Навоз Банка" если раскрыл какие-то их корпоративные секреты.
Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2022/05/18/922625-oborotnie-shtrafi-utechku
#privacy #security #regulation
Написал очередной текст в англоязычный блог о том что поисковые системы - это глобальные инструменты для data discovery (поиска данных), недостатках DataCite Search и Google Dataset Search и о том какой могла бы быть идеальная поисковая система по данным
Dataset search engines as global data discovery tools [1]
Ссылки:
[1] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d
#opendata #datasets #search #datatools
Dataset search engines as global data discovery tools [1]
Ссылки:
[1] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d
#opendata #datasets #search #datatools
Medium
Dataset search engines as global data discovery tools
Search engines have a long history, you could easily find text, web pages, images, video, news, and some other content using global search…
А как насчёт того чтобы @mintsifry выложили бы полный список компаний чьи сотрудники получили отсрочки от армии в формате, хотя бы:
- название компании
- число сотрудников получивших отсрочку
Никакие персональные данные раскрыты не будут. Стратегической ценности у этих данных нет, коммерческая тайна раскрыта не будет. А вот для истории было бы крайне интересно.
#data
- название компании
- число сотрудников получивших отсрочку
Никакие персональные данные раскрыты не будут. Стратегической ценности у этих данных нет, коммерческая тайна раскрыта не будет. А вот для истории было бы крайне интересно.
#data
Forwarded from Минцифры России
👨💻 24 года — cредний возраст ИТ-специалистов, претендующих на отсрочку от армии
Всего ИТ-компании подали заявки на оформление отсрочки от армии для 8,7 тыс. своих сотрудников.
Критериями для оформления отсрочки были:
@mintsifry
Всего ИТ-компании подали заявки на оформление отсрочки от армии для 8,7 тыс. своих сотрудников.
Критериями для оформления отсрочки были:
🔹
гражданство РФ; 🔹
возраст — от 18 до 27 лет (родившиеся с 01.04.1995 по 15.07.2004); 🔹
работа по трудовому договору; 🔹
нормальная продолжительность рабочего дня; 🔹
высшее образование по специальности из перечня подпадающих под отсрочку; 🔹
работа в аккредитованных компаниях не менее 11 месяцев в период с 1 апреля 2021 по 1 апреля 2022 г. или устройство на работу в течение года после окончания учебы.@mintsifry
Напоминаю что сегодня будет трансляция нашей мини-конференции про цифровую архивацию [1], подключайтесь дистанционно, у нас будут интересные дискуссии и доклады.
Я буду участвовать в пленарной дискуссии в 16 часов и выступать с докладом после дискуссий. В докладе буду рассказывать о том зачем мы создали Национальный цифровой архив Ruarxive.org [2] и что делали в 2022 году.
Ссылки:
[1] https://conference.ruarxive.org
[2] https://ruarxive.org
#digitalpreservation #webarchives
Я буду участвовать в пленарной дискуссии в 16 часов и выступать с докладом после дискуссий. В докладе буду рассказывать о том зачем мы создали Национальный цифровой архив Ruarxive.org [2] и что делали в 2022 году.
Ссылки:
[1] https://conference.ruarxive.org
[2] https://ruarxive.org
#digitalpreservation #webarchives
conference.ruarxive.org
Конференция по цифровым архивам
Forwarded from Национальный цифровой архив
Продолжается кампания по архивации порталов открытых данных и разделов сайтов органов власти и иных организаций создававших разделы с открытыми данными.
В общей сложности собраны данные 37 сайтов в объёме 43 GB данных в сжатом виде zip и warc.gz форматах (около 320 GB в распакованном виде). Основной объём составляют слепки данных порталов opendata.mkrf.ru (15GB) и data.gov.ru (14GB) соответственно.
Порталы архивируются, либо инструментами веб-архивации , либо скриптами разработанными под конкретный портал.
Полный перечень архивируемых сайтов доступен в таблице в Airtable [1], а код для архивации ряда порталов в репозитории rudatarchive [2] на Github.
Присоединяйтесь к кампании, помогайте с архивацией данных которые ещё не отмечены как собранные. В России более 240 порталов, разделов, сайтов содержащих открытые данные, а также есть ряд ресурсов посвящённых открытости гос-ва - открытости бюджетов. Эти ресурсы также в этом списке.
Выгруженные данные можно загрузить на какой-либо временный файловый хостинг и прислать нам ссылку или же, при небольшом объёме, загрузить их в репозиторий rudatarchive на Github.
Ссылки:
[1] https://airtable.com/shr1rzsajTM5SSyoI
[2] https://github.com/ruarxive/rudatarchive
#opendata #digitalpreservation #webarchives
В общей сложности собраны данные 37 сайтов в объёме 43 GB данных в сжатом виде zip и warc.gz форматах (около 320 GB в распакованном виде). Основной объём составляют слепки данных порталов opendata.mkrf.ru (15GB) и data.gov.ru (14GB) соответственно.
Порталы архивируются, либо инструментами веб-архивации , либо скриптами разработанными под конкретный портал.
Полный перечень архивируемых сайтов доступен в таблице в Airtable [1], а код для архивации ряда порталов в репозитории rudatarchive [2] на Github.
Присоединяйтесь к кампании, помогайте с архивацией данных которые ещё не отмечены как собранные. В России более 240 порталов, разделов, сайтов содержащих открытые данные, а также есть ряд ресурсов посвящённых открытости гос-ва - открытости бюджетов. Эти ресурсы также в этом списке.
Выгруженные данные можно загрузить на какой-либо временный файловый хостинг и прислать нам ссылку или же, при небольшом объёме, загрузить их в репозиторий rudatarchive на Github.
Ссылки:
[1] https://airtable.com/shr1rzsajTM5SSyoI
[2] https://github.com/ruarxive/rudatarchive
#opendata #digitalpreservation #webarchives
Airtable
Airtable | Everyone's app platform
Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.
Изучаю сейчас международные методики оценки и мониторинга политик работы с данными и вижу достаточно чёткий фокус в определении приоритетов по 6 направлениям:
- G2G - госполитика работы с данными государства для государства
- B2G - госполитика предоставления данных бизнеса для государственных задач
- G2B - госполитика предоставления данных государства для бизнеса
- G2C - госполитика предоставления данных государства гражданам
- G2S - госполитика предоставления данных государства исследователям.
- B2S - госполитика предоставления данных бизнеса исследователям.
Причём много есть регулирования по каждому из этих направлений и роль государства как регулятора особенно заметна в ЕС, Великобритании и ещё во многих странах.
Удивительно, при этом, что некоторые африканские страны делают большой прогресс по управлению и госполитикой работы с данными.
Я регулярно читаю лекции и провожу семинары по управлению основанному на данных, теперь вот планирую обновить все материалы нестандартными примерами из опыта Африки. Африканские страны же дружественные к России?;)
Например, Вы знали что в Руанде есть, не много, не мало, а National Data Revolution Policy [1] включающее, в том числе, Data Archiving Framework. Может нам есть чему поучиться у регуляторов Руанды?
Ну а кроме шуток приятно видеть что в мире регулирование работы с данными и госполитика в этой области получает качественное развитие. И расстраивает что в России подобного ничего не наблюдается.
Ссылки:
[1] https://statistics.gov.rw/file/5410/download?token=r0nXaTAv
#opendata #policy #regulation
- G2G - госполитика работы с данными государства для государства
- B2G - госполитика предоставления данных бизнеса для государственных задач
- G2B - госполитика предоставления данных государства для бизнеса
- G2C - госполитика предоставления данных государства гражданам
- G2S - госполитика предоставления данных государства исследователям.
- B2S - госполитика предоставления данных бизнеса исследователям.
Причём много есть регулирования по каждому из этих направлений и роль государства как регулятора особенно заметна в ЕС, Великобритании и ещё во многих странах.
Удивительно, при этом, что некоторые африканские страны делают большой прогресс по управлению и госполитикой работы с данными.
Я регулярно читаю лекции и провожу семинары по управлению основанному на данных, теперь вот планирую обновить все материалы нестандартными примерами из опыта Африки. Африканские страны же дружественные к России?;)
Например, Вы знали что в Руанде есть, не много, не мало, а National Data Revolution Policy [1] включающее, в том числе, Data Archiving Framework. Может нам есть чему поучиться у регуляторов Руанды?
Ну а кроме шуток приятно видеть что в мире регулирование работы с данными и госполитика в этой области получает качественное развитие. И расстраивает что в России подобного ничего не наблюдается.
Ссылки:
[1] https://statistics.gov.rw/file/5410/download?token=r0nXaTAv
#opendata #policy #regulation
Подготовил перевод на русский статьи про поисковики по данным и отправил в рассылку на Substack [1]․ Кстати, если Вы не подписались ещё, то приглашаю подписываться [2]. Рассылку я веду на русском языке, пишу туда редко, но только относительно большие тексты.
Ссылки:
[1] https://begtin.substack.com/p/25?sd=fs
[2] https://begtin.substack.com
#datadiscovery #data #dataportals
Ссылки:
[1] https://begtin.substack.com/p/25?sd=fs
[2] https://begtin.substack.com
#datadiscovery #data #dataportals
Substack
#25 Поисковые системы по данным как глобальные системы обнаружения данных
У поисковых систем довольно обширная история. Их можно использовать для поиска текстов, веб-страниц, изображений, видео и новостей, а также всякого разного другого контента используя такие глобальные поисковые системы как Google или Bing Google или Bing
Полезное чтение про данные:
- дорожная карта развития dbt до 2023 года [1]. Главное, конечно, поддержка моделей на Python. Очень надеюсь что работать с NoSQL данными с помощью dbt станет куда проще.
- труба данных от Stripe [2], можно данные о платежах теперь получать напрямую в свой data warehouse. Довольно интересный подход и стратегия. Не подключать внешние ELT/ETL а самим складывать в базу клиента. Если такое будет развиваться, то весь ландшафт продуктов на данных поменяется.
- batch or stream [3] о том как работать с данными, выгрузками или потоками. Интересные размышления
- State of Workflow Orchestration 2022 [4] доклад о управлении потоками задач и данных. Много любопытного, я из него узнал про Temporal [5], движке для задач с JS внутри. Из минусов - читая доклад можно подумать что движков всего 5-6, а это совсем не так
Ссылки:
[1] https://github.com/dbt-labs/dbt-core/blob/main/docs/roadmap/2022-05-dbt-a-core-story.md
[2] https://stripe.com/en-gb-fr/data-pipeline
[3] https://medium.com/@bdjidi/batch-or-stream-8627b2cd9031
[4] https://www.prefect.io/lp/gradientflow/
[5] https://temporal.io
#datatools #datengineering #opensource #reading
- дорожная карта развития dbt до 2023 года [1]. Главное, конечно, поддержка моделей на Python. Очень надеюсь что работать с NoSQL данными с помощью dbt станет куда проще.
- труба данных от Stripe [2], можно данные о платежах теперь получать напрямую в свой data warehouse. Довольно интересный подход и стратегия. Не подключать внешние ELT/ETL а самим складывать в базу клиента. Если такое будет развиваться, то весь ландшафт продуктов на данных поменяется.
- batch or stream [3] о том как работать с данными, выгрузками или потоками. Интересные размышления
- State of Workflow Orchestration 2022 [4] доклад о управлении потоками задач и данных. Много любопытного, я из него узнал про Temporal [5], движке для задач с JS внутри. Из минусов - читая доклад можно подумать что движков всего 5-6, а это совсем не так
Ссылки:
[1] https://github.com/dbt-labs/dbt-core/blob/main/docs/roadmap/2022-05-dbt-a-core-story.md
[2] https://stripe.com/en-gb-fr/data-pipeline
[3] https://medium.com/@bdjidi/batch-or-stream-8627b2cd9031
[4] https://www.prefect.io/lp/gradientflow/
[5] https://temporal.io
#datatools #datengineering #opensource #reading
GitHub
dbt-core/docs/roadmap/2022-05-dbt-a-core-story.md at main · dbt-labs/dbt-core
dbt enables data analysts and engineers to transform their data using the same practices that software engineers use to build applications. - dbt-labs/dbt-core
Написал очередной текст на английском о семантических типах данных и интеграции их идентификации с Wikidata [1] и особенностях ведения реестра metacrafter'а. Через какое-то время переведу его на русский на пишу в рассылку [2]. Для технологических лонгридов буду теперь писать, чаще всего, именно в такой последовательности.
Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-metadata-sources-wikidata-wikipedia-and-other-e6023e4d7431
[2] https://begtin.substack.com
#data #articles #opensource
Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-metadata-sources-wikidata-wikipedia-and-other-e6023e4d7431
[2] https://begtin.substack.com
#data #articles #opensource
Medium
Semantic data types metadata sources: Wikidata, Wikipedia and other
Recently I wrote about semantic data types systematic approach. I keep updating my own semantic types detection project Metacrafter and…
Я не так давно писал про ETL выделенную из Datacrafter'а для данных в NoSQL форматах JSONlines и BSON [1]. Это кусок кода отделенный в рамках "техдолга", то что надо было сделать давно и только недавно до этого дошли руки.
Но есть задача для которой точно нет подходящего простого ETL/ELT/data pipeline engine - это как раз цифровая архивация для создания тематических коллекций архивируемых сайтов, аккаунтов в соцсетях и тд.
Задачи по цифровой / веб архивации можно разделить на несколько видов, но в части сбора данных, основных всего два.
Массовый сбор и сфокусированные коллекции.
Массовый сбор - это когда роботы вроде краулеров Archive.org обходят условно неограниченное число цифровых ресурсов и делают слепки и актуализируют ранее собранные материалы.
Сфокусированные коллекции - это когда собирается не всё а по перечню: сайтов, разделов на сайтах, отдельных файлов, каналов в телеграм, аккаунтов в соцсетях и тд.
Для массового сбора есть своя экосистема инструментов, а вот для сфокуированных коллекций категорически нехватает ETL инструментария. Причём скорее ETL чем ELT потому что много двоичных данных которые можно поместить в озеро данных и сложно хранить в хранилище данных.
Логика та что что у классических ELT продуктов.
Извлечение данных с помощью разных инструментов и стратегий, преобразование для долгосрочного сохранения и загрузка в Internet Archive, какое-то постоянное хранилище и ещё куда-то, по необходимости.
Эта логика дополняется ещё одной стадией D - Discovery. Это когда движок получает на вход набор ссылок и на их основе автоматически определяет стратегию в зависимости от типа ресурса. В итоге получается DELT (Discover Extract Transform Load).
Недостаток такого движка в узкой применимости и в больше значимости этапа Extract, поскольку извлечение и сбор данных наиболее длительны и ресурсоёмки.
В принципе развитие дата инженерии давно уже достигло той стадии когда нужны специализированные решения. В основном они сейчас строятся на готовых продуктах, но иногда функций готовых продуктов недостаточно.
#digitalpreservation #etl #dataengineering
Но есть задача для которой точно нет подходящего простого ETL/ELT/data pipeline engine - это как раз цифровая архивация для создания тематических коллекций архивируемых сайтов, аккаунтов в соцсетях и тд.
Задачи по цифровой / веб архивации можно разделить на несколько видов, но в части сбора данных, основных всего два.
Массовый сбор и сфокусированные коллекции.
Массовый сбор - это когда роботы вроде краулеров Archive.org обходят условно неограниченное число цифровых ресурсов и делают слепки и актуализируют ранее собранные материалы.
Сфокусированные коллекции - это когда собирается не всё а по перечню: сайтов, разделов на сайтах, отдельных файлов, каналов в телеграм, аккаунтов в соцсетях и тд.
Для массового сбора есть своя экосистема инструментов, а вот для сфокуированных коллекций категорически нехватает ETL инструментария. Причём скорее ETL чем ELT потому что много двоичных данных которые можно поместить в озеро данных и сложно хранить в хранилище данных.
Логика та что что у классических ELT продуктов.
Извлечение данных с помощью разных инструментов и стратегий, преобразование для долгосрочного сохранения и загрузка в Internet Archive, какое-то постоянное хранилище и ещё куда-то, по необходимости.
Эта логика дополняется ещё одной стадией D - Discovery. Это когда движок получает на вход набор ссылок и на их основе автоматически определяет стратегию в зависимости от типа ресурса. В итоге получается DELT (Discover Extract Transform Load).
Недостаток такого движка в узкой применимости и в больше значимости этапа Extract, поскольку извлечение и сбор данных наиболее длительны и ресурсоёмки.
В принципе развитие дата инженерии давно уже достигло той стадии когда нужны специализированные решения. В основном они сейчас строятся на готовых продуктах, но иногда функций готовых продуктов недостаточно.
#digitalpreservation #etl #dataengineering
Написал заметку про DELT (Discover, Extract, Load, Transform) на английском языке [1] на Medium.
Ссылки:
[1] https://medium.com/@ibegtin/delt-discover-extract-load-transform-are-we-ready-for-etl-for-digital-preservation-ced3a08727a
#datadiscovery #digitalpreservation #etl #data
Ссылки:
[1] https://medium.com/@ibegtin/delt-discover-extract-load-transform-are-we-ready-for-etl-for-digital-preservation-ced3a08727a
#datadiscovery #digitalpreservation #etl #data
Medium
DELT (Discover, Extract, Load, Transform). Are we ready for ETL for digital preservation?
For years I’ve been working on a digital preservation project. Outside of civil and commercial data projects, our team invested much of…