Facebook запускают [1] собственный сервис рассылки Bulletin [2] и, по факту, вступают в конкуренцию с Substack и Revue, причем Revue был куплен Twitter не так давно.
Лично мне, по прежнему, куда больше по душе Substack где я пишу, реже чем хотелось бы, в собственной рассылке [3], но сам тренд внимания к рассылкам и сервисам подписок весьма интересен.
И, кстати, не могу не отметить что большая часть подписок на госрассылки ужасны. Пресс-службы не умеют с ними работать, а чаще это только и исключительно автоматическая рассылка последних новостей.
Ссылки:
[1] https://www.theverge.com/2021/6/29/22555957/facebook-bulletin-newsletter-subscriptions-substack-competitor
[2] https://www.bulletin.com/
[3] https://begtin.substack.com/
#mailing #tech
Лично мне, по прежнему, куда больше по душе Substack где я пишу, реже чем хотелось бы, в собственной рассылке [3], но сам тренд внимания к рассылкам и сервисам подписок весьма интересен.
И, кстати, не могу не отметить что большая часть подписок на госрассылки ужасны. Пресс-службы не умеют с ними работать, а чаще это только и исключительно автоматическая рассылка последних новостей.
Ссылки:
[1] https://www.theverge.com/2021/6/29/22555957/facebook-bulletin-newsletter-subscriptions-substack-competitor
[2] https://www.bulletin.com/
[3] https://begtin.substack.com/
#mailing #tech
The Verge
Facebook announces Bulletin, its Substack newsletter competitor
Writers retain control of their email list and content
В рубрике интересных наборов данных 440 записей голосов кошек в разных ситуациях в наборе данных CatMeows: A Publicly-Available Dataset of Cat Vocalizations [1] опубликованном исследователями университета Милана ещё в апреле 2020 года.
Данные записей систематизированы по кошкам, ситуациям, характеристикам животным и другим параметрам.
Записи звуков животных есть и в других коллекциях, например, их много на сервисе FreeSound [2], но без научной систематизации.
Ссылки:
[1] https://zenodo.org/record/4008297
[2] https://freesound.org/
#opendata #datasets
Данные записей систематизированы по кошкам, ситуациям, характеристикам животным и другим параметрам.
Записи звуков животных есть и в других коллекциях, например, их много на сервисе FreeSound [2], но без научной систематизации.
Ссылки:
[1] https://zenodo.org/record/4008297
[2] https://freesound.org/
#opendata #datasets
Zenodo
CatMeows: A Publicly-Available Dataset of Cat Vocalizations
Abstract This dataset, composed of 440 sounds, contains meows emitted by cats in different contexts. Specifically, 21 cats belonging to 2 breeds (Maine Coon and European Shorthair) have been repeatedly exposed to three different stimuli that were expected…
Продолжая рубрику интересных наборов данных, самое что ни на есть актуальное по COVID-19 - архивы русскоязычных чатов антипривочников. 1,1 млн записей (сообщений чуть меньше), 29к уникальных юзеров. Все данных сохранены в архив Хаба открытых данных [1], а также доступны в первоисточнике [2].
Источник публикации не указал условия распространения набора данных, поэтому он пока помечен как Public Domain.
Набор данных будет интересен многим исследователям социальной сферы во время COVID-19
Ссылки:
[1] https://hubofdata.ru/dataset/covid-19-antichat
[2] https://twitter.com/u_sockeye/status/1409224639713320960?s=09
#datasets #covid19
Источник публикации не указал условия распространения набора данных, поэтому он пока помечен как Public Domain.
Набор данных будет интересен многим исследователям социальной сферы во время COVID-19
Ссылки:
[1] https://hubofdata.ru/dataset/covid-19-antichat
[2] https://twitter.com/u_sockeye/status/1409224639713320960?s=09
#datasets #covid19
hubofdata.ru
Архив чатов противников вакцинации от COVID-19 (на 27 июня 2021 г.) - Хаб открытых данных
Набор данных с основными антиваксерскими чатами. 1,1 млн записей (сообщений чуть меньше), 29к уникальных юзеров.
Источник: https://twitter.com/u_sockeye/status/1409224639713320960
Источник: https://twitter.com/u_sockeye/status/1409224639713320960
Дайджест полезного чтения про данные и открытые данные:
- Why So Many Data Scientists Quit Good Jobs at Great Companies [1] - мартовская заметка в Medium о том почему Data Scientist'ы так часто уходят с из компаний с большим именем. По мне так большая часть проблем поколенческая, вроде завышенных ожиданий и отсутствия готовности к работе в "кровавом энтерпрайзе", но здесь ещё важный аспект в том что дата сайентисты хотят интересных задач, а кучу времени тратят на чистку и поиск данных.
- NOAA weather data in Snowflake [2] - огромная ежедневно пополняемая база данных погодной службы США в облаке Snowflake. Продолжение тренда на то что крупные коммерческие игроки хостинга, PaaS и IaaS используют большие открытые данные чтобы снижать барьеры доступа к данным для клиентов.
- Who's downloading pirated papers? Everyone - статья 2016 года [3] за авторством John Bohannon, а к ней данные 2017 года со статистикой SciHub [4], как ни странно, ни разу не скачанные с Zenodo, скорее всего поскольку недавно только были туда загружены.
Ссылки:
[1] https://medium.com/swlh/why-so-many-data-scientists-quit-good-jobs-at-great-companies-429ea61fb566
[2] https://towardsdatascience.com/noaa-weather-data-in-snowflake-free-20e90ee916ed
[3] https://science.sciencemag.org/content/352/6285/508
[4] https://zenodo.org/record/5012994#.YN27v0xn2Ul
#opendata #datasets #data #datascience
- Why So Many Data Scientists Quit Good Jobs at Great Companies [1] - мартовская заметка в Medium о том почему Data Scientist'ы так часто уходят с из компаний с большим именем. По мне так большая часть проблем поколенческая, вроде завышенных ожиданий и отсутствия готовности к работе в "кровавом энтерпрайзе", но здесь ещё важный аспект в том что дата сайентисты хотят интересных задач, а кучу времени тратят на чистку и поиск данных.
- NOAA weather data in Snowflake [2] - огромная ежедневно пополняемая база данных погодной службы США в облаке Snowflake. Продолжение тренда на то что крупные коммерческие игроки хостинга, PaaS и IaaS используют большие открытые данные чтобы снижать барьеры доступа к данным для клиентов.
- Who's downloading pirated papers? Everyone - статья 2016 года [3] за авторством John Bohannon, а к ней данные 2017 года со статистикой SciHub [4], как ни странно, ни разу не скачанные с Zenodo, скорее всего поскольку недавно только были туда загружены.
Ссылки:
[1] https://medium.com/swlh/why-so-many-data-scientists-quit-good-jobs-at-great-companies-429ea61fb566
[2] https://towardsdatascience.com/noaa-weather-data-in-snowflake-free-20e90ee916ed
[3] https://science.sciencemag.org/content/352/6285/508
[4] https://zenodo.org/record/5012994#.YN27v0xn2Ul
#opendata #datasets #data #datascience
Medium
Why So Many Data Scientists Quit Good Jobs at Great Companies
A look at why the ‘sexiest job of the 21st century’ has lost its appeal
В рубрике интересные наборы данных полный слепок наборов данных с портала открытых данных города Москвы data.mos.ru [1].
Слепок включает все метаданные к наборам данных и все версии каждого набора данных опубликованного на портале. Всё 981 набор данных, вместе это около 25ГБ в распакованном виде и 6 ГБ в архивированном виде.
Ссылки:
[1] https://hubofdata.ru/dataset/datamosru-archive
#opendata #archives
Слепок включает все метаданные к наборам данных и все версии каждого набора данных опубликованного на портале. Всё 981 набор данных, вместе это около 25ГБ в распакованном виде и 6 ГБ в архивированном виде.
Ссылки:
[1] https://hubofdata.ru/dataset/datamosru-archive
#opendata #archives
hubofdata.ru
Архив наборов данных с портала открытых данных города Москвы - Хаб открытых данных
Архив наборов данных с портала открытых данных города Москвы на 1 июля 2021 года. Включает метаданные, сведения о структуре данных и все версии всех открытых наборов данных
Весьма интересная новость и, как раз, затрагивающая весь глобальный бизнес крупных цифровых платформ.
Forwarded from ЗаТелеком 🌐
130 стран договорились о введении во всем мире налога для технологических корпораций не менее 15 процентов. Политики расценивают это достижение как самое важное налоговое соглашение за десятки лет, а то и за целый век.
В переговорах о глобальном минимальном налоге для крупных корпораций достигнут прорыв: по данным Организации экономического сотрудничества и развития (ОЭСР), в четверг, 2 июля, 130 стран, на долю которых приходится 90 процентов мировой экономики, договорились о том, что ставка такого налога будет составлять "не менее 15 процентов".
https://m.dw.com/ru/o-vvedenii-globalnogo-cifrovogo-naloga-dogovorilis-130-stran/a-58132242
В переговорах о глобальном минимальном налоге для крупных корпораций достигнут прорыв: по данным Организации экономического сотрудничества и развития (ОЭСР), в четверг, 2 июля, 130 стран, на долю которых приходится 90 процентов мировой экономики, договорились о том, что ставка такого налога будет составлять "не менее 15 процентов".
https://m.dw.com/ru/o-vvedenii-globalnogo-cifrovogo-naloga-dogovorilis-130-stran/a-58132242
Deutsche Welle
О введении глобального цифрового налога договорились 130 стран
130 стран договорились о введении во всем мире налога для технологических корпораций не менее 15 процентов. Политики расценивают это достижение как самое важное налоговое соглашение за десятки лет, а то и за целый век.
Я регулярно писал о том как многие органы власти "имитируют открытость", вместо открытых данных публикуют что-то другое, не публикуют данные или делают это каким-то особо странным образом вызывающим недоумение.
Вот несколько примеров мимо которых пройти сложно:
- Ростуризм создал специальный сайт для публикации открытых данных opendata.tourism.gov.ru [1] инициатива неплохая и там даже опубликовано 207 наборов данных. Но, они разрезали реестр туроператоров на 85 субъектов федерации и опубликовали по каждому субъекту федерации свой маленький кусочек этого реестра, а также реестр туристических маршрутов разрезали на 10 частей по 10 субъектам федерации. В результате внешне выглядит словно там 207 наборов данных, а по факту их 113. В результате "разрезания" реестра туроператора возникли наборы из 4-х записей [2] и, в целом, выглядит это странно поскольку он реально небольшой, и целиком в реестре содержится 4247 записей, а то есть решение никак не вызванное объёмам публикуемых данных
- У Минюста России, с одной стороны, публикуется 27 наборов открытых данных [3] и даже сразу на портале Data.gov.ru, можно увидеть что некоторые данные начали обновлять и публиковать в конце июня, например "
Список зарегистрированных политических партий" [4], но это все довольно смешно на фоне объёмов данных в информационных системах которыми Минюст РФ управляет. Нет никаких открытых данных из портала НКО Минюста, нет ничего, даже статистических сведений, из системы регистрации нормативных документов. Причём я говорю сейчас только про общедоступные данные создаваемые в рамках основных функций министерства. Иначе говоря если измерять goodwill (добрую волю) органов власти по раскрытию в машиночитаемой форме и так раскрываемых сведений, то Минюст будет в группе "агрессивно сопротивляющихся открытости органах власти", где-то рядом с МВД РФ.
- МВД РФ публикует 21 набор данных, которые даже, теперь время от времени обновляют [5], казалось бы прогресс, но нет. Например, данные по состоянию преступности [6] публикуются не накопительным итогом в виде цельного набора данных, а каждая новая версия набора данных - это срез за период времени. Иначе говоря чтобы собрать статистику преступности целиком, надо выгрузить все версии этого набора данных, но и в этом случае данные будут только с 2014 года. Как будто до этого МВД РФ не существовало, как будто не существовало МВД в СССР, как будто не было полиции в Российской Империи. И это, конечно, далеко не самый главный вопрос, есть немало вопросов о том почему нет данных муниципального уровня, не публикуется реестр участковых, нет никаких данных по функциям МВД переданным им вместе с ФМС, по миграции, да и объёмы расходов на ФГИС МВД несопоставимы с доступностью данных о деятельности министерства.
Я могу продолжать этот список очень и очень долго, анализ открытости любого ведомства или региональных властей идёт от списка полномочий и собираемых данных и реальная ситуация обычно значительно хуже декларируемой или демонстрируемой. В каких-то случаях это легко правится, вроде странной публикации Ростуризмом данных реестра туроператоров, а в каких-то открытость - это однозначно политические решения на уровне Правительства РФ которые с момента роспуска "Открытого правительства" до сих пор не приняты.
Ссылки:
[1] https://opendata.tourism.gov.ru
[2] https://opendata.tourism.gov.ru/7708550300-ReestrRosturizm1B
[3] https://minjust.gov.ru/ru/pages/opendata/
[4] https://data.gov.ru/opendata/7707211418-partii
[5] https://мвд.рф/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5
[6] https://мвд.рф/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5/7727739372-sosprestupnost
#opendata #opengov #datasets #data
Вот несколько примеров мимо которых пройти сложно:
- Ростуризм создал специальный сайт для публикации открытых данных opendata.tourism.gov.ru [1] инициатива неплохая и там даже опубликовано 207 наборов данных. Но, они разрезали реестр туроператоров на 85 субъектов федерации и опубликовали по каждому субъекту федерации свой маленький кусочек этого реестра, а также реестр туристических маршрутов разрезали на 10 частей по 10 субъектам федерации. В результате внешне выглядит словно там 207 наборов данных, а по факту их 113. В результате "разрезания" реестра туроператора возникли наборы из 4-х записей [2] и, в целом, выглядит это странно поскольку он реально небольшой, и целиком в реестре содержится 4247 записей, а то есть решение никак не вызванное объёмам публикуемых данных
- У Минюста России, с одной стороны, публикуется 27 наборов открытых данных [3] и даже сразу на портале Data.gov.ru, можно увидеть что некоторые данные начали обновлять и публиковать в конце июня, например "
Список зарегистрированных политических партий" [4], но это все довольно смешно на фоне объёмов данных в информационных системах которыми Минюст РФ управляет. Нет никаких открытых данных из портала НКО Минюста, нет ничего, даже статистических сведений, из системы регистрации нормативных документов. Причём я говорю сейчас только про общедоступные данные создаваемые в рамках основных функций министерства. Иначе говоря если измерять goodwill (добрую волю) органов власти по раскрытию в машиночитаемой форме и так раскрываемых сведений, то Минюст будет в группе "агрессивно сопротивляющихся открытости органах власти", где-то рядом с МВД РФ.
- МВД РФ публикует 21 набор данных, которые даже, теперь время от времени обновляют [5], казалось бы прогресс, но нет. Например, данные по состоянию преступности [6] публикуются не накопительным итогом в виде цельного набора данных, а каждая новая версия набора данных - это срез за период времени. Иначе говоря чтобы собрать статистику преступности целиком, надо выгрузить все версии этого набора данных, но и в этом случае данные будут только с 2014 года. Как будто до этого МВД РФ не существовало, как будто не существовало МВД в СССР, как будто не было полиции в Российской Империи. И это, конечно, далеко не самый главный вопрос, есть немало вопросов о том почему нет данных муниципального уровня, не публикуется реестр участковых, нет никаких данных по функциям МВД переданным им вместе с ФМС, по миграции, да и объёмы расходов на ФГИС МВД несопоставимы с доступностью данных о деятельности министерства.
Я могу продолжать этот список очень и очень долго, анализ открытости любого ведомства или региональных властей идёт от списка полномочий и собираемых данных и реальная ситуация обычно значительно хуже декларируемой или демонстрируемой. В каких-то случаях это легко правится, вроде странной публикации Ростуризмом данных реестра туроператоров, а в каких-то открытость - это однозначно политические решения на уровне Правительства РФ которые с момента роспуска "Открытого правительства" до сих пор не приняты.
Ссылки:
[1] https://opendata.tourism.gov.ru
[2] https://opendata.tourism.gov.ru/7708550300-ReestrRosturizm1B
[3] https://minjust.gov.ru/ru/pages/opendata/
[4] https://data.gov.ru/opendata/7707211418-partii
[5] https://мвд.рф/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5
[6] https://мвд.рф/%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D1%8B%D0%B5-%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5/7727739372-sosprestupnost
#opendata #opengov #datasets #data
Госзакупки не только в России являются предметом пристального внимания.
Особенно в том что касается COVID-19, но не только.
Свежая подборка происходящего в мире (ссылки на английском, испанском и немецком):
- в Мексике выяснили что правительство решило заключить контракт на поставку 35 миллионов китайской вакцины CinoVac с несуществующей швейцарской компанией Latam Pharma Innovative Ventures и по сингапурскому законодательству [1]
- в Великобритании журналисты выясняют почему правительство закупает защитные маски и перчатки по цене на 25% выше рыночной [2]
- в Германии министр транспорта нанял юристов за 175 тысяч евро чтобы ответить на 8 запросов по закону о свободе информации (FOI) про политически спорные транспортные проекты [3]
- в Бразилии уволился министр здравоохранения и был расторгнут контракт на 324 миллионов долларов США на поставку вакцин Covaxin из Индии, после обвинений во взяточничестве [4]
- вакцина AstraZeneca одна из самых популярных в мире и, при этом, оказывается что она выходит дороже для бедных стран. А The Guardian напоминают что 97% стоимости разработки этой вакцины было оплачено налогоплательщиками Великобритании [5]
- в Коста-Рике вскрылось что строительные компании давали взятки наличными, автомобилями, землёй и сексом в обмен на преференции по госконтрактам [6] и их же обвиняют в использовании бракованного асфальта на 125 миллиона долларов.
Ссылки:
[1] https://www.univision.com/univision-news/latin-america/mexico-signed-a-contract-for-35-million-doses-of-chinas-cansino-vaccine-with-nonexistent-company
[2] https://bylinetimes.com/2021/06/21/how-much-did-we-pay-for-ppe-data-the-government-doesnt-want-to-reveal/
[3] https://www.tagesspiegel.de/politik/minister-intransparenz-andreas-scheuer-und-die-sieben-heiklen-fragen-zur-pkw-maut/27240086.html
[4] https://www.theguardian.com/world/2021/jun/29/brazil-cancels-covaxin-contract-after-serious-accusations-of-irregularities
[5] https://www.theguardian.com/world/2021/jun/17/astrazeneca-vaccine-price-pledge-omits-some-poor-countries-contract-shows
[6] https://www.france24.com/es/minuto-a-minuto/20210616-costa-rica-%C3%BAltimo-pa%C3%ADs-latinoamericano-salpicado-en-caso-de-corrupci%C3%B3n-en-obras-p%C3%BAblicas
[7] https://www.nacion.com/el-pais/empresas-encubrieron-asfalto-defectuoso-en/3DOPPKV3J5ACLKSPZRP3WXDPTI/story/
#procurement #corruption #spending
Особенно в том что касается COVID-19, но не только.
Свежая подборка происходящего в мире (ссылки на английском, испанском и немецком):
- в Мексике выяснили что правительство решило заключить контракт на поставку 35 миллионов китайской вакцины CinoVac с несуществующей швейцарской компанией Latam Pharma Innovative Ventures и по сингапурскому законодательству [1]
- в Великобритании журналисты выясняют почему правительство закупает защитные маски и перчатки по цене на 25% выше рыночной [2]
- в Германии министр транспорта нанял юристов за 175 тысяч евро чтобы ответить на 8 запросов по закону о свободе информации (FOI) про политически спорные транспортные проекты [3]
- в Бразилии уволился министр здравоохранения и был расторгнут контракт на 324 миллионов долларов США на поставку вакцин Covaxin из Индии, после обвинений во взяточничестве [4]
- вакцина AstraZeneca одна из самых популярных в мире и, при этом, оказывается что она выходит дороже для бедных стран. А The Guardian напоминают что 97% стоимости разработки этой вакцины было оплачено налогоплательщиками Великобритании [5]
- в Коста-Рике вскрылось что строительные компании давали взятки наличными, автомобилями, землёй и сексом в обмен на преференции по госконтрактам [6] и их же обвиняют в использовании бракованного асфальта на 125 миллиона долларов.
Ссылки:
[1] https://www.univision.com/univision-news/latin-america/mexico-signed-a-contract-for-35-million-doses-of-chinas-cansino-vaccine-with-nonexistent-company
[2] https://bylinetimes.com/2021/06/21/how-much-did-we-pay-for-ppe-data-the-government-doesnt-want-to-reveal/
[3] https://www.tagesspiegel.de/politik/minister-intransparenz-andreas-scheuer-und-die-sieben-heiklen-fragen-zur-pkw-maut/27240086.html
[4] https://www.theguardian.com/world/2021/jun/29/brazil-cancels-covaxin-contract-after-serious-accusations-of-irregularities
[5] https://www.theguardian.com/world/2021/jun/17/astrazeneca-vaccine-price-pledge-omits-some-poor-countries-contract-shows
[6] https://www.france24.com/es/minuto-a-minuto/20210616-costa-rica-%C3%BAltimo-pa%C3%ADs-latinoamericano-salpicado-en-caso-de-corrupci%C3%B3n-en-obras-p%C3%BAblicas
[7] https://www.nacion.com/el-pais/empresas-encubrieron-asfalto-defectuoso-en/3DOPPKV3J5ACLKSPZRP3WXDPTI/story/
#procurement #corruption #spending
Univision
Mexico signed a contract for 35 million CanSino vaccines with a nonexistent company
A company with four employees, based out of an office in Switzerland and formed only after signing the contract with Mexico, is charged with packing and distributing 35 million doses of the controversial CanSino vaccine for the Mexican people. The president…
Вы меня не спрашивали, но я отвечаю (с)
Чем я занимаюсь вот уже более месяца?
Я развиваю APICrafter [1]. Это наш коммерческий сервис доступа к API госзакупок, ЕГРЮЛ, бух. балансов юр. лиц и иным сведениям, в первую очередь для юр. лиц. В течение июля наша команда запустит большой каталог данных, в виде сотен гигабайт данных, доступных через API который будет гибридным: коммерческим для коммерческих потребителей и некоммерческих для некоммерческих пользователей. Это продукт который я отложил на 2 года, но, ещё тогда всё было готово, не было лишь интерфейса для пользователей. Пришло время его доделать и выводить на рынок.
Сейчас он находится в режиме бета тестирования, часть данных не имеющих коммерческой ценности можно скачать целиком или пользоваться API без ключа и авторизации. Часть данных доступны только после регистрации по ключу.
В целом же это такой специальный каталог первичных данных с прибамбасами, когда разные первичные данные приведены к единому формату.
Зачем такой продукт нужен?
1. Заполнять внутрикорпоративные и учебные озёра данных уже подготовленными и унифицированными датасетами.
2. Создавать собственные сервисы поверх API, например для сбора информации о юр. лицах
Он не заменяет сервисы проверки контрагентов, но предосталяет ингредиенты для самостоятельного сбора информации о компании: ЕГРЮЛ, закупки и контракты, реестры, архивные контракты, отчеты и иные сведения. В общем и целом -возможность "пробить" юридическое лицо по сотням общедоступных баз данных.
Проект так и появился изначально, как внутренний банк данных на основе которого можно создавать и создаются новые дата-продукты, а в его основе те работы по сбору данных которые мы делали в рамках проектов Госзатраты, Открытые НКО и ещё ряде других которые пока/ещё не стали публичными.
Если Вы хотите стать бета-тестером, попробовать API и так далее напишите мне на ibegtin@infoculture.ru кто Вы, какую компанию/оргаизацию/проект представляете и немного о том что ищете, и я пришлю доступ. С просьбой лишь не распространять ссылку на проект публично до его анонса.
Ссылки:
[1] https://apicrafter.ru
#opendata #data #datacatalogs
Чем я занимаюсь вот уже более месяца?
Я развиваю APICrafter [1]. Это наш коммерческий сервис доступа к API госзакупок, ЕГРЮЛ, бух. балансов юр. лиц и иным сведениям, в первую очередь для юр. лиц. В течение июля наша команда запустит большой каталог данных, в виде сотен гигабайт данных, доступных через API который будет гибридным: коммерческим для коммерческих потребителей и некоммерческих для некоммерческих пользователей. Это продукт который я отложил на 2 года, но, ещё тогда всё было готово, не было лишь интерфейса для пользователей. Пришло время его доделать и выводить на рынок.
Сейчас он находится в режиме бета тестирования, часть данных не имеющих коммерческой ценности можно скачать целиком или пользоваться API без ключа и авторизации. Часть данных доступны только после регистрации по ключу.
В целом же это такой специальный каталог первичных данных с прибамбасами, когда разные первичные данные приведены к единому формату.
Зачем такой продукт нужен?
1. Заполнять внутрикорпоративные и учебные озёра данных уже подготовленными и унифицированными датасетами.
2. Создавать собственные сервисы поверх API, например для сбора информации о юр. лицах
Он не заменяет сервисы проверки контрагентов, но предосталяет ингредиенты для самостоятельного сбора информации о компании: ЕГРЮЛ, закупки и контракты, реестры, архивные контракты, отчеты и иные сведения. В общем и целом -возможность "пробить" юридическое лицо по сотням общедоступных баз данных.
Проект так и появился изначально, как внутренний банк данных на основе которого можно создавать и создаются новые дата-продукты, а в его основе те работы по сбору данных которые мы делали в рамках проектов Госзатраты, Открытые НКО и ещё ряде других которые пока/ещё не стали публичными.
Если Вы хотите стать бета-тестером, попробовать API и так далее напишите мне на ibegtin@infoculture.ru кто Вы, какую компанию/оргаизацию/проект представляете и немного о том что ищете, и я пришлю доступ. С просьбой лишь не распространять ссылку на проект публично до его анонса.
Ссылки:
[1] https://apicrafter.ru
#opendata #data #datacatalogs
ASEAN Data Management Framework [1] выл утверждён ещё в январе 2021 года [1] как набор рекомендаций для бизнеса и стран участников ASEAN по гармонизации их законодательства по регулированию и работе с персональными и коммерческими данными. Фреймворк довольно таки верхнеуровневый, как и большинства документов международной бюрократии, впрочем полезен для понимания того как развивается межстрановое регулирование в мире.
И вот некоторые оценки которые там приводятся:
- общий объём цифровой экономики в мире 3 триллиона долларов (на 2016 год)
- совокупный объём интернет экономики в ASEAN 72 миллиарда долларов (на 2018 год)
- ожидается что к 2025 году её объём составит 2025 миллиардов долларов
Важно что они делают акцент на важности инвентаризации данных.
Ссылки:
[1] https://asean.org/storage/2-ASEAN-Data-Management-Framework_Final.pdf
#opendata #data #asean #datamanagement
И вот некоторые оценки которые там приводятся:
- общий объём цифровой экономики в мире 3 триллиона долларов (на 2016 год)
- совокупный объём интернет экономики в ASEAN 72 миллиарда долларов (на 2018 год)
- ожидается что к 2025 году её объём составит 2025 миллиардов долларов
Важно что они делают акцент на важности инвентаризации данных.
Ссылки:
[1] https://asean.org/storage/2-ASEAN-Data-Management-Framework_Final.pdf
#opendata #data #asean #datamanagement
Тем временем обновился европейский проект глобального каталога произведений искусств Europeana [1] теперь в новой версии нет такого акцента на поиске, и куда больший акцент на коллекциях и на историях. Истории - это новая форма рассказов о произведениях искусства, в виде галерей и постов в блоге. Ближе к журналистике истории/журналистике данных даже.
И, что интересно, наконец-то в Europeana появились интерактивные возможности для пользователей. Теперь можно зарегистрироваться и создавать личные публичные и непубличные галереи из выставленных в Europeana материалов.
Это чуть ближе к австралийскому проекту Trove [2], который тоже недавно обновился, и является примеров одного из крупнейших проектов краудсорсинга исторического наследия. Пример того как государство создаёт сообщество вокруг культурного наследия и это успешно получается.
Ссылки:
[1] https://www.europeana.eu
[2] https://trove.nla.gov.au
#digitalculture #digitalheritage #opendata #open #culture
И, что интересно, наконец-то в Europeana появились интерактивные возможности для пользователей. Теперь можно зарегистрироваться и создавать личные публичные и непубличные галереи из выставленных в Europeana материалов.
Это чуть ближе к австралийскому проекту Trove [2], который тоже недавно обновился, и является примеров одного из крупнейших проектов краудсорсинга исторического наследия. Пример того как государство создаёт сообщество вокруг культурного наследия и это успешно получается.
Ссылки:
[1] https://www.europeana.eu
[2] https://trove.nla.gov.au
#digitalculture #digitalheritage #opendata #open #culture
www.europeana.eu
Discover Europe’s digital cultural heritage
Search, save and share art, books, films and music from thousands of cultural institutions
Несколько интересных текстов и терминов на английском языке по управлению данными:
- Data Mesh, новый термин в публикации [1] Zhamak Dehghani и продолжение дискуссии вокруг этой темы в блоге Chris Riccomini [2]. Если кратко, то Data Mesh это такая замена озеру данных когда всё связано, но не все вместе. Вместо одной команды работает множество команд и тд. Для многих идея звучит неудачно и больше похожа не оправдание корпоративных провалов (мы не смогли построить озеро данных, зато теперь у нас data mesh). Чтобы Вы не думали, чтение полезное
- Metadata lake очередной пост команды продукта Atlan на сей раз про озёра метаданных [3]. Повторение привычных истин что документированные данные ценнее данных самих по себе и что озеро метаданных - это систематизация и управляемость данных.
- Data Cascades in Machine Learning [4] в блоге Google AI о последствиях накопления "технического долга" при машинном обучении. Полезный термин, важные наблюдения.
- Ethics and governance of artificial intelligence for health [5] свежее руководство ВОЗ по этическому применению и управлению искусственным интеллектом в целях здоровья
Ссылки:
[1] https://martinfowler.com/articles/data-mesh-principles.html
[2] https://cnr.sh/essays/what-the-heck-data-mesh
[3] https://towardsdatascience.com/the-rise-of-the-metadata-lake-1e95127594de
[4] https://ai.googleblog.com/2021/06/data-cascades-in-machine-learning.html
[5] https://www.who.int/publications/i/item/9789240029200
#data #datacatalogs #datamesh #datalake
- Data Mesh, новый термин в публикации [1] Zhamak Dehghani и продолжение дискуссии вокруг этой темы в блоге Chris Riccomini [2]. Если кратко, то Data Mesh это такая замена озеру данных когда всё связано, но не все вместе. Вместо одной команды работает множество команд и тд. Для многих идея звучит неудачно и больше похожа не оправдание корпоративных провалов (мы не смогли построить озеро данных, зато теперь у нас data mesh). Чтобы Вы не думали, чтение полезное
- Metadata lake очередной пост команды продукта Atlan на сей раз про озёра метаданных [3]. Повторение привычных истин что документированные данные ценнее данных самих по себе и что озеро метаданных - это систематизация и управляемость данных.
- Data Cascades in Machine Learning [4] в блоге Google AI о последствиях накопления "технического долга" при машинном обучении. Полезный термин, важные наблюдения.
- Ethics and governance of artificial intelligence for health [5] свежее руководство ВОЗ по этическому применению и управлению искусственным интеллектом в целях здоровья
Ссылки:
[1] https://martinfowler.com/articles/data-mesh-principles.html
[2] https://cnr.sh/essays/what-the-heck-data-mesh
[3] https://towardsdatascience.com/the-rise-of-the-metadata-lake-1e95127594de
[4] https://ai.googleblog.com/2021/06/data-cascades-in-machine-learning.html
[5] https://www.who.int/publications/i/item/9789240029200
#data #datacatalogs #datamesh #datalake
martinfowler.com
Data Mesh Principles and Logical Architecture
Four principles that drive a logical architecture for a data mesh.
В рубрике интересные наборы данных, большой набор данных по распознаванию еды [1] в рамках конкурса Food Recognition Challenge [2]. Конкурс тоже интересный, 10 тысяч швейцарских фунтов команде сделавшей алгоритм с точностью > 0.70.
А в наборе данных 1.16ГБ из 24,119 изображений с 39,325 сегментами для 273 различных классов. Всё под лицензией CC-BY 4.0
Проект делается по инициативе Digital Epidemiology Lab [3] и у них же огромный проект по краудсорсингу сведений о еде, The Open Food Repo [4] с охватом 374,104 продуктов из 5-х стран США, Швейцария, Италия, Германия, Франция. У проекта нет наборов данных, но есть общедоступное API, активно применяемое пользователями.
Ссылки:
[1] https://www.aicrowd.com/challenges/food-recognition-challenge/dataset_files
[2] https://www.aicrowd.com/challenges/food-recognition-challenge
[3] https://www.digitalepidemiologylab.org
[4] https://www.foodrepo.org/
#opendata #food #datasets #openapi
А в наборе данных 1.16ГБ из 24,119 изображений с 39,325 сегментами для 273 различных классов. Всё под лицензией CC-BY 4.0
Проект делается по инициативе Digital Epidemiology Lab [3] и у них же огромный проект по краудсорсингу сведений о еде, The Open Food Repo [4] с охватом 374,104 продуктов из 5-х стран США, Швейцария, Италия, Германия, Франция. У проекта нет наборов данных, но есть общедоступное API, активно применяемое пользователями.
Ссылки:
[1] https://www.aicrowd.com/challenges/food-recognition-challenge/dataset_files
[2] https://www.aicrowd.com/challenges/food-recognition-challenge
[3] https://www.digitalepidemiologylab.org
[4] https://www.foodrepo.org/
#opendata #food #datasets #openapi
AIcrowd
Crowdsourcing AI to solve real-world problems
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Минфин России планирует опубликовать "реестр субсидий", но в нем будут данные только о "безвозмездных субсидиях юрлицам, ИП и НКО", а данных о получателях поддержки не будет.
UPD. Судя по всему, реестра субсидий не будет. А в документах, о которых пишет РБК, речь идет не о реестре субсидий, а о реестре господдержки [1], поэтому в статье столько нестыковок.
Очень интересная и подробная заметка о реестре субсидий опубликована в РБК, но и после нее остается много вопросов:
- Будет ли возобновлена публикация данных о бюджетных инвестициях и межбюджетных трансфертах, или останутся данные только о "безвозмездных субсидиях юрлицам"?
- Почему Минфин/Казначейство возобновляют публикацию спустя год, если и по старому Приказу (153н), и по новому Порядку ведения реестра, он должен быть открытым и публиковаться на ЕПБС?
- Будут ли доступны данные за 2021 год, если "новый реестр" будет опубликован только в течение семи рабочих дней после принятия ГД Закона о федеральном бюджете на 2022 год?
- Судя по заметке РБК, теперь будет публиковаться информация о "субсидиях, планируемых к предоставлению в 2022-2024 годах". Как мы будем узнавать о фактически распределенных субсидиях (и будем ли)? (мы ведь помним, как после публикации ТОПа субсидий за один из годов, субсидия на одно из СМИ из трехлетней превратилась в однолетнюю).
- Судя по новому Порядку ведения реестра соглашений, в нем останется только 4 поля (распорядитель бюджетных средств, размер субсидии, КБК, частично сведения о НПА). Результатом "общественного обсуждения" стало сокращение полей не до 5, как предлагалось Минфином в Проекте Порядка ведения реестра, а до 4 (https://t.me/ahminfin/332). Но в статье РБК говорится, что "предложений в рамках общественного обсуждения в Минфин не поступало" согласно странице проекта приказа. Как и кем тогда сократилось количество полей с 5 до 4?
В Электронном бюджете, портале Госзакупок и других информационных системах Казначейства и Минфина России есть детализированная информация о каждом соглашении, каждом получателе, каждой транзакции. Все эти данные машиночитаемые и структурированные.
Поэтому публикация четырех полей реестра субсидий выглядит несерьезно, особенно с учетом того, что поддержка (развитие, разработка, эксплуатация) информационных систем Минфина/Казначейства стоит нам, гражданам России, 3-7 млрд руб. в год, а стоимость разработки и эксплуатации Электронного бюджета доходит до 19+ млрд руб.
Хорошо, конечно, что хотя бы часть информации станет снова доступна, но планируемая к публикации "урезанная версия" реестра субсидий, в которой не будет получателей и информации о фактически распределенных субсидиях, целях, показателях, сроках, не имеет ничего общего с тем подробным источником данных, которые существовал до конца 2020 года.
А общая тенденция открытости данных и открытости госфинансов в России не меняется - в последние годы открытость государства не просто снижается, но и те данные, которые должны быть доступны в соответствии с НПА, не публикуются (те же региональные и муниципальные бюджеты должны публиковаться в структурированном формате уже 3,5 и 1,5 года, но их до сих пор нет).
Ссылка на статью РБК: https://www.rbc.ru/economics/07/07/2021/60e335139a79474f007949dc
[1] http://budget.gov.ru/epbs/faces/p/Бюджет/Государственная%20поддержка/Информация%20о%20субсидиях%20юридическим%20лицам,%20индивидуальным%20предпринимателям,%20физическим%20лицам?_adf.ctrl-state=4krpsz3c2_4®ionId=45
UPD. Судя по всему, реестра субсидий не будет. А в документах, о которых пишет РБК, речь идет не о реестре субсидий, а о реестре господдержки [1], поэтому в статье столько нестыковок.
Очень интересная и подробная заметка о реестре субсидий опубликована в РБК, но и после нее остается много вопросов:
- Будет ли возобновлена публикация данных о бюджетных инвестициях и межбюджетных трансфертах, или останутся данные только о "безвозмездных субсидиях юрлицам"?
- Почему Минфин/Казначейство возобновляют публикацию спустя год, если и по старому Приказу (153н), и по новому Порядку ведения реестра, он должен быть открытым и публиковаться на ЕПБС?
- Будут ли доступны данные за 2021 год, если "новый реестр" будет опубликован только в течение семи рабочих дней после принятия ГД Закона о федеральном бюджете на 2022 год?
- Судя по заметке РБК, теперь будет публиковаться информация о "субсидиях, планируемых к предоставлению в 2022-2024 годах". Как мы будем узнавать о фактически распределенных субсидиях (и будем ли)? (мы ведь помним, как после публикации ТОПа субсидий за один из годов, субсидия на одно из СМИ из трехлетней превратилась в однолетнюю).
- Судя по новому Порядку ведения реестра соглашений, в нем останется только 4 поля (распорядитель бюджетных средств, размер субсидии, КБК, частично сведения о НПА). Результатом "общественного обсуждения" стало сокращение полей не до 5, как предлагалось Минфином в Проекте Порядка ведения реестра, а до 4 (https://t.me/ahminfin/332). Но в статье РБК говорится, что "предложений в рамках общественного обсуждения в Минфин не поступало" согласно странице проекта приказа. Как и кем тогда сократилось количество полей с 5 до 4?
В Электронном бюджете, портале Госзакупок и других информационных системах Казначейства и Минфина России есть детализированная информация о каждом соглашении, каждом получателе, каждой транзакции. Все эти данные машиночитаемые и структурированные.
Поэтому публикация четырех полей реестра субсидий выглядит несерьезно, особенно с учетом того, что поддержка (развитие, разработка, эксплуатация) информационных систем Минфина/Казначейства стоит нам, гражданам России, 3-7 млрд руб. в год, а стоимость разработки и эксплуатации Электронного бюджета доходит до 19+ млрд руб.
Хорошо, конечно, что хотя бы часть информации станет снова доступна, но планируемая к публикации "урезанная версия" реестра субсидий, в которой не будет получателей и информации о фактически распределенных субсидиях, целях, показателях, сроках, не имеет ничего общего с тем подробным источником данных, которые существовал до конца 2020 года.
А общая тенденция открытости данных и открытости госфинансов в России не меняется - в последние годы открытость государства не просто снижается, но и те данные, которые должны быть доступны в соответствии с НПА, не публикуются (те же региональные и муниципальные бюджеты должны публиковаться в структурированном формате уже 3,5 и 1,5 года, но их до сих пор нет).
Ссылка на статью РБК: https://www.rbc.ru/economics/07/07/2021/60e335139a79474f007949dc
[1] http://budget.gov.ru/epbs/faces/p/Бюджет/Государственная%20поддержка/Информация%20о%20субсидиях%20юридическим%20лицам,%20индивидуальным%20предпринимателям,%20физическим%20лицам?_adf.ctrl-state=4krpsz3c2_4®ionId=45
Telegram
Ах, этот Минфин
Общественные обсуждения публикации реестра субсидий закончились самым неожиданным образом: в итоговом документе осталось не пять пунктов для публикации в открытом доступе, а четыре. Был удален пункт "е": "вид, реквизиты и сроки заключения соглашения".
Не…
Не…
Forwarded from Инфокультура
Приглашаем на вебинар «Открытые госфинансы 101: Поиск, анализ и качество данных», который пройдет 8 июля в рамках Летней школы по финансовым технологиям Томского Политеха.
Руководитель проекта «Госзатраты» @clearspending и проекта СПРФ «Госрасходы» Ольга Пархимович расскажет, что такое открытые данные, где публикуются финансовые данные, какие особенности данных нужно учитывать при их анализе (и структура, и качество).
⠀
Начало вебинара в 11:15 по московскому времени.
⠀
Участие бесплатное, подробности и регистрация: https://itr-tpu.timepad.ru/event/1629832/
Руководитель проекта «Госзатраты» @clearspending и проекта СПРФ «Госрасходы» Ольга Пархимович расскажет, что такое открытые данные, где публикуются финансовые данные, какие особенности данных нужно учитывать при их анализе (и структура, и качество).
⠀
Начало вебинара в 11:15 по московскому времени.
⠀
Участие бесплатное, подробности и регистрация: https://itr-tpu.timepad.ru/event/1629832/
itr-tpu.timepad.ru
Летняя школа по финансовым технологиям / События на TimePad.ru
ДАТЫ: 05.07.2021 — 09.07.2021
Во всей борьбе с COVID-19 и инициативах пр-ва и регионов меня более всего поражает отсутствие простых и очень чётких инструментов снятия дезориентации у людей.
А начинать надо с того чтобы сделать форму ппри заполнении которой даются очень чёткие инструкции для человека именно в его жизненной ситуации. А ситуации бывают разные: у кого-то противопоказания или подозрения на них, у кого-то не российский паспорт/не российское гражданство, кто-то переболел и надо ревакцинироваться. Сейчас чтобы разобраться что делать многим приходится буквально выискивать эту информацию и разных источников.
Сделать такую форму несложно, в виде мобильного приложения, или формы на сайте Стопкоронавирус.рф. Форма которую на бумаге заполняют вакцинирующиеся может быть частью такой формы (это отдельный вопрос почему эту форму все заполняют на бумаге и о том в каком качестве будут вводимые оттуда сведения).
Но главная проблема сейчас - это дезориентация людей. Простые понятные персонализированные инструкции несложно сделать и хорошо помогают.
А начинать надо с того чтобы сделать форму ппри заполнении которой даются очень чёткие инструкции для человека именно в его жизненной ситуации. А ситуации бывают разные: у кого-то противопоказания или подозрения на них, у кого-то не российский паспорт/не российское гражданство, кто-то переболел и надо ревакцинироваться. Сейчас чтобы разобраться что делать многим приходится буквально выискивать эту информацию и разных источников.
Сделать такую форму несложно, в виде мобильного приложения, или формы на сайте Стопкоронавирус.рф. Форма которую на бумаге заполняют вакцинирующиеся может быть частью такой формы (это отдельный вопрос почему эту форму все заполняют на бумаге и о том в каком качестве будут вводимые оттуда сведения).
Но главная проблема сейчас - это дезориентация людей. Простые понятные персонализированные инструкции несложно сделать и хорошо помогают.
Нормативная/бюрократическая нагрузка на бизнес растёт во многих странах, вопрос в том как её анализировать и измерять? Проект QuantGov [1] от Mercatus Center (центр ориентированный на свободу рынков) создан для того чтобы измерять размер и рост числа регуляторных норм и привязки этих норм к индустриям по классификатору NAICS.
Они предоставляют много наборов данных с результатами анализа [2] и немало открытого кода [3]
Ссылки:
[1] https://www.quantgov.org
[2] https://www.quantgov.org/download-data
[3] https://github.com/quantgov
#opendata #opensource #regulation
Они предоставляют много наборов данных с результатами анализа [2] и немало открытого кода [3]
Ссылки:
[1] https://www.quantgov.org
[2] https://www.quantgov.org/download-data
[3] https://github.com/quantgov
#opendata #opensource #regulation
QuantGov
QuantGov-Home
The home of policy analytics. We use natural language processing to measure and study regulation. Explore our tools for tracking US, Canadian, and Australian federal regulation, pull data to compare restrictions between US states, see the extent of occupational…
В Vox статья [1] о проектах Future Design [2] в Японии, об эксперименте в городе Yahaba в 2015 году и их развитии. Тогда в 2015 году 20 жителей города провели семинар/воркшоп по будущему регулированию, тому как город должен был бы быть устроен для последующих поколений. Это то что называют participatory deliberation practice, по русски это переводится как "практика участия в обсуждении" или можно назвать "соучастие в нормотворчестве". Об этом позже выходило исследование [3] и довольно много публикаций, например [4] и эта практика далее распространялась на другие муниципалитеты.
Главная идея в том что участники семинаров представляли себя на месте будущих поколений и преодоление межпоколенческой проблемы того что мы сейчас "одалживаем" чистую воду, чистый воздух, незагрязненную окружающую среду у будущих поколений.
Ссылки:
[1] https://www.vox.com/future-perfect/22552963/how-to-be-a-good-ancestor-longtermism-climate-change
[2] https://www.mdpi.com/2071-1050/12/18/7796
[3] http://www.souken.kochi-tech.ac.jp/seido/wp/SDES-2017-19.pdf
[4] https://www.rieti.go.jp/en/columns/s19_0011.html
#policymaking #participatory #japan
Главная идея в том что участники семинаров представляли себя на месте будущих поколений и преодоление межпоколенческой проблемы того что мы сейчас "одалживаем" чистую воду, чистый воздух, незагрязненную окружающую среду у будущих поколений.
Ссылки:
[1] https://www.vox.com/future-perfect/22552963/how-to-be-a-good-ancestor-longtermism-climate-change
[2] https://www.mdpi.com/2071-1050/12/18/7796
[3] http://www.souken.kochi-tech.ac.jp/seido/wp/SDES-2017-19.pdf
[4] https://www.rieti.go.jp/en/columns/s19_0011.html
#policymaking #participatory #japan
Vox
How to be a good ancestor
Don’t get trapped in the now. You can help future generations survive risks like climate change, pandemics, and artificial intelligence.
В издании Проект весьма критичная статья про Росстат и раскрытии данных [1], в первую очередь с обвинениями в искажении статистики в угоду политической ситуации и давлению. Проблема эта не на пустом месте, независимость статистического ведомства - это давний вопрос, а политизация статистики в России также уже давно является проблемой.
Но как мне говорили специалисты в кулуарных разговорах проблема куда глубже. Даже в сравнении с СССР. Потому что даже в СССР были статистические справочники двух типов. Публикуемые для всех и находящиеся исключительно в закрытом обращении.
У многих кто сталкивается с современной отечественной статистикой возникают вопросы "Но ведь не может быть что _они_ принимают на ней решения, наверняка где-то есть реальные цифры под ДСП или гостайной". Реальность хуже, проблема в том что потребителями этих цифр являются не только массово граждане, но и те кто принимает решения и пишет нормы законов и иных документов.
Эта проблема системная, из-за сверхприсутствия государства во всех областях жизни и "рейтингодрочества" в нашей стране у почти всех есть просто огромная мотивация в искажении и подлоге статпоказателей.
Системные изменения тут нужны не только в Росстате, а проблемы поднимаемые в статье правильные.
Ссылки:
[1] https://www.proekt.media/narrative/dannye-rosstata/
#rosstat #stats #statistics
Но как мне говорили специалисты в кулуарных разговорах проблема куда глубже. Даже в сравнении с СССР. Потому что даже в СССР были статистические справочники двух типов. Публикуемые для всех и находящиеся исключительно в закрытом обращении.
У многих кто сталкивается с современной отечественной статистикой возникают вопросы "Но ведь не может быть что _они_ принимают на ней решения, наверняка где-то есть реальные цифры под ДСП или гостайной". Реальность хуже, проблема в том что потребителями этих цифр являются не только массово граждане, но и те кто принимает решения и пишет нормы законов и иных документов.
Эта проблема системная, из-за сверхприсутствия государства во всех областях жизни и "рейтингодрочества" в нашей стране у почти всех есть просто огромная мотивация в искажении и подлоге статпоказателей.
Системные изменения тут нужны не только в Росстате, а проблемы поднимаемые в статье правильные.
Ссылки:
[1] https://www.proekt.media/narrative/dannye-rosstata/
#rosstat #stats #statistics