Что думаете о 4-м докладе об Открытости государства от Счетной палаты?
Anonymous Poll
15%
Хорошо, надо больше таких докладов
4%
Плохо, неправильный и надуманный доклад
25%
Бессмысленно, какая теперь в России открытость
4%
Вредно, лишний сигнал что закрыть недозакрытого
9%
Недоверительно, Счетная палата сама недостаточно открыта
7%
Недостаточно, не всё охвачено, нужно больше и лучше
3%
Делают не те и не так
47%
Мнения не имею, хочу посмотреть ответы
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Официально: 10 лет открытости в России
10 лет назад, 26 июля 2012 года, была создана Правительственная комиссия по координации деятельности Открытого правительства - постоянно действующий орган по координации взаимодействия между госорганами, организациями и гражданами.
Конечно, фактически открытость в России появилась еще раньше - десятилетие портала Электронного бюджета мы отмечали ровно год назад, первые федеральные порталы госзакупок появились еще раньше, а информационная открытость госорганов была закреплена еще в 2009 году.
Много всего было сделано (и не сделано) за эти годы: участие в конференциях в 10 странах от Индии и Острова Мэн до Аргентины и Уругвая, создание в Инфокультуре проекта «Госзатраты» с аудиторией в 10 млн уникальных посетителей, создание (после упразднения Открытого Правительства) проекта СП РФ «Госрасходы» на вкусном домене (с аудиторий уже в 500 тыс. человек), в телеграмме сформировалось сообщество по открытым данным (уже почти в 3 тыс. человек) и многое другое. Написала об этом подробнее в https://telegra.ph/Oficialno-10-let-otkrytosti-v-Rossii-07-26.
Конечно, понятие «открытости» нужно пересматривать, а документы перерабатывать и обновлять. Надеюсь, через 10 лет мы будем подводить итоги официального 20-летия открытости.
Спасибо коллегам из госорганов, исследовательских и некоммерческих организаций, неравнодушным коллегам-гражданам и всем знакомым с понятием «открытые данные» за совместную десятилетнюю (на самом деле дольше) работу над развитием открытости! Отдельное спасибо СП РФ, Минфину России и Казначейству России за раскрытие данных и работу в этом направлении, и, конечно, нашей команде.
10 лет назад, 26 июля 2012 года, была создана Правительственная комиссия по координации деятельности Открытого правительства - постоянно действующий орган по координации взаимодействия между госорганами, организациями и гражданами.
Конечно, фактически открытость в России появилась еще раньше - десятилетие портала Электронного бюджета мы отмечали ровно год назад, первые федеральные порталы госзакупок появились еще раньше, а информационная открытость госорганов была закреплена еще в 2009 году.
Много всего было сделано (и не сделано) за эти годы: участие в конференциях в 10 странах от Индии и Острова Мэн до Аргентины и Уругвая, создание в Инфокультуре проекта «Госзатраты» с аудиторией в 10 млн уникальных посетителей, создание (после упразднения Открытого Правительства) проекта СП РФ «Госрасходы» на вкусном домене (с аудиторий уже в 500 тыс. человек), в телеграмме сформировалось сообщество по открытым данным (уже почти в 3 тыс. человек) и многое другое. Написала об этом подробнее в https://telegra.ph/Oficialno-10-let-otkrytosti-v-Rossii-07-26.
Конечно, понятие «открытости» нужно пересматривать, а документы перерабатывать и обновлять. Надеюсь, через 10 лет мы будем подводить итоги официального 20-летия открытости.
Спасибо коллегам из госорганов, исследовательских и некоммерческих организаций, неравнодушным коллегам-гражданам и всем знакомым с понятием «открытые данные» за совместную десятилетнюю (на самом деле дольше) работу над развитием открытости! Отдельное спасибо СП РФ, Минфину России и Казначейству России за раскрытие данных и работу в этом направлении, и, конечно, нашей команде.
Telegraph
Официально: 10 лет открытости в России
10 лет назад, 26 июля 2012 года, был подписан Указ о создании Правительственной комиссии по координации деятельности Открытого правительства - «постоянно действующего органа по координации взаимодействия исполнительной власти с представителями гражданского…
В рубрике интересных наборов данных база музейных коллекций собираемая проектом Dolthub [1]. Для тех кто не знает, Dolthub - это онлайн проект в виде специальным образом масштабируемой базы SQL с возможностями Git, а то есть с управлением версиями и операциями над данными похожими на операции с исходным кодом.
Dolthub на регулярной основе запускают кампании по краудсорсингу баз данных по определенным темам. Например, цены на госпитальные услуги в США или реестр юрлиц, опять же в США. Больше на специальной странице Bounties [2] у них на сайте.
Причём здесь открытые данные? Собираемые данные доступны под лицензией Creative Commons Zero, но за их сбор команда проекта выплачивает призы. Сами данные доступны не только через их интерфейс, но и через git'оподобные команды такие как 'dolt clone dolthub/museum-collections' как раз для вот этой базы музейных коллекций.
Dolthub не является сверхпопулярным продуктом, о нём, на самом деле, не так много кто знает. Они одновременно находятся в рынке облачных баз данных и в рынке каталогов данных. Непонятно выживут ли они с такой бизнес моделью, но безусловно очень хорошо что они инвестируют в доступность данных и открытые данные.
Ссылки:
[1] https://www.dolthub.com/repositories/dolthub/museum-collections/doc/main
[2] https://www.dolthub.com/bounties
#opendata #datasets #datacatalogs #dbms
Dolthub на регулярной основе запускают кампании по краудсорсингу баз данных по определенным темам. Например, цены на госпитальные услуги в США или реестр юрлиц, опять же в США. Больше на специальной странице Bounties [2] у них на сайте.
Причём здесь открытые данные? Собираемые данные доступны под лицензией Creative Commons Zero, но за их сбор команда проекта выплачивает призы. Сами данные доступны не только через их интерфейс, но и через git'оподобные команды такие как 'dolt clone dolthub/museum-collections' как раз для вот этой базы музейных коллекций.
Dolthub не является сверхпопулярным продуктом, о нём, на самом деле, не так много кто знает. Они одновременно находятся в рынке облачных баз данных и в рынке каталогов данных. Непонятно выживут ли они с такой бизнес моделью, но безусловно очень хорошо что они инвестируют в доступность данных и открытые данные.
Ссылки:
[1] https://www.dolthub.com/repositories/dolthub/museum-collections/doc/main
[2] https://www.dolthub.com/bounties
#opendata #datasets #datacatalogs #dbms
Полезное чтение про данные и не только:
- Open loop of ML [1] разбор подходов к машинному обучению в трех частях и с акцентом на последствия ошибок.
- Действительно ли выигрывают дата-компании? [2] очередной текст от Ben Stancil. Вопрос совсем не праздный и правильно подан и касается не только данных.
- большой гайд по спортивной аналитике [3] структурированные таблицы с кучей ссылок на тексты, инструменты, курсы, научные статьи, данные и тд. Автор очень заморочился систематизацией всего что есть по этой теме
- Practical Deep Learning for Coders 2022 [4] обновлённый курс от Fast.ai, полезный для начального погружения в тему глубинного обучения.
- большой каталог ссылок и материалов по приватности в Awesome Privacy list [5], много ссылок на продукты о которых я лично не знал и, в целом, хорошо структурировано
Ссылки:
[1] https://towardsdatascience.com/the-open-loop-of-ml-part-3-f0ba4c6d225e
[2] https://benn.substack.com/p/do-data-driven-companies-win
[3] https://docs.google.com/spreadsheets/d/16Xvhl7fCKEs1JTr-VXPZDmctO2gq4TcmuNmAhoHQQs0/edit#gid=627465558
[4] https://www.fast.ai/2022/07/21/dl-coders-22/
[5] https://github.com/Lissy93/awesome-privacy
#readings #data
- Open loop of ML [1] разбор подходов к машинному обучению в трех частях и с акцентом на последствия ошибок.
- Действительно ли выигрывают дата-компании? [2] очередной текст от Ben Stancil. Вопрос совсем не праздный и правильно подан и касается не только данных.
- большой гайд по спортивной аналитике [3] структурированные таблицы с кучей ссылок на тексты, инструменты, курсы, научные статьи, данные и тд. Автор очень заморочился систематизацией всего что есть по этой теме
- Practical Deep Learning for Coders 2022 [4] обновлённый курс от Fast.ai, полезный для начального погружения в тему глубинного обучения.
- большой каталог ссылок и материалов по приватности в Awesome Privacy list [5], много ссылок на продукты о которых я лично не знал и, в целом, хорошо структурировано
Ссылки:
[1] https://towardsdatascience.com/the-open-loop-of-ml-part-3-f0ba4c6d225e
[2] https://benn.substack.com/p/do-data-driven-companies-win
[3] https://docs.google.com/spreadsheets/d/16Xvhl7fCKEs1JTr-VXPZDmctO2gq4TcmuNmAhoHQQs0/edit#gid=627465558
[4] https://www.fast.ai/2022/07/21/dl-coders-22/
[5] https://github.com/Lissy93/awesome-privacy
#readings #data
Medium
The Open Loop of ML — Part 3
Closing the loop
Честно говоря хочется больше писать про технологии, что я, обычно, и делаю, но иногда не могу не отвлечься на темы связанные с нашим государством и цифровизацией.
Вот, например, Минстрой РФ выпустил "Индекс IQ городов" [1] где, ожидаемо, Москва на первом месте. Казалось, какой хороший индекс, составляли его по 47 показателям и целых 10 направлений: городское управление, умное ЖКХ, инновации для городской среды, умный городской транспорт, интеллектуальные системы общественной и экологической безопасности, туризм и сервис, интеллектуальные системы социальных услуг, экономическое состояние и инвестклимат, а также инфраструктура сетей связи․
Вот только когда посмотришь на его внутренности [2], то сразу выясняется что:
1. Методология не опубликована, неизвестно что там и как это менялось.
2. Перечня показателей нет (должно быть в методологии).
3. В целом сравнение двух городов в статусе субъектов федерации (Москва и Санкт-Петербург) и всех остальных, являющихся муниципальными образованиями, выглядит даже не надуманно, а скажем так, претенциозно.
Я было поискал первоисточник, но на ведомственном проекте Минстроя "Умный город", та же новость [3] с тем же документом.
Поэтому властям Москвы нечем гордится что они на первом месте в этом индексе, потому что индекс этот мусорный.
У любого нормального рейтинга/оценки, разумеется, должны быть доступны методология, таблицы с оценками, показатели, описаны перечень изменений, должен быть ответственный за методологию, тот кто отвечает за его составление и коллектив авторов.
Меня лично, в принципе, крайне печалит продукция многих органов власти в последние годы. Это просто какая-то интеллектуальная хрень не оправданная ничем.
Далее постараюсь побольше писать про технологии, а не про вот это вот всё.
Ссылки:
[1] https://www.minstroyrf.gov.ru/press/minstroy-rossii-opublikoval-indeks-iq-gorodov/
[2] https://www.minstroyrf.gov.ru/upload/iblock/672/REZULTATY-OTSENKI-KHODA-I-EFFEKTIVNOSTI.pdf
[3] https://russiasmartcity.ru/news/publications/51
#government #ratings #bullshit
Вот, например, Минстрой РФ выпустил "Индекс IQ городов" [1] где, ожидаемо, Москва на первом месте. Казалось, какой хороший индекс, составляли его по 47 показателям и целых 10 направлений: городское управление, умное ЖКХ, инновации для городской среды, умный городской транспорт, интеллектуальные системы общественной и экологической безопасности, туризм и сервис, интеллектуальные системы социальных услуг, экономическое состояние и инвестклимат, а также инфраструктура сетей связи․
Вот только когда посмотришь на его внутренности [2], то сразу выясняется что:
1. Методология не опубликована, неизвестно что там и как это менялось.
2. Перечня показателей нет (должно быть в методологии).
3. В целом сравнение двух городов в статусе субъектов федерации (Москва и Санкт-Петербург) и всех остальных, являющихся муниципальными образованиями, выглядит даже не надуманно, а скажем так, претенциозно.
Я было поискал первоисточник, но на ведомственном проекте Минстроя "Умный город", та же новость [3] с тем же документом.
Поэтому властям Москвы нечем гордится что они на первом месте в этом индексе, потому что индекс этот мусорный.
У любого нормального рейтинга/оценки, разумеется, должны быть доступны методология, таблицы с оценками, показатели, описаны перечень изменений, должен быть ответственный за методологию, тот кто отвечает за его составление и коллектив авторов.
Меня лично, в принципе, крайне печалит продукция многих органов власти в последние годы. Это просто какая-то интеллектуальная хрень не оправданная ничем.
Далее постараюсь побольше писать про технологии, а не про вот это вот всё.
Ссылки:
[1] https://www.minstroyrf.gov.ru/press/minstroy-rossii-opublikoval-indeks-iq-gorodov/
[2] https://www.minstroyrf.gov.ru/upload/iblock/672/REZULTATY-OTSENKI-KHODA-I-EFFEKTIVNOSTI.pdf
[3] https://russiasmartcity.ru/news/publications/51
#government #ratings #bullshit
В рубрике полезное чтение про данные:
- о разнице между data wrangling, data cleaning и data transformation [1] от создателей Osmos, стартапа по трансформации данных. Относиться надо, конечно, как к статье с акцентом на плюсы их платформы которая ещё и пока до сих пор в ограниченном доступе, но мысли у создателей ровно те же что и у меня о том что тема преобразований данных недостаточно ИИзирована и мало продуктов для компаний среднего уровня. Эту задачу они и решают, а насколько хорошо - это надо проверять на живых проектах.
- о рисках с облачными ценами на инфраструктуру данных [2], автор явным образом продает свой продукт Conveyor по управлению облачной инфраструктурой клауд провайдеров. В России это, сейчас, менее актуально, а в мировых проектах весьма нужно - контроль за стоимостью издержек на обработку данных. Решения могут быть разные, но проблема одна - зависимость от одного провайдера.
- обзор текущего состояния Modern Data Stack [3] на весну 2022 года. Ожидаемо "центром массы" в MDS называют dbt, я бы сказал что сейчас это инструмент номер один для задач по обработке данных внутри SQL СУБД.
- короткая записка [4] о интеграции данных реального времени в портал data.europa.eu. Европейская бюрократия работает медленно, но системно и записка полезна с точки зрения посмотреть как последовательно думает команда этого проекта над тем как обеспечивать доступ к данным обновляемым непрерывно. Готовых решений у них нет, рассматривают несколько принятых стандартов используемых в интернете вещей.
- довольно давнее, но актуальное руководство по плохим данным [5] Bad data guide, с примерами того как и какие ошибки в данных возникают, как их избегать. Вернее ошибки там не только в данных, но и в последствиях их неверной обработки и возможности интерпретации. Есть переводы на разные языки, но никто не сделал пока ещё перевода на русский (!)
Ссылки:
[1] https://www.moderndatastack.xyz/journal/whats-the-difference-between-data-wrangling-vs-data-cleansing-vs-data-transfor-u0lb
[2] https://blog.dataminded.com/why-rising-cloud-costs-are-the-silent-killers-of-data-platforms-52a98b371f28
[3] https://www.moderndatastack.xyz/journal/the-modern-data-stack-ecosystem-spring-2022-edition-5qer
[4] https://data.europa.eu/sites/default/files/report/data_europa_eu_Real_time_data_2022_Approaches_to_integrating_real_time_data_sources_in_data_europa_eu.pdf
[5] https://github.com/Quartz/bad-data-guide
#opendata #data #readings
- о разнице между data wrangling, data cleaning и data transformation [1] от создателей Osmos, стартапа по трансформации данных. Относиться надо, конечно, как к статье с акцентом на плюсы их платформы которая ещё и пока до сих пор в ограниченном доступе, но мысли у создателей ровно те же что и у меня о том что тема преобразований данных недостаточно ИИзирована и мало продуктов для компаний среднего уровня. Эту задачу они и решают, а насколько хорошо - это надо проверять на живых проектах.
- о рисках с облачными ценами на инфраструктуру данных [2], автор явным образом продает свой продукт Conveyor по управлению облачной инфраструктурой клауд провайдеров. В России это, сейчас, менее актуально, а в мировых проектах весьма нужно - контроль за стоимостью издержек на обработку данных. Решения могут быть разные, но проблема одна - зависимость от одного провайдера.
- обзор текущего состояния Modern Data Stack [3] на весну 2022 года. Ожидаемо "центром массы" в MDS называют dbt, я бы сказал что сейчас это инструмент номер один для задач по обработке данных внутри SQL СУБД.
- короткая записка [4] о интеграции данных реального времени в портал data.europa.eu. Европейская бюрократия работает медленно, но системно и записка полезна с точки зрения посмотреть как последовательно думает команда этого проекта над тем как обеспечивать доступ к данным обновляемым непрерывно. Готовых решений у них нет, рассматривают несколько принятых стандартов используемых в интернете вещей.
- довольно давнее, но актуальное руководство по плохим данным [5] Bad data guide, с примерами того как и какие ошибки в данных возникают, как их избегать. Вернее ошибки там не только в данных, но и в последствиях их неверной обработки и возможности интерпретации. Есть переводы на разные языки, но никто не сделал пока ещё перевода на русский (!)
Ссылки:
[1] https://www.moderndatastack.xyz/journal/whats-the-difference-between-data-wrangling-vs-data-cleansing-vs-data-transfor-u0lb
[2] https://blog.dataminded.com/why-rising-cloud-costs-are-the-silent-killers-of-data-platforms-52a98b371f28
[3] https://www.moderndatastack.xyz/journal/the-modern-data-stack-ecosystem-spring-2022-edition-5qer
[4] https://data.europa.eu/sites/default/files/report/data_europa_eu_Real_time_data_2022_Approaches_to_integrating_real_time_data_sources_in_data_europa_eu.pdf
[5] https://github.com/Quartz/bad-data-guide
#opendata #data #readings
www.moderndatastack.xyz
What's the Difference Between Data Wrangling vs Da... | Modern Data Stack
Hundreds of resources to help you level up your modern data stack and learn from the best
В качестве регулярного напоминания, в прошлом году мы от Инфокультуры опубликовали исследование Приватность государственных мобильных приложений в России [1].
В исследовании были примеры того как разработчики госприложений размещают их в Google Play вместе с трекерами крупных bigtech корпораций исливают зарубежным разведкам помогают корпорациям лучше следить за гражданами.
Когда мы делали это исследование то специально сделали акцент на государстве потому что государственные органы - этонеестественная монополия и у вас нет альтернативного приложения госуслуг или других, придётся использовать то что предоставляется. Так почему то что предоставляется должно не только само следить за нами, но и передавать личные данные третьим коммерческим сторонам ?
Это исследование не финальное, через какое-то время я напишу о новом которое мы уже готовим.
Ссылки:
[1] https://privacygosmobapps.infoculture.ru
#privacy #mobileapps #government
В исследовании были примеры того как разработчики госприложений размещают их в Google Play вместе с трекерами крупных bigtech корпораций и
Когда мы делали это исследование то специально сделали акцент на государстве потому что государственные органы - это
Это исследование не финальное, через какое-то время я напишу о новом которое мы уже готовим.
Ссылки:
[1] https://privacygosmobapps.infoculture.ru
#privacy #mobileapps #government
Telegram
Инфокультура
Новости Информационной культуры. https://infoculture.ru
В последнее время я вижу всё больше попыток создания языков запросов в противовес SQL, как альтернатива или как расширение языка. И тут я не могу не вспомнить что такая большая попытка предпринималась ещё давно - это SPARQL (the standard query language and protocol for Linked Open Data on the web or for RDF triplestores) [1].
Стандартизированный W3C ещё в 2008 году вместе с другими стандартами Semantic Web и LOD он выглядел как замена если не SQL, то как некий универсальный протокол для доступа к данным который можно было реализовать с помощью SQL или каким-угодно ещё образом на бекэнде.
Казалось бы ещё тогда - был стандарт, было несколько продуктов его поддерживающих, были даже институциональные попытки его внедрить и применять. Вспомнить тот же Virtuoso [2] продукт от OpenLink.
Но, не только с коммерческим, но и с практическим внедрением у SPARQL оказались большие проблемы. SPARQL и форматы для связанных данных получили развитие в научной среде, особенно в науках и исследовательских базах данных со строгой онтологической структурой. Эта технология хорошо стала частью Wikidata построенного на базе Semantic MediaWiki, но массовой адаптации и изучения новой технологии не произошло.
Я видел лишь несколько, относительно, успешных внедрений связанных данных, RDF и SPARQL в госпроектах и ни одного в современных, особенно высоконагруженных, коммерческих приложениях.
При том что, конечно, очень хочется чтобы мир был поструктурированнее, но практические задачи далеки от этих стандартов. А развитие открытых данных в сторону 5 звезд которые когда-то пропагандировал Тим Бернерс-Ли оказалось недостижимой и малореалистичной мечтой.
А что думаете вы, может ли SPARQL получить новую жизнь, переродиться или ждать нового стандарта/пул технологий для сложных данных?
Ссылки:
[1] https://www.w3.org/TR/rdf-sparql-query/
[2] https://virtuoso.openlinksw.com/
#opendata #sparql #linkeddata #semanticweb
Стандартизированный W3C ещё в 2008 году вместе с другими стандартами Semantic Web и LOD он выглядел как замена если не SQL, то как некий универсальный протокол для доступа к данным который можно было реализовать с помощью SQL или каким-угодно ещё образом на бекэнде.
Казалось бы ещё тогда - был стандарт, было несколько продуктов его поддерживающих, были даже институциональные попытки его внедрить и применять. Вспомнить тот же Virtuoso [2] продукт от OpenLink.
Но, не только с коммерческим, но и с практическим внедрением у SPARQL оказались большие проблемы. SPARQL и форматы для связанных данных получили развитие в научной среде, особенно в науках и исследовательских базах данных со строгой онтологической структурой. Эта технология хорошо стала частью Wikidata построенного на базе Semantic MediaWiki, но массовой адаптации и изучения новой технологии не произошло.
Я видел лишь несколько, относительно, успешных внедрений связанных данных, RDF и SPARQL в госпроектах и ни одного в современных, особенно высоконагруженных, коммерческих приложениях.
При том что, конечно, очень хочется чтобы мир был поструктурированнее, но практические задачи далеки от этих стандартов. А развитие открытых данных в сторону 5 звезд которые когда-то пропагандировал Тим Бернерс-Ли оказалось недостижимой и малореалистичной мечтой.
А что думаете вы, может ли SPARQL получить новую жизнь, переродиться или ждать нового стандарта/пул технологий для сложных данных?
Ссылки:
[1] https://www.w3.org/TR/rdf-sparql-query/
[2] https://virtuoso.openlinksw.com/
#opendata #sparql #linkeddata #semanticweb
Илья Шуманов, собрал список общедоступных официальных данных закрытых в этом году [1]. В этом списке не только открытые данные, но и отчеты органов власти и иные сведения которые характеризуют экономическое состояние страны прямо или косвенно.
Я добавлю что закрытие данных началось не в этом году, с 2014 года этот процесс начался, просто не был так масштабен. Закрывались данные контрактов госкорпораций по 223-ФЗ, был закрыт реестр субсидий, прятались сведения об учредителях НКО и ещё много что.
И, скорее всего, этот список неполон, многие данные закрываются так что это известно только специалистам в этих отраслях, многие экономические данные удаляются по чуть-чуть.
Поэтому если вы знаете какие-то важные данные которые были закрыты в этом году или прошлом, напишите в комментариях.
Ссылки:
[1] https://t.me/CorruptionTV/2764
#opendata #government #opengov
Я добавлю что закрытие данных началось не в этом году, с 2014 года этот процесс начался, просто не был так масштабен. Закрывались данные контрактов госкорпораций по 223-ФЗ, был закрыт реестр субсидий, прятались сведения об учредителях НКО и ещё много что.
И, скорее всего, этот список неполон, многие данные закрываются так что это известно только специалистам в этих отраслях, многие экономические данные удаляются по чуть-чуть.
Поэтому если вы знаете какие-то важные данные которые были закрыты в этом году или прошлом, напишите в комментариях.
Ссылки:
[1] https://t.me/CorruptionTV/2764
#opendata #government #opengov
Telegram
Shumanov
Официальные данные, которые исчезли из публичного доступа после 24 февраля:
1. Данные о собственниках финансовых учреждений (банков, стразовых компаний и тд).
2. Данные о внешней торговле.
3. Данные об экспорте.
4. Данные об импорте.
5. Ежемесячные данные…
1. Данные о собственниках финансовых учреждений (банков, стразовых компаний и тд).
2. Данные о внешней торговле.
3. Данные об экспорте.
4. Данные об импорте.
5. Ежемесячные данные…
Системы управления базами данных о которых, либо уже не помнят, либо ещё не знают, те что совсем не на слуху:
- BaseX [1] СУБД для XML документов с поддержкой языка запросов XQuery 3.1. Используется в ряде унаследованных систем которые строились вокруг XML
- eXist-db [2] также XML база данных с поддержкой XQuery как языка запросов. Возможно более популярная чем BaseX, но, в целом, также в основном в унаследованных системах.
- Metakit [3] популярная когда-то в корпоративных приложениях внедряемая база данных. Имела свой упрощённый язык запросов, очень была похожа на прообраз документальных баз данных, хотя и тогда там были только плоские таблицы. Перестало развиваться примерно 15 лет назад.
- Datomic [4] достаточно давняя проприетарная, более 10 лет, СУБД с поддержкой запросов с помощью языка Datalog. Теперь существует только в виде облачного и дорого on-prem продукта. Тут ещё можно вспомнить что автор продукта Rich Hickey, создатель языка Clojure
- TerminusDb [5] относительно новая графовая СУБД с поддержкой RDF и использующая внутри WOQL (web object query language) язык запросов основанный на Datalog. Лично я так и не понял есть у этой СУБД какие-либо реальные ключевые фичи из-за которых хотелось бы хотя бы протестировать, но ничего такого не нашёл. Хотя клиенты у них есть, в академической среде кое-где её используют.р
- ArcadeDB [6] сравнительно новая NoSQL база данных созданная автором OrientDB после его увольнения из SAP. Изначально Native Graph Database, но также реализуют MongoDB совместимый интерфейс и, в целом, 5 языков запросов: MongoDB, Cyther, GraphQL, Gremlin, SQL. Хороший кандидат на замену MongoDB если пройдет тесты на производительность
Ссылки:
[1] https://basex.org
[2] http://www.exist-db.org
[3] https://www.equi4.com/metakit/
[4] https://www.datomic.com/
[5] https://terminusdb.com/products/terminusdb/
[6] https://arcadedb.com/
#datatools #dbms #data
- BaseX [1] СУБД для XML документов с поддержкой языка запросов XQuery 3.1. Используется в ряде унаследованных систем которые строились вокруг XML
- eXist-db [2] также XML база данных с поддержкой XQuery как языка запросов. Возможно более популярная чем BaseX, но, в целом, также в основном в унаследованных системах.
- Metakit [3] популярная когда-то в корпоративных приложениях внедряемая база данных. Имела свой упрощённый язык запросов, очень была похожа на прообраз документальных баз данных, хотя и тогда там были только плоские таблицы. Перестало развиваться примерно 15 лет назад.
- Datomic [4] достаточно давняя проприетарная, более 10 лет, СУБД с поддержкой запросов с помощью языка Datalog. Теперь существует только в виде облачного и дорого on-prem продукта. Тут ещё можно вспомнить что автор продукта Rich Hickey, создатель языка Clojure
- TerminusDb [5] относительно новая графовая СУБД с поддержкой RDF и использующая внутри WOQL (web object query language) язык запросов основанный на Datalog. Лично я так и не понял есть у этой СУБД какие-либо реальные ключевые фичи из-за которых хотелось бы хотя бы протестировать, но ничего такого не нашёл. Хотя клиенты у них есть, в академической среде кое-где её используют.р
- ArcadeDB [6] сравнительно новая NoSQL база данных созданная автором OrientDB после его увольнения из SAP. Изначально Native Graph Database, но также реализуют MongoDB совместимый интерфейс и, в целом, 5 языков запросов: MongoDB, Cyther, GraphQL, Gremlin, SQL. Хороший кандидат на замену MongoDB если пройдет тесты на производительность
Ссылки:
[1] https://basex.org
[2] http://www.exist-db.org
[3] https://www.equi4.com/metakit/
[4] https://www.datomic.com/
[5] https://terminusdb.com/products/terminusdb/
[6] https://arcadedb.com/
#datatools #dbms #data
basex.org
The XML Framework: Lightweight and High-Performance Data Processing
BaseX: The XML Framework. Lightweight and High-Performance Data Processing
Полезное чтение про данные и технологии:
- перестаньте использовать CSV [1] статья с напоминанием что для data science следует использовать Parquet.
- об организации полнотекстового поиска на базе Clickhouse [2]
внутри Tinybird. Много технических подробностей
- очень подробно про новую версию Prefect 2.0 [3] для тех кто ищет себе ETL/ELT продукт
- ожесточенная конкуренция в США за госконтракты на облачные сервисы для государства [4], драка нешуточная между текущим контрактором Amazon и Microsoft которые пытаются вместе с Google и Oracle продать идею мультиоблачности. Сейчас ЦРУ и Пентагон используют только облака Amazon
- 7 советов для успешности проектов по машинному обучению [5] в промышленном применении. Самый первый совет самый важный не недооценивайте время на документирование!
- обзор NoSQL баз данных для начинающих [6], уже погруженным в природу NoSQL будет неинтересно, а когда надо объяснять с нуля студентам или начинающим, то полезно
- стартап Neon, облачный Postgres, получил $30M инвестиций [7]. Как я понимаю, большая часть команды из России, разработчики Postgres'а уехавшие и создавшие стартап на Кипре. На самом деле они делают альтернативу облачному AWS Aurora Postgres.
Ссылки:
[1] https://towardsdatascience.com/a-parquet-file-is-all-you-need-962df86886bb
[2] https://www.tinybird.co/blog-posts/text-search-at-scale-with-clickhouse
[3] https://www.prefect.io/guide/blog/the-global-coordination-plane/
[4] https://www.wsj.com/articles/microsoft-asks-google-oracle-to-help-crimp-amazons-u-s-government-cloud-leadership-11658926801
[5] https://medium.com/jellysmacklabs/7-tips-for-a-successful-machine-learning-project-in-production-4c5e7f10903c
[6] https://blog.leanxcale.com/distributed-database-concepts/nosql-jungle/
[7] https://neon.tech/blog/funding-a1/
#data #datatools #startups #readings
- перестаньте использовать CSV [1] статья с напоминанием что для data science следует использовать Parquet.
- об организации полнотекстового поиска на базе Clickhouse [2]
внутри Tinybird. Много технических подробностей
- очень подробно про новую версию Prefect 2.0 [3] для тех кто ищет себе ETL/ELT продукт
- ожесточенная конкуренция в США за госконтракты на облачные сервисы для государства [4], драка нешуточная между текущим контрактором Amazon и Microsoft которые пытаются вместе с Google и Oracle продать идею мультиоблачности. Сейчас ЦРУ и Пентагон используют только облака Amazon
- 7 советов для успешности проектов по машинному обучению [5] в промышленном применении. Самый первый совет самый важный не недооценивайте время на документирование!
- обзор NoSQL баз данных для начинающих [6], уже погруженным в природу NoSQL будет неинтересно, а когда надо объяснять с нуля студентам или начинающим, то полезно
- стартап Neon, облачный Postgres, получил $30M инвестиций [7]. Как я понимаю, большая часть команды из России, разработчики Postgres'а уехавшие и создавшие стартап на Кипре. На самом деле они делают альтернативу облачному AWS Aurora Postgres.
Ссылки:
[1] https://towardsdatascience.com/a-parquet-file-is-all-you-need-962df86886bb
[2] https://www.tinybird.co/blog-posts/text-search-at-scale-with-clickhouse
[3] https://www.prefect.io/guide/blog/the-global-coordination-plane/
[4] https://www.wsj.com/articles/microsoft-asks-google-oracle-to-help-crimp-amazons-u-s-government-cloud-leadership-11658926801
[5] https://medium.com/jellysmacklabs/7-tips-for-a-successful-machine-learning-project-in-production-4c5e7f10903c
[6] https://blog.leanxcale.com/distributed-database-concepts/nosql-jungle/
[7] https://neon.tech/blog/funding-a1/
#data #datatools #startups #readings
Medium
A Parquet File Is All You Need
Stop using CSV and move to Parquet
Критический разбор понятия Lakehouse [1] когда-то представленный в научной статье сотрудниками Databricks [2]․ Lakehouse декларируется как замена озер данных и хранилищ данных со специализацией на машинном обучении и data science. Одна из ключевых особенностей в хранении данных в форматах ORC и Parquet․ Но, в целом, автор критикует статью с акцентом на отсутствие вызовов которые решались бы предлагаемым подходом что всё это больше похоже на маркетинг, а не на новый подход.
Lakehouse было придумано в Databricks и Databricks, как и многие продукты в Modern Data Stack, всё более агрессивно продвигают свои архитектуру и маркетинговые термины.
На близкую тему у Benn Stancil очередная отличная заметка про "пороховую бочку в modern data stack" [3] о том что как бы создатели продуктов не играли в кооперацию и не пытались следовать совету Питера Тиля "не соревнуйтесь" [4], тем не менее многие компании уже действуют так словно они сражаются с конкурентами [5].
У того же было Benn Stancil хорошее определение Modern Data Stack [6] с точки зрения конечного выгодоприобретателя. Во многом оно сводится к решению о том как ... всем делать свою работу вместо того чтобы ожидать от них работу аналитиками.
Ссылки:
[1] https://0x0fff.com/lakehouse/
[2] https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf
[3] https://benn.substack.com/p/powder-keg
[4] https://www.wsj.com/articles/peter-thiel-competition-is-for-losers-1410535536
[5] https://news.yahoo.com/snowflake-ceo-why-you-must-declare-war-on-your-competitors-183109540.html
[6] https://benn.substack.com/p/the-modern-data-experience
#moderndatastack #data
Lakehouse было придумано в Databricks и Databricks, как и многие продукты в Modern Data Stack, всё более агрессивно продвигают свои архитектуру и маркетинговые термины.
На близкую тему у Benn Stancil очередная отличная заметка про "пороховую бочку в modern data stack" [3] о том что как бы создатели продуктов не играли в кооперацию и не пытались следовать совету Питера Тиля "не соревнуйтесь" [4], тем не менее многие компании уже действуют так словно они сражаются с конкурентами [5].
У того же было Benn Stancil хорошее определение Modern Data Stack [6] с точки зрения конечного выгодоприобретателя. Во многом оно сводится к решению о том как ... всем делать свою работу вместо того чтобы ожидать от них работу аналитиками.
Ссылки:
[1] https://0x0fff.com/lakehouse/
[2] https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf
[3] https://benn.substack.com/p/powder-keg
[4] https://www.wsj.com/articles/peter-thiel-competition-is-for-losers-1410535536
[5] https://news.yahoo.com/snowflake-ceo-why-you-must-declare-war-on-your-competitors-183109540.html
[6] https://benn.substack.com/p/the-modern-data-experience
#moderndatastack #data
Distributed Systems Architecture
Lakehouse
I have just read the “Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics” paper and decided to write a short blog post going through some of the key moments of the paper’s motivation. Let’s start. A decade ago…
В России когда ищешь где почитать про технологии сразу вспоминаешь про Хабр, в каком-то смысле, естественный монополист в технических публикациях, но у Хабра есть постепенный сдвиг в общетехнологические, а не технические темы.
Честно скажу в последние годы я читаю Хабр скорее реже чем чаще чем зарубежные блоги.
А вот из зарубежных платформ выбор есть, хотя и не так уж велик:
* Medium [1] - очень много технологических блогов и публикаций, про данные особенно в Towards data science [2]. Но, спектр тем там куда шире чем технологии, пишут обо всём. Из достоинств: хорошая персонализация и то что не все публикации маркетинговый буллшит.
* Dev.to [3] скорее платформа для начинающих разработчиков для публикации простых гайдов и рецептов. Это как обратная сторона Stackoverflow, но не вопросы, а ответы. Для начинающих полезно, а найти там глубокий текст сложно.
* Hashnode [4] что-то среднее между dev.to и medium по глубине текстов, много лонгридом, но большая часть публикаций про программирование фронтэнда. Совсем мало публикаций про данные.
В итоге самый интересный контент происходит из научных и крупных ненаучных конференций и личных блогов. А вот в части текстов про бизнес на данных и рынок данных большая часть самых интересных авторов на Substack [5]․ При том что Substack - это не про сообщество, а про вещание миру через рассылку и блог (первична рассылка). Там можно почитать Benn Stancil [6] которого я тут регулярно цитирую, там блог/рассылка dbt [7] и ещё много других блогов в категории Technology, всячески их рекомендую.
Я и сам веду там рассылку на русском языке [8], а на английском веду блог на Medium [9].
А где Вы находите интересное чтение? Какие ещё есть хорошие платформы, блоги для регулярного профессионального чтения?
Ссылки:
[1] https://medium.com
[2] https://towardsdatascience.com
[3] https://dev.to
[4] https://hashnode.com/
[5] https://substack.com/
[6] https://benn.substack.com/
[7] https://roundup.getdbt.com/
[8] http://begtin.substack.com/
[9] https://medium.com/@ibegtin
#readings #data #blogging
Честно скажу в последние годы я читаю Хабр скорее реже чем чаще чем зарубежные блоги.
А вот из зарубежных платформ выбор есть, хотя и не так уж велик:
* Medium [1] - очень много технологических блогов и публикаций, про данные особенно в Towards data science [2]. Но, спектр тем там куда шире чем технологии, пишут обо всём. Из достоинств: хорошая персонализация и то что не все публикации маркетинговый буллшит.
* Dev.to [3] скорее платформа для начинающих разработчиков для публикации простых гайдов и рецептов. Это как обратная сторона Stackoverflow, но не вопросы, а ответы. Для начинающих полезно, а найти там глубокий текст сложно.
* Hashnode [4] что-то среднее между dev.to и medium по глубине текстов, много лонгридом, но большая часть публикаций про программирование фронтэнда. Совсем мало публикаций про данные.
В итоге самый интересный контент происходит из научных и крупных ненаучных конференций и личных блогов. А вот в части текстов про бизнес на данных и рынок данных большая часть самых интересных авторов на Substack [5]․ При том что Substack - это не про сообщество, а про вещание миру через рассылку и блог (первична рассылка). Там можно почитать Benn Stancil [6] которого я тут регулярно цитирую, там блог/рассылка dbt [7] и ещё много других блогов в категории Technology, всячески их рекомендую.
Я и сам веду там рассылку на русском языке [8], а на английском веду блог на Medium [9].
А где Вы находите интересное чтение? Какие ещё есть хорошие платформы, блоги для регулярного профессионального чтения?
Ссылки:
[1] https://medium.com
[2] https://towardsdatascience.com
[3] https://dev.to
[4] https://hashnode.com/
[5] https://substack.com/
[6] https://benn.substack.com/
[7] https://roundup.getdbt.com/
[8] http://begtin.substack.com/
[9] https://medium.com/@ibegtin
#readings #data #blogging
Medium
Medium: Read and write stories.
On Medium, anyone can share insightful perspectives, useful knowledge, and life wisdom with the world.
Forwarded from Минцифры России
📑 Актуализирован реестр аккредитованных ИТ-компаний
В результате из реестра исключено более 400 компаний. Это те организации, для которых деятельность в сфере информационных технологий не является основной.
Среди исключенных из реестра компаний:
▫️ более 150 бюджетных учреждений
▫️ 32 банка
▫️ 12 страховых компаний
▫️ и ряд других компаний, не относящихся к ИТ
Минцифры регулярно анализирует информацию о компаниях из реестра на ее соответствие необходимым требованиям. Например, в сентябре прошлого года из реестра было исключено около 1,6 тыс. организаций.
В этот раз Минцифры использовало сведения о деятельности компаний из открытых источников (включая официальный сайт организации), как дополнительную информацию для принятия решения о включении в реестр.
Раньше компаниям было необходимо только иметь профильный ОКВЭД.
Можно ли аккредитоваться сейчас?
В соответствии с законом о поправках в Налоговый кодекс с 1 августа 2022 года приостановлена подача заявлений до принятия нового порядка аккредитации. Сейчас Минцифры совместно с профильными ассоциациями и регионами ведет работу над совершенствованием критериев и процедуры аккредитации ИТ-компаний.
@mintsifry
В результате из реестра исключено более 400 компаний. Это те организации, для которых деятельность в сфере информационных технологий не является основной.
Среди исключенных из реестра компаний:
▫️ более 150 бюджетных учреждений
▫️ 32 банка
▫️ 12 страховых компаний
▫️ и ряд других компаний, не относящихся к ИТ
Минцифры регулярно анализирует информацию о компаниях из реестра на ее соответствие необходимым требованиям. Например, в сентябре прошлого года из реестра было исключено около 1,6 тыс. организаций.
В этот раз Минцифры использовало сведения о деятельности компаний из открытых источников (включая официальный сайт организации), как дополнительную информацию для принятия решения о включении в реестр.
Раньше компаниям было необходимо только иметь профильный ОКВЭД.
Можно ли аккредитоваться сейчас?
В соответствии с законом о поправках в Налоговый кодекс с 1 августа 2022 года приостановлена подача заявлений до принятия нового порядка аккредитации. Сейчас Минцифры совместно с профильными ассоциациями и регионами ведет работу над совершенствованием критериев и процедуры аккредитации ИТ-компаний.
@mintsifry
По поводу вот этой "очистки реестра аккредитованных ИТ компаний" [1] не могу не добавить что список очищенных очень похож на тот что я передавал сотрудникам Минцифры РФ где-то месяц назад. И хорошо что хоть по нему они прошлись и проверили компании на соответствие их деятельности ИТ рынку, но это не значит что проверены все компании и проверка проведена полная.
Удивительно что в реестре аккредитованных нет до сих пор сайтов этих компаний и независимая проверка соответствия их деятельности ИТ рынку весьма затруднена, вернее трудоёмка.
Если бы я был человеком обидчивым и злопамятным, я бы расстроился что мои материалы сотрудники Минцифры теперь нигде не упоминают, но и ладно. В следующий раз просто никакие материалы не передам;)
А вот что важно - это то что реестр не ведётся как учётная система. Реестр должен быть не в виде Excel файла со списком, а в нём должна отражаться вся история изменений по компании, как это делается в нормальных реестрах.
В целом удивительно что Минцифра за эти годы так и не выпустила типового продукта ведения реестров, это кажется такой очевидной задачей, воспроизводимой во многих органах власти десятки раз.
Ссылки:
[1] https://t.me/mintsifry/1343
#data #itmarket #digital
Удивительно что в реестре аккредитованных нет до сих пор сайтов этих компаний и независимая проверка соответствия их деятельности ИТ рынку весьма затруднена, вернее трудоёмка.
Если бы я был человеком обидчивым и злопамятным, я бы расстроился что мои материалы сотрудники Минцифры теперь нигде не упоминают, но и ладно. В следующий раз просто никакие материалы не передам;)
А вот что важно - это то что реестр не ведётся как учётная система. Реестр должен быть не в виде Excel файла со списком, а в нём должна отражаться вся история изменений по компании, как это делается в нормальных реестрах.
В целом удивительно что Минцифра за эти годы так и не выпустила типового продукта ведения реестров, это кажется такой очевидной задачей, воспроизводимой во многих органах власти десятки раз.
Ссылки:
[1] https://t.me/mintsifry/1343
#data #itmarket #digital
Европейский проект Copernicus анонсировал Jupyter Notebook Competition большое соревнование по созданию цифровых тетрадей Jupyter Notebook на их данных [1].
Для тех кто не знает, Copernicus - это, возможно, крупнейший проект по сбору и раскрытию данных спутникового мониторинга Земли.
В конкурсе 4 трека:
- исследуйте данные Copernicus
- визуализируйте изменения окружающей среды
- применяйте искусственный интеллект
- расскажите об опасениях и вызовах на планете Земля
Заявки принимают до 4 сентября, участвовать можно с 18 лет. В правилах пишут что участвовать могут кто угодно из Евросоюза и за его пределами, непонятно, распространяется ли это на россиян. Я так подозреваю что нет, но, возможно, стоит спросить организаторов.
Ссылки:
[1] https://notebook.wekeo.eu/
#opendata #challenges
Для тех кто не знает, Copernicus - это, возможно, крупнейший проект по сбору и раскрытию данных спутникового мониторинга Земли.
В конкурсе 4 трека:
- исследуйте данные Copernicus
- визуализируйте изменения окружающей среды
- применяйте искусственный интеллект
- расскажите об опасениях и вызовах на планете Земля
Заявки принимают до 4 сентября, участвовать можно с 18 лет. В правилах пишут что участвовать могут кто угодно из Евросоюза и за его пределами, непонятно, распространяется ли это на россиян. Я так подозреваю что нет, но, возможно, стоит спросить организаторов.
Ссылки:
[1] https://notebook.wekeo.eu/
#opendata #challenges
it_anomalies_20220801.zip
53.6 KB
Минцифры, конечно, почистили реестр аккредитованных компаний, да вот незадача, не до конца, не полностью и все. В архиве списки компаний для которых, за некоторым исключением, основная область - это не ИТ.
Эти списки включают ИНН,Название компании и статус после фильтрации, на сегодня. Многие уже не действуют, но те кто захотят посмотреть, найдут и действующие:
- avia.csv - компании имеющие лицензии в авиастроении и иных работах в авиаотрасли. Некоторые ИТ, не все
- finorgs.csv - финансовые организации, имеющие банковские и брокерские лицензии. Почти все не ИТ, большая часть аннулированы
- insurance.csv - страховые компании, почти все не ИТ. Действующая осталаль только АО "БУДУ" (бывшее - Ренессанс Страхование). Очень интересно, как это её оставили.
- universities.csv - Высшие учебные заведения. Аннулировали почти все. Почему не аннулировали аккредитацию Университета Иннополиса?
- ngos.csv - некоммерческие организации. Некоторые из них ИТ, но большая часть это ГОНГО, псевдоведомственные учреждения в регионах. Нехорошо, мало аннулировали
- radiotv.csv - телерадиокомпании имеющие лицензии на телевещание. Аннулировали не всех, у тех что не аннулировали по факту не ИТ деятельность.
- telecom.csv - телекоммуникационные компании. По моему в Минцифре РФ путают телеком и ИТ рынок, а это разные рынки. Хотя телеком компании к ИТ рынку наиболее близки, но выручка у них не с продажи софта
- hasgov.csv - организации с учредителями госкорпорациями, госучреждениями и госорганами. Много аннулированных, но как то избирательно. А почему про Федеральный ресурсный центр (ФБУ ФРЦ) забыли ? Он то точно не ИТ или почему ФКУ ФСИН по инженерному-обеспечению и вооружению в Тюменской области не с аннулированной аккредитацией?
Я могу ещё много задать вопросов, но в качества итога два тезиса:
1. Много самых вопиющих случаев исправлено.
2. Много не самых вопиющих случаев не исправлено
3. А ещё много каких компаний вообще никакой деятельности не ведут и их даже нет в этих списках. О них как-нибудь позже.
#itmarket #digital #registries
Эти списки включают ИНН,Название компании и статус после фильтрации, на сегодня. Многие уже не действуют, но те кто захотят посмотреть, найдут и действующие:
- avia.csv - компании имеющие лицензии в авиастроении и иных работах в авиаотрасли. Некоторые ИТ, не все
- finorgs.csv - финансовые организации, имеющие банковские и брокерские лицензии. Почти все не ИТ, большая часть аннулированы
- insurance.csv - страховые компании, почти все не ИТ. Действующая осталаль только АО "БУДУ" (бывшее - Ренессанс Страхование). Очень интересно, как это её оставили.
- universities.csv - Высшие учебные заведения. Аннулировали почти все. Почему не аннулировали аккредитацию Университета Иннополиса?
- ngos.csv - некоммерческие организации. Некоторые из них ИТ, но большая часть это ГОНГО, псевдоведомственные учреждения в регионах. Нехорошо, мало аннулировали
- radiotv.csv - телерадиокомпании имеющие лицензии на телевещание. Аннулировали не всех, у тех что не аннулировали по факту не ИТ деятельность.
- telecom.csv - телекоммуникационные компании. По моему в Минцифре РФ путают телеком и ИТ рынок, а это разные рынки. Хотя телеком компании к ИТ рынку наиболее близки, но выручка у них не с продажи софта
- hasgov.csv - организации с учредителями госкорпорациями, госучреждениями и госорганами. Много аннулированных, но как то избирательно. А почему про Федеральный ресурсный центр (ФБУ ФРЦ) забыли ? Он то точно не ИТ или почему ФКУ ФСИН по инженерному-обеспечению и вооружению в Тюменской области не с аннулированной аккредитацией?
Я могу ещё много задать вопросов, но в качества итога два тезиса:
1. Много самых вопиющих случаев исправлено.
2. Много не самых вопиющих случаев не исправлено
3. А ещё много каких компаний вообще никакой деятельности не ведут и их даже нет в этих списках. О них как-нибудь позже.
#itmarket #digital #registries
"Когда алгоритм твой босс" [1] - это свежий подкаст от Mozilla с большим числом фактов, графиков в виде лонгрида [2] о экономике, влиянии, подотчетности ИИ и деятельности BigTech компаний.
Вот факты из этого лонгрида:
- $15.7 триллионов ожидаемый вклад ИИ в экономику мира к 2030 году
- $52.88 миллиарда - это частные инвестиции в ИИ в США, лидере инвестиций в этой области
- 0 из 100 баллов уровень прозрачности алгоритмов Apple, и 55 и 100 у Microsoft по оценке Ranking Digital Rights, 2022
- 71% просмотренных видео на YouTube о просмотре которых пользователи жалеют они смотрят через рекомендации сервиса
- 3-х кратной может быть разница за одинаковую услугу в дэйтинговых сервисах в США через персонифицированное ценообразование
- около 40% работников онлайн платформ, курьеров, водителей и т.д. (gig workers), получают ежемесячный доход ниже минимальной оплаты труда
- около 1 миллиарда камер видеонаблюдения установлено в мире
- в 3.8 раза выросло число учёных аффилированных с компаниями BigTech, с 12.77% в 2008 г. до 47.17% в 2018 г.
- лишь 3% исследований машинного обучения связаны с правами человека и этическими принципами
И там же рекомендации по регулированию ИИ и этическим принципам.
Практически весь материал - это факты со ссылками на другие исследования и публикации, он хорош именно как систематизированная постановка проблемы.
И, хотя многие материалы, звучат как призывы к цифровому социализму, например, про минимальную оплату работникам, это всё про то как мир меняется и BigTech компании довольно быстро становятся корпорациями зла в восприятии общества.
Всё это о том что компании BigTech уже сейчас находятся на развилке саморегулирования с существенными самоограничениями или гораздо более жесткого государственного регулирования.
Ссылки:
[1] https://2022.internethealthreport.org/episodes/when-an-algorithm-is-your-boss/
[2] https://2022.internethealthreport.org/facts/
#privacy #ai #regulation
Вот факты из этого лонгрида:
- $15.7 триллионов ожидаемый вклад ИИ в экономику мира к 2030 году
- $52.88 миллиарда - это частные инвестиции в ИИ в США, лидере инвестиций в этой области
- 0 из 100 баллов уровень прозрачности алгоритмов Apple, и 55 и 100 у Microsoft по оценке Ranking Digital Rights, 2022
- 71% просмотренных видео на YouTube о просмотре которых пользователи жалеют они смотрят через рекомендации сервиса
- 3-х кратной может быть разница за одинаковую услугу в дэйтинговых сервисах в США через персонифицированное ценообразование
- около 40% работников онлайн платформ, курьеров, водителей и т.д. (gig workers), получают ежемесячный доход ниже минимальной оплаты труда
- около 1 миллиарда камер видеонаблюдения установлено в мире
- в 3.8 раза выросло число учёных аффилированных с компаниями BigTech, с 12.77% в 2008 г. до 47.17% в 2018 г.
- лишь 3% исследований машинного обучения связаны с правами человека и этическими принципами
И там же рекомендации по регулированию ИИ и этическим принципам.
Практически весь материал - это факты со ссылками на другие исследования и публикации, он хорош именно как систематизированная постановка проблемы.
И, хотя многие материалы, звучат как призывы к цифровому социализму, например, про минимальную оплату работникам, это всё про то как мир меняется и BigTech компании довольно быстро становятся корпорациями зла в восприятии общества.
Всё это о том что компании BigTech уже сейчас находятся на развилке саморегулирования с существенными самоограничениями или гораздо более жесткого государственного регулирования.
Ссылки:
[1] https://2022.internethealthreport.org/episodes/when-an-algorithm-is-your-boss/
[2] https://2022.internethealthreport.org/facts/
#privacy #ai #regulation
The Internet Health Report 2022
When an Algorithm is Your Boss — The Internet Health Report 2022
Gig workers worldwide report directly to artificial intelligence in precarious jobs created by secretive corporations. What can be done?
Ещё находки про аккредитованные ИТ компании, как можно было догадаться самые интересные находки я не публиковал.
1. Мини-отель (хостел) Старый город (ООО Старый город) в Перми. ИНН 5902993839, аккредитованы как ИТ решением АО-20220310-3784246043-3 от 2022-03-11
Сайта нет, только отзывы в сервисах
- https://yandex.ru/maps/org/stary_gorod/174934420361/?ll=56.251450%2C58.016896&z=15
- https://www.tripadvisor.ru/Hotel_Review-g298516-d8655713-Reviews-Stary_Gorod-Perm_Perm_Krai_Volga_District.html
По ЕГРЮЛ основной ОКВЭД у них ИТшный, но никакого подтверждения этой деятельности нет.
2. Общество с ограниченной ответственностью Микрокредитная компания «Рубикон».
Это микрофинансовая организация с сайтом https://denginadom.ru, аккредитована в мае этого года АО-20220506-4449719929-3.
Страница на сайте ЦБ РФ https://cbr.ru/finorg/foinfo/?ogrn=1152468038568
Достаточно очевидно что занимается она не ИТ деятельности, а просто выдает микрозаймы. Даже к цифровым/технологическим компаниям отнести её сложно, ну а к ИТ рынку не имеет отношения.
3. Общество с ограниченной ответственностью Микрокредитная компания «БАСС»
Была аккредитована в марте 2022 г., решение АО-20220311-3795855648-3 сайт организации http://vzaim1.ru/ , страница в реестре ЦБ РФ https://cbr.ru/finorg/foinfo/?ogrn=1176820001621
В создании ИТ продуктов и иной ИТ деятельности не замечена.
—
Я могу продолжать такое публиковать бесконечно, потому что реестр аккредитованных ИТ компаний превратился в помойку.
И необходимо проверить каждую компанию в этом реестре, а не заниматься ситуативной чисткой.
Пока ещё аккредитация без ИТ льгот (подтверждения ФНС) давала лишь отсрочку от армии, но если она будет давать хоть какие-то преференции, то следователи могут, с легкостью, трактовать её как мошенничество по предварительному сговору.
И не могу не добавить что нахожу очень странным что аккредитацию у Ростелекома аннулировали, а у сотен других телеком компаний нет. В чёмправда критерии, брат (с) ?
Я продолжу время от времени публиковать апдейты и данные по этому реестру под хэштегом #itmarket
1. Мини-отель (хостел) Старый город (ООО Старый город) в Перми. ИНН 5902993839, аккредитованы как ИТ решением АО-20220310-3784246043-3 от 2022-03-11
Сайта нет, только отзывы в сервисах
- https://yandex.ru/maps/org/stary_gorod/174934420361/?ll=56.251450%2C58.016896&z=15
- https://www.tripadvisor.ru/Hotel_Review-g298516-d8655713-Reviews-Stary_Gorod-Perm_Perm_Krai_Volga_District.html
По ЕГРЮЛ основной ОКВЭД у них ИТшный, но никакого подтверждения этой деятельности нет.
2. Общество с ограниченной ответственностью Микрокредитная компания «Рубикон».
Это микрофинансовая организация с сайтом https://denginadom.ru, аккредитована в мае этого года АО-20220506-4449719929-3.
Страница на сайте ЦБ РФ https://cbr.ru/finorg/foinfo/?ogrn=1152468038568
Достаточно очевидно что занимается она не ИТ деятельности, а просто выдает микрозаймы. Даже к цифровым/технологическим компаниям отнести её сложно, ну а к ИТ рынку не имеет отношения.
3. Общество с ограниченной ответственностью Микрокредитная компания «БАСС»
Была аккредитована в марте 2022 г., решение АО-20220311-3795855648-3 сайт организации http://vzaim1.ru/ , страница в реестре ЦБ РФ https://cbr.ru/finorg/foinfo/?ogrn=1176820001621
В создании ИТ продуктов и иной ИТ деятельности не замечена.
—
Я могу продолжать такое публиковать бесконечно, потому что реестр аккредитованных ИТ компаний превратился в помойку.
И необходимо проверить каждую компанию в этом реестре, а не заниматься ситуативной чисткой.
Пока ещё аккредитация без ИТ льгот (подтверждения ФНС) давала лишь отсрочку от армии, но если она будет давать хоть какие-то преференции, то следователи могут, с легкостью, трактовать её как мошенничество по предварительному сговору.
И не могу не добавить что нахожу очень странным что аккредитацию у Ростелекома аннулировали, а у сотен других телеком компаний нет. В чём
Я продолжу время от времени публиковать апдейты и данные по этому реестру под хэштегом #itmarket
Яндекс Карты
Старый город, кафе, Петропавловская ул., 15, Пермь — Яндекс Карты
Рейтинг 3,7. 11 отзывов, 20 фото. Посмотреть номер телефона, часы работы, вход на карте и построить маршрут — вы можете в Яндекс Картах
В качестве регулярных напоминаний, если Вы изучаете открытые данные и хотите больше погрузиться в эту тему:
1. Работа с открытыми данными: особенности публикации и использования в российском правовом поле [1] аналитический доклад 2020 года про возможности и проблемы работы с открытыми данными.
2. Карты данных [2] по многим отраслям составленные нами 3.5 года назад в виде инфографики. Изначально это было куча майндмапов в виде вопросов и ответов. Для наглядности пришлось их переработать. То что получилось делалось, в первую очередь для печати и раздачи на хакатонах.
3. Хаб открытых данных [3] наш негосударственный портал открытых данных. Создавался как независимый от гос-ва портал для публикации данных. Мы его поддерживаем вот уже много лет.
Если хотите помочь Инфокультуре то сделать можно это на странице https://www.infoculture.ru/donation/ пожертвованием однократно или ежемесячно (лучше ежемесячно, конечно!).
Лично я считаю после всей той помощи что я оказал Минцифре РФ по чистке реестра аккредитованных ИТ компаний, сотрудники министерства, не могут пройти мимо и не пожертвовать кто сколько может на благое дело приведения наборов данных в порядок 😜
Ну а если серьёзно, то пандемийные годы были непростыми, а этот год - это ещё больший вызов многократно. До сих пор непонятно как продолжать развивать открытость данных, всё ещё понятно что можно делать в части цифровой архивации и всегда понятно что делать по теме приватности, хотя, это тоже стало сложнее.
А я не могу не напомнить что был и остаюсь в России, и пока рассматриваю варианты отъезда, только по состоянию здоровья (если аллергия на березы начнёт зашкаливать).
Ссылки:
[1] https://opendatareview.infoculture.ru/
[2] https://www.infoculture.ru/2018/12/10/datamaps/
[3] https://hubofdata.ru
#opendata #infoculture #donate
1. Работа с открытыми данными: особенности публикации и использования в российском правовом поле [1] аналитический доклад 2020 года про возможности и проблемы работы с открытыми данными.
2. Карты данных [2] по многим отраслям составленные нами 3.5 года назад в виде инфографики. Изначально это было куча майндмапов в виде вопросов и ответов. Для наглядности пришлось их переработать. То что получилось делалось, в первую очередь для печати и раздачи на хакатонах.
3. Хаб открытых данных [3] наш негосударственный портал открытых данных. Создавался как независимый от гос-ва портал для публикации данных. Мы его поддерживаем вот уже много лет.
Если хотите помочь Инфокультуре то сделать можно это на странице https://www.infoculture.ru/donation/ пожертвованием однократно или ежемесячно (лучше ежемесячно, конечно!).
Лично я считаю после всей той помощи что я оказал Минцифре РФ по чистке реестра аккредитованных ИТ компаний, сотрудники министерства, не могут пройти мимо и не пожертвовать кто сколько может на благое дело приведения наборов данных в порядок 😜
Ну а если серьёзно, то пандемийные годы были непростыми, а этот год - это ещё больший вызов многократно. До сих пор непонятно как продолжать развивать открытость данных, всё ещё понятно что можно делать в части цифровой архивации и всегда понятно что делать по теме приватности, хотя, это тоже стало сложнее.
А я не могу не напомнить что был и остаюсь в России, и пока рассматриваю варианты отъезда, только по состоянию здоровья (если аллергия на березы начнёт зашкаливать).
Ссылки:
[1] https://opendatareview.infoculture.ru/
[2] https://www.infoculture.ru/2018/12/10/datamaps/
[3] https://hubofdata.ru
#opendata #infoculture #donate
Telegram
Инфокультура
Новости Информационной культуры. https://infoculture.ru