Ivan Begtin
7.97K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Максим Смирнов очень кратко и точно [1] про правильное определение digital disruption. Это вынужденная ситуация зависимости как альтернативы потери эффективности. Наиболее эффективные стартапы автоматизируют очень узкую функцию, но очень эффективно. И в определённый момент ты оказываешься в ситуации когда, либо ты от этого сервиса отказываешься и занимаешься, прости Господи за неприличное слово, импортозамещением, или используешь с кучей рисков: санкций, банкротства сервис провайдера, смены его бизнес модели, безальтернативного повышения цены и так далее. Самый очевидный и наглядный пример сейчас - это Zoom. Нишевый сервис который создавался совсем не для того для чего сейчас используется, как следствие, при всём богатстве выбора альтернативы не радуют.

В итоге технологические решения оказываются, часто, сложнослепленным набором разных узкозаточенных профессиональных решений и современное искусство что программирования, что проектирования - это уметь собирать такие конструкторы. Крупнейшие ИТ экосистемы, такие как AWS, Azure, Google Cloud и др. имеют ценность именно в том что они предоставляют возможность получить "сразу всё из коробки" и, в то же время, поднастроить под себя то что хочется получить в иной форме.

В России в госсекторе собирать такие сложные конструкции всегда было большой проблемой и остаётся, кстати, тоже. Создатели гособлаков или ГосТеха не понимают что такое создание конкурентной среды и экосистемы для G2G сервисов. Отсюда и возникают ровно противоположные по устремлениям и одинаково вредные активности по "централизации ИТ" и "децентрализации ИТ", вместо среды где каждому есть место, а главное что любой создаваемый продукт/сервис можно было бы делать не с нуля.

В России из коммерческих сервисов только Яндекс.Облако немного приближается к созданию экосистемы, но других конкурентных преимуществ кроме отечественности у него, увы, нет.

Ссылки:
[1] https://t.me/it_arch/801

#govtech #technology #startups
Мне довольно утомительно повторять идею, которую мне внушили еще лет десять назад: digital disruption – это не о том, что надо всю деятельности перевести в цифру, а скорее о том, что завтра придет какая-то неизвестная ранее компания и начнет делать некоторую, очень малую часть вашей цепочки создания ценности в десять раз эффективней, чем вы это делали сами. При этом, скорее всего платить ей за использование этой фичи вы будете в десять раз больше, чем тратили на этот шаг цепочки раньше. Потому, что это капитализм. Отказаться будет можно только потеряв часть клиентов, возможно значительную часть. Ну, просто клиенты начнут орать: почему вы не продаёте айфоны или еще что-то подобное. Главное, что требуется от компаний (и от их айтишников), четко и экономически выгодно на это отреагировать. Т.е. не раздавать айфоны бесплатно у метро, а сделать что-то чуть более осмысленное
Тем временем Bloomberg запустил свой трекер восстановления экономики [1], в основном на альтернативных данных:
- новые случаи COVID-19
- индекс закрытия (Lockdown Index)
- запросы на пособие по безработице
- число поездок общественным транспортом
- ипотечные запросы
- удобство потребителей
- продажи в тех же магазинах (непонятный критерий)
- бронирования в ресторанах
- активные нефтяные скважины
- производство стали
- индекс S&P
- финансовое состояние рынка

Почти все индексы негосударственные, основанные на альтернативных данных.


Ссылки:
[1] https://www.bloomberg.com/graphics/recovery-tracker/
Очень часто приходится слышать термины Data Warehouse, Data Lake, Data Hub, при этом часто произносящие их не задумываются о реальных отличиях этих понятий. В блоге The Startup на Medium хороший обзор на английском [1] об отличии и сходствах таких понятий как:
- Data Lake
- Data Hub
- Data Virtualization / Data Federation
- Data Warehouse
- Operational Data Store

Все отличия объяснены на редкость доходчиво, я как-нибудь найду время перевести этот текст на русский язык.
Краткий ликбез такой:
- Data Lake (Озеро данных) - это несвязанные данные удобные для data science и аналитической работы. Работает в ситуации возникновения задач и адаптации данных под конкретные задачи.

- Data Hub - это данные собранные в одно хранилище с некоторой работой по преобразованию и обработке. Больше форматирования, контроля и управления по сравнениею с озером данных.

- Data Virtualization/Data Federation - это пробрасывание виртуальных связей между источниками, иногда уже начало ведение общих справочников. Больше ориентировано на данные реального времени и интеграцию

- Data Warehouse - наиболее подходит для подготовки управленческих отчетов, готовится на основе масштабной обработки данных, контроля справочников и так далее. Очень негибко, но наиболее пригодно к управлению циклом жизни данных

- Operational Data Store - это, как правила, зеркала для хранения транзакционных баз данных чтобы не затрагивать сами базы данных работающих в режиме реального времени.

Ссылки:
[1] https://medium.com/swlh/the-5-data-store-patterns-data-lakes-data-hubs-data-virtualization-data-federation-data-27fd75486e2c

#opendata #data #datalakes #datamanagement #datagovernance
Для тех кто хочет сделать полезное в открытых данных, имеет свободное время и свободный английский - проект OpenRefine ищет специалиста/команду/компанию тех кто создаст им документацию по продукту [1]
В общей сложности они хотят сделать эту работу за 6 месяцев и 25 000 USD (примерно 1,86 миллиона рублей). Финансируется проект полностью из грантовых источников нескольких фондов Кремниевой долины. В частности из фонда Чан-Цукерберг по поддержке науки.

OpenRefine хороший проект, важная часть многих академических проектов по созданию инфраструктуры данных. Например, они активно используются в австралийском Data61 CSIRO. Однако у команды которая им занималась с самого начала не задалась коммерциализация и попытки создать онлайн сервис для Data wrangling (Манипулирования данными) не увенчались успехом. Сейчас они все ещё предлагают услуги в виде компании RefinePro [2], но не то чтобы заметны на рынке.

Сам проект происходит из когда-то выложенного в виде открытого кода проекта Google Refine [3]. Ранее он был разработан в Metaweb , компании занимавшейся проектом Freebase, пожалуй, одним из наиболее успешных стартапов занимавшихся связанными данными и выкупленной Google в 2010 году.

Ссылки:
[1] http://openrefine.org/blog/2020/04/23/documentation-hire.html
[2] https://refinepro.com
[3] https://en.wikipedia.org/wiki/OpenRefine

#opendata #openrefine #datajobs
Вышел Open Budget Index за 2019 год [1], обзор оценок открытости бюджетов по странам мира. Он охватывает большинство значимых стран, кроме разьве что, небольших тихоокеанских островов.

Ключевое в индексе - это оценка прозрачности бюджета (budget transparency score). Это совокупность всех оценок прозрачности бюджета, бюджетного процесса на всех стадиях.
У некоторых стран эти оценки совпадают, поэтому правильно считать их места не по списку сверху вниз, а учитывая что некоторые места поделены.
На 1-м месте с оценками в 87 баллов: Новая Зеландия и Южная Африка
На 2-м месте с оценкой в 86 баллов: Швеция

Россия на 7 месте которое она делит с Францией имея 74 балла. Это довольно высокий уровень прозрачности бюджета. Это выше чем Великобритания с 70 баллами и ниже чем США с 76 баллами.

Значит ли это что в России всё хорошо с финансовой открытостью? В целом оно лучше чем у многих стран, но есть нюансы. Например, из-за нац проектов сократилась открытость бюджетной росписи, о чём я писал в колонке в РБК в прошлом году [2]. А оценки вовлечения общества в формирование бюджета очень низкие 22 балла из 100 возможных [3]

Ссылки:
[1] https://www.internationalbudget.org/open-budget-survey/rankings
[2] https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea
[3] https://live-international-budget-partnership.pantheonsite.io/open-budget-survey/country-results/2019/russia

#openbudgets #budgets #opengov
На CockroachDB [1], движок баз данных с открытым кодом с гео-масштабированием, работой в облаке и с SQL, развиваемый стартапом CockroachLabs [2], его создатели получили $86,6 миллионов финансирования от венчурных фондов [3], что в совокупности даёт $195 миллионов с 2015 года.

По сути, CockroachDB - это PostgreSQL на стероидах. В сравнении на ObjectRocket [4] довольно хорошо перечислены их отличительные особенности и возможности. Все они связаны с репликацией, геомасштабированием и многокластерностью. Важные задачи для любых геораспределённых сервисов и не так критичные для геостационарных, локальных сервисов.

Исходя из их позиционирования можно предполагать что они стали реально востребованным продуктом для крупных цифровых игроков, делающих сервисы и приложения на весь мир.

Ссылки:
[1] https://github.com/cockroachdb/cockroach
[2] https://www.cockroachlabs.com/
[3] https://www.zdnet.com/article/a-gmail-for-databases-cockroachdb-aims-for-the-top-stocks-up-with-86-6m-new-funding/
[4] https://www.objectrocket.com/blog/cockroachdb/how-to-choose-between-postgresql-and-cockroachdb/

#data #databases
Внезапно Zoom купил очень интересный стартап Keybase [1]. Однако KeyBase - это прикольные ребята помешанные на безопасности, а у Zoom с безопасностью всё из рук вон плохо. Надеюсь от этой сделки похорошеет Zoom'у и не поплохеет Keybase. Всё таки я лично пользователь Keybase со стажем.

Ссылки:
[1] https://keybase.io/blog/keybase-joins-zoom

#privacy #security
Среди многочисленных проектов и бизнесов на данных, особо интересны имеющие качественное отраслевое применение, даже если сама бизнес модель совсем не про данные.

Molbase - китайский стартап [1], маркетплейс продажи и покупки химических компонентов. Объединяет спрос и предложения от малых и средних китайских компаний на химические вещества совершенно любого типа. У маркетплейсов своя понятная ниша и, казалось бы, ну что тут можно добавить, но вот создатели Molbase добавили базу знаний по всем продаваемым компонентам, поиск по видам и типам химических веществ, по формулам, химической структуре и так далее.

В декабре они вышли на IPO и сейчас их капитализация $205.9 миллиона [2], а бизнес модель построена на автоматизации хранения и логистики и заявленное число клиентов составляет 94 тысячи покупателей и 33 тысячи продавцов [3].

При этом особенный акцент во всех публичных материалах именно на данные и на искусственный интеллект, с рекомендательными возможностями.

Ссылки:
[1] https://molbase.com
[2] https://craft.co/molecular-data/metrics
[3] http://investor.molbase.com/static-files/d06191ae-4466-449d-a56f-ff27faf808d0

#data #datamarket
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Поставщик Минэкономразвития по сопровождению портала открытых данных добавлен в РНП

Компания "Рунетсофт" 13 апреля добавлена в Реестр недобросовестных поставщиков (РНП) за контракт на сопровождение портала открытых данных (data.gov.ru), исполнение которого было прекращено по инициативе Минэкономразвития в середине марта [1]. Напомню, что стоимость этого контракта - 21,8 млн руб., а фактически из ТЗ почти ничего не было выполнено (не говоря уже о качестве тех работ, которые попытались выполнить).

Интересно, что включение Рунетсофта в РНП не помешало Окружная администрация города Якутска заключить в конце апреля с ними контракт на обновление и техническое обслуживание своего сайта, стоимостью 1,3 млн руб.

[1] https://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=1771034949419000094
[2] https://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=3143513390720000021
Цифровая трансформация по польски - это Национальная облачная платформа (Chmura Krajowa) [1] созданная в 2019 году Банком Польши и Польским фондом развития. В сентябре 2019 года они заключили партнёрство с Google, а теперь ещё и партнёрство с Microsoft [2]. При этом Microsoft обещают проинвестировать около 1 миллиарда долларов на создание польской цифровой долины [3].

Здесь интересно многое, например, будет ли это единичным случаем или форма целенаправленной экспансии международных облачных платформ в местные рынки.

И, не могу не напомнить о том где находятся датацентры крупнейших облаков в мире для Google Cloud [4] и Microsoft Azure [5].

Ссылки:
[1] https://chmurakrajowa.pl (польский)
[2] https://news.microsoft.com/europe/2020/05/05/microsoft-announces-a-1-billion-digital-transformation-plan-for-poland-including-access-to-local-cloud-services-with-first-datacenter-region/ (английский)
[3] https://cloudcomputing-news.net/news/2020/may/05/microsoft-unveils-1-billion-poland-cloud-and-digital-investment-plan/ (английский)
[4] https://cloud.google.com/about/locations/
[5] https://azure.microsoft.com/en-us/global-infrastructure/regions/

#datacenters #poland #digital #digitaltransformation
Reuters пишут что в Евросоюзе всерьёз подбираются к регулированию технологических гигантов [1] и заказали исследование на 649 тысяч евро целью которого будет рассмотрение практики разделения бизнеса крупнейших компаний и демократизации доступа к их данным. Однозначно под прицелом будут Google, Amazon, Apple и Facebook, но и другие технологические гиганты это может затронуть.

[1] https://www.reuters.com/article/us-eu-tech-antitrust/eu-looks-for-evidence-to-rein-in-u-s-tech-giants-idUSKBN22K2IT

#tech #regulation #data
Департамент здравоохранения Австралии выложил исходный код мобильных приложений для iPhone и для Android [1] на платформе Github. Кроме того в правилах использования приложения явно указано что все данные будут удалены после пандемии [2], а сам департамент выпустил акт о биобезопасности защищающий права граждан на приватность на период пандемии и после нее [3]. Также подготовлен законопроект особым образом защищающий приватность в этом мобильном приложении на время пандемии [4].

Ссылки:
[1] https://github.com/AU-COVIDSafe
[2] https://www.health.gov.au/resources/apps-and-tools/covidsafe-app#after-the-pandemic
[3] https://www.legislation.gov.au/Details/F2020L00480
[4] https://www.ag.gov.au/RightsAndProtections/Privacy/Pages/COVIDSafelegislation.aspx

#privacy #australia #opensource
Весьма интересная общедоступная база RUPEP.org [1] по базе PEP'ов - политически значимых персон. Уровень проработки у базы весьма неплохой, не только более 5 тысяч персон, но и все юр. лица с которыми они были связаны, с визуализацией и досье на каждую персону. Однако для работы с ресурсом требуется авторизация, там нет открытых данных и самый злободневный вопрос, а кто же автор? На странице "О проекте" владельцем базы указан PEPWatch [2], без каких либо реквизитов и выходных данных. PEPWatch - это коммерческое юридическое лицо в Чехии [3] с единственным учредителем Halyna Senyk [4] и без какой-либо дополнительной информации. Соцсети PEPWatch оказались удалёнными много лет назад, а отсутствие упоминание создателя организации в подробностях - это очень большая редкость в таких проектах.

Поэтому проект интересный и любопытный, а вот его создатель на редкость странный и непонятный. Что-то тут не так с его создателем

Ссылки:
[1] https://rupep.org
[2] https://rupep.org/ru/%D0%B2%D0%BE%D0%BF%D1%80%D0%BE%D1%81%D1%8B-%D0%B8-%D0%BE%D1%82%D0%B2%D0%B5%D1%82%D1%8B/
[3] https://rejstrik-firem.kurzy.cz/06719015/pepwatch-z-s/
[4] https://rejstrik-firem.kurzy.cz/osoba/2513651/

#open #peps
Технологические гиганты сокращают или замораживают найм персонала. Вот и Apple заморозили поиск сотрудников текущими вакансиями, за исключением команд которые занимаются ИИ, оборудованием и машинным обучением [1]

[1] https://staging.media.thinknum.com/articles/a-deeper-look-into-apples-job-cuts/
В задачах связанных с работой с данными часто возникают ситуации когда необходимо совмещать автоматизированный сбор и обработку данных и ручную работу по их последующей очистке. Отчасти здесь помогают такие онлайн заменители Access как Airtable [1], но бывает что нужно ещё и настроить потоки входящих и исходящих данных, связать микросервисы, внешние API и так далее. А ещё много задач внутренней автоматизации, на который часто просто не хочется тратить много времени, ибо они отвлекают от основного бизнеса/деятельности.

Сразу несколько инструментов успешно решают такие задачи.

Forest Admin [2] - одноимённые продукт и стартап инструмента внутренней "админки" по управлению данными и деятельностью. Основаны в 2016 году и с тех пор получили $11.2 миллиона инвестиций [3], последний раунд был 6 месяцев назад на $7 миллионов. Предлагают гибридное решение, настраивается через аккаунт в их сервисе, разворачивается локально как контейнер Docker и приложение на Javascript. Главное на чём делают акцент - это то что Ваши данные остаются у Вас. Не надо их никуда передавать или подключать.

Retool [4] - инструмент для создания внутренних инструментов. Позиционируют себя как "инженеры делают для инженеров". Вышли из Y Combinator и получили в 2017 году финансирование на нераскрываемую сумму [5]. Дают очень гибкий инструмент по автоматизации внутренних процессов, с подключением баз данных, API и многого другого. Главные риски - надо подключать туда свои базы данных, но для бизнеса у которого и так все данные в облаках и в API это, чаще, не проблема.

Internal [6] - свежий конкурент Retool, появились в 2019 году и сразу получили финансирование на $5 миллионов [7]. Позиционируют себя как no-code платформу по автоматизации внутренних процессов.

Другие, не совсем относящиеся к подобным инструментам, но пересекающиеся с ними - это "безголовые CMS" (headless CMS). Системы управления контентом в которых управление контентом отделено от его отображение.
Из них можно выделить такие как: Directus [8], Strapi [9]

Всё это дополняется большим числом no-code и low-code платформ.
Поэтому очень часто автоматизация внутренних задач или создания бэкофиса для внешних проектов требует не найма внутренней команды/внешней команды/внешнего подрядчика, а правильного выбора инструмента и его настройки.

[1] https://airtable.com
[2] https://www.forestadmin.com/
[3] https://craft.co/forest-admin/metrics
[4] https://retool.com
[5] https://www.crunchbase.com/organization/retool
[6] https://www.internal.io/
[7] https://craft.co/internal/metrics
[8] https://directus.io/
[9] https://strapi.io

#nocode #lowcode #internaltools
Павел Дуров анонсировал [1] закрытие проект TON в довольно анти-американском стиле, критикуя решение суда в США. Честно говоря не знаю даже что добавить кроме тревоги за судьбу Телеграм'а, который, как я понимаю, из денег привлечённых на TON и финансировался.

[1] https://telegra.ph/What-Was-TON-And-Why-It-Is-Over-05-12

#blockchain #telegram
MemSQL - стартап создающий одноимённую геораспределённую базу данных совместимую с MySQL, получили $50 миллионов инвестиций [1] что составляет $158.1 миллион инвестиций на сегодняшний день.

Главное достоинство MemSQL - это сохранение высокой скорости работы даже при очень большом объёме загруженных данных. При этом MemSQL умеет работать с JSON документами, хотя и, нельзя сказать что это естественная форма работы, что, впрочем, компенсируется высокой скоростью.

Несмотря на то что у себя на сайте они сравнивают себя, в первую очередь, с SAP HANA и Oracle [2], основной их конкурент - это CockroachDb о которой я писал ранее [4], базе данных совместимой с PostgresSQL.

Ссылки
[1] https://siliconangle.com/2020/05/11/distributed-database-startup-memsql-raises-50m-debt-financing/?utm_source=angellist
[2] https://www.memsql.com/comparisons/
[3] https://t.me/begtin/1893

#data #dataengines #db
Многие контрольные ведомства раскрыли свои внутренние контактные данные, чтобы граждане имели возможность обратиться к сотрудникам напрямую. Некоторые даже создают отдельные приложения и горячие линии, а на своих сайтах и в соцсетях публикуют актуальную аналитику или полезную информацию, связанную с пандемией.

ВОА Мексики запустило [1] бесплатное электронное приложение для смартфонов и планшетов, которое позволяет напрямую обращаться в ведомство по вопросам его деятельности.

ВОА США с помощью горячей линии Fraudnet [2] принимает заявления о возможных случаях мошенничества со средствами, которые были выделены на противодействие COVID-19.

Глава ВОА ЮАР [3] активно информирует граждан о ситуации с распространением COVID-19 в республике. Ежедневно в Twitter появляются репосты обновлений статистических данных, публикуются правила изоляции, информация о мерах, принимаемых государством.

Всё это можно узнать из регулярного дайджеста Счётной палаты [4] подписаться на который можно в футере любой страницы на сайте Счетной палаты [5]

P.S. Как человек получающий десятки рассылок самых разных госорганов могу сказать что одна из худших рассылок новостей у ФНС России, а в последние полтора года одна из лучших рассылок именно у Счетной палаты.

Ссылки:
[1] https://twitter.com/ASF_Mexico/status/1245049289438457857
[2] https://www.gao.gov/about/what-gao-does/fraudnet/
[3] https://twitter.com/AuditorGen_SA
[4] http://audit.gov.ru/upload/pdf/Covid-19-SIA.pdf
[5] http://audit.gov.ru/

#open #sprf
Microsoft предложили российским властям полгода бесплатного использования их сервисов, о чём пишет Коммерсант [1]. В статье есть же и мой комментарий, но я хочу сказать не об этом.

Разговоры о том существует ли конкуренция "Microsoft vs Linux" или "проприетарное ПО vs открытое ПО" или "что угодно vs импортозамещённое ПО" - эти разговоры давно устарели, также как и мышление в этих категориях. Потому что на корпоративном и государственном рынке в мире есть один ключевой тренд - это облачные комплексные инфраструктуры, поддерживающие SaaS, PaaS, IaaS, но замыкающие внутрь себя насколько это возможно. В мире есть 3 основных игрока в этой среде: Amazon, Google и Microsoft. Соответственно с продуктами AWS, Google Cloud и Azure

В 2019 году правительство Австралии заключило общегосударственный контракт (whole-government contract) с Amazon для работы с AWS Cloud в регионе Австралии (ЦОД Amazon расположенный в Сиднее) [2]

И ранее я писал о том что те же Microsoft и Google заключили долгосрочное партнерство с национальным облачным оператором Польши [3]

Органы власти в США, Европе и большей части того что принято называть "западным миром" всё более под рыночным давлением выбора построения собственной инфраструктуры или перехода на одного из этих трёх провайдеров. Большинство сейчас выбирают гибридные модели когда часть научной инфраструктуры и часть публичной части сервисов уходит в облака.

И этот тренд очень сложно остановить, потому что, опять же, крупнейшие игроки теперь при скупке технологических стартапов или при разработке своих технологий давно уже не отдают их в виде ПО, а исключительно в виде онлайн сервисов или микросервисов внутри их архитектуры.


[1] https://www.kommersant.ru/doc/4344040
[2] https://www.zdnet.com/article/amazon-web-services-scores-australia-wide-government-cloud-deal/
[3] https://t.me/begtin/1897

#infrastructure #it