Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Я ранее писал что закрывается QRI [1], один из стартапов создававших продукт в виде общедоступного каталога данных, в первую очередь открытых данных и данных публикуемых пользователями. Такой тип продуктов относится к open data discovery. В отличие от корпоративных каталогов данных которые реализуют задачу data discovery, находимости данных во внутрикорпоративной и около корпоративной среде, продукты по open data discovery предоставляют возможность поиска данных по которым предварительно собраны, либо их метаданные, либо метаданные и сам набор данных.

Однако, QRI далеко не единственный такой продукт, приведу примеры стартапов и других продуктов и проектов в этой области. О многих я уже писал ранее:
- Data.world [2] - стартап с акцентом на дата журналистику и визуализацию данных. Загрузили сотни тысяч наборов данных из порталов открытых данных. Интегрируется с десятками онлайн сервисов и продуктов. Сейчас уходят в корпоративный продукт с ценником в разбросе $50k-$150k, а также в облачный сервис для физ. лиц с оплатой по $12 в месяц. Общий объём привлечённых венчурных инвестиций $82,3M
- Quilt Data [3] авторы создали движок для публикации больших и очень больших данных. Как и другие похожие проекты собрали очень много очень крупных наборов открытых данных [4]. Отличие от Data.world и подобных в том что в Quilt наборы данных особо крупного размера, например, геномные данные или погодные данные или данные медицинских снимков. Общий объём 3.7 петабайта и 10.2 миллиарда объектов. Привлекли инвестиций на $4.2M
- Splitgraph [4] также агрегируют данные из открытых источников, в первую очередь из порталов открытых данных поддерживающих интерфейс экспорта из системы Socrata, это такой разработчик в США, автоматизировавший сотни если не тысячи порталов открытых данных, в первую очередь в США. Особенность Splitgraph в том что они агрегируют данные в СУБД и предоставляют прямой доступ к PostgreSQL. А также, как и многие другие, тот же data.world, предоставляют удобные инструменты для доступа к данным. Привлекли ангельские инвестиции, сумму не раскрывают.
- DoltHub [6] портал с попыткой перенести концепцию Git и идеологию Github'а на данные. Построен по модели хостинг платформы, похожей на Github. До определенного объема работа с сервисом бесплатна, начиная с определенного объёма данных надо платить деньги. Много краудсорсят и работают с сообществом, предусмотрели механизм вознаграждений для тех кто собирает данные и публикует на Dolthub'е. Привлекли $21M венчурных инвестиций.

Все эти стартапы агрегируют метаданные и данные, предоставляя более удобный доступ.
За пределами коммерческих стартапов существуют экспериментальные и научные проекты.
- Dataset search [7] от исследовательской группы в Google. Ищет по метаданным указанным через микроразметку Dataset из schema.org.
- Datacite. Find, access and reuse data [8] поиск по метаданным опубликованных научных данных получивших DOI от Datacite. Актуально для исследователей ищущих данные для своих работ и работающих в академической среде и с академическими источниками данных.
- Find Open Data [9] малоизвестный поисковик по открытым данным с открытым кодом. Похоже заброшен автором, поскольку код не обновлялся около 2-х лет. Автоматически индексировал данные из порталов на базе Socrata и CKAN.
- opendatasoft data hub [10] агрегатор данных от OpenDataSoft, крупнейших внедренцев порталов открытых данных в Евросоюзе, в первую очередь во Франции. Они агрегируют данные только из тех порталов которые сами же создали, поэтому там 15 тысяч наборов данных на французском языке и сильно меньше на других языках. За пользование порталом нет платы, он лишь дополняет бизнес модель компании по внедрению порталов открытых данных. OpenDataSoft привлекли $36.3M венчурных инвестиций.

Ссылки:
[1] https://t.me/begtin/3440
[2] https://data.world
[3] https://quiltdata.com/
[4] https://open.quiltdata.com/
[5] http://splitgraph.com
[6] https://dolthub.com/
[7] https://datasetsearch.research.google.com/
[8] https://search.datacite.org/
[9] https://findopendata.com/
[10] https://data.opendatasoft.com
Я регулярно пишу про порталы открытых данных, чаще в России чем в других странах. Буду постепенно это исправлять и сегодня про портал открытых данных Казахстана [1]. На портале опубликовано 3602 набора данных. Сам портал является какой-то внутренней разработкой, в нём не используется ни один из движков порталов открытых данных используемых в мире.

Особенность портала в том что при открытии любого набора данных во вкладке "Данные" или попытке скачать данные [2] открывается сообщение о необходимости авторизации на портале. Причём не просто зарегистрироваться с логином и паролем, а так чтобы у пользователя обязательно был бы код ИИН или БИН, чтобы он был гражданином Казахстана или управлял зарегистрированной в Казахстане организацией. Без этого не пройти регистрацию на idp.egov.kz [3]

Конечно это не открытые данные, портал превращён в закрытый национальный портал. При любой оценки международными экспертами в Global Data Barometer и других позиции Казахстана будут очень низкими потому что эксперты просто не получат доступ к данным.

Ну и сам такой подход с принудительной идентификацией и ограничением только для граждан Казахстана нарушает принцип доступности данных прописанный в Хартии открытых данных.

Другие особенности портала - API [4], возможность запросить данные [5] полезны, но также требуют авторизации. Кроме того, API, также собственного создания, отличается от наиболее часто предоставляемых API порталами открытых данных.

Также можно обратить внимание что ни у одного набора данных опубликованного на портале не указан его правовой статус. Нет ни ссылки на одну из открытых лицензий ODbL, Creative Commons, ни собственной разработанной лицении. Фактически можно говорить о том что юристы к созданию этого портала не привлекались, а правовой статус данных не определен.

Итого:
1) Правовой статус данных не определен
2) Данные доступны только после авторизации и только гражданам Казахстана.

Можно ли это исправить? Безусловно и довольно быстро. Достаточно лишь указать лицензии данным, например, СС-4.0 и отменить требования по обязательной авторизации и регистрации.

Ссылки:
[1] https://data.egov.kz
[2] https://data.egov.kz/datasets/view?index=prezidenttik_zhastar_kadr_reze45#dataTab
[3] https://idp.egov.kz/idp/register.jsp
[4] https://data.egov.kz/pages/samples
[5] https://data.egov.kz/proposals/actualize

#opendata #kazakhstan #dataportals
Один из больших рынков вокруг данных - это альтернативные данные (Alternative data), данные которые бизнес и инвесторы использует для принятия решений и доступные параллельно официальной статистике и "классическим" официальным источникам данных.

Среди проектов в этой области можно выделить продукты по отслеживанию смены руководства и ключевых сотрудников компаний.
- The Official Board [1] - около 80 тысяч компаний, большая часть в США и Европе, с доходами более $100M. Предоставляют доступ частный за 99 евро на 3 месяца, VIP 1999 евро на год и корпоративное API по запросу для автоматического отслеживания. Существуют с 2008 года, привлекли $150k инвестиций
- Craft [2] стартап с акцентом на проверку контрагентов, не в режиме проверки на комплаенс, а в режиме хотя бы базовой информации с акцентом на компании стартапы. Делают акцент на отслеживании цепочки поставок и также предоставляют сервис Key Executive Tracking с подпиской. Привлекли венчурных инвестиций на $10M
- BoardEx [3] закрытый продукт отслеживающий переходы руководителей, сделки, иную информацию о компаниях и руководителях. Обещают исторические данные за 20+ лет, основаны в 2000 году. Уже далеко не стартап, в 2018 году куплены Euromoney Institutional Investor за неназванную сумму. Продают данные многим стартапам, банкам, инвесторам и тд.
- The Org [4] совсем свежий стартап. Делают красивые графики структуры организации, с фотографиями и тд. Дают возможность владельцам организации заполнять о себе информацию и публиковать новости. Фактически, эдакий перезапуск каталогов компаний с акцентом на прозрачность. Основаны в 2017 г. Привлекли $39.6M инвестиций

А также существуют многие другие похожие компании с фокусом на сбор, переупаковку и продажу данных о структуре руководства, сотрудниках компаний и управлении контактами в B2B.

Есть ли стартапы на альтернативных данных в России? Если есть поделитесь ссылками в личку или в @begtinchat, сделаю их обзор.

Ссылки:
[1] https://www.theofficialboard.com
[2] https://craft.co
[3] https://www.boardex.com
[4] https://theorg.com

#data #alternativedata #startups #executives #contacts
Коммерсант пишет что В цифровую модель поверхности России на ближайшие годы вписывают четыре региона [1], Росреестр запускает единую цифровую платформу «Национальная система пространственных данных» [2] и там уже участвуют Краснодарский и Пермский края, Иркутская область и Республика Татарстан.

Новость, казалось бы, хорошая. Её портит то что упоминается в статье В частности, доступ к геопространственным данным цифровой платформы можно будет получить на портале госуслуг — «Роскадастр».

Доступ к данным через госуслуги - это плохая идея. И то что открытые геоданные нигде не упомянуты также не здорово. Геоданные одни из наиболее востребованных в мире, они должны быть общедоступны настолько насколько возможно, именно это даёт максимальный экономический эффект и приводит к созданию новых цифровых продуктов.

Ссылки:
[1] https://www.kommersant.ru/doc/5180820
[2] https://rosreestr.gov.ru/activity/gosudarstvennye-programmy/natsionalnaya-sistema-prostranstvennykh-dannykh/

#opendata #geo #geodata #rosreestr
Подборка свежих, новых или интересных open source инструментов по работе с данными.
- Tapestry Pipeline [1] - система управления данными с открытым кодом. Управления не в смысле management, а в смысле orchestration. Более точным переводом будет оркестровка, но по русски это звучит немного странно. Сам же движок. Выполняет те же задачи что и другие data orchestration frameworks [2] такие как Flyte, Prefect, Dagster и др. Интегрируется в dbt, Airbyte и другими инструментами.
- Prefect Orion [3] как пишут сами авторы the second-generation workflow orchestration engine. А то есть система управления потоками данных второго поколения. О нем же в блоге Prefect [4] с акцентом на то что можно не разделять обработку данных пачками и потоками.
- Prefect Artifact API [5] те же Prefect добавили Artifact API в последний open-source релиз. Это API для визуализации данных проходящих оркестровку и с демо использования Great Expectations как движка по контролю качества данных.
- Guardian [6] система управления доступом к базам данным и инструментам их обработки. Сейчас поддерживает Google BigQuery, Metabase, Airflow и облачные хранилища. Нет UI, но есть продвинутая командная строка и управление через yaml конфигурационные файлы. Проект делает команда ODPF (Open DataOps Foundation) из Индии и у них же большая подборка проектов на open source для разных аспектов работы с данными [7]
- Optimus [8] ещё один проект по оркестровке данных, от той же команды ODPF. Без UI, всё с командной строки. Сосредоточено вокруг Google Big Query, полезно тем кто создает продукты в этой среде. Но, находится в состоянии "глубокой разработки", API может часто меняться. Надо отдать должное, в ODPF любят и умеют документировать продукты.
- DataX [9] инструмент от команды Alibaba по синхронизации данных между разными СУБД, в том числе принципиально разными SQL и NoSQL. Такими как Postgres, Oracle, MongoDB, TSDB и другие. Почти всё на китайском языке. А также AddaX [10] построенный на DataX и чуть более развитый, как обещает автор. Тоже почти всё на китайском. Все учим китайский!

Ссылки:
[1] https://tapestry-pipeline.github.io
[2] https://www.moderndatastack.xyz/companies/Data-Orchestration
[3] https://orion-docs.prefect.io
[4] https://medium.com/the-prefect-blog/you-no-longer-need-two-separate-systems-for-batch-processing-and-streaming-88b3b9c1a203
[5] https://medium.com/the-prefect-blog/introducing-the-artifacts-api-b9e5972db043
[6] https://github.com/odpf/guardian
[7] https://github.com/odpf
[8] https://github.com/odpf/optimus
[9] https://github.com/alibaba/DataX
[10] https://github.com/wgzhao/Addax

#data #datatools #opensource #datapipelines #moderndatastack
Масштабное обновление алгоритмов классификации данных в DataCrafter'е. Теперь из 76500 полей наборов данных классифицированы 19 501 поле, это около 25,5%. Учитывая что многие поля надо отмечать как "неклассифицируемые" потому что они содержат только расчёт численные данные, то 25,5% от всех полей это очень много, можно сказать рекорд!

Классификация данных - это процесс при котором определяется природа данных содержащихся в таблицах/файлах/наборах данных. Например, идентификация кодов ИНН/ОГРН/КПП организация, ФИО / Имён / Отчеств / Фамилий физических лиц и ещё многое другое.

При этом обновлении были добавлены новые идентификаторы и правила их распознавания:
- ruscity - Российский город
- rusdayofweek - День недели на русском языке (понедельник, вторник и т.д.)
- runpa - нормативно-правовые и распорядительные документы. Законы, постановления, распоряжения и приказы
- mimetype - типы MIME, как правило ассоциированные с файлами
- filename - название файла
- rusworkposition - должности. Например: ректор,директор,и.о. директора и т.д.
- timerange - временные промежутки. Например: 10:00-12:00 или 21:10-21:30

и многие другие.

А также многие другие. Сейчас в DataCrafter внесено 90 классов данных [1] для идентификации которых используется 134 правила идентифицирующих данные и 304 правила идентифицирующих дату/время. Дата и время идентифицируются отдельно поскольку ещё в 2017 году я заопенсорсил движок qddate [2] определяющая даты в 348 шаблонах и на 9 языках. Движок, кстати, делался для библиотеки newsworker [3] по извлечению новостей из сайтов не отдающих RSS ленты, на основе шаблонов текстов, в основе которых даты. Эту библиотеку я тогда же заопенсорсил и слегка подзабросил, но она всё ещё вполне работает и актуальна.

Чтобы достичь этого результата внутренний движок классификации данных был полностью переписан. Большая часть правил теперь описывается в конфигурационных настраиваемых файлах YAML. При применении правил они могут фильтроваться по контексту, по языку и по точности. Кроме коллекций в MongoDB теперь поддерживаются файлы CSV и JSONl. Через некоторое время рабочая версия классификатора появится в виде страницы в интернете и телеграм бота (телеграм бот уже тестируется).

Сейчас 72 из 135 правил написаны под русский язык и Россию. Они учитывают, или принятые в России классификаторы, или русскоязычное кодирование информации. Следующий шаг после открытия версии классификатора для публичного тестирования - это поддержка классификации данных происходящих из других стран.

Ссылки:
[1] https://data.apicrafter.ru/class
[2] https://github.com/ivbeg/qddate
[3] https://github.com/ivbeg/newsworker

#opendata #data #datasets #datacrafter #apicrafter #dataclassification
В блоге Open Data Charter, Darine Benkalha пишет про стандартизацию данных на порталах открытых данных [1]. То о чём я также регулярно пишу и уже приводил ссылки на имеющиеся стандарты, правда пока не раскрывал подробнее в чём проблемы с публикациями данных в России.

Автор упоминает опыт Южной Кореи с созданием единой пан-государственной системы метаданных и принятые стандарты публикации данных и гайды Правительства Каталонии по публикации данных и метаданных.

Полезно для всех кто работает со стандартами данных, как публикатор и как пользователь.

Ссылки:
[1] https://medium.com/opendatacharter/spotlight-a-plea-from-the-odcs-iwg-data-standardisation-matters-4d26329a18bb

#opendata #data #dataportals #datastandards
Forwarded from Инфокультура
В каталог каталогов открытых данных DataCatalogs.ru добавлены новые источники данных:
- Базы данных компании LabelMe 17 наборов данных для исследователей машинного обучения и data science. Ссылка https://labelme.ru/datasets-catalog
- Телеграм канал RU Dataset телеграм канал с большим числом ссылок на открытые и иные общедоступные данные Ссылка https://t.me/dataset_ru
- Портал данных о вечной мерзлоте и климате (permafrost.su) Ссылка http://permafrost.su

Вы можете предложить новый источник данных в каталог направив его через форму. Важно что в каталог каталогов принимаются ссылки не на отдельные наборы данных, а на источники в виде каталогов/репозиториев данных.

#opendata #datacatalogs #datasets #data
Регулярный опрос. Какой контент наиболее интересен Вам в канале, о чём писать больше?
anonymous poll

Приватность, OSINT, защита данных граждан, гос-ва и тому подобное – 43
👍👍👍👍👍👍👍 25%

Открытые данные, как они устроены и где их взять – 37
👍👍👍👍👍👍 21%

Госинформатизация, гостехнологии, государство в ИТ регулировании и госинформсистемах – 28
👍👍👍👍👍 16%

Технологии и инструменты работы с данными. Разные аспекты data engineering – 28
👍👍👍👍👍 16%

Государственные данные во всех их формах – 25
👍👍👍👍 14%

Международный опыт, доклады и исследования про данные, ИИ, цифровизацию и т.д. – 13
👍👍 7%

👥 174 people voted so far.
В рубрике интересных инструментов работы с данными NocoDb [1], open source #nocode платформа по работе с данными в форме таблиц. Фактический аналог Airtable, только с открытым кодом [2]. Собственно открытость кода это и есть главное достоинство, потому что Airtable это уже довольно продвинутый продукт, SaaS аналог MS Access. Но у Airtable есть множество ограничений, например, в максимальный размер таблицы в 50 тысяч записей, в далеко не идеальном API и, самое главное, конечно в том что приходится держать свои данные в облачном сервисе. В то же время Airtable стремительно создали вокруг себя экосистему и сейчас с ними интегрированы и на них основаны многие продукты.

К примеру, каталог каталогов данных datacatalogs.ru Инфокультуры собран в Airtable, а интерфейс над ним построен с помощью стартапа Softr.

Так вот NocoDB может быть разумной альтернативой тем чьи данные точно не могут быть открытыми, а гибкость управления данными нужна.

Альтернативно существуют такие проекты как:
- Rowy [3] - давно не обновлялся, но вроде живой
- Baserow [4] - воспроизводит Airtable почти один в один и также существует в облаке [5]

А также частично функции аналогичные Airtable могут выполнять продукты класса Headless CMS такие как Strapi [6] где также можно настраивать концепты/объекты и предоставлять их через API. Но с ограничениями что headless CMS не про табличное редактирование данных, а только про гибкие интерфейсы их внесения.

Ссылки:
[1] https://nocodb.com
[2] https://github.com/nocodb/nocodb
[3] https://github.com/rowyio/rowy
[4] https://gitlab.com/bramw/baserow
[5] https://baserow.io
[6] https://strapi.io

#opensource #databases #data #airtable
Некий хакер на одном из хакерских форумов пишет что продают базу в 150 ГБ на 48 миллионов QR кодов вакцинированных россиян за $100k и за меньгие деньги по частям. В качестве подтверждения доступна часть базы в одном онлайн сайте с поиском по инициалам и дате рождения и выложен файл в 10 тысяч анонимизированных записей.

Ссылки в данном случае я сознательно не даю, знающие люди знают где искать.

Если это подтвердится, то это будет крупнейшая утечка персональных данных граждан из российских ФГИС и мощнейшая дискредитация вакцинации и Госуслуг(

Очень хочется надеяться что утечку быстро прикроют или что масштабы её сильно меньше. Но если это не так, боюсь что для Минцифры наступят тяжелые времена.

UPD. И, конечно, хочется дождаться какой-либо независимой проверки что там действительно все эти данные, а не сгенерированный фэйки.

#leaks #data #personaldata #privacy
На всякий случай напомню что в 2019 году я публиковал исследование по "легальным утечкам" из государственных информационных систем [1], вот тут можно скачать его в PDF целиком [2]. И с той поры несколько раз собирался его обновить/повторить, но в итоге отложил на неопределенный срок потому что очень сложно делать такое исследование публично и не навредить тем чьи данные утекают, а непублично его можно делать только по чьему-то заказу, а в России, повторюсь, нет активного интересанта регулятора способного такую работу заказать.

По факту персональные данные публикуются _официально_ повсеместно. В реестрах образовательных учреждений субъектов федерации, если ты ИП. В реестрах граждан имеющих право на обеспечение жильем, в реестрах экспертов, на электронных торговых площадках, протоколах результатов торгов госимуществом, доверенностей приложенных к договорам и офертам поставщиков, документах экспертизы реконструкции объектов культурного наследия, протоколах собрания ТСЖ, аудиторские заключения нко с паспортными данными учредителей и такого ещё много.

Писать об этом давая ссылки нельзя, владельцы баз данных и публикаторы материалов инертны и не исправляют месяцами и годами.

Ссылки:
[1] https://begtin.tech/pdleaks-p3-govsys/
[2] http://files.begtin.tech/f/f75964ea1fe94f2d8d61/?dl=1

#privacy #leaks #personaldata
Читаю совершенно феноменальный текст свежего 100 миллионного контракта [1] между ФГБУ РОСИНИВХЦ и ООО "ТЕКТУС.ИТ" на Создание сегментов государственной информационной системы Цифровая платформа "Водные данные" Федерального агентства водных ресурсов (ГИС ЦП Вода).

И не могу не поделиться мыслями о деградации ИТ интеграции. Мало того что ТЗ на 100 миллионный контракт всего на 22 страницы, так это ещё и не техническое задание, а технические требования.

В тексте контракта присутствуют формулировки вроде:
5.6. Создание API
Исполнителем должна быть обеспечена разработка API (не менее 10 методов) для вновь создаваемых модулей ЦП Вода.
По результатам оказания услуг модернизируется программный интерфейс для обеспечения внутреннего взаимодействия ЦП Вода, а также инструкция с описанием реализованных методов.

Обратите внимание, сами API методы не перечисляются, требования к ним не перечисляются, зачем они нужны не указано, дополнительные требования вроде авторизации не указаны. Исполнитель и заказчик тут настолько вольно могут трактовать этот пункт что можно сдать вообще что угодно.

Или вот
5.4.3. Создание блока «Наборы открытых данных» сегмента «Открытые данные»
Блок «Наборы открытых данных» создается на базе прототипа Цифровой платформы «Водные данные».
Исполнителю необходимо обеспечить размещение в разделе «Наборы открытых данных» не менее трех новых наборов с возможностью выгрузки (в том числе подписанных ЭП). В отношении новых наборов данных необходимо сформировать паспорта.

Обратите внимание, что заказчику вообще наплевать что будет опубликовано, хоть "набор данных" из одной строки, главное чтобы не менее трёх. А про возможность выгрузки их подписанными ЭП - это отдельный разговор.

А вот в продолжение про ЭП (электронную подпись)
5.4.2. Создание модуля «Верификация» сегмента «Открытые данные»
В рамках оказания услуг Исполнителю необходимо обеспечить возможность верификации выгружаемых данных из сегмента «Открытые данные» в формате pdf путем подписания ЭП ОГВ.

Ну, Вы меня поняли. Верифицированные открытые данные это теперь PDF файлы с электронной подписью органа власти.

Там ещё много всего, выглядящее крайне куцо для большого ИТ контракта. Я лично вчитывался в разделы про данные, насчёт других разделов надо читать другим специалистам.

Когда я был ближе к государству, я бы сказал что прочитав такое "ТЗ" я бы предположил скорую проверку этого контракта/системы в ФГБУ со стороны Счетной палаты/Генпрокуратуры и тд. Сейчас, находясь уже во внешнем контуре по отношению к госуправлению, я даже вполне допускаю что результат будет не так уж плох, но продолжаю удивляться госзаказчикам и поставщикам которые сами себе роют сами знаете что и закапывают себя сами знаете куда.

Ссылки:
[1] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=1616305712422000006&contractInfoId=70636526
[2] https://rwec.ru/
[3] https://zakupki.gov.ru/44fz/filestore/public/1.0/download/rpec/file.html?uid=D539BBBD9AB6DD94E05334548D0A0844

#procurement #governmentit #opendata #data
Интересный стартап Dropbase автоматизации работы с облачными базами данных [1] с финансируемый в Y Combinator [2] на неназванную сумму. Создан полностью поверх Snoflake, фактически является красивой надстройкой над ним, позволяет импортировать CSV и Excel файлы и проводить трансформации над ними прямо в облаке. Интеграция устроена по принципу что не он интегрируется, а даёт ключи для прямого подключения к базе Snowflake.

Трасформация данных там очень ограниченная. Я бы даже сказал куцая, по сравнению с серьёзными инструментами вроде Trifacta (коммерческий) или OpenRefine (открытый), но стратегия весьма интересная. Удобный быстрый интерфейс и развитие в сторону преобразования данных. Фактические пользователи такого - analytic engineers, инженеры готовящие данные для аналитиков.

Ссылки:
[1] https://www.dropbase.io
[2] https://www.crunchbase.com/organization/dropbase

#datatools #startups #datawrangling
По заказу ВЭБа для города Байкальска создали цифровой мастер план [1]. Я, сознаюсь, до сих пор не могу понять смысла его цифровой формы и в чём его достоинства. Но один плюс есть - из него можно выгрузить все данные по мероприятиям и там их 349 штук, общей стоимостью, по грубым подсчетам, на 165 миллиардов рублей на ближайшие несколько лет. Что из какого бюджета и что от частных инвесторов - отдельный вопрос. При том что среднегодовой бюджет Байкальска 150-200 миллионов рублей, всего там около 13 тысяч жителей.

Не могу сравнить Байкальск с Сочи, не те суммы вроде бы и не тот масштаб города.

Кстати, для тех кто интересовался мастер-планом Байкальска и хочет сделать по нему анализ - есть скачанные данные по всем 349 мероприятиям. Из интересного - крупнейшее мероприятие там на 18 миллиардов рублей на 4 года по очистке территории БЦБК. Для тех кто хочет проанализировать эти данные, они есть по ссылке [2] в формате JSON lines размером в 2.6MB. Формат JSON lines хорошо поддерживает OpenRefine ну и опытные специалисты по работе с данными знают как работать с JSON файлами и JSON lines сложностей не вызовет.

Ссылки:
[1] https://план.байкальск.рф
[2] files.begtin.tech/f/59165db094504bb98e6c/?dl=1

#data #cities #datasets
Поскольку так получилось что вот уже долгое время я больше читал чем писал что-то осмысленное. Тексты в канале - это просто поддержание этого чтения, заметки на полях. Я тут в несколько итераций думал о том как развивается рынок вокруг данных.

Про каталоги данных и продукты на data discovery я уже писал, они переживают взлёт и один такой продукт DataCrafter, наша команда делает. Я также писал много про alternative data, большой рынок для тех кто понимает как устроено потребление данных в финансовой сфере и не только.

Но самое интересное, ИМХО, это то что творится вокруг Modern data stack. Инструментальная насыщенность там очень высокая, стартапов много, инвестиций много, конкуренция очень сильная, но и появление новых продуктов очень стремительное. Я уже писал ранее что вижу уже сильное отставание между продуктами платформ для открытых данных и корпоративными системами управления данными. Ещё лет 7-8 было не так.

Так вот в Modern data stack ещё есть свободные ниши, для разных продуктов, которые постепенно заполняются, но в целом не так быстро, при том что востребованность высокая. Я бы выделил следующие направления.
- Редакторы баз данных для больших данных (аналоги Airtable для BigData). Об одном таком проекте я писал - это Dropbase работающий поверх Snowflake. А, в принципе, это про перенос удобного проектирования баз данных, обработки, выполнения задач траснформации, data wrangling, экспорта, импорта и интеграции именно для данных на миллионы и миллиарды записей. Сейчас все эти инструменты работают, в основном, до 100 тысяч записей. А для данных большего объёма нужны другие инструменты для фронтэнда и другой подход к бэкэнду. Это большая ниша, востребованная по мере переноса корпоративных данных в облака.
- Системы мониторинга и контроля качества (data observability). Их стало сильно больше в последние 2 года: Anomalo, MonteCarlo,SODA и другие. Но в этой нише всё ещё очень много задач и разных отраслей и сред где инструментов недостаточно. Сейчас явный фокус на то мониторинг оперативности поставки данных, базовых метрик и отклонений, выявления аномалий и так далее применительно к данным из внешних систем.
- Системы обогащения данных (data enrichment) многие из них на самом деле не так публичны и не так рекламируются как инструменты. Из известных Explorium, Crunchbase, Craft.co и многие другие. Но востребованность их велика и они частично пересекаются с продуктами на альтернативных данных.


#data #dataproducts
Forwarded from Roskomsvoboda
Transparency report Twitter: по запросам на удаление контента Россия поднялась на второе место

Twitter опубликовал отчёт о прозрачности, согласно которому с января по июнь 2021 года компания получила от правительств всего мира 43 387 юридических требования об удалении контента из 196 878 аккаунтов.

95% от общего объёма запросов на удаление пришлось на следующие пять стран (в порядке убывания): Японию, Россию, Турцию, Индию и Южную Корею.

Доля России составила 25% (10448; увеличение на 56% по сравнению с предыдущим периодом), при этом 71% российских требований относился к запрету пропаганды самоубийств:

➡️ https://roskomsvoboda.org/post/twitter-transparency-report-jan-jun-2021/
Кто зарабатывает на том что к Вашим данным может добавить дополнительные данные? Примеры стартапов по обогащению данных (Data Enrichment):
- Explorium.ai [1] продвинутая платформа обещающая применение алгоритмов ИИ к анализу данных и дающая сервисы обогащениями данными о людях, компаниях, сайтах, объектах интересах и погоде. Появились в 2017 году в Израиле. Привлекли венчурных инвестиций на $125M
- Uplead [2] предоставляют данные о людях и компаниях. Обогащают данные о человеке, компании или email'е. Частная компания, инвестиции не раскрывают. Созданы в 2017 году в Калифорнии.
- People Data Labs [3] Существуют с 2015 года, привлекли $55.3M инвестиций, из которых $45M в ноябре 2021 года. Фокус только на данных компаний и людей, плюс API по идентификации типов данных для задач комплаенса. Построены вокруг API для обогащения данных о персоне, компании, API по очистке данных и так далее.

Многие из компаний в рынке data enrichment также торгуют данными и их можно найти на площадках вроде Datarade [4], также у многих компаний это часть их больших платформу управления данными.

Ссылки:
[1] https://www.explorium.ai
[2] https://www.uplead.com/data-enhancement/
[3] https://www.peopledatalabs.com/
[4] https://datarade.ai/

#data #startups #dataenrichment
Совершенно свежая и поучительная история о том как один немецкий исследователь раскрыл секретное германское ведомство с помощью AirTag'а.

Если вкратце то один немецкий активист отправил AirTag подозрительному германскому федеральному ведомству и отследил его настоящие офисы.

А если подробнее то Лилит Витман, исследователь из Германии, утверждает что она раскрыла что Federal Telecommunications Service в Германии - это, на самом деле, "камуфляжная служба" и она изначально написала о том как столкнулась со службой которой не существует [1].

После чего она обстоятельно и методично собирала все возможные данные о этой структуре, вплоть до IP адресов и того чтобы проехаться мимо зданий [2].

После чего она отправила посылку с AirTag внутри и с помощью сервиса Apple Find My [3] следила за её движением и нашла что посылку переслали в Office for the Protection of the Constitution in Cologne. О чём она написала подробно в германоязычной Википедии [4]

А вся история на английском языке есть в Apple Insider [5].

История поучительна тем что современные технологии позволяют следить за теми кто следит. Можно рассмотреть много кейсов при которых можно выяснять немало интересного о существующих и камуфляжных государственных структурах.

Хочется надеяться что в России после этого AirTag не запретят.

Ссылки:
[1] https://lilithwittmann.medium.com/bundesservice-telekommunikation-wie-ich-versehentlich-eine-tarnbeh%C3%B6rde-in-der-bundesverwaltung-a8823f308536
[2] https://lilithwittmann.medium.com/bundesservice-telekommunikation-enttarnt-dieser-geheimdienst-steckt-dahinter-cd2e2753d7ca
[3] https://appleinsider.com/inside/Find-My
[4] https://de.wikipedia.org/wiki/Bundesservice_Telekommunikation
[5] https://appleinsider.com/articles/22/01/25/apples-airtag-uncovers-a-secret-german-intelligence-agency

#privacy #security #airtag #germany #specialagencies