Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
ФНС России загрузила в Государственный информационной ресурс бухгалтерской (финансовой) отчетности данные за 2020 год по 2,3 млн организаций.

В лучших традициях ФНС, данные по одной организации в виде веб-интерфейса доступны бесплатно, а за API придется заплатить (об этом прямо написано в пресс-релизе). Стоимость машиночитаемого удовольствия - 200 тыс. руб. в год.

Для интереса посмотрела, сколько примерно ФНС заработала на этих данных за предыдущий год - 12,2 млн руб., что примерно равняется 61 пользователю.

12 млн руб. - стоимость отсутствия в открытом доступе API (или хотя бы дампов данных) с обновляемыми сведениями о бухгалтерской финансовой отчетности компаний. Надеюсь, хотя бы налог на прибыль организации с этой суммы оплатили :).

ФНС не единственный орган, практикующий продажу данных. Пару лет назад (вряд ли что-то с тех пор изменилось) в продаже данных был замечен и Росстат, который не просто продавал данные компаниям и гражданам, а продавал их муниципальным (и, возможно, региональным) госорганам.
В блоге Signal пост о том как их команда попыталась разместить рекламу в Инстаграм с информацией о тех критериях по которым она подбиралась в рекламной сети Facebook [1]. Всё это чтобы показать то сколько информации Facebook собирает о пользователе.

Аккаунт им быстро закрыли, без объяснения причин. Авторы подчёркивают что компании AdTech такие как Facebook собирают много данных, но не хотят чтобы другие знали о том что и в каком объёме они собирают.

Это, кстати, хорошая идея для мини-исследования/расследования которое может провести любой журналист в России. Разместить такие рекламные объявления во Vkontakte (Mail.ru) или в рекламной сети Яндекс. Но, скорее всего, рекламный аккаунт, также, закроют навсегда;)

Ссылки:
[1] https://signal.org/blog/the-instagram-ads-you-will-never-see/

#adtech #signal #ads #privacy #surveillance
Twitter покупает Scroll [1], компанию создателей Nuzzel [2], автоматизированной рассылки на основе Ваших интересов, интересов друзей в Twitter и тд. Очень удобный сервис, я пользовался им много лет, через него получаю около 25% всех новостей о которых пишу тут на своём канале. Например, последняя новость про эксперименты Signal с рекламой в Facebook оттуда же. Twitter судя по всему планируют сделать эти функции частью своей платформы, что, конечно, совсем неплохо.

Но, жаль конечно, что анонс о покупке был 4 мая, а уже 6 мая сервис Nuzzel закрывается. Всё это в лучших традициях Yahoo, которые уничтожали многие свои покупки, но и не только. Больше похоже что внутри Twitter'а сервис рассылок уже на финальной стадии, Scroll они покупают для закрытия конкурента.

В своё время я перебрал несколько десятков сервисов мониторинга публикаций в СМИ и в соц сетях по нужным мне темам, и ничего универсального. Когда-то пробовал сделать на базе Paper.li [3], обнаружил плохое покрытие российских источников информации и так далее. В итоге остановился на нескольких рассылках таких как The GovLab digest, Nuzzel и ещё несколько. Поэтому закрытие Nuzzel расстраивает.

Ссылки:
[1] https://scroll.blog/2021/05/04/scroll-is-joining-twitter/
[2] https://nuzzel.com
[3] https://paper.li

#mailing #startups
Совсем свежий открытый проект по контролю качества данных soda-sql [1] от создателей платформы мониторинга качества данных Soda [2]. Помимо того что сама платформа выглядит интересно, хотя и не применима в российских условиях госпроектов, к примеру, но сделана она с правильными акцентами на наблюдаемость данных и автоматизацию контроля качества. А тут ещё и soda-sql, можно сказать что инструмент из коробки для оценки пропусков в данных и подсчёта десятка разных метрик для оценки их качества. Для тех кто собирает собственные технологические стеки работы с данными - этот инструмент будет удобным дополнением.

Автоматизация контроля качества данных - это важная "фишка" современных платформ сбора и обработки данных поэтому за Soda стоит понаблюдать и далее, и как за решением с открытым кодом, и как за платформой.

Ссылки:
[1] https://github.com/sodadata/soda-sql
[2] https://www.soda.io/

#data #dataquality
По поводу инициативы МВД по созданию приложений по борьбе с телефонными спамерами [1], давайте будем честными, когда государство приходит на рынки где есть лучшего качества частные решения - это почти всего имеет за собой одну из 3-х причин:
1. Неэффективно потратить бюджетные средства.
2. Непонимание потребностей пользователей/граждан и некачественной госполитики в этой области.
3. Расширение полномочий/возможностей органов власти.

А иногда и все эти 3 причины вместе. В случае с созданием мобильного приложений от МВД я хочу обратить ваше внимание что у МВД и других силовых органов есть ограничения накладываемые на оперативно-розыскную деятельность (ОРД), ограничивающие запросы МВД к сотовым операторам и другим организациям. А имея под своим прямым контролем данные которые можно собрать таким сервисом можно многое собирать о гражданине и без ОРД.

Это всё +1 причина не пользоваться сотовой связью для звонков без острой необходимости.

Ссылки:
[1] https://vc.ru/legal/241427-mvd-do-konca-goda-zapustit-mobilnyy-servis-kotoryy-budet-preduprezhdat-o-zvonkah-moshennikov

#privacy #surveillance #mvd #russia
Бизнес модель связанной с данными о которой я регулярно пишу - это предоставление большого объёма данных компаниями занимающимися хостингом и иной инфраструктурой. Хороший пример - Amazon с их реестром открытых данных большого объёма [1], данные можно скачивать откуда угодно, но гораздо удобнее из датацентров самого Amazon.

Другой пример - Microsoft Azure Open Datasets [2] с совершенно той же логикой и, похоже на них, Google BigQuery [3] и в этом списке я ранее не упоминал CreoDIAS (DIAS) [4], консорциум созданный CloudFerro, Wroclaw Institute of Spatial Information and Artificial Intelligence (WIZIPISI), Geomatys, Eversis и Sinergise [5] и имеющий контракт с Европейским космическим агенством (ESA).

CreoDIAS, как и все ранее упомянутые, работают преимущественно с открытыми данными от ESA, но и я рядом коммерческих поставщиков. Важнее объёмы данных - это 21.9 петабайт в архиве и около 20 терабайт ежедневные обновления. Большая часть данных, около 90%, это снимки спутников Sentinel 1, Sentinel 2, Sentinel 3.

Бизнес модель CreoDIAS в том что они предоставляют много тарифных планов для аренды серверов непосредственно подключённых к их ЦОДам и предположительно удешевляют стоимость обработки спутниковых данных и снимков.

В Евросоюзе организаторы хакатонов CASSINI [6] предоставляют доступ к инфраструктуре CreoDIAS для участников и дают возможность создавать космические ИТ проекты с доступом к этим данным.

Конечно этот пример не единственный, многие отраслевые банки данных всё более становятся гибридными сервисами совмещая доступ к данным, доступ к инструментам с облачной инфраструктурой. В нескольких формах такое уже есть в биоинформатике и иных data-rich областях медицины и фармацевтики и во многом другом.

Ссылки:
[1] http://registry.opendata.aws/
[2] https://azure.microsoft.com/en-us/services/open-datasets/
[3] https://cloud.google.com/bigquery/public-data
[4] https://creodias.eu
[5] https://creodias.eu/about-us
[6] https://hackathons.cassini.eu/

#opendata #satellite #hackathons #earthobservation #datahosting
Вышел свежий законопроект про НСУД [1], я набросал свои мысли по его поводу, формат достаточно большой чтобы не поместилось в канал, но недостаточно для рассылки, поэтому в блоге [2] для разнообразия.

Мне скорее не нравится то что получается чем нравится. Опять нет ничего про открытость данных, в закон вписывают одну ФГИС и одну ГИС, а Правительству РФ дают ещё один инструмент прямого влияния на муниципалитеты.

Ссылки:
[1] https://regulation.gov.ru/p/115660
[2] https://begtin.tech/nsudlaw/

#data #nsud
Одним из моих первых официальных мест работы в конце 90-х была небольшая телеком компания сидевшая в НИИ Радио, где я был сисадмином всякого телеком оборудования. В одной комнате сидели мы, в составе 4-5 человек собиравшие стенды из маршрутизаторов Motorola, адаптеров Cronyx и другого железа, которое потом развертывалось на далёких объектах для организации IP телефонии через спутниковые линки, а в соседней комнате уже какие-то дельцы (не удивлюсь что тогда бывшие или действующие сотрудники НИИ) организовали риэлторскую фирму. В самом институте только в нескольких местах/этажах тогда теплилась жизнь, так что мне ещё повезло что я был занят реальным делом.

Мне тогда довелось поездить по сибирским городам с ворохом железа в руках, поночевать в контейнерах, постах охраны, в серверных, понастраивать мониторинг оборудования через Tcl/Tk + Expect, постичь дзен в программировании на zsh и настройках маршрутизаторов и ещё много всего пригодившегося в будущем когда я много лет занимался программированием и автоматизацией тестирования ПО.

Всех сопричастным с Днём Радио!
На самом деле картинка не очень показательна, интереснее эти цифры выглядели бы в пропорциях:
- к расходам других крупнейших лоббистов
- к выручке этих компаний
- к капитализации этих компаний
и тд.

К сожалению, по России даже косвенно очень сложно измерить масштаб лоббирования цифровым бизнесом. Бизнес-модель другая, не цифровые конгломераты оказывают наибольшее влияние, а гос[банки/предприятия/корпорации] уходят в цифру.

#lobbying #it #digital
Расходы технологических компаний на лоббирование своих интересов

Не думаю, что какое-то значение имеет сама сумма расходов, но тренд показателен.

@ventureinpics
В продолжение о подходах к каталогизации данных, управлении метаданными, в Towards Data Science заметка от Prukalpa, сооснователя Atlan, про проблемы с документированием данных и их подход к этой теме [1].

Публикация, конечно, больше похожа на пред-анонс продукта который они собираются продавать на своей платформе, но, сам подход 5WH1 (What, Why, Where, Who, When, and How) заслуживает внимания. В первую очередь значительным упрощением по сравнению с другими подходами к метаданным для наборов данных. Это, в принципе, характерно для всего рынка/коммерческих каталогов данных и систем управления метаданными в упрощении по умолчанию и расширению по необходимости. Почему? Потому что ведение метаданных - это тяжёлая ручная работа. Особенно тяжёлая поскольку многие дата сайентисты считают свою работу творческой, а сбор, описание и документирование наборов данных её самой тяжёлой стороной.

Я писал обо всём этом в рассылке:
- Наблюдаемость данных [2]
- Качество данных и всё что с ними связано [3]
- Стандарты работы с данными [4]

Если коротко, то документированность - это часть оценки качества данных. А качественные данные - это дорого, их надо такими создавать с самого начала, или прикладывать большие организационные усилия.

Частично я писал ранее в рассылках об этом, модели работы с метаданными делятся на примерно 5 типов:
- научный (давайте делать всё правильно, неспешно, стандартизируя и привязывая к предметной области потому что данные всегда привязаны к предметной области и главное чтобы было удобно исследователям которые в неё погружены)
- архивный (давайте сохранять всё так чтобы через 10-20 лет открыв описание мы могли бы повторно это всё использовать, долгосрочное сохранение важнее всего)
- общественно-государственный (давайте всё быстро-быстро вывалим в открытый доступ, принципиальная доступность важнее качества, поэтому минимум документации и метаданных)
- технологический (у нас куча информационных систем, нам надо их интегрировать и все они ещё и критически важные, потому мы отбираем самое критичное, описываем, навязываем правила по получению данных, много взаимодействуем с первоисточниками, меняем их правила по необходимости)
- коммерческий под data science (нам нужно чтобы разные команды дата саентистов могли обмениваться данными/инструментами/наработками, чтобы наработки не терялись после их ухода и всегда можно было бы объяснить как мы сделали те или иные выводы и снизить издержки на это всё по возможности)

Собственно и подходы к документированию, к ведению метаданных, к стоимости всего этого процесса зависят от подхода. К слову в НСУД (Национальная система управления данными) в РФ [5] пытаются строить по технологической модели. Это довольно дорогой процесс, неизбежный в проектах меньшего масштаба и существующий внутри всех крупных информационных систем, но крайне трудоёмкий и от того стоимость его велика. Там та же логика что и со СМЭВ, на самом деле, в текущей форме это и есть эволюция СМЭВ. Я об этом ещё отдельно напишу, даже со всеми оговорками, НСУД имеет перспективу стать самой дорогой системой в российском гос-ИТ.

Как бы то ни было под каждый подход есть свои продукты, компетенции по автоматизации, коммерческие и открытые решения и, на самом деле, мало чего-то универсального. Поэтому работа с документированием наборов данных начинается с вопроса: А какую задачу мы решаем?

Ссылки:
[1] https://towardsdatascience.com/data-documentation-woes-heres-a-framework-6aba8f20626c
[2] https://begtin.substack.com/p/2-
[3] https://begtin.substack.com/p/8-
[4] https://begtin.substack.com/p/11
[5] https://nsud.info.gov.ru/

#opendata #datasets
Небольшая команда из стартапа Quickwit использовали базу Common Crawl (бесплатный открытый поисковый индекс) и создали игрушку автоподсказчик продолжения поисковой фразы [1].

Сервис позволяет продолжать слова существительными или прилагательными, например "Cats are carnivores" или "Cats are awesome".
В этом демо у них использовались текст около 1 миллиарда веб страниц, с общим индексом в 6.8 терабайт.

А стоимость всей инфраструктуры выходит в $1000 ежемесячно. Вообще больше всего это похоже на рекламу Amazon и их сервисов работы с данными, потому что при желании можно было бы существенно расходы сократить, но усилий надо было бы приложить существенно больше.

В любом случае получилась небольшая технологическая игрушка, весьма забавная.

Ссылки:
[1] https://common-crawl.quickwit.io
Это как никогда острая и болезненная тема в том что первой реакцией государства на трагические события оказывается реакция по ограничению прав и свобод. Ключевая проблема не в анонимности в сети, а в отсутствии профилактики преступлений, в значительном падении роли участковых и так далее.

#privacy #anonymity
Forwarded from DRC LAW: IT-юристы
Опять началась широкая дискуссии по поводу анонимности в интернете.
После трагедии в Казане спикер Госдумы Вячеслав Володин предложил ограничить анонимность в Интернете. Покончить с анонимностью в соцсетях также предложили и в Общественной палате России, ссылаясь на международный опыт, в том числе опыт Австрии и Южной Кореи.

Следует сказать, что это уже не первая и не последняя попытка лишения российских пользователей анонимности. Власти и не отрицают своего желания деанонимизировать каждого в интернете, и даже несколько лет назад приняли неработающий закон об обязательной идентификации пользователей мессенджеров.

Однако все отсылки на международную практику являются не более чем манипуляцией общественным сознанием, не имеющей ничего общего с реальностью.

В 2019 году правящая партия Правительство Австрии действительно продвигала план по борьбе с языком ненависти, заставляя пользователей социальных сетей и онлайн-комментаторов сообщать подробности о своей реальной личности. Кроме того в том же году Правительство представило федеральный законопроект, получивший название «запрет на использование цифровых масок», который требовал бы от пользователей регистрацию на платформе и форумах с указанием имена и адреса, прежде чем они смогут оставить один комментарий. Однако после серьезной волны общественного обсуждения, Правительство Австрии отказалось от этих планов.

А в Южной Кореи Конституционный суд страны еще в 2012 году отменил нормы закона, обязывавшие интернет-пользователей, комментирующих сообщения, раскрывать свои настоящие имена. В постановлении было указано, что эти нормы ограничивают свободу слова в Южной Корее.

Как неоднократно отмечали в ООН, право на анонимность является фундаментальным правом человека и представляет из себя гарантию для реализации иных прав человека, в т.ч. права на свободу мнения и свободу слова.
Так что у вас есть право на анонимность. И любое наступление на это право следует воспринимать как наступление на базовые права человека, несовместимое с международными конвенциями. Не стоит обманывать себя самих. И ни в коем случае не давайте обманывать себя другим. Никакая деанонмизация не сделает нашу жизнь в онлайн или в оффлайне боле безопасной.
В рубрике интересных наборов данных данные Управления транспортной безопасности США которые еженедельно в PDF форматах публикуют статистику по пересечению границы США [1] с разбивкой до часа и конкретного терминала. ИТшник Mike Lorengo написал код по преобразованию этих документов в машиночитаемую форму и опубликовал вместе с данными [2] на Github и написал об этом всём на Reddit [3].

Причём он подошёл к делу системно, нарисовал схему сбора и обработки данных, задокументировал и визуализировал.
Для разбора PDF'ов использует Azure Form Recognizer [4], облачный сервис по распознаванию PDF форм.

Мне вспомнилось как я похожим образом анализировал данные о выездах скорой помощи в Москве около 10 лет назад. Тогда, в 2011 году существовал сайт Московского департамента здравоохранения mosgorzdrav.ru где публиковались ежесуточные сводки по выездам бригад скорой помощи. Данные там публиковались в HTML по заданному формату начиная с 2005 года, и их все я тогда выкачал и выложил в открытый репозиторий [5]. Вот так и было, открытых данных было мало, но собрать с сайтов можно было гораздо больше.

Сейчас по Москве таких данных уже и не найти. Но в PDF их публикуют, например, в ГБУЗ БСМП в Карелии в виде регулярных PDF отчетов [6] или в ГБУЗ Самарская СМП, правда, без истории, только за предыдущую неделю [7].

Надо попробовать пособирать подобные данные и обработать одним из облачных обработчиков PDF форм. Задачи то похожие.

Ссылки:
[1] https://www.tsa.gov/foia/readingroom
[2] https://github.com/mikelor/TsaThroughput
[3] https://www.reddit.com/r/datasets/comments/mx87q8/tsa_throughput_dataset_alternate_source/
[4] https://azure.microsoft.com/en-us/services/cognitive-services/form-recognizer/
[5] https://github.com/infoculture/mosgorzdrav
[6] https://muzbsmp.ru/o-gbuz-bsmp/operativnaja-informacija-o-rabote-skoroj-medicinskoj-pomocshi/informacija-o-rabote-vyezdnyh-brigad-i-dispetcherskoj-sluzhby/
[7] http://03samara.ru/page/operativnaja-svodka

#timeseries #data