Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Apple опубликовали их мониторинг самоизоляции в виде mobility reports [1] только по всему миру.
На что надо обратить внимание:
1. У Apple искажённая аудитория, в первую очередь из-за стоимости устройств
2. Apple куда более data-friendly и отдают данные в CSV форматах. В отличие от Яндекса (не отдают данные) и Google (отдают в PDF'ах).


Ссылки:
[1] https://www.apple.com/covid19/mobility

#opendata #apple #covid19
Если Минцифра не следит за тобой, это не значит что ты не должен следить за Минцифрой (с)

Тем временем граждане целенаправленно ненавидят новое приложение от Минцифры по цифровым пропускам.
Вчера одновременно Ведомости [1] и Коммерсант [2] написали о системе Сбербанка "Гостех". С одной стороны я, слишком давно слышу разговоры о том что Гостех необходимо создавать, и не только в форме того что хочет сделать Сбербанк, а с другой стороны слишком мало знаю об этой системе, потому как больше знаю о реально работающих продуктах, а не о пилотных внедрениях.

Вне зависимости от того Сбербанк ли это или какой-либо другой консорциум на базе которого создавался бы этот Гостех, там логика и проблемы понятны с самого начала.

Логика в том чтобы объединить все информационные системы (как минимум ключевые) под единого оператора. Проблема в том что не просто так каждое ведомство много лет создавало и углубляло свою "цифровую песочницу". ИТ бюджеты и принятие решений в ФОИВах устроены так что все органы власти где работа с ИТ более менее отстроена, стараются иметь собственную инфраструктуру внутри ведомства. Например, Гособлако (ГЕОП) не то чтобы стало или претендует на то чтобы стать чем-то реально востребованным для органов власти. Потому что многие органы власти потратили уже миллиарды рублей на совершенно другие технические решения.

И это мы ещё говорим про создание госмонополии на *условный* хостинг. А когда дело доходит до внедрения, то там ключевая проблема - это "управление сложностью". Государственное ИТ, даже только на федерльном уровне - это огромный зоопарк. Но если в корпорациях его можно изменить решением совета директоров/гендира, то с государством куда сложнее. Этот зоопарк обложен со всех стороны нормативными документами, регламентами, услугами для граждан и тд., что оставляет много пространства для манёвра чтобы мешать внедрять любые централизованные решения.

Переводя с русского на русский, единое решение не заработает пока внутри Пр-ва не будет консолидированной позиции и готовности его внедрять.

И, конечно, важно помнить что в России до сих пор отсутствует внятная госполитика по открытости кода государственных информационных систем, открытости алгоритмов. Недостаточная политика в части открытости данных.

Приведёт ли создание Гостеха к формированию культуры открытости в государственном ИТ или нет - вот мой главный критерий оценки будущего этой инициативы.

Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2020/04/17/828356-sistema
[2] https://www.kommersant.ru/doc/4325787

#opengov #opendata #govtech
Большая волна поднимает все корабли, но кто-то должен поднять эту большую волну.

Майкрософт объявил о старте кампании Closing the Data Divide: The Need for Open Data [1] (Закрывая неравенство в данных: Потребность в открытых данных) по популяризации открытости данных и по глобальному продвижению этой концепции. На фоне того что открытость данных, открытость государств начала отступать в мире, того что правительства стали если не отказываться, то забывать про обязательства открытости, инициатива со стороны одной из крупнейших цифровых корпораций - это, безусловно, хорошая новость.

И хороша она не только тем что именно Microsoft его запускает, а тем что Microsoft, Google, Amazon и другие цифровые лидеры умеют договариваться когда им это выгодно, и очень хочется надеяться на то что они сформируют собственное партнёрство по продвижению открытых данных.

Подробнее в блоге Microsoft [2]

Ссылки:
[1] https://news.microsoft.com/opendata/
[2] https://blogs.microsoft.com/on-the-issues/2020/04/21/open-data-campaign-divide/

#opendata #microsoft
Пара разработчиков из Samsung AI Center в Москве, Али Алиев и Карим Искаков сделали забавную программу avatarify [1] по созданию аватаров для видеочатов Skype, Zoom и Slack, где можно выбрать себе аватара и он будет двигаться сообразно вашей мимике.

Проект с открытым кодом, требует немного допиливания при установке, но весьма смешон и я даже не сомневаюсь что он очень скоро породит новую культуру видео-мемов, в том числе политических, с известными личностями и персонажами.


Ссылки:
[1] https://github.com/alievk/avatarify

#opensource #ai #funny
Для тех кто интересуется то как национальные парламенты работают в ситуации коронавируса, большой обзор по парламентам стран в публикации [1] Inter-Parliamentary Union (IPU).

У них же, кстати, есть портал открытых данных [2] с данными по парламентам разных стран, возможностями для сравнения и выгрузки данных.

Ссылки:
[1] https://www.ipu.org/country-compilation-parliamentary-responses-pandemic
[2] https://data.ipu.org/

#opendata #covid-19 #parliament
Forwarded from Roskomsvoboda
«Должен ли «Яндекс» предупредить о ваших планах ограбить банк?» Иван Бегтин об открытых данных, авторском праве и приватности

«Роскомсвобода» взяла интервью у, пожалуй, главного эксперта и евангелиста в области открытых данных в России.

Почему проект «Открытое правительство» провалился? Где проходит граница в использовании камер видеонаблюдения? Этично ли интернет-компаниям предупреждать власти о чьих-то планах неправомерных действий и что делать с презумпцией невиновности? «Роскомсвобода» побеседовала с одним из ведущих российских экспертов в области открытых данных и открытого государства. Иван Бегтин (@begtin) — ИТ-специалист, генеральный директор АНО «Информационная культура» и руководитель проектного направления «Открытые данные» в Счетной палате.

➡️ https://roskomsvoboda.org/57568
Transparency Deserts (Пустыни прозрачности) [1], статья Christina Koningisor о том как устроены законы о прозрачности в США на уровне отдельных штатов и муниципалитетов. Статья весьма интересная, много конкретных кейсов и разборов подходов по обеспечению открытости, а также примеров недостаточных или плохих практик.

Для тех кто исследует то как обеспечивается открытость государства - это полезный материал.

Ссылки:
[1] https://scholarlycommons.law.northwestern.edu/cgi/viewcontent.cgi?article=1409&context=nulr

#opengov #transparency
Как работает защита приватности в странах где есть сдержки и противовесы в парламентской демократии.

В Израиле правительство изначально разрешило использовать данные сотовых операторов для трекинга контактов в период COVID-19, но на ограниченное время. Сейчас парламентская надзорная группа кнессета заблокировала инициативу правительства по продолжению использования этих данных. О чём пишет BBC [1] и у них же немало других актуальных публикаций о приватности при COVID-19 [2], например, о том как Google и Apple мешают правительствам нарушать приватность [3] и давление правительства Франции на них к примеру.

И там же об масштабном производстве и внедрении трекеров движения с мониторингом температуры [4]

У Privacy International появился большой раздел на сайте посвящённых нарушениям приватности при COVID-19 [5].

Apple и Google разрабатывают стандарт трекинга людей с соблюдением приватности [6].

Большой раздел по приватности при COVID-19 появился на сайте Совета Европы [7]

Ссылки:
[1] https://www.bbc.com/news/technology-52395886
[2] https://www.bbc.com/news/topics/cz5jl9ydykpt/privacy
[3] https://www.bbc.com/news/technology-52415020
[4] https://www.bbc.com/news/technology-52409893
[5] https://privacyinternational.org/campaigns/fighting-global-covid-19-power-grab
[6] https://www.apple.com/covid19/contacttracing
[7] https://www.coe.int/en/web/data-protection/covid-19-data-protection-resources

#privacy #covid19 #democracy
Ранее я писал про то что такое альтернативные данные [1] и как они используются. Главное и основное применение - это хэдж фондами и другими игроками на биржах. Альтернативные данные поставляются чаще чем отчетность компаний и позволяет делать выводы о их успехах, иногда, значительно раньше.

Я буду делать регулярные обзоры компаний и продуктов создающих подобные альтернативные данные. Сегодня краткое описание 3-х из них: SatScout, Kpler, Ursa Space Systems

SatScout

Мониторинг нефтяных скважин в США от Westwood Global Energy Group. Отличается тем что осуществляется в реальном времени и с помощью спутниковых снимков, машинного обучения и команды аналитиков. Они умеют определять когда скважину начинают бурить, когда консервировать и так далее. Иначе говоря узнавать об активностях нефтяных компаний до того как они об этом сообщат в своих отчётах.

Ключевые особенности:
- мониторят 22 000+ нефтяных скважин с периодичность в 2-3 дня
- 2,1 миллиона спутниковых снимков обработали машинным обучением и вручную
- в 2,5 раза точнее выявляют гидроразрывы в отличие от отчетности компаний

Стоимость продукта начинается от 10 тысяч долларов США в месяц, агрегированные данные по некоторым месторождениям они публикуют у себя на сайте

Kpler

Спутниковый мониторинг морских грузоперевозок. Они используют официальные госданные, данные от перевозчиков, портовых служб и изображения со спутников для отслеживания судов, рыночных отчетов, мобильного приложения для отслеживания в реальном времени и так далее.

Компания существует с 2009 года и, судя по запускаемым ими продуктами и числу вакансий, активно развивается.

Ursa Space Systems

Вот это уже полноценный стартап, с раундами инвестиций и последним раундом в 15 миллионов долларов. Их фокус в измерении заполненности нефтехранилищ в мире и из общедоступных продуктов можно посмотреть на их панель загруженности нефтехранилищ.


Ссылки:
[1] https://t.me/begtin/1480
Тот момент когда международные корпорации веду себя значительно более ответственно чем национальные правительства некоторых стран. Обе компании, Google и Apple пообещали отключить функции отслеживания контактов, которые они разработали, сразу после того как пандемия будет взята под контроль [1]. Они создали раздел вопросов и ответов на сайте инициативы. [2]


Ссылки:
[1] https://www.theverge.com/2020/4/24/21234457/apple-google-coronavirus-contact-tracing-tracker-exposure-notification-shut-down
[2] https://covid19-static.cdn-apple.com/applications/covid19/current/static/contact-tracing/pdf/ExposureNotification-FAQv1.0.pdf

#privacy #google #apple
Мне тут надо написать несколько текстов, но идёт очень тяжело, так что попробую отрефлексировать одну давнюю мысль.

Многие ИТ специалисты столкнувшиеся с законами и прочими нормативными документами давно уже говорят, пишут, рассуждают на тему того что надо сделать "Git для законов". Для тех кто не из ИТ мира поясню.

Git - это такая система управления версиями кода и текстов в которой всё устроено через патчи к предыдущим версиям. На самом деле также устроено и во многих других системах контроля версий, но я буду использовать Git как базовый пример. Потому что такие размышления уже публиковались неоднократно [1] [2]

Основной тезис тут в том что с законами можно работать как с кодом. Это как devops - программирование инфраструктуры сложно это код или dataops - программирование систем управления данными словно это код и вот lawops - программирование законов словно это код.

Концепция непростая, но, как ни странно не невозможная. Ключевое в ней - это преодоление приоритета бумаги над цифрой. Бумага, в данном случае, момент признания нормативного правила/обязательства/права и форма его выражения. Если сейчас первичная "бумага", а то есть например, распоряжение о назначении или снятии кого-то вначале подписывается на бумаге и лишь потом реализуется через систему управления кадрами (если вообще есть такая система), то в случае приоритета цифры возникают "учётные действия" от которых уже порождаются документы "на бумаге".

Есть действия которые касаются простых понятий и показателей. Назначить, уволить, создать, ликвидировать, ратифицировать, изменить общий значимый параметр (МРОТ, ставка налога и тд). Если говорить про Россию то таких учётных действий до 90% всех подписываемых документов.

Всё это требует создания этой самой системы нормативных действий. Причём она должна иметь принципиально иные характеристики, как минимум, в части уведомления субъектов регулирования о появлении новой нормы. Это уже не классические нормативно-правовые системы, а вполне машиночитаемые уведомления на платформах любого типа.

Однако, именно нормативные документы являются основой госуправления. Изменить природу появления норм - это изменить и структурировать природу управления государством или даже чуть меньшей структурой (регион, муниципалитет, корпорация).

Такие изменения возможны только если "есть этого слона по частям", а то есть разделять НПА на блоки. Например, вначале распоряжения о назначении/увольнении, далее распоряжения награждении, далее распоряжения о ратификации, далее постановления по установлению базовых параметров, далее в части НПА идущих по короткому пути - ведомственные приказы, далее законы идущие по короткому пути, на каких-то этапах, и далее уже всё целиком.

На самом деле всё подобное возможно, и отнюдь не геймифицирует госуправление, а задаёт множество ограничительных рамок и значительно упрощает инструменты не только принятия решений, но и прогнозирования.

Более того, в некоторых направлениях эти изменения сильно прогрессируют. Например, закон о бюджете на федеральном уровне это давно уже не закон в привычном понимании, а сложный, автоматизированный процесс, а сам бюджет уже не документ, а "слепок в системе".

Я, при этом, не считаю что подобное "обесчеловечивания" будет просто внедрить. Слишком активна и влиятельна прослойка лиц находящихся между инициативой НПА и постановкой последней подписи и автоматизация этого процесса может лишить этих посредников заработка.

Но тренд на подобное совершенно ясно присутствует и я берусь предсказать что в течение 10-15 лет именно так всё и будет.

P.S. Хочу на эту тему большую международную дискуссию или хотя бы статью написать на английском. Пока делюсь мыслями тут


Ссылки:
[1] https://blog.abevoelker.com/gitlaw-github-for-laws-and-legal-documents-a-tourniquet-for-american-liberty/
[2] https://sunlightfoundation.com/2014/06/25/opengov-voices-how-gitlaw-turns-the-french-parliamentary-process-into-open-data/

#thoughts #discuss #law #lawtech #lawops
Вот меня спрашивают, а где взять медицинскую статистику, по госпитализации, по ОРВИ?

А мне есть что ответить и, я очень удивляюсь что журналисты до сих пор не подняли эту тему.

Ежегодно ФГБУ «ЦНИИОИЗ» Минздрава России [1} (расшифровывается как - Федеральное государственное бюджетное учреждение «Центральный научно-исследовательский институт организации и информатизации здравоохранения» Министерства здравоохранения Российской Федерации
получает до 540 миллионов рублей в 2019 году [3] и сравнимые суммы в другие годы в виде субсидий [3] лт Минздрава России.

У этого ФГБУ есть госзадание на 2019-2023 годы [4] из которого мы можем узнать о том что данное ФГБУ отвечает за:
---
Ведение базы данных значений форм статистического наблюдения, утвержденных приказами Росстата и Минздрава России, получаемых от органов исполнительной власти субъектов Российской Федерации с использованием программного комплекса МЕДСТАТ. Агрегация значений базы данных в целях формирования сводной информации по Российской Федерации. Ведение базы данных значений форм статистического наблюдения с использованием программного комплекса МЕДСТАТ, получаемых от ФГУ. Проведение контроля достоверности и качества представляемой информации при включении в базу данных статистических показателей, включая идентификацию и расшифровку единиц значений форм статистического наблюдения (словари строк и граф) для актуализации МЕДСТАТ.
---
Это в "Часть 2 Раздел 2" госзадания.

А где находятся эти сведения? В разделе "Медицинская статистика" [5] на сайде данного ФГБУ. Конечно же, закрытое паролем и недоступное.

При том что:
а) Эти сведения не содержат персональных данных
б) Эти сведения не содержат коммерческой тайны
в) Эти сведения не содержат государственной тайны
г) Эти сведения не могут быть "cлужебной тайной" и тд.

Иначе говоря, медицинская статистика должна быть общедоступной. Анализ регламентов её сбора подтвердит что ФГБУ собирает её не реже чем ежемесячно.

Если Вы посмотрите на контракты этого ФГБУ как госзаказчика, то окажется что в основном он тратит средства на заказ рекламы [6] у ООО "ВИЭНДЖИ"

То есть получается что наполнение данными и развитие системы Медстат они делают своими силами. Даже интересно зарегистрирована ли эта информационная система как ФГИС.

А теперь попробуйте запросить её у Минздрава или непосредственно у данного Института. Получится ли её получить? Почти 100% что ничего, даже в разрезе страны Минздрав не предоставит. А собираются то данные с детализацией до региона, муниципалитета и конкретного учреждения. Статистические формы сбора найти не сложно.

Все наводки для полноценного журналистского расследования я предоставил, дальше сами;)


Ссылки:
[1] https://mednet.ru
[2] https://spending.gov.ru/subsidies/subsidies_list/05620PAC000/
[3] https://spending.gov.ru/subsidies/receivers/001X7262/
[4] https://mednet.ru/images/materials/gz/gz_na_2019-2021.xlsx
[5] https://mednet.ru/miac/meditsinskaya-statistika
[6] https://spending.gov.ru/goscontracts/customers/03731000146/

#opendata #stats #medstat
TERN [1], австралийский государственный проект создан для формирования инфраструктуры данных наблюдения о земле. Австралия 6-я в мире по размеру страна, с общей площадью в 7 692 024 квадратных километров и для правительства Австралии большую роль играет мониторинг состояния земель, в том числе и отслеживание пожаров, оползней, наводнений и восстановление экосистемы.

Основные результаты
-
Открытый каталог данных об исследования о земле TERN Data [2]
- Инструмент упрощения сбора метаданных SHARed [3]
- Виртуальные исследовательские десктопы CoESRA [4], дают возможность исследователям сразу работать с необходимым комплектом инструментов: OpenRefine, LibreOffice, RStudio, Kepler, Canopy, QGis, Biodiverse, Panoply, Knime
- Облачный сервис для работы с большими эко-данными Ecocloud [5]

Текущие показатели
- 700 точек сбора данных
- 2500 наборов данных
- 50 национальных и международных партнеров
- 90 лет продолжительность мониторинга по некоторым данным
- 1600 научных публикаций на данных TERN

Управление
TERN - это проект по созданию научной инфраструктуры осуществляемый Университетом Квинсленда по гранту от CSIRO и в партнёрстве с Университетом Джеймса Кука и Университетом Аделаиды, являющихся операционными партнёрами и формирующие управляющий совет инициативы.

Финансирование
За 2017-2019 годы на проект было потрачено $12,545,078 австралийских долларов (примерно 602 миллиона рублей) [6] из программы National Collaborative Research Infrastructure Strategy (NCRIS). [7]

Итого
Проект TERN - это часть обще-австралийской инициативы по кооперации в научной сфере. Его главными особенностями можно выделить:
- акцент на открытости данных и качестве их описания (включая разработку стандартов метаданных)
- акцент на результатах на основе данных, в виде научных публикаций
- кооперативное управление через группу университетов с одним университетом лидером и университетами партнёрами
- создание облачной и виртуальной инфраструктуры для работы исследователей

Ссылки:
[1] https://www.tern.org.au
[2] https://portal.tern.org.au
[3] https://shared.tern.org.au/
[4] https://www.tern.org.au/coesra/
[5] https://ecocloud.org.au/
[6] https://docs.education.gov.au/system/files/doc/other/ncris_projects_2017_funding_allocations.pdf
[7] https://www.education.gov.au/national-collaborative-research-infrastructure-strategy-ncris

#opendata #research #australia #openaccess
Narrative.io [1] - дата-стартап из Нью-Йорка с фокусом на создание структурированной биржи данных для продавцов и покупателей данных. Продукт состоит из двух решений Narrative Acquire для покупателей и Narrative Distribute для продавцов.
Обещают контроль качества, прозрачность в работе с данными, приватность и многое другое.

Основные приоритеты
- возрастные данные из опросов
- данные об устройствах
- данные по цифровой идентификации (сведение профилей пользователей из разных систем)
- гендерные данные
- данные о местонахождении
- мобильные приложения и поведение в сети
- данные по транзакциям и покупкам
- данные по телепросмотру

Бизнес модель
Для покупателей доступ к данным от стандартного режима за 5000 USD в месяц, до специальных режимов под клиента [2]. По сути заработок только на покупателях, поскольку Narrative I/O не перепродают данные, а интегрируют данные от поставщиков в перечисленную ранее структуру данных, предоставляя клиенту вычищенные результаты.

Ценностное предложение
Ключевое в их предложении - это контроль качества, потому они и берут на себя коммуникацию с продавцами данных и, по сути, делают свою базу, наполняя её внешними данными и обогащая их. Data enrichment [3] [4] одна из важных их особенностей на которой они сами делают акценты.

Финансирование
В 2019 году получили очередной транш от инвесторов на 3 миллиона долларов США, что в совокупности теперь составляет 5,3 миллиона долларов США инвестиций с 2016 года, когда они были основаны.


От себя добавлю что я давно читаю их блог [5], там много полезного не только по их подходам, но и ссылкам на инструменты, подходы и стартапы в области управления данными и качестве данных.

Ссылки:
[1] http://www.narrative.io
[2] https://www.narrative.io/pricing
[3] https://blog.narrative.io/data-enrichment
[4] https://www.narrative.io/solutions/customer-enrichment
[5] https://blog.narrative.io

#data #startups #dataquality
Минэкономразвития запустило портал data.economy.gov.ru [1] состоящий из разделов "Системообразующие предприятия" и "Для регионов" где представлены данные по списку системообразующих предприятий в России и аналитические материалы по данным ПФР.

Хочется сказать про этот проект что-то хорошее, но сказать нечего.

Список предприятий опубликован в формате Excel, а аналитика в PDF. То есть как раз данных там и нет. Похоже авторы перепутали название домена, и выбрали под-домен data, вместо nodata.

Хотя и сам список системообразующих предприятий интересен.

Ссылки:
[1] https://data.economy.gov.ru

#opendata #nodata
Всё не остановится на этих 11%, попомните моё слово.
Forwarded from TAdviser
11% денег «Цифровой экономики» перевели в резервный фонд. Среди пострадавших направлений - 5G, госуслуги, отечественное ПО http://www.tadviser.ru/a/389793
Пришла пора поговорить о качестве данных собираемых органами власти. Забегая вперёд скажу что она невысокая, в качестве примера рассмотрим свежеопубликованный [1]
Минэкономразвития список системообразующих предприятий. его можно скачать напрямую в Excel [2].

Посмотрев на этот список внимательно, можно обратить внимание что на какие-то самые очевидные проблемы, когда указан ИНН организации с размером меньше на один символ, но даже беглая автоматизированная проверка показала что там не только с этим плохо.

Поскольку я хочу, в дальнейшем, этот кейс использовать как обучающий, дальше буду объяснять максимально подробно, надеюсь тем кто умеет работать с данными будет не очень скучно;)

Краткие выводы (Executive Summary)
В 4,3% записей в списке системообразующих предприятий содержатся ошибки, включая
- у 31 организации, неверно указан код ИНН (опечатка или ошибка форматирования с потерей первого символа)
- у 12 организаций указано устаревшее название, как правило ОАО или ЗАО вместо АО
- у 6 организаций те или иные ошибки в их наименовании, опечатки смысловые и иные
- у 2 организаций указаны реквизиты других существующих организаций, ошибки которые невозможно совершить опечатками

Причины этого в низкой культуре работы с данными в Минэкономразвития России, отсутствии мер по проверки поступающих им данных.

Методика
Итак, какие правила валидации сведений об организациях обычно применяют:
- проверка кодов реквизитов (ИНН и ОГРН), в нашем случае у организаций есть только коды ИНН
- корректность названия организации, разделяется на (устаревшее название, ошибка в названии)
- указание неверной организации, когда реквизиты и название организаций ошибочны. Например, ИНН указывает на одну, а название на совершенно другую.

Входящие данные и их подготовка
Что у нас есть на входе, Excel файл [2] со списком организаций, однако в поле ИНН по некоторым из них вписано до двух кодов, а то есть юр. лиц у нас как минимум больше на эти дополнительные коды.
1. Проводим перестройку списка и получаем на выходе список из 1173 организаций (у 22 записей были по 2 кода ИНН, так что и получается 1151 + 22 = 1173), остальные значения в строках для добавленных записей оставляем прежними.
Всё это делается автоматически, коды ИНН в колонке "ИНН" разделены запятыми.
2. Преобразуем всё в CSV файл, нормируем названия полей в англоязычный формат (удобнее для обработки и большая стандартизация названий)
3. Делаем очистку поля ИНН от пробелов, "тримминг" так чтобы остались только значения цифр.

В итоге получаем CSV файл пригодный для последующего обогащения данными

Начальная проверка
Полученного нормализованного файла достаточно чтобы провести первую, быструю проверку. В репозитории утилиты Undatum есть код проверки ИНН [3], достаточно выполнить функцию _check_inn и сохранить результаты в новом CSV файле c колонкой valid_inn.
После проверки у нас должно получиться 31 ИНН не проходящих валидацию. У 4-х кодов будут опечатки в цифрах и у 27 кодов ошибка при форматировании, "съеден" ноль в численном значении, поскольку Excel часто считает что в колонке ИНН указано число, а не численная строка, то удаляет нули. Но грамотные Excel пользователи это знают и за таким следят.

После начальной проверки переходим к углублённой и для этого обогатим данные.

Обогащение данных
Для анализа нам необходимо:
a) Проверить реквизиты, в нашем случае код ИНН, уже сделано, данные новые тут не нужны
б) Проверить названия организаций, для чего нам нужны другие названия этой организации которые можно взять в статрегистре Росстата (обновляется раз в год, может быть устаревшим) и в ЕГРЮЛе (всегда актуально).
в) Возможно нам в будущем понадобятся другие данные, поэтому почему бы нам не добавить из ЕГРЮЛа ещё и код ОГРН, он поможет сопоставить с другими реестрами и основной код ОКВЭД, вдруг мы захотим проверить как отрасль указанная в списке соответствует основной деятельности организации.
Для всего этого у нас есть доступ к API статрегистра и ЕГРЮЛа (из сервиса apicrafter.ru), но их много разных на рынке, можете воспользоваться любым. Через них проверяем каждую организацию и заполняем колонки:
- statreg_name - название организации в статрегистре,
- ogrn - код ОГРН
- egrul_name - название организации в ЕГРЮЛ (сокращённое),
- okved_code - код ОКВЭД
- okved_name - наименование основного кода ОКВЭД

На выходе имеем CSV файл где к изначальным колонкам добавлены ещё и эти, собранные в процессе обогащения данных.

Финальные проверки
Есть 2 способа проводить проверки. Для малого объёма данных, делать это вручную, для большого автоматизировано. В нашем случае объём скорее малый, вручную проверяется за пару часов, поэтому можно сделать и то и то.
Коды ИНН уже проверены, поэтому проверять надо остальные 1142 организации (1142 = 1173 всего - 31 с невалидными ИНН).
Далее я пропущу автоматическую проверку названий, она включает чуть более сложные проверки чем корректность кодов ИНН, фактически разбор и нормализация названия организации и я чуть позже опубликую её код. Пока это можно проделать и вручную.
Простейшие проверки:
а) У организации в списке указано что она в юр. форме ОАО или ЗАО, а в ЕГРЮЛе указано что это АО или ООО. Дело в том что юридические формы ОАО и ЗАО более не существуют и организации должны сменить юр. форму в ОАО или ООО по выбору при первом изменении в ЕГРЮЛ.
б) У организации понятная юр. форма ООО или АО, но в ЕГРЮЛе указана другая. Это скорее всего ошибка, неверное название.
в) Название организаций не совпадает полностью. В этом случае пробиваем ЕГРЮЛ на название в из поля названия в списке и ищем ИНН. Если у организации находится ИНН, то это ошибка с указанием другой организации. Если нет, то это ошибка в названии организации.

Всё это проверяем вручную в 2 прохода. В промышленной работе, это обычно, делают специалисты по ручной обработке, которые проверяют после алгоритмов. В данном примере, я описываю то как, примерно, ставится им задача.

Инструментально всё это можно проделать в Excel, LibreOffice, Google Spreadsheets или в OpenRefine. Я считаю что последний удобнее для любых задач преобразования данных (data wrangling), но неудобен для совместной работы нескольких человек проверяющих вручную. Выбор тут есть, и коммерческие решения тоже существуют.

Итоги и выводы

Итого у нас на выходе 20 подобных записей, а вместе с 31 записью с некорректными ИНН это 51 запись с ошибками, что около 4,3% реестра. Много это или мало? Об этом лучше судить тем кто может измерить экономические последствия неверно представленных данных. Например неполучение поддержки организациями имеющими на неё право или получение её теми что не имеют. Это вопрос уже к экономистам, аудиторам и следователям.

Если вдуматься в причины почему такой важный реестр ошибочен на 4,3% то причин тут несколько:
1) Отсутствие культуры работы с данными. Основная и главная причина, поскольку более 27 или 51 ошибки - это ошибки самого базового уровня работы с Excel.
2) Отсутствие проверки и валидации данных на стороне Минэкономразвития, что бы не поступало им на вход, они должны были перепроверить и затребовать исправление.
3) Низкое качество реестров ФОИВов где указаны устаревшие названия организаций и просто наименования с ошибками
4) Более системная проблема, отсутствие регламентов ведения подобных списков именно с точки зрения данных.

Итоговый файл с результатами и конкретными ошибками можно скачать на Data.world [4]

P.S. Этот материал - это заготовка для обучающих материалов по работе с данными. Он очень хорошо помогает в формировании наглядных примеров того как проверять корректность данных и для чего это необходимо. Вскоре на его основе будет Jupiter Notebook или какой-то его аналог где всё уже будет ещё более подробно разобрано.

Ссылки:
[1] https://data.economy.gov.ru/
[2] https://data.economy.gov.ru/system_org.xlsx
[3] https://github.com/datacoon/undatum/blob/master/undatum/validate/ruscodes.py
[4] https://data.world/infoculture/system-orgs-analysis
system_orgs_refined_final.xlsx
173.4 KB
Итоговый файл проверки на корректность списка системных организаций опубликованного Минэкономразвития России