Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В блоге Open Knowledge International важная и актуальная тема - Open data quality – the next shift in open data? [1] о том как качество данных с каждым годом становится все более актуальным вопросом.

Кроме постановки проблем, обратите внимание на большое число ссылок на материалы, руководства, инструменты и другие ресурсы по качеству данных. Во многих странах и межгосударственных организациях уже есть открытые методики измерения качества данных и шагов по улучшению этого качества.

У OKI есть набор инструментов, таких как GoodTables [2], помогающих оценивать качество данных. У ООН есть National Quality Assurance Frameworks [3] инструмент оценки качества данных национальных статистических служб.
Правительство Австралии использует Data Quality Framework [4] для публикуемых данных и много других примеров существует.

Из своего опыта я могу сказать что именно низкое качество данных причина отсутствия многих данных на сайтах федеральных органов власти, властей субъектов федерации и не только. Часто информационные системы, даже очень дорогие, не имеют форматно-логического контроля (элементарно не отслеживают неправильный ввод), не предусматривают контроль качества данных с самого начала.

Одной из причин этого я лично считаю недостаточное внимание и понимание значимости данных в работе. До сих пор я не знаю ни одной госструктуры в которых были бы должности CDO (Chief Data Officer).

Ссылки:
[1] https://blog.okfn.org/2017/05/31/open-data-quality-the-next-shift-in-open-data/
[2] https://github.com/frictionlessdata/goodtables-py
[3] https://unstats.un.org/unsd/dnss/QualityNQAF/nqaf.aspx
[4] https://blog.data.gov.au/news-media/blog/improving-data-quality-datagovau

#opendata #opengov #dataquality

P.S. Также эта публикация на Medium - https://medium.com/@ibegtin/data-quality-73ee02f956fb
Всяческие напоминания:
1. У нас есть списки баз знаний по темам в который через Github каждый может пополнить:
- Awesome list data journalism - https://github.com/infoculture/awesome-datajournalism
- Awesome list open data in Russian - https://github.com/infoculture/awesome-opendata-rus
- Awesome list open budgets - https://github.com/infoculture/awesome-openbudget
Участвуйте, дополняйте и создавайте похожие списки свои и присылайте мне!
Формат Awesome list очень удобен для ведения каталогов ссылок

2. Для тех кто еще не подписался - у Инфокультуры есть замечательная рассылка с новостями про открытые данные, открытость гос-ва и не только Подписаться можно по ссылке http://eepurl.com/cqen11
Там есть что-то о чем пишу я в блоге и много другого интересного.

3. Инфокультура публикует много открытого кода у нас в репозиториях на Github http://github.com/infoculture

#opendata #opengov #infoculture
В декабре 2016 года Правительство внесло в Госдуму "Законопроект № 53968-7" [1] О внесении изменений в статью 32 Федерального закона "О некоммерческих организациях" и признании утратившими силу отдельных положений законодательных актов Российской Федерации» (в части обеспечения открытости и доступности информации о деятельности государственных (муниципальных) учреждений)

Если переводить с законодательного русского на русский простой, то это законпроект по раскрытию информации бюджетными и автономными учреждениями, включая:
- бюджетная смета казенного учреждения, составляемая и утверждаемая в порядке, определенном органом, осуществляющим функции и полномочия учредителя казенного учреждения, в соответствии с общими требованиями, установленными федеральным органом исполнительной власти, осуществляющим функции по выработке государственной политики и нормативно-правовому регулированию в сфере бюджетной, налоговой, страховой, валютной, банковской деятельности
- решения органа, осуществляющего функции и полномочия учредителя автономного учреждения, о назначении членов наблюдательного совета автономного учреждения или досрочном прекращении их полномочии

Ключевое в документе то что информация будет публиковаться на едином портале bus.gov.ru и регулироваться приказом Министерства Финансов.

Данные из bus.gov.ru доступны как открытые данные, так что это хорошая новость для всех кто исследует структуру нашего государства и использует открытые данные.

Ссылки:
[1] http://asozd2.duma.gov.ru/main.nsf/(Spravka)?OpenAgent&RN=53968-7&02

#opendata #opengov
...
В последнее время я особенно часто слышу и читаю рассуждения о том, как технологии изменят наше общество. Среди них всевозможные дроны, коррекция генома, инструменты для больших данных, искусственный интеллект, блокчейн и многое другое. Что-то из этого уже является «осязаемым настоящим», а что-то пока «настойчивым будущим».

Рискну сделать свои прогнозы и предложить один из многих сценариев, которые могут нас ждать, — обозначить, с какими вызовами наше общество столкнется и как изменится система правонарушений и работы с ними.

Цифровая личность

Как убедиться, что вы это вы? Помимо предъявления паспорта и других документов. На расстоянии тысяч километров.
...
В РБК Вышла моя статья "Профилактика преступлений: какое будущее ждет правоохранительную систему"
http://www.rbc.ru/opinions/technology_and_media/08/06/2017/593911d19a7947bd6ab766ef?from=newsfeed

Обсудить ее можно в @begtinchat

#opendata #bigdata #digitalgovernment
Пост в жанре "а я Вам говорил что так будет".

В сентябре 2013 года я предсказывал [1] что законодатели скоро дойдут до регулирования VPN'ов
Только я предсказывал что будет госрегистрация VPN каналов, а эти они решили сразу все позапрещать.

Что это означает, кстати, на практике? Например, устраиваетесь Вы на работу в российское представительство компании Coca-Cola/Pepsi/Siemens и др, а у них вся работа через VPN доступ во внутреннюю сеть, а уже через нее через прокси где-угодно доступ в интернет. А потом пишете донос на работодателя который российское законодательство не выполняет?
А? Что? Ответственности за знание и недонесение нет?

Тогда я лично продолжу пользоваться индивидуально настроенным VPN'ом и сделаю еще парочку в резерв на случай если надо будет быстро развернуть.

Проблема, фундаментальная проблема, в том что российские законодатели не понимают предмета регулирования. Не знают как устроена сетевая инфраструктура. Не понимают разницы между приватностью и анонимностью. Не понимают последствий принятия решений и, самое главное, не понимают цены ошибки.

И законопроект № 195446-7 О внесении изменений в Федеральный закон "Об информации, информационных технологиях и о защите информации" [2] беспокоит тех озабочен приватностью более чем анонимностью.

Скажу более, с трендом против анонимности бороться сейчас сложно. Только создавая собственную инфраструктуру, виртуальные сети, сети анонимных wifi точек подключения и так далее. А вот тренд на ликвидацию приватности - очень опасен.

Ссылки:
[1] https://www.facebook.com/ibegtin/posts/10151612790928263
[2] http://asozd.duma.gov.ru/main.nsf/(Spravka)?OpenAgent&RN=195446-7

#privacy
Тема госзакупок давно уже для меня не является самой интересной, я занимаюсь ей уже столько что и рассказать могу многое, но менять ее - это самое сложное, особенно менять не ломая того что нагромоздилось в законы за эти годы.

В передаче Отражение на ОТР мой диалог с Сергеем Жаворонковым из Института Гайдара по поводу коррупции в госзаказе - https://otr-online.ru/programmi/segodnya-v-rossii-27580/narusheniya-pri-goszakupkah-70048.html

#procurement #opendata
Законопроект о запрете обхода блокировок в рунете говорит прежде всего о том, что российские законодатели не знают, как устроена сетевая инфраструктура, не понимают разницы между приватностью и анонимностью, не видят последствий принятия решений и, самое главное, не сознают цены ошибки.

Virtual Private Network (VPN, виртуальная частная сеть) и анонимайзеры – это две очень давние технологии, привлекшие к себе повышенное внимание в России на фоне активных блокировок со стороны Роскомнадзора. VPN – обобщенное название технологий, позволяющих обеспечить одно или несколько сетевых соединений (логическую сеть) поверх другой сети (например, интернета). Что это означает на практике? В большинстве случаев это построение аналога внутренней сети, работающей по защищенным криптоалгоритмами протоколам поверх имеющихся сетей. Когда интернет получил распространение, виртуальные частные сети оказались одним из наиболее универсальных решений, которым учат и сетевых инженеров, и специалистов по компьютерной/сетевой безопасности.
...
В Ведомостях вышла моя статья "Плохой ответ на мнимые угрозы" https://www.vedomosti.ru/opinion/articles/2017/06/14/694228-otvet-ugrozi

#vpn #privacy
Всевозможным заседаниям рабочих групп, советов и комиссий чаще всего не хватает живых репортажей выходящие за пределы сухих протоколов. Если Вам интересно что происходит на совете по открытым данным - почитайте публикации Оли Пархимович о последнем его заседании https://habrahabr.ru/company/infoculture/blog/330864/

#opendata #opengov
Для всех кто интересуется текущем статусом проекта по цифровой архивации - я написал подробный пост на Medium
https://medium.com/p/digital-archive-8fbcd893e4e4

Национальный цифровой архив (archive.infoculture.ru) — это проект АНО “Информационная культура” по сохранению веб-сайтов.
В проекте архивируется самые разные сайты и другие цифровые ресурсы объединенные одной ключевой мыслью — они могут исчезнуть в скорое время.
Рапортую о текущем статусе:
всего собрано данных на 5.4 терабайта из которых:
- 39 гигабайт архивы госсайтов собранные до 2013 года в формате httrack
- 2 100 гигабайт архивы собранные до марта 2017 вручную с помощью wget в форматах WARC
- 3 200 гигабайт архивы собранные с марта 2017 автоматизировано с помощью технологий wpull + grab-site.
- 3,7 гигабайта коллекция вики-архива — дампы проектов на mediawiki
- остальное — архивы открытых данных

в общей сложности это 1822 сайта подавляющее число которых относится к государственным сайтам, конкретнее к сайтам федеральных органов власти и их территориальных управлений
все собранное доступно публично через хаб открытых данных hubofdata.ru в специальной группе “Архивы сайтов”.

Также на хабе созданы группы позволяющие просматривать архивы по темам:
- Группа “Агентство ипотечного жилого строительства” — 20 сайтов
- Группа “Арбитражный суд” — 64 сайта
- Группа “Олимпиада Сочи” — 18 сайтов
- и так далее, несколько десятков групп можно найти на сайте

Архивация значительно автоматизирована. Для запуска архивации формируется список сайтов и далее скармливается роботу который последовательно или параллельно выкачивает каждый из них. Функции оператора только в том чтобы отслеживать что краулер не попал в “crawler trap” с бесконечным числом страниц для выгрузки.

И обязательно хочу напомнить о том зачем все это делается и чем национальный цифровой архив отличается от Archive.org к примеру.
1. Национальный цифровой архив России охватывает только российские и близкие к России по теме сегменты Интернета. Цель в создании максимально полного среза наиболее ключевых, ценных и наиболее находящихся под угрозой ресурсов.

2. Архивация проводится одним из следующих способов:
- “полным слепком” сайта при котором сохраняется все его содержимое — все веб-страницы, изображения и файлы
- “полным слепком” FTP сервера если архивируется FTP сервер
- специальными инструментами архивации материалов социальных сетей таких как twarc для твиттера
- написанием специальных программ “парсеров/скрейперов” с помощью которых сохраняются страницы и файлы скрытые от обычных краулеров поисковыми формами.
- из материалов собранных внешними контрибьюторами, теми кто готов передать в архив какие-либо полезные архивные материалы на хранение.

3. У цифрового архива на сегодняшний день есть ряд ограничений:
- Нет непрерывной архивации веб-сайтов. Для этого требуется дополнительная инфраструктура и настройки специального движка Heritrix с помощью которого запускать краулеры на регулярной основе
- Доступ к архивным материалам идет в виде слепков целиком. То есть если Вам надо поднять какой-то конкретный документ, например, из архива сайта ФСКН, то Вам надо будет скачать сайт в формате WARC полностью и уже локально у себя запускать утилиты которые извлекали бы файл из этого архива.

Если у Вас есть идеи и предложения по архивации — пишите мне на Ibegtin@infoculture.ru
Национальный цифровой архив создан АНО “Инфокультура” существует на наши собственные средства и частные пожертвования российских граждан. Если Вы хотите помочь проекту то можете сделать это в форме пожертвования вот тут — http://archive.infoculture.ru/donate/

Все пожертвования идут на поддержание и развитие инфраструктуры проекта — аренду серверов, оплату трафика и так далее.

#webarchiving #digitalpreservation #opendata
Команда проекта Protonmail, сервиса защищенной электронной почты запустила только что новый проект ProtonVPN [1] для обхода блокировок. Проект который не стыдно порекомендовать и который стоит не так уж дорого по нынешним меркам - бесплатно на низкой скорости и $4 за базовый тариф.

Как давний пользователь VPN сервисов я не могу не порадоваться появлению новых и напомнить о том что если Вы не доверяеете вообще никому из тех кто предоставляет такие услуги, то Вы всегда можете развернуть самостоятельно сервер с OpenVPN у одного из хостеров таких как Scaleway, Digital Ocean, OVH. Тех кто предлагает сервера в пределах 2-5 евро. У Scaleway есть готовый образ с OpenVPN [2], у остальных инструкции как его быстро настроить.

Я также напомню про статью в Ведомостях "Плохой ответ на мнимые угрозы" [3] в которой я пишу про VPN и попытки его регулирования.

Тема приватности данных мне всегда была и остается интересна, но она для меня в моей деятельности не основная. Меня она больше беспокоит с точки зрения "дата-этики", "приватности данных". Всем кто интересуется этой темой я могу посоветовать канал проекта Роскомсвобода https://t.me/roskomsvoboda откуда я и позаимствовал новость про ProtonVPN и где ребята публикуют актуальную информацию по приватности регулярно.

Ссылки:
[1] https://protonvpn.com/
[2] https://www.scaleway.com/imagehub/
[3] https://www.vedomosti.ru/opinion/articles/2017/06/14/694228-otvet-ugrozi

#privacy #vpn
Поскольку тема приватности все острее, я буду здесь в канале добавлять ее все больше. Разбавляя публикации про данные, государство и цифровую экономику.

Пока же для тех кто ни на шутку озабочен приватностью в сети - вот несколько ключевых ресурсов.
- Руководство EFF по самозащите от слежки - https://ssd.eff.org/ru
- Как быстро включить TLS/SSL на своем сайте - https://certbot.eff.org/
- Большой каталог инструментов обеспечения приватности - https://prism-break.org/ru/
- Детальное руководство по обеспечению безопасности MacOS для настоящих параноиков - https://github.com/drduh/macOS-Security-and-Privacy-Guide
- Еще один большой каталог инструментов https://privacytoolsio.github.io/privacytools.io

Мой личный выбор:
- не менее 2-х VPN сервисов. Я использую свой сервер с OpenVPN и один из популярных VPN сервисов который заменю на ProtonVPN скорее всего
- для безопасных дисков и файловых контейнеров - Veracrypt
- для почты - ProtonMail для безопасной переписки, GMail для бытовой/рабочей.
- двухфакторная авторизация во всех сервисах. Везде где возможно через приложение для одноразовых паролей
- для хранения паролей - KeePass
- для генерации сложных паролей - StrongPasswordGenerator, LastPass и личный рандомайзер
- для сертификатов серверов - Let's encrypt

И так далее. Могу сказать что я сейчас живу вдали от настоящей паранойи и обеспечиваю лишь тот комфортный уровень безопасности в котором можно обеспечить приватность.

#privacy #vpn #security
Новый государственный портал открытых данных появился в Великобритании, на сей раз это портал данных парламента data.parliament.uk [1]
на котором не только опубликовано много наборов данных, но и множество сервисов для разработчиков [2]

Например, документация для всех API в унифицированном формате [3].
Подробнее об этом проекте в его блоге [4], а также в цифровой статегии парламента Великобритании [5]

Ссылки:
[1] http://www.data.parliament.uk/
[2] http://www.data.parliament.uk/developers/
[3] http://explore.data.parliament.uk/
[4] https://pds.blog.parliament.uk/2017/06/23/a-new-data-service-for-parliament/
[5] https://pds.blog.parliament.uk/strategy-in-action/

#opendata #api #parliament
Итак, мы обновили сайт Инфокультуры - https://infoculture.ru
Там много-много всего собрано, в разделе проекты https://infoculture.ru/projects и в других разделах.
Самое главное, конечно, не пропустите кнопки "Подписаться на рассылку" и "Поддержать нас". Первое позволит Вам быть в курсе того что мы делаем, а второе поможет нам делать то что мы делаем.

Я же пока расскажу о том чего там нет.
Нет некоторых проектов которые мы делали давно и сейчас они не сохранились. Наша цель была открыть новый сайт как можно скорее, и лишь далее его наполнять.
Пока там перечислены не все наши мероприятия и хакатоны, наше участие в разработке национального плана по открытым данным много лет назад, нашего доклада об открытых данных, множество репозиториев кода отсюда https://github.com/infoculture и нет нескольких проектов которые прямо сейчас находятся в разработке.

Все будет обязательно. И, конечно, Инфокультура стоит на принципах открытости не только государства, но и сектора НКО. Мы также будем обеспечивать собственную открытость, от раскрытия обязательных документов, до публикации всех материалов под Creative Commons. Во всех некоммерческих проектах мы также обязательно предоставляем открытые данные и API.

Отдельно отмечу что, не имея возможности привлекать зарубежное финансирование, практически полностью мы существуем за счет финансирования проектов поддерживаемых российскими фондами, физ лицами и организациями. Не буду говорить сколько я лично вложил средств в Инфокультуру за последние 5 лет:)
Кроме некоммерческих проектов мы оказываем услуги центра компетенций по открытым данным. Мы помогаем госорганам, корпорациям, НКО, всем кто заинтересован в раскрытии информации и все заработанное нами идет на уставные цели.

Мы действуем не в одиночку и список партнеров у нас на сайте далеко не полон. Если мы забыли включить Вашу организацию в их список - напишите нам и мы быстро исправимся.

Конечно наш сайт не столь насыщен материалами как другие проекты которые мы делали за эти годы. Например, Госзатраты (проект Комитета гражданских инициатив) - http://clearspending.ru или Хаб открытых данных (http://hubofdata.ru) однако он будет не только визитной карточкой, но и полезным ресурсом для всех кто работает с открытыми данными и не только.

#opendata #infoculture #opengov
Анонсирована новая версия Data Journalism Handbook [1], руководства по журналистике данных написанное Саймоном Роджерсом в 2011 году и через 6 лет обновленное и готовящееся к выпуску сразу на 4-х языках в 2018 году. Согласно официальному анонсу [2] руководство выпускается совместно Европейским центром журналистики [3] и Google News Lab [4].

Автор руководства, Саймон Роджерс, изначально был автором Guardian Datablog, непрерывно обновляемого блога на сайте Guardian где публиковались графики, данные, инфографика и другие примеры работы журналиста данных. Сейчас он является редактором и журналистом данных в Google [6].

Обратите внимание на то что он не толькок datajournalist, но и dataeditor. Роль которая может показаться новой в российских медиареалиях, но вполне понятная в крупных международных медиахолдингах.

Google News Lab практически не представлены в России, хотя они и регулярно делают и публикуют очень интересные интерактивные проекты. Например, Rhythm of Food [7] о том как и в какой сезон ищут еду через поиск Google сделанное при поддежке Google News Lab в студии Truth-and-Beauty [8].

Другой интересный проект при их поддержке Tilegrams [9] визуализация регионов США, Франции и Германии в виде 6-ти угольников (хексагонов) с возможностью довольно тонкой настройки и подборки. Основной смысл в создании размерности регионов при котором они отображаются в пропорциях набора данных, например, населения. Создан этот проект в Pitch Interactive [10].

Ссылки:
[1] http://datajournalismhandbook.org/
[2] https://medium.com/we-are-the-european-journalism-centre/say-hello-to-the-new-data-journalism-handbook-6f8bc8f32c22
[3] http://ejc.net/
[4] https://newslab.withgoogle.com/
[5] https://www.theguardian.com/data
[6] https://medium.com/@smfrogers
[7] http://rhythm-of-food.net/
[8] http://truth-and-beauty.net/
[9] https://pitchinteractiveinc.github.io/tilegrams/
[10] http://pitchinteractive.com/

#opendata #data #datajournalism
Может ли журналистика остаться коммерческой? Чем отличается журналист от сотрудника некоммерческой органиации? Очень часто ничем, в России многие НКО одновременно являются СМИ и наоборот, многие СМИ являются НКО. Если в России это чаще связано с простотой получения госсубсидий для СМИ, то в мире похожий тренд связан с общим падением доходов СМИ от рекламы.

Journalism Funders Forum [1] организованный Европейским центром журналистики и Фондом Билла и Мелинды Гейтс с начала 2017 года выпустил три отчета и провел три сессии в Лондоне, Париже и Гамбурге посвященные некоммерческому финансированию журналистике.

В каждом из отчетов много примеров фондов финансирующих медиа проекты в этих странах, примеры конкретных проектов и о том как некоммерческое финансирование развивается за эти годы.

Ссылки:
[1] https://journalismfundersforum.com/

#datajournalism #newmedia
Помогите вспомнить наиболее заметные массовые исчезновения контента в Рунете?

Мой текущий список такой:
- региональные сайты МВД в 2013 году уничтожены введением http://www.mvd.ru
- исчезновение сайтов ФМС и ФСКН после присоединения их к МВД
- зачистка Минюстом отчетов НКО до 2015 года на http://unro.minjust.ru
- моментальное закрытие проекта Имхонет http://imhonet.ru
- зачистка архивных данных о бюджетах Москвы на сайте Департамента финансов Москвы http://findep.mos.ru

Менее жесткие (с предупреждением):
- образовательный портал Галактика Интел https://edugalaxy.intel.ru закрывается в конце июля 2017 года
- Сеть учителей Microsoft https://it-n.ru

Нужно больше примеров. Желательно чего-то важного потерянного безвозвратно.
Я хочу обо всем это сделать статью и презентацию.
Конечно с рекламой нашего общественного проекта - Цифровой архив http://archive.infoculture.ru
Может быть даже несколько статей.

Можно написать мне на @ibegtin или в чате @begtinchat

#digitalpreservation