Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Давно хочу написать о проекте OpenFoodFacts [1] - это открытая база данных по продуктам питания собираемая через краудсорсинг. Ведется она французской НКО с аналогичным названием Open Food Facts [2], публикует все данные в форматах CSV, RDF, JSON API и дампы MongoDB [3] и включают в базу записи по 117581 продуктам по всему миру [4].

Глядя на этот проект я понимаю что, в каком-то смысле, его автор, Stéphane Gigandet, проделал большую работу над тем чтобы помочь тысячам людей любящим не просто еду, но хорошую еду. А в Вики проекта можно узнать подробности по тому как он организован, как работать с его данными и API [5]

Конечно же, открытый исходный код всего проекта и под проектов [6] позволяет использовать его API для Python, Ruby или любого другого языка, для многих из которых уже готовы библиотеки для легкого подключения.

По России в проекте собрано 1196 продуктов [7], но ничто не ограничивает нас с вами добавлять туда новые описания.

Сейчас авторы запустили еще один проект "Open Beauty Facts" [8] где собирают базу космететических товаров и их ингредиентов.

Все это - пример успешного краудсорсингового проекта по созданию баз данных силами тысяч добровольцев. Они много меньше чем Википедия или OpenStreetMap, но может стать сравнимым с ними по значимости.

Глядя именно на эти проекты я и утверждаю что открытые данные не связаны и не зависят от государства. Однако именно таких проектов нам в России и не хватает, тех которые создают данные, а не только потребляют. Те которые формируют сообщество и существуют вне зависимости от чьей-то политической воли или ее отсутствия.

Ссылки:
[1] https://www.openfoodfacts.org/
[2] https://ru.openfoodfacts.org/legal
[3] https://ru.openfoodfacts.org/data
[4] https://world.openfoodfacts.org/
[5] https://en.wiki.openfoodfacts.org/Main_Page
[6] https://github.com/openfoodfacts/
[7] https://ru.openfoodfacts.org/
[8] https://world.openbeautyfacts.org/

#opendata #crowdsourcing
Для всех кто интересуется тем как устроен государственный заказ изнутри вышла первая из серии заметок на портале Госвопрос про то как оно все "на самом деле" http://www.gosvopros.ru/job/professionalnye-navyki/goszakupki-1/

Название статьи, конечно, вызывающее, но пусть останется таким какое оно есть;) Открытость и прозрачность в этой области, действительно, внедрялись так чтобы нанести больше вреда чем пользы.

Это не последняя статья, будут и продолжения там же на ГосВопрос. Вопросы задавать можно мне на канале https://t.me/begtinchat

#opendata #opengov #procurement
Новости дайджестом

Подразделение WPP "The Government & Public Sector Practice" выпустило доклад "The future of government communication". Доклад сжатый и больше ориентированный на продажу их услуг, но там есть интересные цифры из опыта анализа 40 стран и их практик коммуникаций с гражданами. Подробности тут http://wpp.com/govtpractice/leaders-report (требует регистрации)

Петиция о запрете государственного визита Дональда Трампа в Великобританию собрала 1 миллион 772 тысячи подписей (на 1 февраля). 20 февраля Парламент Великобритании будет ее рассматривать. Подробнее - https://petition.parliament.uk/petitions/171928/ Кстати, посмотрите на замечательные карты которые показывают сколько избирателей отдало голос за петицию http://petitionmap.unboxedconsulting.com/?petition=171928
А вот параллельно идущая петиция о том что, наоборот, Трампа надо приветствовать в Великобритании собрала всего 187 тысяч подписей - https://petition.parliament.uk/petitions/178844 и тоже будет рассматриваться 20 февраля парламентом.

В блоге UK Government Digital Services заметка о том как важно собирать и предоставлять данные опираясь на потребности потребителей, о пользе метаданных и об открытых реестрах. Подробнее https://gds.blog.gov.uk/2017/01/31/what-you-can-learn-from-making-data-user-centred/

Команда 18F пишет о том что делают новый проект с избирательной комиссией США по тому чтобы их данных были бы удобны. Напомню что 18F - это внутренний стартап в агентстве общего управления Правительства США. Подробнее о проекте - https://18f.gsa.gov/project/fec-gov/

#opendata #opengov #digitalgov
Напомню что в ближайшие субботу и воскресение в Москве пройдет хакатон по культурным данным организованным Министерством Культуры РФ, Факультетом медиа и коммуникаций НИУ ВШЭ, АНО Инфокультура, Social Data Hub и многими другими партнерами.

Подробнее о хакатоне - http://data.socialdatahub.com , регистрация на таймпаде - https://hakaton-kultura-v-sovreme.timepad.ru/event/435460/

Я лично буду на хакатоне рассказывать про открытые данные (как всегда), но в культурном плане. Тема "Тайны данных в лабиринтах культуры" специально нестандартная, чтобы у меня не было соблазна взять свою привычную презентацию. Буду рассказывать о том о чем раньше не рассказывал.

И я лично буду ментором на хакатоне.

#opendata #opengov
Для тех кто любит визуализировать данные и не хочет разбираться в очень сложных движках - еще один сервис Raw Graphs сильно облегчит жизнь - http://rawgraphs.io/

Умеет визуализировать таблицы и Excel файлами многими разными способами

Рекламировать его не жалко, потому как у него и код открыт и онлайн его можно опробовать.

#opendata #dataviz
Сразу две новости про госзакупки которыми я занимаюсь в основное время (да - открытые данные это форма общественной деятельности).

1. Для всех кто хочет лучше знать о том как устроены закупки рекомендую вторую заметку по теме в журнале "Госвопрос" http://www.gosvopros.ru/job/professionalnye-navyki/begtin-2/

2. Сегодняшнее утро я провел за модерацией круглого стола про госзакупки. Вот тут видео http://pressmia.ru/pressclub/20170202/951399847.html не могу сказать что модерация - это то что я люблю, болтать я люблю больше, но беседа была насыщенная


#opendata #goszakaz #procurement
One Angry Bird [1] - прекрасный проект по визуализации эмоций последних 10 инаугурационных речей президентов США. Группа исследователей из Periscopic [2] проанализировали видео выступления на инаугурации президентов и зафиксировали эмоции и аплодисменты.

Для распознавания эмоций использовали Microsoft Emotion API [3] и анализ вручную для апплодисментов.

На мой взгляд совершенно прекрасный проект. Политика - есть, контекст - есть, новые технологии - есть, сложные алгоритмы - есть.

Может быть когда-нибудь кто-нибудь додумается, например, использовать технологии распознавания лиц при анализе видео заседаний российского правительства - автоматически создавая базу того кто как сидит. Или, наконец-то, хоть кто-то создаст базы вокабуляров публичных персон выступающих регулярно.

Ссылки:
[1] http://emotions.periscopic.com/inauguration/
[2] http://periscopic.com/
[3] https://www.microsoft.com/cognitive-services/en-us/emotion-api

#opendata #hightech #recognition #emotions
Примеры визуализации данных опроса на сайте опроса учителей в школах штата Теннеси - http://educatorsurvey.tnk12.gov/

Довольно простая, но качественная визуализация, возможность просмотреть результаты опроса до каждой школы и экспорт данных.

А делалось это все той же командой Periscopic о которой я писал ранее.

#dataviz
Для тех кто задается вопросами о том как устроены госзакупки в России и кроме тех материалов на сайте Госвопрос которые Вы уже читали. Здесь будет множество ссылок на мои публикации разных лет.

В 2011 году в ЖЖ тезисами про устройство госзаказа - http://ivbeg.livejournal.com/438154.html

В 2011 году о проблемах гражданского контроля http://ivbeg.livejournal.com/351597.html

О том чем я занимался в 2011 году - http://ivbeg.livejournal.com/378570.html

Слепые закупки https://clearspending.ru/media/analytics/Open%20data%20as%20a%20tool%20for%20civil%20society%20and%20expert%20control%20in%20public%20procurement.pdf

Многие другие материалы уже просто недоступны. А про многие рассказывать долго и, кое-где, придется сбиваться на политику.

Но я то все очень хорошо помню как какие законы вносились и принимались. О очень хорошо помню как поправки в 94-ФЗ в 2009 году это был ФЗ N 93-ФЗ от 08.05.2009 для создания единого портала проходили без обсуждений, без ФЭО и спрятанными под проведение форума АТЭС.

Там вообще столько всякой пакости творилось что я на несколько лет перестал что-то серьезное делать в госзакупках потому что было элементарно противно.

Кстати, я тему открытых данных раскручивал в 2010-2012 годах пользуясь темой госзаказа.

Чувствую, мне надо книгу воспоминаний писать. "Государство как моя личная боль".

#goszakaz
Все больше и больше про госзакупки, на сей раз на Радио Медиаметрикс
http://radio.mediametrics.ru/vse_za_laiki/47557/

Тема стала все более актуальной и я ней возвращаюсь после очень долгого перерыва, но вот видимо давно уже пора.

#goszkaz
У сервиса GitLab который используют десятки тысяч проектов по всему миру произошла локальная катастрофа 31 января со случайным уничтожением базы данных на production сервере.

Серьезная история с профессиональной работой разработчиков сервиса, которые честно обо всем написали.
Перевод их лога на русском языке [1] и на английском оригинал [2]

Это страшная история для всех кто когда-либо вел большие проекты. В моей жизни что-то близкое происходило лишь дважды, но каждый раз с потерями удавалось восстанавливаться.

Паранойя потери данных для многих переживших подобное бывает сильнее паранойи приватности.

Ссылки:
[1] https://habrahabr.ru/company/centosadmin/blog/321074/
[2] https://docs.google.com/document/d/1GCK53YDcBWQveod9kfzW-VCxIABGiryG7_z_6jHdVik/pub

#data #backup #archives
4 марта по всему миру пройдет День открытых данных, мы, "Инфокультура" под эгидой OKI Russia вместе с партнерами организуем День открытых данных в Москве который пройдет в виде лекционного дня 4 марта и хакатона 5 марта.

Это преданонс - мы продолжаем работать над программой, скоро откроем сайт и сделаем полноценный анонс с упоминанием всех секций, всех спикеров и партнеров.

Программа хакатона продолжает формироваться - у нас уже есть 4 подтвержденные секции: НКО, СМИ, Бизнес и Город.

Наше мероприятие будет не государственным, не коммерческим, не политическим. Акцент будет именно на работе с данными во всех его проявлениях и мы будем звать тех спикеров у которых накопился реальный опыт и тех участников кто хочет узнать новое, погрузиться в тему или познакомиться с другими. Будут и сотрудников органов власти публикующие данные, а активисты сделавшие проекты, и крутые журналисты работающие с базами данных и многие другие.

Пока есть страница регистрации на Timepad'е - https://oki-russia.timepad.ru/event/439731/
и в Facebook https://www.facebook.com/events/1668561813437491/

Пока же прошу писать мне на @ibegtin или в @begtinchat предложения:
- какие еще секции Вы бы хотели увидеть?
- готовы ли Вы быть спикером? Если да, то присылайте тему выступления - я сведу Вас с модератором секции
- готовы ли Вы помочь на мероприятии - спонсорской поддержкой, выступить волонтером и так далее
- есть ли у Вас интересные данные или задачи чтобы дать участникам хакатона

Отдельно - обратите внимание. В секции "Бизнес" мы будем разбирать конкретные бизнес кейсы того как зарабатывают и можно зарабатывать на открытых данных. Здесь очень нехватает спикеров от бизнеса. Это хорошая возможность рассказать про свой стартап или для венчурных фондов и инвесторов рассказать о том какие стартапы Вы ждете.

Если Вы организуете OpenDataDay в Вашем городе или в другой стране для русскоязычной аудитории - мы будем рады проанонсировать Ваше событие в общем анонсе и выйти с Вами на связь в процессе.

#opendata #opengov #opendataday #data
Хочу напомнить о том что открытые данные - это не только "открытые государственные данные". Это любые базы данных в открытом доступе и под свободными лицензиями.

Например, моя любимая рубрика, наборы данных крупных международных корпораций.

Microsoft
- Microsoft Research dataset directory https://www.microsoft.com/en-us/research/academic-program/data-science-at-microsoft-research/ много исследовательских данных по десяткам тем
- Common objects in context http://mscoco.org/
- Логи сайта Microsoft.com еще с 1998 года https://archive.ics.uci.edu/ml/datasets/Anonymous+Microsoft+Web+Data
- Microsoft MAchine Reading COmprehension Dataset http://www.msmarco.org/

Google
- Google Ngram dataset - http://storage.googleapis.com/books/ngrams/books/datasetsv2.html огромная база Ngram от Гугла
- Google Webgraph (2002) - https://snap.stanford.edu/data/web-Google.html
- Google Open Images - https://github.com/openimages/dataset
- Google Syntactic N-grams http://commondatastorage.googleapis.com/books/syntactic-ngrams/index.html
- FreeBase https://developers.google.com/freebase/ выкупленный Google и встроенный в их API доступен как набор данных

Yahoo
- Webscope datasets https://webscope.sandbox.yahoo.com/ (13 терабайт в разжатом виде)

Facebook
- Датасет по связям из 2005 года - https://lists.ufl.edu/cgi-bin/wa?A2=ind1102&L=SOCNET&T=0&P=22841

Intel
- Intel Science and Technology Center for Big Data http://istc-bigdata.org/index.php/our-research-data-sets/ коллекция датасетов исследовательской лаборатории Intel


Другие компании поддерживают создание открытых данных посредством целевых грантов.
Например Amazon:
- Web data commons http://webdatacommons.org/ проект создает открытые данные на базе данных Common Crawl и получил грант от Amazon in Education

Обратите внимание что почти все эти наборы данных под лицензией Creative Commons. То есть их можно использовать для практически любых целей.

При том что data корпорации всегда больше заинтересованы в том чтобы получать данные, а не отдавать, но в мире все больше примеров когда вложения в общее благо приносит пользу и им самим.

Этот очень неполный список для меня иллюстративен и дает ответ на вопрос о том что не так с интернет-бизнесом в России. В первую очередь в отсутствии открытости, ни как ценности, ни как культуры. Медленно-медленно проникает у нас культура открытия исходного кода, куда хуже - культура свободных лицензий и совсем плохо культура открытости знаний, даже для тех проектов в которых нет коммерческих интересов.

#opendata #opengov #data
Figshare выпустили отчет о состоянии открытых данных [1] еще в октябре 2016 года где рассказывают о текущем состоянии темы. Что характерно все это проводится под эгидой компании Digital Science [2] которая помимо FigShare разрабатывает еще множество продуктов и сервисов для ученых.

В проекте нет ссылок на работу Open Knowledge International и нмного ссылок на Open Data Institute. В целом ощущение некого размежевания открытости данных в науке и открытости данных в общественной жизни.

Ссылки:
[1] https://figshare.com/blog/The_State_of_Open_Data_-_A_figshare_report_on_global_trends_around_open_data/252
[2] https://www.digital-science.com/

#opendata #opengov #digitalscience
Социальная ответственность в данных - это, например, когда вполне коммерческая компания DataSalon поддерживает открытую базу данных научных и исследовательских организаций OrgRef [1] . Все данные там в CSV и под Creative Commons.

Аналогично существует проект GRID в виде базы научных учреждений, их грантов и тому подобного [2], он поддерживается компанией Digital Science & Research и доступен в виде базы данных.

Это примерно все что я думаю о проекте "Карта Российской науки" (mapofscience.ru) теперь уже недоступном и о котором писали СМИ в 2013 году [3].

Ссылки:
[1] http://www.orgref.org/web/index.htm
[2] https://grid.ac/
[3] http://polit.ru/news/2013/11/25/ps_map/

#opendata #openscience
Специально для тех кто задается вопросом о том зачем нужна архивация сайтов - я готов дать ответ на этот вопрос. Проект 'Карта науки', который я упоминал ранее, пропал из сети, но я успел снять его копию в апреле 2015 года.

Копия сайта расположена по ссылке - http://cdn2.sdlabs.ru/preservation/webcollect/education/mapofscience.org/

Будьте осторожны, архивированный WARC файл из 44 мегабайт распаковывается в 5 гигабайт.

Ответы на вопросы как работать с WARC файлами тут:
- http://superuser.com/questions/628350/extract-files-from-a-web-archive-warc
- http://qanda.digipres.org/610/how-to-open-warc-files
- https://warc.readthedocs.io/en/latest/

Для тех кто задается вопросом "Зачем все это нужно если есть Интернет Архив (archive.org) ?" есть ответ.
Интернет-архив собирает только страницы и только тех сайтов которые его не блокируют на уровне robots.txt. А mapofscience.org его блокировал в Интернет архиве есть только снимки его главной страницы. Последний был 30 декабря 2016 года - http://web.archive.org/web/20161230051532/https://www.mapofscience.org/ , после чего сайт исчез


#digitalpreservation #notsoopenscience
Совершенно неожиданная новость - Пентагон открыл свой портал открытых данных - data.mil [1]. Об этом уже пишет Fedscoop [2], акцентируя внимание на теме data stories.

В основе идеи сайта данные системы THOR (Theater History of Operations Reports) и большие объемы исторических баз данных. А вот взаимодействие пользователей и сообщество реализуется через стартап data.world, в форме специального сообщества [3].

Может ли российское военное ведомство создать портал открытых данных? Как ни странно может.
У Министерства обороны РФ есть несколько важных исторических ресурсов ни разу ранее не публиковавшихся как открытые данные.
Это:
- База ОБД Мемориал - https://www.obd-memorial.ru
- Проект Памяти героев Великой войны 1914-1918 - http://gwar.elar.ru/
- Проект "Подвиг народа" - http://podvignaroda.ru/
- Проект "Память народа" - https://pamyat-naroda.ru/
- Календарь победы - http://pobeda.elar.ru/

Почти все проекты делала корпорация ЭЛАР и практически во всех отсутствуют открытые данные. Некоторые из проектов не обновлялись с 2014 года и судьба их будущая неизвестна. Конкретно, ОБД Мемориал еще и была сделана на технологии не позволяющей архивацию сайта.

И да, некоторые проекты и базы уже давно потеряны. Например, http://kursk1943.mil.ru/ недоступен с момента обновления сайта Миноброны.

Иногда от важных шагов в открытости ограничивает только элементарное отсутствие знания о том что такое открытые данные. Может быть пример Пентагона подтолкнет Минобороны России к открытым данным в части исторического наследия.

Ссылки:
[1] https://www.data.mil/s/v2/data-mil/1ff45997-196e-4e9a-96e2-eed27e3e17ab/
[2] https://www.fedscoop.com/defense-digital-service-experiments-with-dods-data-strategy-in-new-site/
[3] https://data.world/datamil

#opendata #military #datastories
Да, не могу не прорекламировать. В мае пройдет научная конференция "Интернет по ту сторону цифр" http://internetbeyond.net/
где много ожидается выступлений о том как интернет устроен.

Конференция серьезная, с научным советом и тд. Но я постараюсь туда заглянуть, может быть выступить про открытые данные и послушать.

Кстати, я давно думаю про сбор баз данных по устройству Интернета.
Статистика, браузеры, сети и тд и тп. Да, все меняется постоянно, но данных очень много. Не говоря уже о социологии, пользователях, опросах, развитию IOT.

Когда-нибудь можно и над этими данными что-то интересное сделать.
#opendata #opengov
Множественные напоминания

Для общения про открытые данные есть множество каналов и возможностей, напоминаю про все:
- Чат в Телеграм - https://t.me/opendatarussiachat
- Чат привязанный к моему каналу - https://t.me/begtinchat (не только про открытые данные, но и про госзакупки, данные, этику данных, большие данные и открытость гос-ва в целом).
- Сообщество Open Data in Russian в Slack - https://opendatarussia.slack.com (более компактное, раньше мы туда собирали участников на хакатоне). Напишите свой email для инвайта. Slack удобен тем что там можно создать много чат комнат, удобно пересылать файлы и тд и тп. Telegram его добивает, но не убил еще)
- Сообщество OKI Russia на Meetup.com - https://www.meetup.com/oki-ru/

и, наверняка, множество других о которых не всегда получается вспомнить.

#opendata #opengov