Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Обзор новостей ссылками:
- Швейцарский центр data science открылся совсем недавно - https://datascience.ch/ и они ищут профессионалов
- Microsoft открыли GraphEngine для работы с большими связанными данными https://www.graphengine.io/
- Sentiment Analysis in Twitter. Конкурс для тех кто хочет и умеет анализировать эмоции и настроения по Twitter'у http://alt.qcri.org/semeval2017/task4/
- Открытое письмо Data for Humanity подписали 1000 человек включая ведущих ученых http://www.bigdata.uni-frankfurt.de/dataforhumanity/

Принципы из этого письма:
1. Не навреди
2. Используйте данные чтобы помогать создавать мирное сосуществование
3. Используйте данные чтобы помогать уязвимым людям и людям в нужде
4. Используете данные чтобы сохранять и улучшать естественную среду
5. Используйте данные чтобы помогать создать честный мир без дискриминации

#opendata #opengov
На канале UrbanData (https://t.me/urbandata) Андрей Кармацкий напомнил про стартап AeroState (https://aerostate.io) который специализируется на сборе данных о качестве воздуха с помощью аэростатов.

Это пример стартапа не про открытые данные, а про работу с данными в принципе и о том что подобные технологии способны дать лучшее качество данных и прогнозов чем наземные станции.

Мое личное мнение что данные о качестве жизни должны быть общедоступными. Чтобы такие стартапы и новые технологии использовались повсеместно необходимо чтобы городские власти регулярно пересматривали свой подход к организации того же метеонаблюдения и экологического мониторинга. Во многих городах и регионах по всему миру реализуется практика которая называется agile procurement предусматривающая гибкую закупку услуг и сервисов и, особенно, приоритетный запрос предложений от стартапов на решение существующих вызовов. Роль городских властей в этом случае меняется. Они формулируют проблемы и задачи и корректируют бюрократию под них, а не наоборот.

#opendata #startups #procurement
Ежедневная карта рисков аварий - проект [1] штата Индиана дающий возможность оценить опасность движения по дорогам штата. Подробнее в видео на сайте [2]. Кроме данных аварий там, также, есть замеры скользкости дороги и эта информация, также, отображается на карте.

Этот проект хороший пример того что можно сделать на данных проекта "Безопасные дороги" [3], где в России уже активно раскрываются данные ГИБДД по авариям сопряженным с пострадавшими.

Ссылки:
[1] http://www.in.gov/isp/ispCrashApp/main.html
[2] https://in.gov/isp/3268.htm
[3] https://xn--80abhddbmm5bieahtk5n.xn--p1ai/

#opendata
Обзор "Best government emerging technologies" вышел в этом месяце [1] от лица World Government Summit [2].

В списке технологий:
- Искусственный интеллект
- Блокчейн и распределенные реестры
- Новое производство
- Роботизация и пространство
- Умные платформы
- Виртуальный мир

На мой взгляд, список технологий неполон и сформулирован совсем не обязательно именно так, но множество хороших примеров дает представление о том что происходит с государственным управлением в мире.

Ссылки:
[1] https://worldgovernmentsummit.org/api/publications/document?id=24737dc4-e97c-6578-b2f8-ff0000a7ddb6
[2] https://worldgovernmentsummit.org/annual-gathering/reports

#govtech #digitalgov
Вышел OpenRefine 2.7RC1 [1] свежий кандидат в релизы известного open source продукта по чистке данных.
Из новых возможностей:
- использование Wikidata вместо Freebase
- перевод на японский
- экспорт кластеров

OpenRefine один из наиболее незаменимых инструментов при работе с данными, как с открытыми, так и не очень. Жаль лишь что его востребованность совершенно не коррелирует с развитием проекта. Основной разработчик не проявлял активности более 9 месяцев [2] и теперь основными контрибьюторами являются члены сообщества и привлеченные разработчики через BountySource.

Все это не дает пока надежды что OpenRefine может стабильно развиваться, в то время как спрос на data wrangling tools весьма немал. Коммерческие приложения вроде DataIku и Trifacta не дают той же гибкости. И вопрос о том на что заменять OpenRefine долгосрочно является актуальным.

Ссылки:
[1] https://github.com/OpenRefine/OpenRefine/releases/
[2] https://github.com/tfmorris

#opendata #data
Ответ вопрос о том как существует бизнес на открытых данных в том что бизнесу все равно данные открыты или нет, открытость лишь делает это топливо бесплатным и позволяет снизить издержки, иногда значительно.

Пример коммерческого проекта на данных - это Quandl - https://www.quandl.com/

Стартап предоставляющий часть данных бесплатно на своей платформе, а часть, коммерческих данных, только по платной подписке. Коммерческие данные они получают не из открытых источников или же сводят много данных из открытых для создания нового продукта.

Очень простая и очевидная модель для любого стартапа.

#opendata #data
Друзья, на International Open Data Day в Москве я буду вести секцию "Бизнес". На сегодняшний день подтвердилось 2 спикера и я продолжаю искать тех кто готов выступить о том как бизнес работает с открытыми данными.
Это 4-5 марта и все подробности здесь - http://msk.opendataday.ru

Есть направления:
- как компания зарабатывает на открытых данных
- как компании создают инфраструктуру для открытия данных
- как компания использует открытые данные для своих внутренниъ нужд
- как компания раскрывает данные

Если у Вас есть тема или Вы можете порекомендовать спикера - напишите мне в facebook.com/ibegtin или на email - ibegtin@infoculture.ru

#opendata
Визуализация законодательства Новой Зеландии http://bcn-nzln.co.nf/ по кластерам в зависимости от цитирования

Помимо того что это красиво и показывает какие законы чаще всего меняли, это еще и полезно для понимания того как переплетены законы.

Чтобы было понятно - в Новой Зеландии все законы опубликованы как набор открытых данных - https://data.govt.nz/dataset/show/776

Там по ссылке http://legislation.govt.nz/subscribe/ доступны для выгрузки законы начиная с 1267 года http://legislation.govt.nz/subscribe/act/imperial

В целом это все что я думаю про открытые данные о законодательстве и законотворчестве в России

#opendata #opengov
Всем исследованиям Яндекса нехватает только открытых данных - как и многие data corporations они их не отдают, но как пример визуализации данных - их работы выше всяких похвал
Яндекс проанализировал базу организаций и выяснил какие районы Москвы наиболее пригодны для жизни, какие для работы, а какие для работы. В квадратах 300х300 метров можно выяснить насколько удобно там жить и какие сервисы/бизнесы там представлены.

https://yandex.ru/company/researches/2017/moscow_districts
То что с приходом новой администрации в США стали исчезать открытые данные прошлой [1] - это, наверняка, читали уже многие. Нет, глобального тренда на полную закрытость нет ни в мире, ни в России, даже при российской шпиономании и бессмысленной паранойи в одном, и недостаточной в другом.

Но думать о том что открытые данные необходимо архивировать - надо обязательно.
Я веду длительный проект по архивации государственных сайтов находящихся под угрозой закрытия. И, в частности, сохраняю все ресурсы открытого правительства, поскольку, неизбежно все они изменятся при новом кабинете министров в России в 2018 году.

Сейчас предметом архивации являются сайты:
- open.gov.ru
- openstandard.ru
- data.gov.ru
- opendatacontest.ru
- opendatasummit.ru

В данном случае речь не о их глобальной ценности, хотя и что-то полезное там есть, а о сохранении того что может быть уничтожено.

Если Вы знаете какие-либо ресурсы созданные Открытым Правительством с 2012 года и все еще доступным или же если Вы знаете какие-то другие ресурсы которые могут прекратить свое существование при смене правительства - пишите мне на ibegtin@infoculture.ru или в чате в Telegram https://t.me/begtinchat

И все эти ресурсы будут сохранены.

Ссылки:
[1] https://technical.ly/dc/2017/02/15/trump-open-data-taken-down/

#opendata #opengov
Наконец-то мы подготовили анонс дня открытых данных в Москве с описанием всей программы - https://habrahabr.ru/company/infoculture/blog/322100/

Я лично приглашаю всех прийти, и послушать лекции, и похакатонить. Помимо ответственности за все мероприятие - я буду вести секцию "Бизнес". Мой доклад будет посвящен бизнес моделям, а докладчики на секции расскажут о своих коммерческих проектах.

Много лет мы работали над тем чтобы сообщество использующих открытые данные сформировалось и вот, наконец-то, все получается. Даже если государство забудет про открытость как ценность, невозможно будет изменить появившийся спрос на доступность информации.

Более чем 150 зарегистрировавшихся человек на ODD в Москве - это лишнее тому подтверждение

#opendata #opengov
Один из крупнейших проектов публикующих большие открытые данные и при этом не имеющем никакого отношения к государствам и правительствам - это Censys [1]. Проект и гигантская база сканирования публичных сетей охватывающий 1 миллион крупнейших веб-сайтов и все IP адреса (IPv4) в мире.

Проект ведется группой исследователей из университета Мичиган [2] при поддержке инфраструктурой от Google и проводит ежедневное сканирование всех адресов и доменов и выкладывают по 800 гигабайт в архиве (около 5 терабайт в распакованном виде) данных [3].

Итого, 5 терабайт в день, данные по всему Интернету, все IP адреса. Конечно, большая часть применения этой базы данных - это аудит безопасности сетей, сайтов, оборудования и так далее.

Сам проект затевался, в первую очередь, именно с точки зрения анализа степени уязвимости сервисов использующих SSL/TLS для нескольких видов новых атак, но, конечно, это не единственное его применение.

Исследование инфраструктуры Интернета позволяет отслеживать применение смену технологий, заранее знать какие продукты используются с точки зрения планирования применения новых и многое другое.

Не говоря уже о корпоративной разведке, которая часто заключается даже не во взломе, а в несанкционированном доступе к тому что "плохо лежит", по техническим причинам временно оказалось открытым.

Ссылки:
[1] https://censys.io
[2] https://censys.io/about
[3] https://censys.io/data

#opendata #censys #security
Мой канал про открытые данные, но не только про них. Я пишу про приватность, госзакупки, государство, цифровое государство, открытость в принципе, big data и прочую смесь практических и не очень тем. Совсем чистых каналов про открытость данных немного, но есть многие близкие по смыслу и духу.

Я уже упоминал канал Андрея Кармацкого https://t.me/urbandata и напомню про канал Strelka Magazine https://t.me/strelkamagazine - это каналы на которых бывают темы близкие к открытым данным и посвященные урбанистике.

В принципе же, у нас в России и в русскоязычном интернете мало блогов и каналов про открытые данные. Если Вы такие знаете - то пишите мне на @ibegtin или в @begtinchat или же вносите их напрямую в Awesome list на GIthub'е https://github.com/infoculture/awesome-opendata-rus

#opendata #opengovernment #telegram
Для тех кто ищет очень большие открытые данные и кому очень хочется работать с действительно большими объемами информации - есть примеры подобных данных (и созданные не на государственных данных).

Проект N-gram counts and language models from the CommonCrawl [1] создает базу N-gram на базе веб-страниц собранных в рамках проекта Common Crawl [2]. Объемы данных там составляют терабайты в сжатом виде - от 4 до 15 терабайт в совокупности, а может быть и больше. Скачивать все не обязательно, можно ограничиться любимыми языками. Самое удивительное что о проекте мало кто знает, хотя ему уже более 3 лет.

Сравнимые по объемы данные о n-gram публикует только Google в проекте Ngram Viewer созданные на базе Google Books [3] раскрывая большие объемы данных по множеству языков, но несравнимые с данными из Common Crawl.

Для тех кто задается вопросом что такое N-грамма [4] - это последовательность из нескольких элементов, в случая языка, предполагается что это последовательность из нескольких слов.

Для русского языка и в рунете также есть открытый проект Open Corpora [5] основанный на текстах публикуемых сообществами, меньший по объему, но выверенный вручную.

Извлечение N-gram - это лишь один из способов работы с Common Crawl. Есть и другие, существуют примеры скриптов помогающих быстро и легко извлекать из веб-страниц номера телефонов или же другую полуструктурированную информацию. Наборы данных Common Crawl хорошо подходят когда есть алгоритмы и задачи которые нужно опробовать на миллионах доменов и миллиардах веб-страниц.

Ссылки:
[1] http://statmt.org/ngrams/
[2] http://commoncrawl.org/
[3] http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[4] https://ru.wikipedia.org/wiki/N-%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0
[5] http://opencorpora.org/?page=downloads

#opendata #bigdata #commoncrawl
У проекта DataRefuge [1] по спасению климатических данных появилось сообщество Archivers.space [2] где сотни участников координируют свою работу по сохранению данных во время 15 мероприятий [3] идущих в США.

Все мероприятия координируются в PPEH Labs [4] при Penn University.

Я также напомню про проект Climate Mirror [5] по сохранению копий климатических данных, проект Azimuth Backup [6] и The Environmental Data and Governance Initiative [7].

Все эти проекты очень похожи на инициативы ArchiveTeam [8], команды которая сохраняла исчезающие данные и сайты еще до всех инициатив по DataRefuge.

Напомню что и в России у нас есть риск исчезнования открытых данных в будущем, по этой причине я веду архивацию всех сайтов связанных с открытыми данными и архивацию сайтов в принципе.

Ссылки:
[1] https://www.datarefuge.org/
[2] https://www.archivers.space/
[3] https://www.archivers.space/events
[4] http://www.ppehlab.org/datarefuge
[5] http://climatemirror.org
[6] http://math.ucr.edu/home/baez/azimuth_backup_project/
[7] https://envirodatagov.org/
[8] http://archiveteam.org/index.php?title=Main_Page

#opendata #datarefuge
Позавчера команда криптографов из Google опубликовали анонс первой "коллизии" криптографического алгоритма SHA1 [1]. Коллизия - означает уязвимость алгоритма к взлому, тот факт что, например, когда криптографическая функция используется для цифровой подписи, то эту подпись можно скомпрометировать создав другой документ с аналогичной подписью.

Алгоритму SHA-1 уже более 22 лет [2] и еще в 2005 году Брюс Шнайер писал о тому что алгоритм SHA-1 пора заменять [3].

Почему это важно? Алгоритм SHA-1 до сих пор используется в большом числе legacy систем. Он активно применялся в 1990-х и 2000-х годах и до сих пор во многих продуктах которые не обновлялись с той поры он используется. Кроме того SHA-1 это криптографическая функция которая часто используется для хранения паролей в базах данных и при отсутствии дополнительных мер может создать риски.

SHA-1 также активно использовался и используется для распространения дистрибутивов ПО и наборов данных.

Ссылки:
[1] https://security.googleblog.com/2017/02/announcing-first-sha1-collision.html
[2] https://ru.wikipedia.org/wiki/SHA-1
[3] https://www.schneier.com/blog/archives/2005/02/cryptanalysis_o.html

#security #sha1
Сжатые новости о главном в виде дайджеста:

1. Журналисты, энтузиасты и эксперты в США продолжают находится в недоумении что же будет делать администрация Трампа с данными о чем пишет Chase Gunter из FCW https://fcw.com/articles/2017/02/23/open-data-trump-future.aspx и Megan Moteni https://www.wired.com/2017/02/army-old-guard-archivers-federal-data-safer-think/ из Wired.

2. Аналогичные голоса приходят из области медицины критикующих Трампа за подмены науки "альтернативными" фактами - http://www.healio.com/hepatology/practice-management/news/online/%7B71d682b6-ba57-4919-b074-b5c66858ba0c%7D/bmj--trumps-policies-risk-head-on-collision-with-science-health-care

3. Европейский проект EuroGeographics обещает еще больше данных http://www.gisresources.com/eurogeographics-enhances-open-data-2017/

4. Morningstar, компания специализирующаяся на фондовой аналитике, открыла портал для разработчиков https://developer.morningstar.com/

5. Большой каталог того как гражданские данные помогают улучшать города - http://datasmart.ash.harvard.edu/news/article/how-can-data-and-analytics-be-used-to-enhance-city-operations-723

#opendata