Ivan Begtin
7.99K subscribers
1.76K photos
3 videos
101 files
4.47K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Где прочитать про открытые данные, большие данные и технологии в Телеграме

Про данные
@urbandata - городские данные от Андрея Кармацкого. Много про то как работают с данными в городской среде
@Persdata - канал о персональных данных, последние новости и события
@dataleak - тоже про персональные данные, но теперь уже про их утечки
@ai_machinelearning_big_data - канал про большие данные и машинное обучение. Похоже что скорее новостной чем авторский
@just_data_science - дано не обновлявшийся, но интересный канал по data science


Визуализация
@data_publication - дата публикации от Андрея Дорожного, многое про дата журналистику
@mapporn - визуализация данных на картах в примерах
@Infographicru - инфографика, в том числе инфографика на данных
@mapsanddata - карты и данные

#data #channells
В блоге Open Data Charter пост [1] со множеством примеров того какой экономический и социальный эффект даёт публикация данных как открытых данных. Почти все примеры из государственного сектора - где данные создаются на средства налогов и должны быть общественным достоянием.


Ссылки:
[1] https://medium.com/@opendatacharter/examples-of-how-open-data-can-improve-public-sector-performance-1b80a1522dbe

#opendata #opengov
CivicScape [1] - это один из немногих успешных pre-crime сервисов основанных на большом количестве данных от полиции и властей территорий и помогающих оценить наиболее криминальные территории.

В отличие от других подобных проектов таких как PredPol и Hunchlab они делают то что не делает никто из них - они открывают исходный код алгоритмов используемых для оценки криминальности/опасности районов [2].

Ссылки:
[1] https://www.civicscape.com/
[2] https://github.com/CivicScape/CivicScape/

#opendata #opengov #precrime
Журналистика данных - это не только публикации с графиками, группы журналистов расследователей, но и нарастающее число стартапов в этой области с главной специализацией в визуализации данных без программирования.

Свежие и состоявшиеся сервисы:
- Flourish Studio [1] - открылся 1 февраля [2] и позволяет делать сложные интерактивные визуализации и, пожалуй, наиболее интересный по возможностям на сегодняшний момент
- Datwrapper [3] - позволяет создавать простые графики и карты с данными, встраиваемые в страницы
- Datamatic [4] - проект по созданию интерактивной визуализации, был создан в рамках Google Digital News Initiative
- Infogram [5] - один из наиболее закрепившихся стартапов позволяющих создавать инфографику без программирования и встраивать в свои публикации
- Quadrigram [6] - делает акцент не только на визуализации, но и на презентациях и историях рассказываемых онлайн.
- Onodo [7] - пока ещё бесплатный сервис публикации сетевых графов

Всё это онлайн сервисы имеющие бесплатные аккаунты и продающие агентствам и ньюсрумам возможность делать white-label визуализации уже в рамках платных тарифов.

В отличие от open source проектов они не требуют каких-либо существенных технических навыков для работы и гораздо больше подходят для "быстрой журналистики данных".

Ссылки:
[1] https://flourish.studio/
[2] https://flourish.studio/2018/02/01/flourish_public_launch/
[3] https://www.datawrapper.de/
[4] http://datamatic.io/
[5] https://infogram.com/
[6] http://www.quadrigram.com/
[7] https://onodo.org/

#opendata #dataviz
Французы публикуют свой кадастр на портале [1] и раскрывают его целиком большими архивированными дампами в tar.bz2 и в форматах EDIGEO [2] и DXF-PCI - оба формата французско-специфичны.

Важнее объём, а объём данных там велик, десятки гигабайт кадастровых данных

Ссылки:
[1] https://cadastre.data.gouv.fr/
[2] https://fr.wikipedia.org/wiki/EDIGEO

#opendata #opengov #cadastre #france
ТАСС пишут про изменения то что Минобрнауки выпустили приказ о изменении квот на бюджетные места магистров в полтора раза [1].

И действительно в приказе на 2019/2020 году бюджетные места магистров составят всего 129 тысяч [2], против 208 тысяч в приказе 2017 года [3]. В 2016 году численность магистров также не отличалась значительно от 2017 года [3].

К сожалению цифры есть только в PDF'ах, если кто-то решится делать инфографику, то надо будет перевести их в таблицы.

Если о ситуации подробнее то, за каждого бюджетного бакалавра и магистра ВУЗы всегда получали субсидии от Минобрнауки. Для Минобрнауки это всегда было важным административным ресурсом влияния на ВУЗы и сейчас важно не только то на сколько квоты распределены, но и то как будут распределены субсидии по ВУЗам. Потеряют ли они также равномерно все в 1.5 раза, или будут более удачливые и менее удачливые.

Другая сторона этой ситуации в том что процесс сокращения бюджетных мест магистров идёт одновременно с повышением требований к работникам в ряде специальностей, накладывая ограничения на трудоустройство с образованием не менее магистра на уровне требований к вакансиям и в профстандартах.

Ссылки:
[1] http://tass.ru/obschestvo/4945681
[2] https://минобрнауки.рф/%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D1%8B/12234/%D1%84%D0%B0%D0%B9%D0%BB/10574/%D0%9F%D1%80%D0%B8%D0%BA%D0%B0%D0%B7%20%E2%84%96%2048%20%D0%BE%D1%82%2029.01.2018.pdf
[3] https://минобрнауки.рф/%D0%B4%D0%BE%D0%BA%D1%83%D0%BC%D0%B5%D0%BD%D1%82%D1%8B/7942/%D1%84%D0%B0%D0%B9%D0%BB/7138/%D0%9F%D1%80%D0%B8%D0%BA%D0%B0%D0%B7%20%E2%84%96%2040%20%D0%BE%D1%82%2027.01.2016.pdf

#opendata #opengov #edu
Я уже писал ранее что пытаюсь написать статью о том кто и как и зачем регистрирует НКО и чем дальше я её пишу, тем больше понимаю что это куда больше чем статья - надо делать полноценное исследование с цифрами, данными, примерами и интервью, но это небыстрый жанр, хотя и очень важный. И для этого нужен человек готовый за такое исследование взяться со всей тщательностью - так что в качестве анонса, ищу такого исследователя.

А то о чём я хотел и хочу облечь в статью, я попробую изложить тут в сжатой форме.

Итак, зачем регистрируют НКО, как устроены зарегистрированные и то насколько разнообразие целей организаций не совпадает с официальной классификацией организаций.
1. Обязательства. Такие НКО как адвокатские палаты, нотариальные палаты, религиозные организации и ещё около 10 официальных типов НКО регулируются специальными законами фактически это обязательство и ограничения на граждан и предприятий на институционализацию своей деятельности в форме НКО.

2. Уход от ответственности учредителей
Практически все НКО сводят к нулю субсидиарную ответственность учредителей. При возможности назначения номинального директора, НКО используется в дальнейшем для вывода средств без возможности привлечения учредителей к ответственности. Именно по этой причине банки практически не дают НКО кредитов, за редким исключением.

3. Удобная форма государственных учреждений
Есть целый пласт НКО создаваемых государством для реализации конкретных задач. Это и специализированные АНО для Универсиады, Чемпионата мира по футболу, Олимпиады в Сочи и Аналитический центр при правительстве.

Их отличительная черта - это то учредители госорганы и госкорпорации и то что осуществуют они на госсубсидии и госконтракты.

4. Мягкий и жёсткий лоббизм.
Многие НКО создаются для институционализации лоббизма, мягкого или жёсткого. Примеры: ассоциации производителей молока и все остальные ассоциации - это "мягкий лоббизм" основанный на координации членов ассоциации в защите своих интересов перед законодателями и регуляторами.

Жёсткий лоббизм чаще закрепляется в форме "инструментальных АНО" задача которых показывать что деятельность является некоммерческой, но учредителями оказываются юридические лица и физические лица представляющие крупный бизнес и государство, а также обе стороны оказываются сильно вовлечены во взаимодействие и инициативы изначально декларируются как государственные. Организаций жёсткого лоббизма очень мало, но они есть. Например, Агентство стратегических инициатив, АНО Цифровая экономика, Открытое правительство (АЦ Форум) - всё это организации жёсткого лоббизма.

5. НКО как GONGO (government oriented ngo)
Значительная часть некоммерческих организаций регистрируются только в целях получения средств государственной поддержки. Поддержки не только в форме госгрантов, но и грантов для СМИ, имущественной и иной нефинансовой поддержки от субъектов федерации.

6. НКО как корпоративная некоммерческая деятельность

Значительная часть некоммерческих организаций создаётся предпринимателями по мере развития благотворительных программ внутри их бизнеса. В определённый момент они выделяются в отдельное юридическое лицо, корпоративный фонд или благотворительный фонд учредителем которого может быть как компания/компании основателей так и физические лица.

7. НКО как прикрытие

Довольно распространённая форма НКО когда учредители/руководство на самом деле занимаются бизнесом, но для того чтобы была возможность открывать некоторые двери (чиновники не любят говорить с бизнесом) регистрируют НКО. Как правило эти НКО ведут нулевую или фиктивную активность, а все активы учредителей, сотрудники и всё остальное зарегистрированы в коммерческой компании/компаниях.

Однако это тот случай когда не надо такие случаи путать с НКО при которых создаются коммерческие компании. Грань здесь тонка, но она есть.

8. НКО как форма некоммерческой деятельности
Это наиболее известная и вызывающая первую же ассоциации при упоминании некоммерческого сектора деятельность. Благотворительные фонды, НКО занимающиеся изданием книжек, защитой окружающей среды и многое другое - все они являются следствием желания их учредителей придать своей деятельности легальную форму.

Для обывателей и, как ни странно, для большинства представителей некоммерческого сектора именно последняя форма существования НКО находится в поле зрения.

Но именно их от 20% до 30% от всех некоммерческих организаций.

И вернусь к тому с чего я начал эту заметку. Я надеюсь что допишу эту статью подробнее, а также я ищу исследователя готового всерьёз систематизировать сектор и облечь его в текст.

#opendata #opengov #ngo
JetBrains, разработчики множества продуктов для программистов таких как PyCharm, открыли [1] сервис DataLore [2] специально для одержимых data science.

Сервис интересный, продукт международного уровня и сами JetBrains компания с хорошей историей и сильным сообществом.

Пока не берусь сказать приживётся ли их проект и станет ли родным для всех кто копается в данных. Он конкурирует с Andaconda (Jupyter Notebook) и рядом похожих сервисов, но свою нишу он вполне может занять.

Ссылки:
[1] https://habrahabr.ru/company/JetBrains/blog/348696/
[2] https://datalore.io

#opendata #datascience #tools
В Новой Зеландии в декабре объявили открытый конкурс на поиск Chief Technology Officer [1], а сейчас продлили поиск [2] получив пока только всего 60 заявок и пока не получив кандидатов нужных им навыков. Я не удивлюсь если туда придёт кто-то из команд US, UK или Австралии. Подходы к цифровым сервисам там очень близки, язык один, а людей с такими навыками в мире мало и в своей стране найти будет сложно.



Ссылки:
[1] http://www.mbie.govt.nz/info-services/science-innovation/digital-economy/cto
[2] https://www.beehive.govt.nz/release/search-cto-be-widened
The City Centres Database - это база [1] по 10 000 городов собранная в Евросоюзе в рамках The Global Human Settlement [2]. Это большой проект с данными, исследованиями и визуализацией данных о городах. Создатели мониторят не только очевидные данные о убыли/прибыли населения, но и то становятся ли города светлее или темнее, есть ли в них парковые зоны, озеленяются ли они или наоборот темнеют.

На сайте проекта публикуются открытые данные, которые можно использовать в своих проектах.

Обратите внимание на темнеющие города Украины, Пакистана, Нигерии и Западной Европы и яркие точки городов Латинской америки и Азии.

Ссылки:
[1] http://ghsl.jrc.ec.europa.eu/ccdb2016Overview.php
[2] http://ghsl.jrc.ec.europa.eu/index.php

#opendata #opengov #cities
Если каких-то данных нет, то это не значит что они не могут появиться благодаря нашим усилиям. Живой пример таких данных - это данные создаваемые волонтёрами через краудсорсинг. Проект с открытым кодом PyBossa [1] с момента своего появления в 2011 году вырос и обзавёлся полноценной компанией которая его внедряет и постоянно действующей онлайн площадкой Croudcrafting [2].

Краудсорсинг хорошо работает когда есть много несложных задач и текст или изображения которые можно выдать массовой аудитории для ответов на простые вопросы.

Примеры:
- Gender and Tech Magazines [3] - исследование частоты упоминания женщин в технических журналах. Надо смотреть на картинки сканов журналов и отвечать на простые вопросы.
- Вики любят памятники [4] - проект российских википедистов, почему-то совершенно непопулярный
- Science photography [5] - поиск изображений и фотографий на страницах исторических журналов Scientific American

Конечно, далеко не все проекты по краудсорсингу успешны. Всё зависит от способности привлечь внимание волонтёров со стороны организаторов и того насколько точно сформулированы задачи, как подобран первичный материал и тд.

В этом и состоит бизнес Scifabric [6] , создателей Croudcrafting и Pybossa. Они консультируют и сопровождают проекты обеспечивая им постоянную поддержку.

В России к подобному data краудсорсингу можно отнести проект OpenCorpora [7] создающему открытый корпус русского языка усилиями волонтёров. Это проект с открытым кодом [8] и устойчивым сообществом существующий с 2009 года с впечатляющими результатами. В отличие от национального корпуса русского языка [9], в нём публикуются открытые данные со всем содержанием корпуса.

Эти примеры - это иллюстрация общего принципа работы с данными заключающегося в том что часто чтобы получить нужны данные - их нужно создать, своими руками и руками волонтёров. Чем бы Вы не занимались - исследованиями в молекулярной биологии, лингвистике или гендерными исследованиями, во всех случаях Вы можете создавать краудсорсинговые проекты которые, совмещённые с анализом данных, и позволяют получать очень интересные исследования и продукты как результат.

Ссылки:
[1] https://pybossa.com/
[2] https://crowdcrafting.org/
[3] https://crowdcrafting.org/project/genderandtechmagazines/
[4] https://crowdcrafting.org/project/WLMRussia/
[5] https://crowdcrafting.org/project/sciencephotography/
[6] https://scifabric.com/
[7] http://opencorpora.org/
[8] https://github.com/OpenCorpora
[9] http://ruscorpora.ru/

#opendata #crowdsourcing
Из речи Генерального прокурора на коллегии по итогам 2017 года https://genproc.gov.ru/upload/150218.pdf . #digitalgov
Открытые данные публикуют далеко не только государственные органы, свои порталы создают крупные некоммерческие организации и собирают туда данные со своих проектов. Пример такого портала это data.mysociety.org [1] от MySociety которые собирают там собственные данные, данные проекта EveryPolitician и результаты исследований.

Их портал сделан на очень маленьком и простом движке jKAN [3] являющегося генератором статического сайта на базе Jekyll. Главное достоинство - это простота и удобство внедрения тем кто работает с github'ом как основным инструментом. И, конечно же, скорость, потому что сайт получается статический. Главный минус имеет ту же природу статического сайта - сайт легко вести одной организации, но если их больше одной то уже есть сложности.

Ссылки:
[1] http://data.mysociety.org/
[2] http://mysociety.org
[3] https://jkan.io/

#opendata #opengov #dataportals
Можно ли зарабатывать на сервисе написания хороших текстов? Я имею в виду не мелкий пассивный заработок и не содержание толп SMM'щиков и копирайтеров, а технологичный бизнес на данных и текстах.

Стартап Textio [1] занимается тем что предоставляет инструмент для работодателей для улучшения описания вакансий. Они отслеживают корпоративные штампы, стиль языка, слишком короткие предложения и многое другое что помогает сделать тексты более эффективными.

В отличие от других областей применения таких сервисов, тут есть очень прямая корреляция между качеством объявления и откликами кандидатов, поэтому и сервис легко измерить по качеству. Сервис приностит экономию на рекрутерах и хорошо интегрируется с сервисами размещения объявлений о работе.

Всё это основано на большом объёме данных [2] которые создатели продукта собирают из публичных источников и анализируют на основе проходящих через них текстов.

За 3 года существования основатели подняли инвестиций на 29.5 миллиона USD [3].

Ссылки:
[1] https://textio.com
[2] https://textio.com/data/
[3] https://www.crunchbase.com/organization/textio

#data #lang #startup
ФАС России проводит опрос [1] по тому использует ли кто-либо их открытые данные. Скажу честно, проводят они его сами, ни со мной, ни с другими коллегами они не советовались и, вроде как, их к нему никто не принуждал. Так что это и хорошо что они ведут работу над тем чтобы говорить с аудиторией - пусть и путём опроса.

Прошу найти немного времени и пройти опрос, хотя бы и по тому чтобы у них не пропадала мотивация раскрывать данные. К вопросу о том что могут раскрывать органы власти, например, декларации о доходах руководителей практически ни одно ведомство не публикует в машиночитаемых форматах и хорошо ещё если не делают это в форматах сканов или картинок.


Ссылки:
[1] http://fas.gov.ru/surveys/29

#opendata #fasrf
Роскомнадзор публикует много открытых данных у себя на сайте http://rkn.gov.ru/opendata. Некоторые файлы ну такие, большие, на пару сотен мегабайт или гигабайты.

Но отдаёт их сайт их со скоростью 45KB/sec. Пару гигабайт так качать займёт 10 часов. А уж про архивацию их сайта, слов нет, одно сдавленное мычание и рука-лицо.

Органам власти на заметку. Если надо что-то публиковать, но оооочень не хочется. Например, декларации руководителей, или что-то полезное - рубите трафик к ним до 1KB/Sec !

Все формальные требования будут соблюдены. Кроме самых дотошных - никто не подкопается. Если что, говорите что это Ваша защита от DDoS.

#opendata #opengov
Forwarded from Городские данные (Andrey Karmatsky)
3 – 4 марта в Иннополисе состоится геоинформационный хакатон «Гадание на картах». Организаторы приглашают к участию всех желающих, кому небезраличны ГИС-технологии и их применение в различных областях, в том числе и в решении городских проблем.

Среди заявленных тем — геомаркетинг, городская аналитика, навигация, ГИС в черезвычайных ситуациях, обработка данных дистанционного зондирования (аэро и космоснимки).

Процитирую из анонса тему про Urban Analytics
Сделай городскую среду лучше и интересней.
— создай инструмент взаимодействия города, бизнеса и жителей на одной площадке;
— контролируй состояние городской инфраструктуры по данным дистанционного зондирования;
— используй идеи по 3D-моделированию городской инфраструктуры для решения задач бизнеса;
— моделируй в пространстве и времени устойчивое развитие нового жилого района;
— оценивай качество районов проживания жителей с учетом функционального назначения объектов окружения и мнений жителей.

Заявки от команд принимаюся на сайте организаторов до 2 марта: https://hack.gismart.ru/