Ivan Begtin
8.01K subscribers
1.75K photos
3 videos
101 files
4.47K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Признаться мне очень не хотелось и не хочется сейчас комментировать инициативу по поводу большой советской российской энциклопедии как замену Википедии. Не хочется не потому что нечего сказать, а потому что жить в режиме обязательной реакции на негатив утомляет. Но, видимо, всё таки придётся.

Чтобы понять на что выделяют деньги федеральные власти важно вначале понять что такое Википедия и как устроено распространение знаний в современном мире.

За последние 10 месяцев (с 01.01.2019 по 01.11.2019)
- 26,5 миллионов просмотров страниц в сутки
- 11 тысяч активных участников
- 6 миллионов страниц
- 1,6 миллионов статей
- 103 миллиона правок
- 221 тысяча изображений

Много это или мало? Это очень много. Википедия является одним из наиболее посещаемых сайтов в мире, а российская версия - одним из наиболее популярных сайтов в России и во всех странах СНГ.

Почему Википедия так популярна? Здесь много факторов срабатывающих одновременно:
- изначальная благая цель на сохранение знания и нейтральная позиция
- набор критической массы саморегулируемого сообщества
- огромное число контрибьюторов со всех стран мира
- финансовая поддержка глобальных корпораций, частных лиц, частных фондов и тд.
и, конечно же, открытые данные и открытость в целом.

Вот уже много лет как все данные Википедии публиковались и публикуются под свободной лицензией Creative Commons [1], а все данные доступны как открытые данные на сайте дампов [2] фонда Викимедиа, где кроме Википедии есть ещё и все остальные проекты фонда.

Что означает доступность открытых данных? То что данные Википедии активно используются учёными, исследователями, учащимися для изучения программирования и, безусловно, они активно используются всеми крупнейшими корпорациями и сервисами. Google и Яндекс встраивают сведения в поиск не просто как ссылки в поисковой выдаче, а в виде подсказок и, хотя поисковые сервисы и создают до 84% трафика в Википедию [3] тем не менее они активно стараются использовать контент оттуда чтобы удержать пользователя в своей поисковой строке. Подобный качественный бесплатный контент создаваемый сотнями тысяч волонтеров по всему миру и приводит к тому что многие компании поддерживают Википедию технически, финансово и иными способами. Например, Яндекс в России поддерживает один из проектов фонда Викимедиа - Wikidata, и звучат призывы к Google и Facebook больше поддерживать Википедию [4].

Но и без их поддержки Википедия является ключевым, можно сказать одним из центральных ресурсов в сети, ключевым ресурсом на который ссылаются поисковые машины, ключевым источником структурированного знания доступного всему человечеству и пока не имеющему сколь бы то ни было сравнимых по управлению и масштабу альтернатив.

Конечно решение о создании "альтернативы Википедии" не экономическое, у него политическая предыистория, в которой больше страшилок, чем реальной необходимости и возникает много вопросов о том насколько далеко российские регуляторы будут готовы пойти в продвижении Большой Российской новой энциклопедии (далее - БРНЭ).


1. Основной трафик Википедии приходит из поиска, необходимо ли ожидать требований к поисковым системам в России по регулированию поисковой выдачи, в том числе удалению ссылок на Википедию и добавление ссылок на БРНЭ?
2. Как именно предполагается привлекать основной костяк из тысяч редакторов статей в БРНЭ?
3. Есть ли опыт у получившей финансирование команды в запуске проектов сравнимых с Википедией по масштабу и объёму статей?
4. Есть ли, в принципе, концепция и стратегия создания БРНЭ и если да, то где именно можно её увидеть?
5. Почему в показателях выданной субсидии [5] на создание БРНЭ отсутствуют показатели посещаемости, вовлечённых авторов, подготовленных статей?
6. Будут ли все созданные доступны под свободными лицензиями, а база целиком в виде открытых данных?

Да и рпыт ранее "утонувшего" [6] поисковика "Спутник" не даёт многих надежд на успешность БРНЭ.

У меня осталось ещё много вопросов, но я начинал с того что очень не хочется постоянно реагировать на негатив и очень хочу закончить на позитивной ноте.
А как же правильно? А что же делать? А то критиковать могут многие, а ты предложи (c)
А я и предлагаю (с):
1. Большую Российскую энкциклопедию необходимо "закрыть со всем уважением" (c) так скоро сколь только возможно. Помещение превратить в музей Большой советской энциклопедии, субсидию вернуть, далее выпуск бумажных/электронных/любых иных томов энциклопедии не финансировать. БРЭ не сумело выйти на самоокупаемость, как энциклопедия Британника, не способно существовать без господдержки и просто не соответствует нынешним реалиям востребованности.

2. Раз у федерального правительства есть столь много свободных средств на развитие качественного контента, то решение в том чтобы устроить непрерывно идующий конкурс в котором выделять ежемесячно до 10 миллионов рублей на премирование за написание с нуля статей в Википедии. Лучшим 50 авторам по 50 тысяч, следующим 100 авторам по 25 тысяч, следующим 500 авторам по 5 тысяч и ещё 1000 авторов по 2.5 тысячи. Каждый месяц. Непрерывно. Обойдётся это бюджету не более чем в 120 миллионов рублей в год или 360 миллионов рублей за 3 года. Да тут ещё и экономия возникнет немалая.

3. Создать Фонд поддержки знаний по аналогии с Фондом кино и финансировать на конкурсно-грантовой основе проекты по преумножению знаний. Материальная поддержка может помочь жить многим вики-проектам альтернативным Википедии [8], а они тоже имеют право на жизнь и они куда как более полны чем БРЭ, даже если не столь энциклопедичны. Не говоря уже о бесконечном множестве более узких вики-проектов не имеющих возможности находить финансирование у Фонда президентских грантов или иных источников финансирования.

В качестве послесловия тезисами:
- конкуренция и гранты - это хорошо, отсутствие конкуренции и субсидии - это плохо;
- БРЭ необходимо превратить в музей. Виртуальный и реальный, а все накопленные статьи опубликовать под Creative Commons;
- конкурс на статьи в Википедии резко повысит и качество статей, и заинтересованность участников и даст возможность гражданам России больше узнать о истории родины и многих других знаниях о которых напишут авторы;
- проекты альтернативные википедии существуют и заслуживают хотя бы небольшой, но поддержки;

Как видите позитивная повестка и вполне конкретное решение у меня тоже есть.

Ссылки:
[1] https://ru.wikipedia.org/wiki/Википедия:Текст_лицензии_Creative_Commons_Attribution-ShareAlike_3.0_Unported
[2] https://dumps.wikimedia.org/
[3] https://www.similarweb.com/website/ru.wikipedia.org#search
[4] https://www.wired.co.uk/article/wikipedia-google-youtube-facebook-support
[5] https://sub.clearspending.ru/subsidy/13519PH6000/
[6] http://www.tadviser.ru/index.php/Компания:Спутник_Поисковый_портал
[8] http://wikireality.ru/wiki/Альтернативные_Википедии_википроекты

#opendata #openknowledge #wikipedia
История с предустановкой российского ПО на смартфоны не так проста как кажется. Как и во многих других случаях лично я с трудом сдерживаюсь от "просто критики" и думал могу ли я написать об этом в форме описания последствий и альтернатив. Я очень постараюсь.

Итак, российские депутаты в законопроекте № 757423-7 [1] предлагают:
а) Обязать предустанавливать на продаваемые в России смартфоны и иные устройства российское программное обеспечение.
б) Дать Правительству РФ возможность определять порядок установки и список устанавливаемого ПО

В пояснительной записке [2] это описано следующием образом
---
Законопроект направлен на обеспечение для российских пользователей сети Интернет и услуг связи возможность использовать приобретаемое оборудование (смартфоны, компьютеры, телевизоры с функцией «смарт-ТВ») без необходимости установки дополнительных мобильных приложений и иных программ для ЭВМ, ориентированных на работу с российскими пользователями таких устройств.
---
Прежде чем огульно ругать или хвалить эту инициативу необходимо объяснить как сейчас устроен мир и экономика вокруг электронных устройств, в первую очередь телефонов. Этот мир можно разделить на следующих интересантов:
- производители устройств, "железа". Это такие компании как Apple, Samsung, Xiaomi, Sony, Huawei и др.
- создатели экосистемы, в первую очередь ОС. Крупнейшие сейчас это Apple, Google и Microsoft
- разработчики приложений (игроки экосистемы). Их невероятное множество, сюда подпадают: Facebook, Twitter, Яндекс, Mail.ru, Telegram и бесконечное число других ;
- разработчики сервисов для разработчиков приложений. Системы слежки, внутренние библиотеки и сервисы через которые разработчики приложений следят за потребителями. Такие как: AdColony, Segment, Teemo, Tealium и сотни других.
- государственные регуляторы, обеспечивающие защиту потребителей в цифровой среде, антимонопольное регулирование и тд.
- правоохранительные органы и спецслужбы, заинтересованные в получении данных о людях в целях обеспечения безопасности
- общества защиты цифровых прав, как подвид обществ защиты прав потребителей и правозащитных организаций
И, конечно, всё это построено вокруг пользователей/граждан, всех тех кто пользуется устройствами и приложениями

Роли части игроков пересекаются. Например, Google является одновременно создателем железа, владельцем крупнейшей экосистемы, разработчиком приложений и разработчиков сервисов для компаний создающим приложения.

У всех игроков в этой среде есть своя повестка и своя стратегия.

1. Производители устройств
- сохранить и увеличить свою долю на рынке
- эффективно интегрироваться в существующие экосистемы
- обеспечить себе дополнительный заработок предустановкой приложений на устройства;
- создавать собственные экосистемы;

Пример: Samsung создаёт устройства на базе Android и обязано предустанавливать сервисы Google и жить в экосистеме Android (Google). При этом они параллельно стараются создать свою экосистему с их Galaxy Store [3] через который также можно устанавливать приложения.

2. Создатели экосистемы
- сохранить и расширить свою экосистему на новые устройства;
- обеспечить себе наибольшую маржинальность от своей экосистемы;
- привлечь в экосистему большее число разработчиков приложений;
- привлечь в экосистему большее число разработчиков устройств (за исключением Apple которые сами производят устройства);
- защитится от госрегулирования их экосистемы;
- выдержать баланс между опасениями граждан в нарушении приватности и требований правоохранителей по доступу к данным;

Пример: Google создали экосистему Android и взаимодействуют как с разработчиками устройств, так и с разработчиками приложений и регуляторами для обеспечения роста экосистемы и максимальной своей прибыльности.
3. Разработчики приложений
- эффективно встроиться в существующие экосистемы(-у);
- обеспечить максимальную маржинальность приложений из всех возможных источников (реклама, платные приложения, торговля данными пользователей и тд);
- защитится от монопольного присутствия владельца экосистемы в наиболее востребованных темах;
- собирать данные, как в целях оптимизации своих приложений и рекламы, так и в целях перепродажи данных;
- создавать собственные экосистемы (для крупных разработчиков);

Пример 1: У Яндекса нет своих сколь бы то ни было популярных устройств или мобильной экосистемы, но есть множество приложений. Яндекс встраивает их в экосистемы Apple, Google, Microsoft и других и одновременно конкурирует с владельцами экосистем у которых есть похожие продукты.

Пример 2: Китайские регуляторы ограничивают использование Google App Store в Китае, по этой причине многие местные компании имеют возможность создавать свои магазины приложений и такие магазины приложений создают не только компании производители устройств, но и разработчики приложений [4]

4. Разработчики сервисов и инструментов для создателей приложений
- охватить максимально большее число приложений во всех возможных экосистемах;
- зарабатывать как на платных сервисах для разработчиков так и на сборе и продаже данных
- защитится от монопольного присутствия владельца экосистемы в наиболее востребованных темах;
- противодействовать регулированию государством сбора и обработки персональных данных

Пример: Компания Segment [5] предоставляет услугу разработчикам приложений и сервисов по интеграции их данных из десятков разных источников. Она не создаёт свои приложения, но интегрирует данные из приложений разработчиков в разных экосистемах.

5. Государственные регуляторы
- должны быть заинтересованы в присутствии местных разработчиков приложений и создателей экосистемы на общем рынке приложений;
- должны быть заинтересованы в конкуренции и развитии цифровых рынков;
- должны быть заинтересованы в защите прав граждан/потребителей в соответствии с местными законами;
- ограничены во влиянии на рынок своей юрисдикцией и размером рынка.

Пример: Евросоюз в антимонопольном давлении на Microsoft добился того чтобы пользователь не по умолчанию использовал Internet Explorer, а имел бы выбор для большинства основных функций программ-по-умолчанию (default applications).

6. Правоохранительные органы и спецслужбы
- заинтересованы в оперативном получении информации по конкретному человеку/группе лиц/организации из всех возможных цифровых источников;
- используют все возможные легальные и нелегальные способы сбора данных;
- имеют доступ ко всем данным компаний находящих в юрисдикции их стран (прямой или по запросу)
- имеют ограниченный доступ, обычно по запросу или через другие правоохранительные органы к данным в чужих юрисдикциях).

Пример: МВД России имеет возможность напрямую или через решение суда запросить данные практически у любой организации в РФ,

7. Организации по защите цифровых прав
- просвещают граждан о том как устроена слежка за ними
- оказывают судебное и медийное давление на корпорации
- оказывают судебное и медийное давление на правительства/органы власти
- в зависимости от источника финасирования (частные пожертвования, корпоративные пожертвования или госгранты) выбирают фокус своей работы
Пример: EFF и Exodus privacy существуют на частные пожертвования и исследуют отслеживание пользователей разработчиками приложений. Ряд НКО при частной и государственной грантовой поддержке исследуют цифровую слежку за гражданами в авторитарных странах.

Вернёмся к законопроекту предлагаемому в России. В контексте написанного выше надо понимать среду в которой он принимается:
- в России нет компаний имеющих собственные самодостаточные и сколь бы то ни было заметные на рынке экосистемы;
- в России нет компаний со значимым рынком устройств, подавляющее число смартфонов - это Android или Apple, компьютеров - Microsoft и Apple, для других устройств - другие не-российские производители;
- в России есть несколько заметных игроков в создании приложений конкурирующих с мировыми игроками. Это MRG и Яндекс и на этот рынок стремительно рвутся другие игроки;
- в России, в отличие от многих стран, государство тратит средства на создание мобильных приложений. Приложения Госуслуги, Личный кабинет налогоплательщика и др, в большинстве стран таких приложений нет и государственные органы не создают их.
- в России есть сильный тренд на усиление спецслужб в цифровой среде. Законы Яровой, "О суверенном рунете" и так далее иллюстрируют это явление.
- в России цифровые сервисы пока отсутствуют на повестке защиты прав потребителей - как НКО так и органами власти, большая часть регулирования происходила без акцента на правах граждан;

Итого мы имеем ситуацию когда, в законопроекте:
- всё выведено в решение Правительства. Закон очень рамочный и даёт возможность Правительству как самому устанавливать правила так и передать полномочия в Минкомсвязь или Роскомнадзор. Как именно это будет сделано пока непонятно.
- в законопроекте ничего нет про защиту конкуренции которую там как бы декларируют. Например то что у пользователя должен быть выбор между тем какое ПО может быть предустановлено у него. Например, какое приложение для почты будет установлено в итоге на новом телефоне - Яндекса или Mail.ru ?
- в законопроекте ничего нет про процедуру отбора и определения приложений для предустановки, опять же всё на откуп Правительству. Без прозрачной процедуры отбора приложений - эта тема коррупционноёмка
уже есть справедливые опасения что ряд приложений будут следить за пользователями - например если будет требование по предустановке антивируса. Необходимы методы верификации приложений на предмет удаления из них следящих модулей. Иначе мы окажемся в ситуации когда Правительство _обяжет_ компании следить за гражданами и _обяжет_ граждан иметь программы на телефоне следящие за гражданами.
- почти неизбежно в списке приложений появятся приложения Госуслуг и ФНС и это, с одной стороны ускорит цифровое проникновение государства, а с другой создаст ситуацию когда правоохранительным органам и спецслужбам не придётся даже запрашивать данные у российских разработчиков, они получат их напрямую из Минкомсвязи и ФНС России.

В качестве заключения
До принятия законопроекта мы имели ситуацию когда гражданин имел право выбирать кто за ним следит и как. Государство могло бы и может выступать как защитник цифровых прав гражданина и потребителя. С того момента как закон будет принят - не только Яндекс, Mail.ru и др. будут отвечать за ту слежку которую они осуществляют, но и Правительство обязывающее производителей устанавливать их приложения. Наличие государственных приложений на телефонах и иных устройствах граждан даст возможность новой, беспрецедентной слежки за гражданами, а также создания обширной сети государственной цензуры охватывающей конечные устройства граждан.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/757423-7
[2] http://sozd.duma.gov.ru/download/EA989F41-969E-40C1-A548-A33139B28958
[3] https://www.samsung.com/global/galaxy/apps/galaxy-store/
[4] https://www.24hchina.com/chinese-app-store-list/
[5] https://segment.com/

#privacy #mobile #government
Приватность - это всегда часть безопасности, но охватывает не только специалистов, но и тех кто весьма далёк от технологий.

Канадская лаборатория при Университете Торонто - The Citizen Lab [1] специализирующиеся на исследовании технологических аспектов защиты прав граждан совместно с подразделением Jigsaw [2] компании Alphabet (Google) выпустили онлайн руководство Security Planner [3] в котором в простой и доходчивой форме, со ссылками и объяснениями собрали советы по обеспечению собственной безопасности и приватности онлайн.

Руководство организовано в виде интерактивного визарда, с выбором устройств (инструментов) которым требуется приватность, основных опасений которые возникают и вопросов на которые хотелось бы найти ответы. В итоге формируется список персональных советов.

Особенность именно этого гайда - это интерактивность и человекоцентричность. Специальных знаний в технологиях не требуется, а там где нужно предпринимать специальные действия, там даты необходимые уточнения.

Ссылки:
[1] https://citizenlab.ca
[2] https://jigsaw.google.com/
[3] https://securityplanner.org

#privacy #security
Для тех кто интересуется отчётами о прозрачности, около 70 компаний в мире публикуют их на добровольной основе, многие в виде открытых данных для последующего анализа.

В индексе отчётов AccessNow [1] собраны ссылки на отчёты телекоммуникационных компаний, крупнейших технологических корпораций, VPN сервисов и даже Википедии.

Сейчас наблюдается стагнация в том сколько компаний публикуют такие отчёты и как часто они публикуются. Эта форма саморегулирования, является демонстрацией того что можно назвать саморегулированием отрасли.

За исключением Китая, России и многих других стран.

Ссылки:
[1] https://www.accessnow.org/transparency-reporting-index/

#privacy #transparency
Когда в 2009 году я впервые публиковал исследование про латиницу в госзакупках [1] я знал что по итогам начнётся "охота на ведьм", похожие "нюансы" искали многие, особенно команда Роспил'а Навального, одной из особенностей их команды всегда было не ссылаться на других расследователей, даже если расследования Роспил'а про латиницу были вторичны. Но это, как бы, неудивительно. В России вообще культура упоминания результаты работы других, мягко говоря, не на высоте.

А вот когда в мае я опубликовал 3 части исследования про утечки персональных данных из удостоверяющих центров [2], электронных торговых площадок [3] и государственных информационных систем [4] и последующая публикация в РБК [5] я знал что эти публикации откроют ящик Пандоры. В отличие от "латиницы" и других нарушений в госзакупках - работа с приватностью и утечками данных - это всегда работа имеющая "сопутствующий ущерб". Именно по этой причине я когда публиковал и передавал РБК материалы делал это максимально осторожно, люди чьи данные раскрываются точно не виноваты в факте публикации их данных. А сами исследование публиковалось только после того как ранее за 8 месяцев до передачи их РБК они направлялись в Роскомнадзор.

Поэтому когда я вижу вот это "исследование" Daily Storm [6] о публикации паспортных данных на госсайтах и сайтах муниципалитетов - попахиват от него дурно. И отчасти я ощущаю свою вину в том что показал масштаб проблемы и привлёк тех кто не имеет этических принципов и эксплуатирует тему утечек персональных данных, а с другой стороны конкретно вот этот пример публикации Daily Storm - это то за что они должны были/будут получить предупреждения от Роскомнадзора.

Ссылки:
[1] https://old.begtin.tech/2009/06/02/про-то-как-проводить-закупки-так-чтобы/
[2] https://begtin.tech/pdleaks-p1-uc/
[3] https://begtin.tech/pdleaks-p2-etp/
[4] https://begtin.tech/pdleaks-p3-govsys/
[5] https://www.rbc.ru/politics/29/04/2019/5cc2df569a7947c83b69b0d5
[6] https://dailystorm.ru/obschestvo/kak-personalnye-dannye-rossiyan-popadayut-v-set-issledovanie-daily-storm

#privacy #badjournalism
Минкомсвязь опубликовали проект приказа о перечне систем для эксперимента государственной облачной платформе, дословно "Об утверждении перечня информационных систем и информационных ресурсов, подлежащих переводу в государственную единую облачную платформу " [1].

Если кратко то сейчас в ней участвуют:
- ФТС России
- ФСС
- Минтруд России
- Минюст России
- Росархив
- Росимущество
- Ростехнадзор
- ГФС России

Из них ГФС России и Ростехнадзор, по сути, полностью на неё переходят, у остальных органов это касается только ряда их информационных систем.

Что тут скажешь, всегда важно не то кто и что есть, а то чего нет. Нет там крупнейших ФГИС под управлением ФНС, Минфина, Федерального казначейства. Нет ничего относящегося непосредственно к Минкомсвязи, ничего нет относящегося к непосредственно работе Правительства.

А сами переносимые системы - непонятно как экспериментируются. Они же не взаимодействуют между собой, параметры "эксперимента" не определены.

В принципе же есть много разных стратегий создания и использования государственных облаков. Основная стратегия - это сертификация частных решений и право заказчика/госоргана выбирать одного из них. Впрочем бывают основания и для создания единого облака - например для оптимизации сервисов.

Важные аспекты той же облачной платформы в том как в дальнейшем будет оптимизироваться вся эта инфраструктура.
Например: для каждого ФОИВа там по прежнему останутся экземпляры для Гаранта и Консультанта или всё сведётся к централизованной закупке и инсталляции?

Например: внутренние системы электронной почты заменят наконец-то на gov.ru или будет столько почтовых серверов сколько ФОИВов?

То же самое со всеми дублирующимися сервисами - есть ли стратегия их объединения?

Ссылки:
[1] https://regulation.gov.ru/projects#npa=96900


#cloud #govtech #government
В Фонтанке вышло интервью с Дмитрием Песковым про цифровой суверенитет [1] и Дмитрий говорит про его неизбежность и необходимость и нормальность. Я позволю себе с Дмитрием, в данном конкретном случае, не согласится. Потому что правильное название того явления которое, действительно, развивается по всему миру - это не цифровой суверенитет, а цифровой национализм. Об этом пишет WSJ [2] и, в радикальной форме, цифровой национализм изоляционисткого типа построен в Северной Корее, а более продвинутый в Китае, основанный как на масштабе китайского рынка так и на наличии национальных компаний способных создать инфраструктуру для такого цифрового изоляционизма.

Проблема цифрового изоляционизма в том что он возможен только при наличии технологий которые его обеспечивают. А эти технологии в России, увы, будут не импортозамещаться, а китаем-замещаться в итоге.

А уж хорош или плох цифровой национализм и чем он отличается от просто национализма, оставлю для дискуссий политологов.

Ссылки:
[1] https://www.fontanka.ru/2019/11/08/099/
[2] https://www.wsj.com/articles/the-rising-threat-of-digital-nationalism-1157262057

#digital
Оказывается я совершенно упустил эту новость, но в июне этого года оказывается Google купили за 2.6 млрд долларов США сервис Looker [1], один из лучших облачных сервисов по Business Intelligence. Теперь сервис переползает на Google Cloud, а в Google Cloud появляется нечто что имеет реальную ценность для многих корпоративных пользователей.

В принципе скупка онлайн BI сервисов крупными облачными игроками - это нечто что находится прямо на поверхности. Одна из проблем внешнего BI - это необходимость открывать для сервисов доступ к своим СУБД дистанционно и гонять довольно большие объёмы данных, а также безопасность вот этого всего. Перенос в облако даёт возможность и данные из облака подгружать и безопасность обеспечивать без необходимости открывать порты/коннекторы к конкретным базам данных.

Аналогично Looker'у в мае 2019 года был куплен Periscope Data [2], правда купили их Sisense, создатели другого BI решения, но я предсказываю что те облачные провайдеры которые не купят или построят свой BI будут договариваться о развертывании платформ на своей инфраструктуре.

Ссылки:
[1] https://looker.com/
[2] https://www.periscopedata.com/

#bi #businessintelligence #analytics
ФСБ России раскритиковало законопроект о цифровых профилях граждан [1] и предупредила о риске утечек из создающейся единой базы персональных данных. В целом ранее ФСБ столь резко не давали своего отзыва на эту инициативу, но отзыв был неизбежен. Лично я в беседах с коллегами который занимаются этой темой ещё год назад "ванговал" что инициатива малореалистичная.

Но, цифровой профиль это полбеды, в системе федерального НСУДа предполагалось если не хранить, то уж точно обрабатывать персональные данные. Риски безопасности работы с перс. данными там лишь немногим меньше чем в цифровом профиле. Вся затея с НСУДом на федеральном уровне может выродится до создания реестра метаданных по информационным ресурсам, занятие не то что бессмысленное, но способное съесть бюджет любого размера при сложно измеримом экономическом или социальном эффекте.

Впрочем, работа с перс данными граждан и внимательное наблюдение спецслужб за этим - это вторая по масштабам проблема нацпрограммы "Цифровая экономика", первая всё же в управлении ей и исполнении мероприятий программы.

Ссылки:
[1] https://www.kommersant.ru/doc/4156290

#digitaleconomy #privacy
Глядя на созданный (относительно) недавно Минкомсвязи России Российский фонд развития информационных технологий [1] и совершенно точно недавно объявивший огромный конкурс на гранты по сквозным технологиям [2] очень хочется задать множество вопросов:

1. Где можно увидеть список и состав экспертных советов фонда предусмотренных к созданию согласно уставу фонда ? [3]
2. Когда раздел "Раскрытие информации" [4] перестанет быть в разработке?
3. Будет ли рассмотрение заявок транслироваться в реальном времени и публиковаться видео работы комиссии, как это делает Фонд президентских грантов, например?
4. Будут ли публиковаться протоколы рассмотрения заявок и в протоколах фиксироваться конфликты интересов?
5. И, не знаю, самый ли главный вопрос, но где Олег Пак? Все зам. министра Минкомсвязи участвуют в одном из советов фонда и только Олега Пака там нет совсем. Что случилось?
6. Как так получилось что в фонде распределяющим субсидии на миллиарды высшим должностным лицом является министр. Не вице премьер, не советник при Президенте РФ, а министр?

И, последний, возможно риторический, вопрос. А есть ли в России хотя бы один государственный фонд поддержки стартапов, технологий, раздачи грантов или субсидий и тд. который проходил бы регулярный независимый внешний аудит, хотя бы одной из компаний из "большой четверки" аудиторов в России ?

Ссылки:
[1] https://рфрит.рф
[2] https://рфрит.рф/support-measure
[3] https://рфрит.рф/attachment/13/download/ustav
[4] https://рфрит.рф/docs#tabs-5

#techpolitics #rfrit
Amazon, помимо того что уже давно является одним из лидеров ИТ инфраструктуры, теперь ещё и выходят в лидерство по работе с данными. Новый продукт Amazon Data Exchange [1] даёт возможность владельцам/операторам продавать данные, а покупателям приобретать их и всё это проделывать на инфраструктуре AWS. Это всё удобно и продавцам, поскольку это централизованный сервис охватывающий миллионы потребителей и для пользователей которые получают данные сразу внутри своей инфраструктуры.

Возможно ли подобное в России? О Data Exchange говорят многие, но реально построить подобное непросто, поскольку необходимо:
1. Привлечь продавцов/владельцев наиболее востребованных данных
2. Сконцентрировать клиентов на одной площадке, при том что у них много разной инфраструктуры, чаще внутренней чем внешней.

Например Яндекс или MRG не подходят к этой роли, у всех на рынке будет ощущение что их данные будут доступны этим компаниям забесплатно. Поэтому они не годятся как такие посредники. Теоретически подобное мог бы организовать один из крупных/крупнейших российских облачных провайдеров, но достаточно ли созрел рынок ?

А пока Амазон является довольно интересным источником альтернативных данных.

Ссылки:
[1] https://aws.amazon.com/ru/data-exchange/

#data #dataexchange
Проект OpenRefine, бесплатный инструмент с открытым кодом по обработке и очистке данных некогда выделенный Google как Google Refine, а далее перешедший в свободное плавание теперь получил грант на 200 тысяч долларов США от фонда Чан-Цукерберг [1]. Много это или мало? Для небольшого некоммерческого проекта - много, для стартапа - очень мало.

Грант предоставляется на две цели:
- развитие сообщества вокруг OpenRefine, для привлечения разработчиков контрибьюторов кода
- переделка ядра продукта и архитектуры инструмента для поддержки датасетов большего объёма и улучшения потоков данных.

Подробнее в их заявке на грант [2]

Этот и многие другие проекты поддержаны в рамках грантового конкурса Essential Open Source Software for Science [3] где более чем 32 проекта ориентированных на решение научных задач и все они обязательно с открытым кодом.

Оборотная сторона, позитивная сторона, ИТ гигантов и дата корпораций в том что почти весь мир использует, например, код Apache Foundation [4] или Numfocus [5] финансируемыеза счёт их поддержкии многие другие фонды открытого кода существуют на схожих принципах.


Ссылки:
[1] http://openrefine.org/blog/2019/11/14/czi-eoss.html
[2] http://openrefine.org/images/czi-eoss-proposal.pdf
[3] https://chanzuckerberg.com/eoss/proposals/
[4] https://www.apache.org/foundation/thanks
[5] https://numfocus.org/

#opensource #data #openrefine
Аналогичная инициатива во Франции натолкнулась на законодательный запрет в разработке алгоритмов предсказания судебных дел, поскольку алгоритмы создавали цифровой профиль судьи и могли помогать сторонам дела в выборе правильной стратегии. А в Казахстане наоборот, хотят "разгрузить судей".

Работать, быть может, будут в будущем и не роботы, но роботы-судьи в ближайшем будущем нас поджидают.

#data #ai
Электронный судья Казахстана

В 2020 году в Казахстане запустят систему с использованием искусственного интеллекта для предсказывания исхода судебных решений.

Палата казахстанских предпринимателей совместно с Верховным судом разрабатывает модель искусственного интеллекта, которая позволит прогнозировать исход судебного дела даже до подачи иска. Система будет работать на основе принципов smart-аналитики.

Разработчики заверяют, что новая система позволит в будущем разгрузить суды на 70%, ведь smart-аналитика позволит потенциальному истцу спрогнозировать исход дела даже до подачи иска. На специальном портале достаточно будет заявить ключевые слова для поиска, либо описательную часть иска. В базе уже загружено 1,2 млн судебных актов, 120 тыс. исковых заявлений. Что важно, после каждых новых 50 тыс. актов система будет автоматически переобучаться.

https://kursiv.kz/news/obschestvo/2019-11/v-kazakhstane-iskhod-sudebnogo-dela-budet-predskazyvat-iskusstvennyy
Вышел обзор Government at Glance 2019 [1] от ОЭСР, это не только аналитические материалы, но и статистика и сравнение по странам ОЭСР [2] по множеству рейтингов. Помимо разных полезных цифр по тому как развивается регулирование общественных финансов, госзакупок, государственных сервисов, там можно обратить внимание что если в прошлом году ОЭСР групировали показатели по группам "Open Government" и "Digital Government", а сейчас выделили отдельно "Open Government Data", а "Open Government" и "Digital Government" исчезли.

Ссылки:
[1] https://www.oecd.org/gov/govataglance.htm
[2] https://stats.oecd.org/Index.aspx?QueryId=94402

#opendata #data
В этом году, наконец-то открываем большой проект spending.gov.ru по мониторингу госрасходов. С особым акцентом на нац проектах, аналитике, рейтингах и данных. Я вскоре буду много писать об этом всё подробнее. Пока предлагаю для самостоятельного изучения

#spending #budget
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Самое время представить то, над чем мы работали несколько месяцев и причину моего переезда в Москву - проект «Госрасходы» (spending.gov.ru), новый портал Счетной палаты Российской Федерации на основе открытых финансовых данных.

Мы в ближайшее время будем много о нем говорить и писать, поэтому я выделю несколько основных особенностей проекта и причин, по которым мы его создавали:

1. Создание единой точки входа в мир финансовых данных для граждан, программистов и специалистов (в том числе и аудиторов) с минималистическим и понятным интерфейсом.

2. Интеграция данных из разных источников и реестров. Главная цель нашего проекта - построение финансовых цепочек: от выделения средств в бюджете до конечных получателей и результатов, а не предоставление отдельных реестров.

3. Агрегация данных по организациям: как госорганам, так и коммерческим компаниям. Существующие государственные порталы, содержащие финансовые данные, в основном ориентированы на отдельные сущности (контракты, субсидии, гранты) и не занимаются задачей объединения и анализа деятельности участников бюджетного процесса.

4. Проект, запускающийся в конце 2019 года, не может обойти стороной национальные проекты. Мы предоставляем нигде не публиковавшиеся ранее агрегированные данные по контрактам, субсидиям, получателям и распределителям средств в рамках нацпроектов и федпроектов.

5. Отличием проекта «Госрасходы» от других проектов является наличие аналитического блока, в котором мы разрабатываем методики для подсчета различных рейтингов и индикаторов на основе данных проекта.

6. Все данные проекта можно скачать в виде открытых данных или получить по API (ссылки и документацию на которое мы опубликуем в ближайшие пару недель).

7. Одним из самых важных пунктов является то, что в процессе разработки проекта и интеграции новых данных, мы выявляем ошибки и недоработки в открытых данных, поэтому побочным результатом работы портала может быть повышение качества данных, публикуемых Казначейством России, Минфином России и другими финансовыми госорганами. Также мы планируем работать над расширением перечня открытых данных, публикуемых госорганами.

8. Мы планируем развивать дата-лабораторию, в рамках которой будем предоставлять данные и консультировать представителей исследовательских и научных центров и университетов. Надеюсь, что мой альма-матер, Университет ИТМО, будет одним из первых партнёров.

9. Бюджеты, отчеты об исполнении и сводные бюджетные росписи должны стать ключевым источником данных на следующий год. Поэтому мы надеемся, что Минфин России повысит корректность текущих данных по федеральному бюджету и начнёт публиковать региональные и муниципальные данные.

10. Проект «Госрасходы» предназначен не только для граждан, но и для специалистов «Счетной палаты РФ» и контрольно-счетных органов, а также других органов контроля и аудита.

Мы запускаемся в бета-версии и будем рады предложениям, которые вы можете написать на spending@ach.gov.ru. Пишите, если вы хотите партнёрство в рамках Дата-лаборатории на parkhimovich_ov@ach.gov.ru

Большое спасибо всем участникам нашей команды, внешним экспертам, и опыту, накопленному на проектах АНО «Инфокультура», за то, что в такие сжатые сроки смогли сделать отличный проект и, конечно, Счетной Палате и ее председателю за то, что в 2019 году есть федеральный госорган, поддерживающий открытость и готовый к таким вызовам.
В Австралии исследователи из CSIRO Data61 и департамент индустрии, инновации и науки опубликовали дорожную карту по развитию искусственного интеллекта [1].

В дорожной карте определны 3 основные приоритеты для Австралии:
- Здоровье, старение и ограниченные возможности
- Города и инфраструктура
- Природные ресурсы и окружающая среда

Это хорошо изложенная стратегия со ссылками на многие другие стратегии искусственного интеллекта в мире, кроме российской.

Ссылки:
[1] https://www.data61.csiro.au/en/Our-Research/Our-Work/AI-Roadmap?featured=6EDF11D88EED4B6794F2FBDFD65766B2
#ai #data