Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Для тех кто интересуется, дополнительно могу порекомендовать телеграм-канал о доказательной политике @evidence_guide, например, где рассказывается про весьма интересную публикацию Machine Coding of Policy Texts with the Institutional Grammar и многое другое.
"Грамматика институтов" - это подход к анализу институтов через фокус на синтаксических структурных элементах, которые составляют и формируют институты, воплощенные в языковой форме. К таким институтам относятся государственные политики, стратегии, законы и нормы. 

Подход был предложен Сью Кроуфорд и Элионор Остром еще в 1995 году. Вместе с тем, распространению “грамматики институтов” препятствуют значительные затраты времени и ресурсов, связанные с его применением.  Преодолению этой проблемы может помочь применение машинного обучения для классификации синтаксических элементов "грамматики институтов".

Об этом статья "Machine Coding of Policy Texts with the Institutional Grammar", принятая к публикации в журнале «Public administration».

Обзор по ссылке.
Регулярная подборка ссылок по работе с данными, открытости и приватности

На инженеров по работе с данными (data engineers) больше чем на исследователей данных (data scientists), вывод Mihail Eric по итогам анализа вакансий компаний относящихся к данным в портфеле Y-Combinator, We Don't Need Data Scientists, We Need Data Engineers [1]
Я соглашусь с этим и применительно к России тоже, сейчас много хайпа вокруг data science и ИИ, при том что есть дефицит квалифицированных специалистов и большое число джунов, но также и дефицит специалистов по инфраструктуре данных и инженерии данных.

Best-of Machine Learning with Python [2] каталог из 830 инструментов с открытым кодом по работе с данными с помощью языка Python

Открытый код мессенжера Signal для Android, iPhone, настольного приложения и сервера [3] для тех кто хочет построить собственную автономную инфраструктуру на его основе. Есть лишь сомнения в том что серверный код актуален [4] потому как новые функции в приложениях появляются, а серверный код не обновлялся несколько месяцев.

GHunt [5] - инструмент для OSINT в отношении аккаунтов на Google, извлекает Google ID, данные календаря, отзывы, общедоступную информацию и ещё много чего. Работает не только с почтой на gmail.com, но и с аккаунтами привязанными к собственным доменам. Полезен для самопроверки тем кто думает о приватности и проверке других тем кто ведет расследования.

Поддерживаемый мной список Awesome forensic tools [6] с перечнем инструментов OSINT.

GitLab получили $195 миллионов финансирования при общей оценке в $6 миллиардов [7]

Ссылки:
[1] https://www.mihaileric.com/posts/we-need-data-engineers-not-data-scientists/
[2] https://github.com/ml-tooling/best-of-ml-python
[3] https://github.com/signalapp
[4] https://github.com/signalapp/Signal-Server
[5] https://github.com/mxrch/GHunt
[6] https://github.com/ivbeg/awesome-forensicstools
[7] https://techcrunch.com/2021/01/15/gitlab-oversaw-a-195-million-secondary-sale-that-values-the-company-at-6-billion/

#data #dataengineering #datascience #privacy #opendata
Браузер Brave теперь включает встроенную поддержку IPFS [1], децентрализованного пирингового протокола доступа к контенту [2]. Для других браузеров можно использовать расширение IPFS Companion [3]

Становится интересно когда IPFS включат в Chrome, Mozilla Firefox и другие браузеры, включенная по умолчанию эта технология может оказаться тем что изменит правила игры в экосистеме блокировок, слежки за пользователями и ещё многих других атрибутов "классического веб".

Ссылки:
[1] https://brave.com/brave-integrates-ipfs/
[2] https://ipfs.io
[3] https://github.com/ipfs-shipyard/ipfs-companion

#privacy
Этот телеграм канал Министерства стихов долго скрывать бы не получилось. Пость он позабавит вас в перерывах между серьёзными новостями @ministryofpoems
Forwarded from ministryofpoems
Здравствуйте, начинаем наше дистанционное заседание Комиссии по делам меньшего зла
Итак, первый вопрос, статс секретарь Министерства забивания козла
Докладывает по вопросу планов министерства по злодействам на этот год
Что? Вызвали к министру. Мне вот тут пишут что сегодня он не придёт.

Очень, жаль, это был важный вопрос про планы министерства
Ну да ничего, у нас тут ещё много разного пионерства

Второй вопрос, давний и очень интересный
Как сообщать цифровым образом о злодействах
Докладчиком у нас представитель ГлавЗлодейРегистрации
Прошу Вас начинать Ваши инсинуации

Знаете, мы тут подготовили целую концепцию
Очень планировали обсудить и получить Вашу акцепцию
Но в виду смены нашего ГлавЗлодейРегистрации руководителя
Мы пока вынуждены повременить с исполнением поручения нашего властителя

Сейчас наша концепция проходит внутреннее согласование
Прошу взять паузу, извините и спасибо за внимание

Как же так, второй вопрос сегодня и тоже без обсуждения
Выражаю, как модератор, сам себе осуждение
Мы, честно говоря надеялись, обсудить вопрос обстоятельно
Ну раз так, то в следующий раз обсудим обязательно

Однако, же дорогие друзья-алкоголики
Что-то не очень у нас работает АНО "Доведения до коликов"
Третий вопрос, важная государственная веха
Обсуждаем создание ЗлодейТеха

Для тех кто может быть подзабыл о чём идёт речь
Мы себя, к сожалению, не смогли уберечь
И на нас свалилось большое поручение
Взять ЗлодейТех на попечение

От нас ждут важного ответа
Должен ли быть ЗлодейТех зелёного цвета
Хорошо танцевать, иметь хобот и большие размеры
Просирать, простите, полимеризировать особо крупные полимеры

У нас сегодня об этом расскажет представитель Алкогольного Цеха
И зелёный представитель зелёного лоббиста ЗлодейТеха
Прошу, не стесняйтесь, расскажите и ответьте на вопросы
Мы все вас очень просим

Здравствуйте, мы ранее направили все материалы
Там перечислены наши фамилии и инициалы
Мы что-то там напридумывали, пока очень абстрактно
Ваше мнение нам будет услышать очень приятно.

А можно вопрос? (голос из группы).
Каково место частных злодеев в Вашей ЗлодейТех'овской труппе?
У нас тут больше 20 лет опыта частного крупного злодейства
Работаем со всем, от адмиралтейства до плебейства
Очень хотим понять нашу будущую роль в этой системе
И как, немного больше, расскажите по теме

Спасибо за Ваш вопрос, он очень правильный и важный
Мы его запишем и ответим Вам на него однажды

А у меня вот тоже есть комментарий.
Я хоть и простой злодей-пролетарий
Но не могу не усомниться в Ваших материалах
Потому что материалов категорически мало
Расскажи подробнее о том что запланировали
Чтобы мы Ваш ЗлодейТех санкционировали

И за Ваш вопрос, спасибо, он очень правильный и важный
Мы его запишем и ответим Вам на него однажды

А я вот всячески Вас поддерживаю во всех формах
Нам региональным злодеям надоело это уже по горло
Нет нормальных типовых злодейских решений
Очень жду Ваших больших зелёных свершений

Спасибо и это вопрос тоже, он очень правильный и важный
Мы его запишем и ответим Вам на него однажды

Коллеги, время у нас выходит и прокомментирую как модератор
Представленный вопрос тоже выглядит сыровато
Какое-то у нас в этот раз немного скомканное мероприятие
Но хорошо что от вируса ни у кого нет кондратия

Попросим коллег и этот вопрос проработать альтернативы
Может быть зло может быть не только зелёным, но и синим?
Давайте предложим и другим большим танцующим травоядным
Свои предложения представить в виде приглядным

На этом всем спасибо, заканчиваем наше заседание
И до майской встречи< всем до свидания
Можно ли национализировать открытый код? Скорее всего нет. А вот построить национальную экосистему возможно что и делается в Китае. Китайские власти поддерживают местный проект Gitee как национального конкурента международным Github и Gitlab, об этом в статье [1] на Restworld.org.

В Китае уже есть OpenAtom Foundation [2] как местный аналог Linux Foundation и они вносят в Gitee многочисленные проекты такие как HarmonyOS [3].

От себя я добавлю что в последние годы идёт мощнейший прирост числа китаеязычных разработчиков [4] на Github и Китай явно
собирается развивать госполитику по возврату их в свою виртуальную юрисдикцию.

Чего ждать в России? Будет ли госполитика развития открытого кода в нашей стране? Об этом хотелось бы поговорить, но пока таких инициатив нет.

Ссылки:
[1] https://restofworld.org/2021/china-gitee-to-rival-github/
[2] https://www.openatom.org/#/projectList
[3] https://gitee.com/openharmony
[4] https://octoverse.github.com/

#opensource #china #gitee
Во Франции есть специальный чиновник, которого у нас бы назвали "уполномоченным по цифровым отношениям", а там называют "послом по цифровым отношениям" (Ambassadeur français pour le numérique)

Помимо прочей пользы этот посол ведёт проект по мониторингу условий использования крупнейших сетевых сервисов [1] таких как Google, Facebook, Twitter и ещё десятков. Все накопленные условия использования анализируются, обрабатываются и выкладываются как открытые данные в формате markdown [2]

В основе проекта данные накопленные в проекте TOSBack [3] который прекратил своё существование в 2018 году.

Также исследователи анализируют сложность и многие другие параметры этих документов [4], как ни смотри набор данных полезный для исследователей.

И, конечно, исходный код проектов посла доступен на Github [5], а сам он сотрудник Министерства иностранных дел Франции [6]

Ссылки:
[1] https://disinfo.quaidorsay.fr/en/cgus
[2] https://github.com/ambanum/CGUs-versions/releases
[3] https://tosback.org/
[4] https://disinfo.quaidorsay.fr/en/cgus/experiments
[5] https://github.com/ambanum
[6] https://en.wikipedia.org/wiki/Henri_Verdier

#france #digital #opendata
Как устроены разного рода рейтинги и рэнкинги?

В последнее время меня спрашивали о том как устроены те или иные рейтинги. Я, в первую очередь, могу немало рассказать о том что касается разного рода рейтингов открытости, но не только. Рейтинги, часто, по разному, имеют значимые отличия в причинах происхождения и по разному к ним стоит относится. К рейтингам по разному относятся и те кого рейтингуют/ранжируют или косвенно затрагивают этим ранжированием.

Здесь надо оговориться что рейтингование - это выставление оценки, а рэнкинг - это ранжирование объектов по этим оценкам. В России это обычно путают и называют рейтингами результаты рэнкинга, поэтому я буду использовать тут тоже слово “рейтинг” как основное, но держать в голове неоднозначность определения.

Итак зачем вообще делают рейтинги и рэнкинги?
...
Текст полностью в рассылке https://begtin.substack.com/p/rankings

#ratings #rankings
Global Wind Atlas [1] веб-проект, карта и большая база данных ветров на планете. В первую очередь с точки зрения потенциала для ветроэнергетики и с большим объёмом открытых данных [2]

Проект может быть полезен всем кто ищет данные о ветрах в своих странах.

Ссылки:
[1] https://globalwindatlas.info/
[2] https://globalwindatlas.info/downloads/gis-files

#opendata #winds
Что надо делать в первую очередь при любых административных изменениях? Сохранять архивы!

Я хочу напомнить что в конце прошлого года Пр-вом РФ была анонсирована большая реформа институтов развития. Это такие структуры как ВЭБ.РФ, РВК, Фонд содействия инновациям, Корпорация МСП и ещё довольно много разного [1]

В проекте Национальный цифровой архив нами собраны 54 веб-ресурса относящиеся к этим организациям [2]. Они включают официальные сайты, сайты мероприятий, конкурсов, контентных проектов, информационных систем, систем раскрытия информации и так далее. Наиболее вероятно что не исчезнут веб-ресурсы ВЭБ.РФ, наверное большая часть других тоже останется, но, поскольку параметры реформы всё ещё неизвестны, то перестраховка всегда важна.

Кроме ресурсов перечисленных в списке, есть многочисленные данные об институтах развития в системах госзакупок, бюджетной отчетности, отчетности НКО, систем регистрации судебных дел и иных официальных и иных информационных системах.
Чаще эти данные не исчезают, но, бывает всякое. Поэтому остаётся вопрос - надо ли архивировать и эти сведения тоже. В принципе, например, сведения по госконтрактам архивируются в рамках проекта Госрасходы [3], но, они, в виду значительных объёмов, не включают документы: тексты документации, контрактов и протоколов и так далее.

Ключевые вопросы:
1. Надо ли провести полное сохранение этих данных или исходим из доверия к этим системам?
2. Надо ли выделить отдельные наборы данных с закупками, базовой информацией по юр. лицам по этим организациям и так далее для исследователей и журналистов?

Ссылки:
[1] https://www.rbc.ru/business/23/11/2020/5fb8ce659a79471e74bd2245
[2] https://docs.google.com/spreadsheets/d/1YIwLeSBJ3WqR4nvsPq50rLkX2Z_4uHpW2q9ni8hw8x0/edit#gid=0
[3] https://spending.gov.ru

#opendata #opengov
Напомню что у Инфокультуры естт телеграм канал @infoculture где регулярно пишут о проектах по работе с данными для НКО
Forwarded from Инфокультура
Онлайн-агрегатор «Капитан Грантов» — партнер конкурса «Исследователь».

На портале https://cptgrants.org вы можете найти информацию о грантах и конкурсах во всех регионах России. Кроме того, регулярная подборка актуальных грантов выходит в телеграм-канале: t.me/cptgrantov

Некоммерческие организации и социальные предприниматели могут получить индивидуальные консультации, присоединиться к обучающим вебинарам и семинарам, посвященным написанию заявок и участию в конкурсах.

Будьте в курсе возможностей с «Капитаном грантов»!
_ _ _
Напоминаем, что прием заявок на конкурс «Исследователь» идет до 31 января: https://ngo-research.ru/contest
Forwarded from ministryofpoems
Хотел написать по доброму, как получилось не знаю
-----
- Папа, папа!
- Да, сынок?
- А расскажи что такое проактивные госуслуги?
- А хочешь покажу в действии? Давай одевайся потеплее и пойдём.
...
- Видишь вот там сугроб и лед на земле скользкий. Давай туда подойдём. Вставай, вот тут. Возьми телефон, чуть подними, наклонись и ... падай спиной в сугроб как будто ты подскользнулся и говори громко (шёпотом) "Грёбаный гололёд", а потом ничего не говори, а послушай
- А мама мне не разрешает в снегу валяться и ругаться
- Сегодня можно. Ну что готов?
- Готов
- Поехали!
- (падает спиной в снег словно подскользнулся и кричит) "Грёбаный гололёд!"
- (голос из телефона) Здравствуйте, я городской цифровой помощник. Зафиксирована потеря устойчивости и возможное падение. Вам необходима медицинская помощь?
- (громко) Спасибо, нет
- (голос из телефона) Вы хотите оформить жалобу или обращение?
- (громко) Да, хочу
- (голос из телефона) Опишите Вашу ситуацию
- (громко) Шёл по улице. Подскользнулся. Упал, хорошо что гипса нет. Двор не убран, коммунальные службы работают плохо
- (голос из телефона) Ваше заявление зарегистрирована в течение 1 часа Вы получите официальный ответ. Ответственное лицо - Мартынов Игорь Игоревич, руководитель <неразборчиво>. Спасибо за обращение в городскую службу. Доброго Вам дня.
...
- (отряхивает спину и штаны сыну) Ну как?
- Прикольно! Получается так на всё что угодно можно пожаловаться?
- Ну, почти, потихоньку подключают, местные службы не всегда работают хорошо. Как всегда
- А почему "грёбаный"? Это волшебное слово такое
- Не, просто слово вводное, значит что ты что-то важное цифровому помощнику хочешь сказать. Ещё важна интонация и тд. Но ты его при маме только не говори, ей это знать не обязательно. Хорошо?
- Хорошо! А на учителя можно так пожаловаться? Например, "Грёбанная Мария Ивановна плохо провела урок истории".
- Нет, про школу нельзя и про соседей нельзя. Пока только про двор/дороги/ветеринарные службы/сантехников/таксистов/компании можно
- А это как?
- Вот смотри (громко) Грёбанные машины Тыгыдыкса. Весь двор ими заставили.
- (голос из телефона) Здравствуйте, я цифровой помощник транспортного управления Санкт-Газпромбурга. Вы хотите оставить жалобу о злоупотреблении общественным пространством?
- (громко) Нет, в другой раз.
- (голос из телефона) Извините за беспокойство. Доброго Вам дня
- огого! Как круто! Слово "грёбанный" какое-то волшебное. Мне нравится!
- да, но используй его пореже. Оно называется бранное, мама расстроится если узнает что я тебя им учу...
- (телефон вибрирует и говорит) Вам пришло новое сообщение
- О, а вот сообщение на наше обращение. Пишут что в связи с новыми требованиями Правительства по борьбе с 27-й волной коронавируса лед будет убран через 10 дней, а нам ходить по улице не рекомендуется.
- А почему они не исправляют
- Ну как сынок почему. Потому что в нашей стране много вот таких вот грёбанных Мартыновых Игорей Игоревичей не желающих делать её лучше ...
- (голос из телефона) Здравствуйте! Я цифровой помощник службы кадров Санкт-Газпромбурга. Вы хотите зарегистрировать обращение по работе сотрудника Мартынова Игоря Игоревича
- (громко и раздражённо) Нет не хочу! Отключись уже тебе говорят!
- (голос из телефона) Извините за беспокойство
- Пап, спокойнее, пойдём домой.
- Да, прости сынок. Каждый день разбираю столько жалоб и все на всё жалуются, особенно на правительство, а сами ничего не делают. Вот буквально вчера сотни писем все одно за одним пишут мол "Грёбанное правительство" и куча всего... Устаёт твой папка
- (голос из телефона) Здравствуйте, с Вами говорит голосовой помощник службы сбора штрафов города Санкт-Газпробурга. Вам с Вашего счетна списан штраф в 1000 рублей за бранные слова в адрес должностных лиц.
- Сынок, подожди, я на минуту отойду (в телефон) Алиса, ну хватит уже прикалываться
- Это тебе хватит уже сына учить ругаться. Давайте домой, обед стынет и я уже не поспеваю голоса переключать. Как заработает твоя система так и будешь хвастаться, а сына обманывать сама не хочу, для кармы плохо. Домой идите)
...
Google анонсировали закрытие поиска в Австралии [1] если будет принят закон о плате местным СМИ за указание ссылок в выдаче на их сайты.

Позиция понятная, жёсткая, и показывает самосоознание Google/Alphabet себя как участника переговоров, а не объекта регулирования. Похоже что глобальные цифровые корпорации доросли до нового собственного позиционирования, интересно как дальше это всё пойдет.

Тем временем, интересна и позиция властей Австралии, прогнутся ли они или же надавят, а в Австралию придут Bing (Microsoft), DuckDuckGo, Yandex и другие игроки, готовые играть по правилам страны, а не своим собственным.

Ссылки:
[1] https://about.google/google-in-australia/an-open-letter/

#search #data
Вышел Apache Superset 1.0 [1] важная веха в развитии этого одного из лучших продуктов открытым кодом по Business Intelligence.

В релиз вошли:
- значительное ускорение производительности
- личные лендинговые страницы
- улучшенные дашборды
- графики через Apache eCharts
- удобное REST API

и ещё многое другое.

Из недостатков Superset остался тот что он плохо из коробки работает с NoSQL базами данных вроде MongoDB или ArangoDB, но для этого существует множество коннекторов через инструменты вроде Panoply, Stitch, Presto

Участникам хакатонов и конкурсов на заметку, Superset - это хороший конструктор для быстрой сборки визуальных продуктов. Не стоит стесняться его использовать и его стоит изучать.

Ссылки:
[1] https://github.com/apache/superset

#opensource #bi #data
Алгоритмы во благо это, например, предсказание поломок у жестких дисков с помощью машинного обучения в блоге Datto Engineering [1]. Хороший технический текст, с пониманием возможностей и ограничений.

В нём же ссылка на ещё один важный, но очень специальный набор открытых данных. С 2013 года компания Backblaze публикует очень подробные данные по своим жестким дискам [2]. несколько гигабайт в сжатом виде - это данные собираемые по показателям SMART по каждому диску, бесценны для их производителей и эксплуатантов этих дисков.

Ссылки:
[1] https://datto.engineering/post/predicting-hard-drive-failure-with-machine-learning
[2] https://www.backblaze.com/b2/hard-drive-test-data.html#helpful-hints-and-caveats

#opendata #data #ml
Слов нет. Вернее есть, но все матерные. Тут важно помнить что pravo.gov.ru ведёт ФСО России, охраняющее первых лиц и ещё много чего обеспечивающее. По моему скромному мнению высокий профессионализм службы незаслуженно остаётся без внимания.