Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
После довольно долгих размышлений, я, всё таки, решил активировать аккаунт Substack и использовать этот формат для регулярных больших заметок и рассуждение на темы о которых думаю давно. Substack - это формат для больших текстов, с некоторой рефлексией и не обязательно завершёнными размышлениями, но с некоторой их зрелостью.

Это будет сильно отличаться от моего канала в телеграм и от личного блога. Как и во всех текстах основанных на профессиональной и иногда личной рефлексии, здесь я не буду претендовать на точность мысли, но буду вкладывать в написанной столько последовательности сколько смогу.

Первая email рассылка ушла с темой "Размышления конца сентября 2020. Будущее государственного и общественного аудита и контроля, обнаружение данных и многое другое".

Следующая рассылка будет не раньше конца октября.

#substack #texts
О том как не надо продавать продукты приведу на примере очень удобного инструмента Writemapper [1]. Это такой редактор текстов через майндмапы (ещё их называют - интеллект карты/карты разума). Когда ты вначале структурируешь текст блоками и потом уже по этим блокам пишешь. Для тех случаев когда пишешь тексты в заданной структуре или имеешь привычку писать тексты сверху-вниз, от структуры к содержанию - это очень удобно.

Я им часто пользуюсь, у меня много документов так написаны. У инструмента удобный минималистичный интерфейс, скриншоты которого можно увидеть на примерах того с чем я работал/работаю.

Особенность продукта была ещё и в том что автор при анонсе продукта продавал пожизненные лицензии [2]. Покупай единожды и получай бесплатные обновления. Но выпустив 3-ю версию сделал так что "пожизненные лицензии" на предыдущие версии на эту, 3-ю версию не распространяются. За что его ранние пользователи уже критикуют [3], а автор отвечает всем в худшем корпоративном стиле "я вас услышал".

При этом 3-я версия не настолько отличается от 2-й версии чтобы их разделение было очевидно и опций апгрейда предусмотрено совершено не было. С одной стороны стоимость приложения не запредельна - $60 за двойную лицензию (4400 рублей), а с другой стороны это много за не-универсальный инструмент. Отдельно приложения для редактирования текстов стоят редко более $15 (пример, Write!), а более универсальный Xmind стоит те же $60, но даёт больше гибкости с майндмапами, но не умеет работать с текстами.

Впрочем вопрос тут не цены, а именно реакции разработчика. Увы, уверенности в будущем продукта она не доставляет.

А вот сама идея и концепция документа от майндмэпа очень хорошо и могла бы транслироваться на организационные модели совместного написания книг и текстов.

Ссылки:
[1] http://writemapper.com
[2] https://www.producthunt.com/posts/writemapper
[3] https://www.producthunt.com/posts/writemapper-3

#products #writing #texts #writingtools
Подборка полезного чтения:
- обзор работы с ФИАС на Хабре - одна из крупных баз данных раскрываемых ФНС. Работать с ней непросто, статья полезная
- расследование о том как некоторые УЦ выдают подложные сертификаты и там же в канале у автора рекомендации как действовать если Вы с таким столкнулись
- группа по надзору за таксономиями (Taxonomy Oversight Group) появилась при агентстве по стандартизации данных в UK. В тексте подробности о том чем она занимается
- ведомственная стратегия работы с данными от HM Courts & Tribunal Service (Службы судов и трибунала) Великобритании. Хороший пример высокоуровневого документа

#opendata #privacy #texts #reading
Полезное чтение про данные и не только:
- Windows 11 is officially a failure [1] о том что Windows 11 не так привлекательна как ожидалось. Честно говоря не удивительно, я лично до сих пор не могу понять зачем мигрировать с Windows 10 на Windows 11.
- 10 Books Every Senior Engineer Should Read [2] обзор книг по программной инженерии, ничего особенного, просто полезная подборка, одна из многих
- Kubit привлекли $18M [3] инвестиций, это решение по продуктовой аналитики поверх data warehouse
- JQ, Grep for JSON: Cookbook I [4] гайд по утилите JQ для работы с json файлами. Лично по мне очень неудобная утилита, но кому-то нравится

P.S. Я тут готовя одну из публичных лекций неожиданно столкнулся с тем что практически нет гайдов и сравнений по инструментам для data wrangling. Как минимум это - Excel, OpenRefine, pandas в Jupyter Notebook и коммерческие вроде Trifacta, но какого-то качественного анализа и сравнения нет.

P.S.S. А ещё удивительное дело, но никто не додумался до headless data wrangling, может потому что это нерационально, а может потому что такая комбинация кажется слишком странной.

Ссылки:
[1] https://medium.com/geekculture/windows-11-is-officially-a-failure-141c4027a308
[2] https://semaphoreci.medium.com/10-books-every-senior-engineer-should-read-a61c1917e2a7
[3] https://www.kubit.ai/
[4] https://medium.com/data-science-deep-dive/jq-grep-for-json-cookbook-i-4a1d78a227e5

#data #readings #texts
В рубрике интересных проектов на данных Open Syllabus [1] проект по сбору базы данных и визуализации информации о литературе для чтения рекомендуемой на курсах в университетах и колледжах. Огромный охват курсов по США, Великобритании и другим англосаксонским странам, в меньшей степени по странам Европы, а также довольно много по Японии, Тайваню и ряду других стран. Сразу скажу что из постсоветских стран там нет России, Туркменистана, Азербайджана, Таджикистана, остальные есть, но, как я понимаю, только в англоязычной их части и привязанные к англоязычным курсам.

В то же время проект очень наглядный, хорошо демонстрирующий влияние писателей и произведений на образование. Из российских писателей времен империи ожидаемо акцент на Достоевском.

Все источники открытые, явно немало ручной работы. Сам проект имеет открытый контур в виде базы, рейтингов, визуализаций и тд.

А монетизация идёт через сервис аналитики для методистов [2].


Ссылки:
[1] https://www.opensyllabus.org
[2] https://analytics.opensyllabus.org

#opendata #readings #texts #syllabus
У меня тут основательно поднакопилось "долгов" по написанию длинных текстов и пока в приоритете те что пишу не на публику, поэтому и пишу реже, а некоторые запланированные статьи/тексты пытаюсь переосмыслить и, иногда отказываться от них. Например, пока я начал писать серию заметок про корпоративные каталоги данных то чем больше думал про них тем больше приходил к выводам о том что "Если вам нужен корпоративный портал [мета]данных, то поставьте DataHub и не парьтесь (с)". Благо он с открытым кодом, но не без своих нюансов. Сравнивать платные глобальные продукты для большинства российских пользователей смысла нет, а open source продукты сейчас сводятся к DataHub или OpenMetadata. В итоге лонгрид не выходит, могу лишь напомнить про предыдущий текст Data discovery в корпоративном секторе. Часть 1. Зачем всё это нужно? [1] можно прочитать на Substack. Честно говоря я очень не люблю вот так останавливать мысль на полпути, поэтому может быть я к ней ещё и вернусь.

Другая тема про которую я думаю регулярно и которая просится в текст - это фрагментация сообществ по работе с данными и слабая их взаимосвязь. Вокруг открытости данных есть такие группы как:
- активисты/евангелисты/пользователи открытых государственных данных - open data community
- исследователи работающие с открытыми научными данными - open access / fair data community
- географы/геоинформатики/урбанисты и тд. работающие с геоданными - geodata community
- дата-инженеры и дата-сайентисты как правила из коммерческого сектора - data engineering and data science community
- статистики и социологи - statistics community
Все эти группы частично пересекаются, но куда меньше чем могли бы быть и ещё внутри них множество своих подгрупп и ещё какие-то сильно меньше/незаметнее.
Это не-пересечение и разный опыт приводит, например, к тому что когда я спрашиваю разработчиков некоторых национальных порталов с открытыми данными о том почему они дают экспорт в JSON и CSV, но, к примеру, не дают экспорта в форматы Parquet или Avro, то ответ всегда один и тот же: "А мы об этом даже не думали как-то".
Кроме того везде своя специфическая терминология, разные названия для одного и того же. В итоге всё выглядит как разные наборы ментальных установок часто приводящих к разному восприятию темы. Ранее упомянутый мной доклад The State of Open Data написан с сообщества исследователей, но за пределами этой среды Open Data - это несколько иное, если не по определению объектов наблюдения, то по логике существования тех кто этим живёт.

Ещё одно направление мыслей у меня было и частично есть для упаковки в текст - это вот эти вот все инициативы Минцифры в РФ по созданию портала с наборами данных для ИИ. Много умных мыслей я мог бы написать о том как это делают или стараются не-делать в мире, почему плохо организовывать авторизацию через ЕСИА и тд. Но всё в сводится к вопросу который, в приличном варианте, звучит как "А зачем это делается?". Если цель в практических результатах, то никакие порталы не нужны, нужно выкладывать данные для обучения ИИ на Kaggle и/или HuggingFace, а деньги тратить не на разработку софта, а на создание наборов данных. Если цель в развитии науки, то надо обязывать исследователей публиковать в открытом доступе данные на которых построены их выводы в их статьях и результаты публикации наборов данных измерять в числе статей в профильных научных журналах в которых используются эти наборы данных. Но, будем честными, заниматься в Минцифре РФ этому некому, а "Правительство - это просто группа людей, как правило, плохо организованных (с)".

Ссылки:
[1] https://begtin.substack.com/p/corporate-data-discovery-1

#thoughts #data #opendata #texts #reflections
Поделюсь личной болью, я когда-то активно пользовался минималистичным редактором Write! (сайт - wri.tt) не все, но многие заметки вел в нём. У него был экспорт в простые форматы, минималистичный текст и, в принципе, лично мне для заметок был удобный инструмент. С lifetime подпиской что было удобно синхронизовывать между несколькими устройствами и не переплачивать.

Где-то в 2023 году сайт ушёл в оффлайн, приложение превратилось в кирпич потому что проверка авторизации и синхронизацию работала через сайт и теперь в приложение локально просто не войти. Не local-first приложение по идеологии.

Большая часть заметок у меня есть в разных местах в экспортированные, но какие-то надо доставать теперь из внутренней базы. А внутри там собственный XML формат внутри ZIP контейнера и какой-то неочевидный формат локальной базы данных. В общем автор наизобретал там велосипедов и, похоже, теперь единственный способ восстановить часть заметок - это или найти конвертер парсер этих XML файлов или написать его самому.

Если кто-то сталкивался с этим редактором и столкнулся с той же проблемой, расскажите как решали.

А для меня это очередное напоминание о том что:
- cloud first приложения - это безусловное зло.
- базовые стандарты должны соблюдаться, никакой проприетарщины
- lifetime лицензии прекрасны если у бизнеса есть бренд, а так приложение прожило всего 9 лет.

Сейчас есть много local-first альтернатив для заметок, преимущественно работающих с разметкой Markdown и они гораздо удобнее в итоге.

#writing #texts #issues #markdown