Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике полезных инструментов для работы с документацией и воспроизводимостью исследований и работы с данными

Quatro [1] система с открытым кодом для подготовки научной и технической документации. Поддерживает интеграцию с Jupyter Notebook и создание dynamic documents, интерактивных публикаций, полезных в представлении многих научных результатов. Внутри Pandoc [2], умеет работать с Observable, Python, R, Julia и ещё много чего. Для полного счастья не хватает только web UI/GUI и удивительно что нет стартапа который бы подобное поверх Quatro не запилил, потому что движок также умеет делать книжки в ePub, PDF, MS Word.
В целом выглядит как удобная надстройка над Pandoc.

Курс Reproducible and Trustworthy Workflows for Data Science [3] о том как делать проекты для data science воспроизводимыми. Актуально для любых проектов на данных и аналитика без data science тоже, но тут всё подробно и конкретно. Курс полезный, стоит его пройти.

Ссылки:
[1] https://quarto.org/
[2] https://pandoc.org/
[3] https://ubc-dsci.github.io/reproducible-and-trustworthy-workflows-for-data-science/README.html

#openscience #opensource #documentation #datascience
Иногда полезно перечитывать отложенные ещё в прошлом году материалы и там есть интересные идеи.

Например, возможно, мало кто слышал про подход к разработке информационный систем Documentation-first или Docs First.

Это идея когда всё делается наоборот, а не как в привычном цикле. Вначале пишут документацию, потом по ней проектируют спецификации (API) и только потом пишут код.

То есть цикл не: код -> спецификация -> документация, а документация -> спецификация -> код

Об этом выступал Rahul Dighe на конференции ASC 2021 [1] с аргументами что разработчики - это тоже пользователи и заботится о них нужно ещё начиная со стадии проектирования.

Подход хоть и спорный, но интересный с точки зрения практики. Очень хочется какой-то живой пример где такой пример бы сработал.

А ещё он интересен с точки зрения самого подхода. Перевернуть цикл разработки с, казалось бы, привычной последовательности. А какие ещё процессы можно рассмотреть в той же модели? Так чтобы их можно было перевернуть ?

Ссылки:
[1] https://events.linuxfoundation.org/archive/2021/openapi-asc/program/schedule/

#API #ideas #documentation #docsfirst
Полезные ссылки про данные, технологии и не только:
- Governing data products using fitness functions [1] полезная статья с определением того что такое Data Product и как ими управлять, в первую очередь с архитектурной точки зрения.
- UIS Data Browser [2] новый каталог данных (статистики) ЮНЕСКО, данных немного, но есть API и массовая выгрузка.
- Why is language documentation still so terrible? [3] гневная статья где автор ругает все языки программирования кроме Rust. Претензий много и я с ним согласен и не только в отношении языков. Хорошую документацию на SDK или open source продукты встретишь нечасто.
- How We Made PostgreSQL Upserts 300x Faster on Compressed Data [4] про оптимизацию загрузки данных в PostgreSQL с помощью TimescaleDB, лично я не видел этот движок в работе, но для каких-то задач он может быть именно тем что нужно
- ImHex [5] шестнадцатеричный редактор с открытым кодом для реверс инжиниринга. На мой взгляд мало что заменит IDA Pro, но для задач не требующих хардкора и когда нет денег вполне себе полезный инструмент.

Ссылки:
[1] https://martinfowler.com/articles/fitness-functions-data-products.html#ArchitecturalCharacteristicsOfADataProduct
[2] https://databrowser.uis.unesco.org/
[3] https://walnut356.github.io/posts/language-documentation/
[4] https://www.timescale.com/blog/how-we-made-postgresql-upserts-300x-faster-on-compressed-data/
[5] https://github.com/WerWolv/ImHex

#opensource #data #datacatalogs #documentation #dbs