Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Самое частое что я наблюдаю на большинстве хакатонов - это то что многие приходящие участники, или не определились с идеей и могут потратить на поиск несколько часов, или не владеют/не знают о существовании ключевых инструментов которые позволяют очень быстро вести разработку.

Вот некоторые инструменты, полезные не только на хакатонах:

Огромный список программ скрейперов помогающих извлекать данные из веб-сайтов. Это инструменты на всех языках программирования и несложные в освоении
Ссылка: https://github.com/cassidoo/scrapers

Быстрая визуализация табличных данных с помощью React Visualized. Например, Вы берете любой более-менее большой набор данных в CSV и делаете над ним надстройку.
Ссылка: https://github.com/bvaughn/react-virtualized

Обработка текста с командной строки. Большая подборка инструментов позволяющих быстро обрабатывать CSV, JSON, XML и другие структурированные документы
Ссылка: https://github.com/dbohdan/structured-text-tools

Быстрая сборка статического сайта с использованием "Jekyll"
Ссылка: https://jekyllrb.com/

Малоизвестный в России открытый движок JKAN для быстрой сборки статического портала открытых данных. Очень просто устроен, очень быстро разворачивается.
Ссылка: https://jkan.io/

#opendata #hackathons
Бизнес модель связанной с данными о которой я регулярно пишу - это предоставление большого объёма данных компаниями занимающимися хостингом и иной инфраструктурой. Хороший пример - Amazon с их реестром открытых данных большого объёма [1], данные можно скачивать откуда угодно, но гораздо удобнее из датацентров самого Amazon.

Другой пример - Microsoft Azure Open Datasets [2] с совершенно той же логикой и, похоже на них, Google BigQuery [3] и в этом списке я ранее не упоминал CreoDIAS (DIAS) [4], консорциум созданный CloudFerro, Wroclaw Institute of Spatial Information and Artificial Intelligence (WIZIPISI), Geomatys, Eversis и Sinergise [5] и имеющий контракт с Европейским космическим агенством (ESA).

CreoDIAS, как и все ранее упомянутые, работают преимущественно с открытыми данными от ESA, но и я рядом коммерческих поставщиков. Важнее объёмы данных - это 21.9 петабайт в архиве и около 20 терабайт ежедневные обновления. Большая часть данных, около 90%, это снимки спутников Sentinel 1, Sentinel 2, Sentinel 3.

Бизнес модель CreoDIAS в том что они предоставляют много тарифных планов для аренды серверов непосредственно подключённых к их ЦОДам и предположительно удешевляют стоимость обработки спутниковых данных и снимков.

В Евросоюзе организаторы хакатонов CASSINI [6] предоставляют доступ к инфраструктуре CreoDIAS для участников и дают возможность создавать космические ИТ проекты с доступом к этим данным.

Конечно этот пример не единственный, многие отраслевые банки данных всё более становятся гибридными сервисами совмещая доступ к данным, доступ к инструментам с облачной инфраструктурой. В нескольких формах такое уже есть в биоинформатике и иных data-rich областях медицины и фармацевтики и во многом другом.

Ссылки:
[1] http://registry.opendata.aws/
[2] https://azure.microsoft.com/en-us/services/open-datasets/
[3] https://cloud.google.com/bigquery/public-data
[4] https://creodias.eu
[5] https://creodias.eu/about-us
[6] https://hackathons.cassini.eu/

#opendata #satellite #hackathons #earthobservation #datahosting
Я тут, внезапно, обнаружил что замечательный гайд Джошуа Тауберера по организации хакатонов [1] не переводился не то что на русский язык, но и на многие другие. Впрочем в том виде как он был написан ещё 10 лет назад его уже применять не стоит, очень многое перенеслось в онлайн и сами хакатоны стали уже другими, кроме них появилось немало других форм совместного кодирования/сбора данных/проведения конкурсов и многого другого.

С другой стороны я вижу отсутствие гайда/чеклиста для самих участников хакатонов. Понятно что в большинстве хакатонов участвуют начинающие разработчики, но одновременно - это тест на их способность расти дальше в навыках и карьере.

Ссылки:
[1] https://hackathon.guide/

#opensource #hackathons #guide
NASA Space Apps Challenge 2024 [1] проходит в этом году по всему миру и включает множество локальных мероприятий, в том числе на постсоветском пространстве, за исключением России, Беларуси, Киргизии и Армении [2]. Почему не проходят в Киргизии я не знаю, удивительно что нет в Армении, чувствую надо было самим организовать, а не думать что кто-то из околокосмической тусовки это сделает.

У НАСА на хакатоне есть набор задач [3], большая часть которых связаны с данными, например, по задаче Landsat Reflectance Data: On the Fly and at Your Fingertips, множество ссылок на открытые данные в KML, Shapefile и других [4].

Для тех кто учится и находится в странах где есть местные события этого глобального хакатона - это отличная возможность потренировать навыки в работе с данными и сделать что-то полезное.

Ссылки:
[1] https://www.spaceappschallenge.org/nasa-space-apps-2024/
[2] https://www.spaceappschallenge.org/nasa-space-apps-2024/2024-local-events/
[3] https://www.spaceappschallenge.org/nasa-space-apps-2024/challenges/
[4] https://www.spaceappschallenge.org/nasa-space-apps-2024/challenges/landsat-reflectance-data-on-the-fly-and-at-your-fingertips/?tab=resources

#opendata #hackathons #space #nasa