Полезные материалы по управлению метаданными и каталогами данных
Open source продукты
- Amundsen [1] создан внутри Lyft
- OpenMetadata [2] пытаются создавать стандарт
- Datahub [3] создан в LinkedIn, передан в Acryl Data
- Metacat [4] создан в Netflix
- Apache Atlas [5] передан в Apache Foundation
- Marquez [6] передан в Linux Foundation
- Whale [7] не обновлялся около года
Обзоры
- Top 7 Data Catalog Tools in 2022 [8] обзор от Hevo Data облачных, открытых и корпоративных каталогов
Видео и выступления на русском языке
- Data-docs — как найти данные о данных — Олег Харатов, Авито [9]
- Как мы строим Metadata Managemen — Юлия Кошелева и Энрика Матвейчук, Тинькофф [10]
- Под капотом каталога данных — Анастасия Ожигина, Тинькофф [11]
Видео на английском языке
- Data Catalog for data discovery and metadata management [12] от Google и про Google Data Catalog
- Amundsen: A Data Discovery Platform From Lyft | Lyft [13] видео 2019 года, про раннюю стадию создания Amunsen
Ссылки:
[1] https://www.amundsen.io/
[2] https://open-metadata.org/
[3] https://datahubproject.io/
[4] https://github.com/Netflix/metacat
[5] https://atlas.apache.org
[6] https://marquezproject.ai/
[7] https://github.com/hyperqueryhq/whale
[8] https://hevodata.com/learn/data-catalog-tools/
[9] https://www.youtube.com/watch?v=Cr1DDmhoLKI
[10] https://www.youtube.com/watch?v=3xuNp5L_ikU
[11] https://www.youtube.com/watch?v=puH3uBNoDXk
[12] https://www.youtube.com/watch?v=eUKqXZDXj78
[13] https://www.youtube.com/watch?v=EOCYw0yf63k
#datacatalogs #data #metadata #datatools
Open source продукты
- Amundsen [1] создан внутри Lyft
- OpenMetadata [2] пытаются создавать стандарт
- Datahub [3] создан в LinkedIn, передан в Acryl Data
- Metacat [4] создан в Netflix
- Apache Atlas [5] передан в Apache Foundation
- Marquez [6] передан в Linux Foundation
- Whale [7] не обновлялся около года
Обзоры
- Top 7 Data Catalog Tools in 2022 [8] обзор от Hevo Data облачных, открытых и корпоративных каталогов
Видео и выступления на русском языке
- Data-docs — как найти данные о данных — Олег Харатов, Авито [9]
- Как мы строим Metadata Managemen — Юлия Кошелева и Энрика Матвейчук, Тинькофф [10]
- Под капотом каталога данных — Анастасия Ожигина, Тинькофф [11]
Видео на английском языке
- Data Catalog for data discovery and metadata management [12] от Google и про Google Data Catalog
- Amundsen: A Data Discovery Platform From Lyft | Lyft [13] видео 2019 года, про раннюю стадию создания Amunsen
Ссылки:
[1] https://www.amundsen.io/
[2] https://open-metadata.org/
[3] https://datahubproject.io/
[4] https://github.com/Netflix/metacat
[5] https://atlas.apache.org
[6] https://marquezproject.ai/
[7] https://github.com/hyperqueryhq/whale
[8] https://hevodata.com/learn/data-catalog-tools/
[9] https://www.youtube.com/watch?v=Cr1DDmhoLKI
[10] https://www.youtube.com/watch?v=3xuNp5L_ikU
[11] https://www.youtube.com/watch?v=puH3uBNoDXk
[12] https://www.youtube.com/watch?v=eUKqXZDXj78
[13] https://www.youtube.com/watch?v=EOCYw0yf63k
#datacatalogs #data #metadata #datatools
www.amundsen.io
Amundsen, the leading open source data catalog
В Евросоюзе, очень похоже, начался сезон индексов и рейтингов и вышел рейтинг Digital Economy and Society Index (DESI) 2022 [1] о состоянии цифровой экономики и общества.
Индекс по 4-м направлениям:
- человеческий капитал
- цифровая инфраструктура
- интеграция цифровых технологий
- цифровые государственные услуги
Он почти полностью основан на статистике Евростата, данных опросов Еврокомиссии, данных по участию стран ЕС в общих проектах и данные о стартапах из Startup Genome.
Сравнение стран - это, конечно, важно, но самое интересное в таких публикациях это материалы о многочисленных страновых проектах перечисленные в документах профилей стран. Среди этих проектов немало национальных порталов открытых данных и иных проектов по обмену данными.
Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/library/digital-economy-and-society-index-desi-2022
#opendata #government #eu #opengov #digital #economy
Индекс по 4-м направлениям:
- человеческий капитал
- цифровая инфраструктура
- интеграция цифровых технологий
- цифровые государственные услуги
Он почти полностью основан на статистике Евростата, данных опросов Еврокомиссии, данных по участию стран ЕС в общих проектах и данные о стартапах из Startup Genome.
Сравнение стран - это, конечно, важно, но самое интересное в таких публикациях это материалы о многочисленных страновых проектах перечисленные в документах профилей стран. Среди этих проектов немало национальных порталов открытых данных и иных проектов по обмену данными.
Ссылки:
[1] https://digital-strategy.ec.europa.eu/en/library/digital-economy-and-society-index-desi-2022
#opendata #government #eu #opengov #digital #economy
XML файлы бывают разными, мы практически все сталкиваемся с ними когда надо работать с данными и API по ранее разработанным стандартам или когда работа идёт с унаследованными системами.
Но, в целом, XML как семейство стандартов - это, обычно, хорошо структурированные данные. Обычное применение XML стандарта - это обмен данными, конфигурационные файлы, хранение данных и тому подобное. Но, не все знают, но XML как стандарт часто используется и как язык разметки. Например, в MS Office есть возможность сохранить документ как XML-документ Word или XML-документ Excel. Расширение у него будет XML, но содержание будет в виде специального языка разметки.
Почему я это рассказываю? Одна из причин низкой востребованности порталов открытых данных, в особенности федерального data.gov.ru - это полное отсутствие контроля качества, мониторинга качества и тд. И это касается не только частоты обновления данных, но и того что по факту публикуется. Про качество данных там я писал неоднократно, и вот дополню.
Примеры таких файлов [1] [2], а всего их более 48.
Это не так много количественно, но важнее что качественно - такие "данные" это подлог, отсутствие контроля данных и на уровне тех кто их публикует и на уровне тех кто ведёт портал.
Таких примеров много, я в последние годы перестал приводить их в пример в виду общей мёртвости федерального портала data.gov.ru, но это всё к разговору о том что одна из главных претензий к порталам открытых данных. Минэкономразвития не может справится даже с загрузкой собственных данных, публикуя пустышки вроде проектов государственных программ с пустым XML документом [3].
Поэтому я повторю свой тезис что федеральный портал открытых данных в России в текущей форме малопригоден для осмысленного использования, кроме очень редких кейсов.
Ссылки:
[1] https://data.gov.ru/opendata/0274034308-infoobrash
[2] https://data.gov.ru/opendata/0274034308-zakdohodigod
[3] https://data.gov.ru/opendata/7710349494-project71
#opendata #data #government #opengov
Но, в целом, XML как семейство стандартов - это, обычно, хорошо структурированные данные. Обычное применение XML стандарта - это обмен данными, конфигурационные файлы, хранение данных и тому подобное. Но, не все знают, но XML как стандарт часто используется и как язык разметки. Например, в MS Office есть возможность сохранить документ как XML-документ Word или XML-документ Excel. Расширение у него будет XML, но содержание будет в виде специального языка разметки.
Почему я это рассказываю? Одна из причин низкой востребованности порталов открытых данных, в особенности федерального data.gov.ru - это полное отсутствие контроля качества, мониторинга качества и тд. И это касается не только частоты обновления данных, но и того что по факту публикуется. Про качество данных там я писал неоднократно, и вот дополню.
Примеры таких файлов [1] [2], а всего их более 48.
Это не так много количественно, но важнее что качественно - такие "данные" это подлог, отсутствие контроля данных и на уровне тех кто их публикует и на уровне тех кто ведёт портал.
Таких примеров много, я в последние годы перестал приводить их в пример в виду общей мёртвости федерального портала data.gov.ru, но это всё к разговору о том что одна из главных претензий к порталам открытых данных. Минэкономразвития не может справится даже с загрузкой собственных данных, публикуя пустышки вроде проектов государственных программ с пустым XML документом [3].
Поэтому я повторю свой тезис что федеральный портал открытых данных в России в текущей форме малопригоден для осмысленного использования, кроме очень редких кейсов.
Ссылки:
[1] https://data.gov.ru/opendata/0274034308-infoobrash
[2] https://data.gov.ru/opendata/0274034308-zakdohodigod
[3] https://data.gov.ru/opendata/7710349494-project71
#opendata #data #government #opengov
Закрываю опрос и по его итогам большинство читателей, всё же, считает что зарубежный опыт развитых стран в цифре в России нужен и актуален. Пока такое настроение сохраняется продолжу писать на эту тему на регулярной основе.
Forwarded from Ivan Begtin (Ivan Begtin)
Актуален ли ещё в России опыт ЕС и США в части цифры или теперь всё по другому, а этот опыт идет скорее на негативную реакцию гос-ва?
Final Results
9%
Не актуален, понятно что кооперация с ЕС, США, ОЭСР и др. в цифре уже невозможна
43%
Актуален, потому что основной опыт, всё равно, в развитых странах
6%
Не актуален, потому что в России не остаётся людей и технологий на которых этот опыт реализуем
26%
Актуален, потому что без этого не достичь никакого развития в цифре в ближайшие годы
13%
Не актуален, потому что паранойя в госорганах растёт, будут подозревать в чем-то несусветном
7%
Актуален, потому что останутся всяческие международные рейтинги и Правительство продолжит на них ...
11%
Актуально, неактуально, не о том думаете
17%
Мнения не имею, ответы посмотреть хочу!
Две неприятные новости про Минцифры РФ.
1. Про то что эксперимент про созданию госрепозитория кода провалился отложен на неопределённый срок. [1] Странная история, могу лишь предполагать какой-то дефицит кадров в министерстве потому что это была бы нужная инициатива ещё и про открытый код, при правильной реализации. Но, похоже, ни правильной, ни неправильной реализации мы не дождёмся.
2. Минцифры предложило собирать биометрию россиян без их согласия [2], а вот это реально плохая инициатива, в чистом виде китайский путь по регулированию перс данных. Китайский путь можно описать такой короткой фразой: "мы очень-очень защищаем персональные данные которые о гражданах собирает бизнес, а вот само государство может собирать их как-угодно, где-угодно, делать с ними что угодно, а кому это не нравится, идите сами знаете куда". Это если описать это простым русским понятным языком.
Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2022/08/08/935090-gosudarstvennogo-repozitoriya-po-perenesen
[2] https://www.rbc.ru/politics/09/08/2022/62f1e7fb9a7947174c3125aa
#digital #privacy #government #regulation
1. Про то что эксперимент про созданию госрепозитория кода провалился отложен на неопределённый срок. [1] Странная история, могу лишь предполагать какой-то дефицит кадров в министерстве потому что это была бы нужная инициатива ещё и про открытый код, при правильной реализации. Но, похоже, ни правильной, ни неправильной реализации мы не дождёмся.
2. Минцифры предложило собирать биометрию россиян без их согласия [2], а вот это реально плохая инициатива, в чистом виде китайский путь по регулированию перс данных. Китайский путь можно описать такой короткой фразой: "мы очень-очень защищаем персональные данные которые о гражданах собирает бизнес, а вот само государство может собирать их как-угодно, где-угодно, делать с ними что угодно, а кому это не нравится, идите сами знаете куда". Это если описать это простым русским понятным языком.
Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2022/08/08/935090-gosudarstvennogo-repozitoriya-po-perenesen
[2] https://www.rbc.ru/politics/09/08/2022/62f1e7fb9a7947174c3125aa
#digital #privacy #government #regulation
Ведомости
Эксперимент по созданию государственного репозитория ПО перенесен на неопределенный срок
Минцифры планировало запустить проект еще с 1 мая, но не смогло согласовать позиции ведомств
Как обещал, я буду стараться чаще писать про технологические инструменты которые делаются в рамках проекта APICrafter, в том числе тот о котором я пишу часто в последнее время - metacrafter про распознавание семантических типов данных.
Инструмент уже, в принципе, в состоянии когда его надо переводить в промышленное использование, но, всегда хочется докрутить ещё чуть-чуть.
Так вот, здесь про пользу государственных порталов открытых данных вроде российского data.gov.ru, британского data.gov.uk и др. Польза эта в многообразии. Например, по data.gov.ru я обучаю распознавалку семантических типов данных.
Для тех кто интересуется как это работает, в репозитории metacrafter-datacatalogs-raw собраны метаданные с разных порталов и опубликован результат распознавания семантических типов данных по data.gov.ru. Желающие могут скачать нефильтрованный результат распознаваний в файле datagovru_semantictypes.jsonl.xz
В цифрах:
- 18+ тысяч обработанных наборов данных
- 198 660 полей полей структурированных файлах
- 66 921 полей у которых автоматически определен семантический тип (примерно 34%)
- наиболее успешно идентифицируются: уникальные идентификаторы, булевые значения, наименования, ФИО, дата и время, номер телефона, url, год и тд
- самые частые ошибки в полях когда название поля используется как булевое значение, а не как содержащие сущность. Например, если поле называется "passport", а не "hasPassport" и по факту является словарем в значениях "имеется" и "отсутствует"
- распознавание можно улучшить зная контекст, источник данных, дополнительные метаданные и тд., но это какое-то дополнительное направление исследований, скорее научное чем практическое.
В общем и целом могу сказать что такое разнообразие данных полезно для разработки алгоритмов несмотря даже на бесполезность данных для практического использования.
Но даже для такой задачи есть ключевая проблема - это качество данных. Я не просто так пишу про то что госданные, в целом, это мусор.
Вот лишь несколько характеристик именно низкого качества данных:
- CSV файлы публикуются в разных кодировках и с разными разделителями (это, отчасти, преодолимо)
- CSV файлы очень часто публикуются без заголовков, например, многие данные из ХМАО (это реальная проблема)
- многие расширения файлов не соответствуют содержанию. CSV или ZIP вместо XML, HTML вместо CSV и так далее
- многие ссылки на файлы на других сайтах давно протухли, например, ссылки на сайт fstrf.ru давно ведут на какой-то левый сайт.
- вместо настоящих XML файлов с данными публикуются файлы разметки. Я об этом писал ранее, это вообще напоминает какой-то подлог
- многие CSV файлы это кривой экспорт из Excel с многострочтными заголовками и строками ИТОГО нарушающими разбор файла
- огромное число файлов просто пустые
Делать полную оценку причин и проблем с качеством открытых гос данных долго, я пишу о том насколько они влияют на возможность их автоматизированного анализа. Собственно по причинам выше и из 26+ тысяч наборов данных удалось обработать около 18+ тысяч и среди обработанных есть ошибки связанные с неверными заголовками у CSV файлов.
При этом, не в защиту российских чиновников, а в сторону госчиновников в принципе могу сказать что мало где в мире над качеством открытых данных реально работают. Я недавно общался с командой одного из крупных продуктов по публикации открытых данных и они говорят что чиновники по всему миру просят их, скорее, добавить возможность публикации PDF'ов и других плохоструктурированных данных, чем мониторинг качества данных.
Но всё постепенно меняется и я про качество данных расскажу ещё не раз.
#opendata #datasets #metadata #metacrafter #apicrafter
Инструмент уже, в принципе, в состоянии когда его надо переводить в промышленное использование, но, всегда хочется докрутить ещё чуть-чуть.
Так вот, здесь про пользу государственных порталов открытых данных вроде российского data.gov.ru, британского data.gov.uk и др. Польза эта в многообразии. Например, по data.gov.ru я обучаю распознавалку семантических типов данных.
Для тех кто интересуется как это работает, в репозитории metacrafter-datacatalogs-raw собраны метаданные с разных порталов и опубликован результат распознавания семантических типов данных по data.gov.ru. Желающие могут скачать нефильтрованный результат распознаваний в файле datagovru_semantictypes.jsonl.xz
В цифрах:
- 18+ тысяч обработанных наборов данных
- 198 660 полей полей структурированных файлах
- 66 921 полей у которых автоматически определен семантический тип (примерно 34%)
- наиболее успешно идентифицируются: уникальные идентификаторы, булевые значения, наименования, ФИО, дата и время, номер телефона, url, год и тд
- самые частые ошибки в полях когда название поля используется как булевое значение, а не как содержащие сущность. Например, если поле называется "passport", а не "hasPassport" и по факту является словарем в значениях "имеется" и "отсутствует"
- распознавание можно улучшить зная контекст, источник данных, дополнительные метаданные и тд., но это какое-то дополнительное направление исследований, скорее научное чем практическое.
В общем и целом могу сказать что такое разнообразие данных полезно для разработки алгоритмов несмотря даже на бесполезность данных для практического использования.
Но даже для такой задачи есть ключевая проблема - это качество данных. Я не просто так пишу про то что госданные, в целом, это мусор.
Вот лишь несколько характеристик именно низкого качества данных:
- CSV файлы публикуются в разных кодировках и с разными разделителями (это, отчасти, преодолимо)
- CSV файлы очень часто публикуются без заголовков, например, многие данные из ХМАО (это реальная проблема)
- многие расширения файлов не соответствуют содержанию. CSV или ZIP вместо XML, HTML вместо CSV и так далее
- многие ссылки на файлы на других сайтах давно протухли, например, ссылки на сайт fstrf.ru давно ведут на какой-то левый сайт.
- вместо настоящих XML файлов с данными публикуются файлы разметки. Я об этом писал ранее, это вообще напоминает какой-то подлог
- многие CSV файлы это кривой экспорт из Excel с многострочтными заголовками и строками ИТОГО нарушающими разбор файла
- огромное число файлов просто пустые
Делать полную оценку причин и проблем с качеством открытых гос данных долго, я пишу о том насколько они влияют на возможность их автоматизированного анализа. Собственно по причинам выше и из 26+ тысяч наборов данных удалось обработать около 18+ тысяч и среди обработанных есть ошибки связанные с неверными заголовками у CSV файлов.
При этом, не в защиту российских чиновников, а в сторону госчиновников в принципе могу сказать что мало где в мире над качеством открытых данных реально работают. Я недавно общался с командой одного из крупных продуктов по публикации открытых данных и они говорят что чиновники по всему миру просят их, скорее, добавить возможность публикации PDF'ов и других плохоструктурированных данных, чем мониторинг качества данных.
Но всё постепенно меняется и я про качество данных расскажу ещё не раз.
#opendata #datasets #metadata #metacrafter #apicrafter
Google решили пристыдить Apple создав специальный сайт Get the message [1] для кампании по внедрению протокола/стандарта RCS [2] для передачи текстовых сообщений.
RCS - это, действительно, стандарт и, действительно, Apple его не поддерживает, только тут важно помнить что RCS в отличие от iMessage не поддерживает опции end-to-end шифрования (шифрования точка-точка) [3] и подвержено "законному перехвату". В Google, активно промоутирующих RCS, не могут этого не знать. Поэтому открытые стандарты - это хорошо, но открытые небезопасные стандарты по умолчанию - это ничего хорошего.
Впрочем и закрытость экосистемы Apple - это тоже ничего хорошего ни для кого кроме самой компании, но как-то не хочется выбирать между проприетарной безопасностью и непропроприетарной госслежкой.
Ссылки:
[1] https://www.android.com/get-the-message/
[2] https://www.gsma.com/futurenetworks/rcs/
[3] https://indianexpress.com/article/technology/social/google-new-chat-service-wont-be-secure-like-imessage-and-whatsapp-amnesty-international-5147050/
#standards #google #apple #messaging #rcs #privacy
RCS - это, действительно, стандарт и, действительно, Apple его не поддерживает, только тут важно помнить что RCS в отличие от iMessage не поддерживает опции end-to-end шифрования (шифрования точка-точка) [3] и подвержено "законному перехвату". В Google, активно промоутирующих RCS, не могут этого не знать. Поэтому открытые стандарты - это хорошо, но открытые небезопасные стандарты по умолчанию - это ничего хорошего.
Впрочем и закрытость экосистемы Apple - это тоже ничего хорошего ни для кого кроме самой компании, но как-то не хочется выбирать между проприетарной безопасностью и непропроприетарной госслежкой.
Ссылки:
[1] https://www.android.com/get-the-message/
[2] https://www.gsma.com/futurenetworks/rcs/
[3] https://indianexpress.com/article/technology/social/google-new-chat-service-wont-be-secure-like-imessage-and-whatsapp-amnesty-international-5147050/
#standards #google #apple #messaging #rcs #privacy
Android
Enable RCS Chats on Android & iPhone: Get The Message
Enjoy clearer pictures, better group chats, and seamless communication between Android & iPhone with RCS. Learn to enable RCS messaging on your device.
Интересная статья венских исследователей о том что можно снизить рассеивание сигнала WiFi с помощью специального "антибликового" покрытия на стенах. Об этом в статье в Nature [1] и в более понятном изложении в NewsWeek [2]․
Идея такая что если перед железобетонной стеной создать поверхность аналогичную антибликовому покрытию на очках, только применительно к радиоволнам в определенном диапазоне, то сигнал не рассеивается, а, наоборот, значительно лучше передается далее.
В статье акцент на технологиях 6G и того что такие разработки будут полезны, а я вот не могу не смотреть на это с других точек зрения.
Во первых интересно как будут меняться строительные нормы и практическое применение. Если для бизнес центров применение будет довольно очевидным, то в жилых домах наличие такого покрытия на стенах и потолках позволит на последней миле использовать не роутер-в-каждой-квартире, а, условно, один роутер на 3 этажа. Возможно ли такое? Практично ли такое?
Во вторых увеличение дальности передачи сигнала - это, ведь, ещё и увеличение дальности приёма сигнала. Увеличит ли это точность геопозиционирования с помощью Wifi? Создаст ли это возможность отслеживать перемещение конкретного устройства в закрытых помещениях на большем расстоянии?
Ссылки:
[1] https://www.nature.com/articles/s41586-022-04843-6.epdf?sharing_token=IZPhXGh_UB8vpyGhMtbWFNRgN0jAjWel9jnR3ZoTv0OJKS2U2m5YIN0ttreuTZyoFceV-NgY6T0XAsRIt97bgyhYGbkxzf4IbIhkuCeqiTI4jWocZlHGQqCpzHYMakiv7f_xbv1IsgN42Ol2Szv9d2RyISqm5pBgA1pdoqH4kIgCZTP-bL6x5tDLwNmJDMqURyYJDSAZuWRxAm-xWlG0QN6jWlN12Ikp-cntE2eFW24%3D&tracking_referrer=www.newsweek.com
[2] https://www.newsweek.com/new-wifi-reflection-tech-could-send-signal-through-impenetrable-walls-1732088
#wifi #privacy
Идея такая что если перед железобетонной стеной создать поверхность аналогичную антибликовому покрытию на очках, только применительно к радиоволнам в определенном диапазоне, то сигнал не рассеивается, а, наоборот, значительно лучше передается далее.
В статье акцент на технологиях 6G и того что такие разработки будут полезны, а я вот не могу не смотреть на это с других точек зрения.
Во первых интересно как будут меняться строительные нормы и практическое применение. Если для бизнес центров применение будет довольно очевидным, то в жилых домах наличие такого покрытия на стенах и потолках позволит на последней миле использовать не роутер-в-каждой-квартире, а, условно, один роутер на 3 этажа. Возможно ли такое? Практично ли такое?
Во вторых увеличение дальности передачи сигнала - это, ведь, ещё и увеличение дальности приёма сигнала. Увеличит ли это точность геопозиционирования с помощью Wifi? Создаст ли это возможность отслеживать перемещение конкретного устройства в закрытых помещениях на большем расстоянии?
Ссылки:
[1] https://www.nature.com/articles/s41586-022-04843-6.epdf?sharing_token=IZPhXGh_UB8vpyGhMtbWFNRgN0jAjWel9jnR3ZoTv0OJKS2U2m5YIN0ttreuTZyoFceV-NgY6T0XAsRIt97bgyhYGbkxzf4IbIhkuCeqiTI4jWocZlHGQqCpzHYMakiv7f_xbv1IsgN42Ol2Szv9d2RyISqm5pBgA1pdoqH4kIgCZTP-bL6x5tDLwNmJDMqURyYJDSAZuWRxAm-xWlG0QN6jWlN12Ikp-cntE2eFW24%3D&tracking_referrer=www.newsweek.com
[2] https://www.newsweek.com/new-wifi-reflection-tech-could-send-signal-through-impenetrable-walls-1732088
#wifi #privacy
Nature
Anti-reflection structure for perfect transmission through complex media
Nature - An anti-reflection structure is used to eliminate all back scattering of light passing through a diffusive medium.
В рубрике как это устроено у них B2Find EUDAT [1] поисковик по научным данным в европейских репозиториях данных. Охватывает более 1 миллиона наборов данных, позволяет фильтровать по:
- языку
- временному промежутку
- формату
- организации
- году публикации
- ключевым словам
- научной дисциплине
и, в общей сложности, более чем 20 критериям.
Работает на базе движка с открытым кодом CKAN и использует его агрегационные механизмы.
Крупнейшие индексируемые репозитории:
- Nordic Archaeology [2]
- PANGAEA [3]
- DANS-EASY [4]
Всего репозиториев 36 на сегодняшний день.
Для агрегации используются стандарты метаданных:
- Datacite
- DublinCore
- OpenAire
- ISO 10115/19139 (INSPIRE)
- DDI 2.5
и собственная схема EUDAT Core Metadata Schema.
По формату проект нацелен на повышение находимости данных (data discovery) для научных целей.
По масштабу сравнимо с DataCite - поиск по 35 миллионам проиндексированных DOI для наборов данных и 17 миллионам наборов исследовательских данных в OpenAIRE.
Пока непонятно продолжится ли этот проект или все активности перешли/перейдут в OpenAIRE, но B2Find остаётся как пример большого поисковика по научным данным.
Ссылки:
[1] http://b2find.eudat.eu/
[2] http://b2find.eudat.eu/organization/nordicar
[3] http://b2find.eudat.eu/organization/pangaea
[4] http://b2find.eudat.eu/organization/danseasy
#opendata #researchdata #openaccess #datasets #search
- языку
- временному промежутку
- формату
- организации
- году публикации
- ключевым словам
- научной дисциплине
и, в общей сложности, более чем 20 критериям.
Работает на базе движка с открытым кодом CKAN и использует его агрегационные механизмы.
Крупнейшие индексируемые репозитории:
- Nordic Archaeology [2]
- PANGAEA [3]
- DANS-EASY [4]
Всего репозиториев 36 на сегодняшний день.
Для агрегации используются стандарты метаданных:
- Datacite
- DublinCore
- OpenAire
- ISO 10115/19139 (INSPIRE)
- DDI 2.5
и собственная схема EUDAT Core Metadata Schema.
По формату проект нацелен на повышение находимости данных (data discovery) для научных целей.
По масштабу сравнимо с DataCite - поиск по 35 миллионам проиндексированных DOI для наборов данных и 17 миллионам наборов исследовательских данных в OpenAIRE.
Пока непонятно продолжится ли этот проект или все активности перешли/перейдут в OpenAIRE, но B2Find остаётся как пример большого поисковика по научным данным.
Ссылки:
[1] http://b2find.eudat.eu/
[2] http://b2find.eudat.eu/organization/nordicar
[3] http://b2find.eudat.eu/organization/pangaea
[4] http://b2find.eudat.eu/organization/danseasy
#opendata #researchdata #openaccess #datasets #search
В рубрике интересных проектов на данных, проекты в области цифровых гуманитарных наук.
OmiaViae [1] планировщик пути по дорогам Римской Империи. Можно задать город выхода и город куда ты направляешься и сервис построит дорогу. Основан он на данных из Tabula Peutingeriana копии карты публичных римских дорог. Ей посвящён отдельный сайт и собраны данные [2]․
В основе этого же проекта ещё один проект по истории античности Vici [3] созданный в виде пополняемой семантической вики с картой Европы и не только с местами связанными с античными событиями. Проект претендует на то чтобы быть Wikidata для античности, ну или интегрироваться в Wikidata в будущем.
А в основе их всех проект Pleiades [4], большая открытая база данных созданная в Ancient World Mapping Center and Institute for the Study of the Ancient World. В ней опубликованы данные о 39,503 местах, 35,825 именах, 42,338 местонахождениях. Всё это доступно под свободной лицензией CC0 и в виде JSON, CSV, RDF и KML форматов данных.
Всё это примеры того что историки могут создавать на основе накопленных открытых данных. Есть много других похожих проектов и многие ещё ожидают своих создателей.
Ссылки:
[1] https://omnesviae.org
[2] https://www.tabula-peutingeriana.de/
[3] https://vici.org
[4] https://pleiades.stoa.org
#opendata #digitalhumanities #datasets
OmiaViae [1] планировщик пути по дорогам Римской Империи. Можно задать город выхода и город куда ты направляешься и сервис построит дорогу. Основан он на данных из Tabula Peutingeriana копии карты публичных римских дорог. Ей посвящён отдельный сайт и собраны данные [2]․
В основе этого же проекта ещё один проект по истории античности Vici [3] созданный в виде пополняемой семантической вики с картой Европы и не только с местами связанными с античными событиями. Проект претендует на то чтобы быть Wikidata для античности, ну или интегрироваться в Wikidata в будущем.
А в основе их всех проект Pleiades [4], большая открытая база данных созданная в Ancient World Mapping Center and Institute for the Study of the Ancient World. В ней опубликованы данные о 39,503 местах, 35,825 именах, 42,338 местонахождениях. Всё это доступно под свободной лицензией CC0 и в виде JSON, CSV, RDF и KML форматов данных.
Всё это примеры того что историки могут создавать на основе накопленных открытых данных. Есть много других похожих проектов и многие ещё ожидают своих создателей.
Ссылки:
[1] https://omnesviae.org
[2] https://www.tabula-peutingeriana.de/
[3] https://vici.org
[4] https://pleiades.stoa.org
#opendata #digitalhumanities #datasets
This media is not supported in your browser
VIEW IN TELEGRAM
Rill Data [1] стартап по визуализации данных в виде простых дашбордов составляемых из SQL запросов поднял инвестиций в $12M. Внутри продукта базы Apache Druid и DucksDB, есть версия для разработчиков с открытым кодом [2]
Позиционируют продукт как радикально простые панели и выглядит продукт интересно, надо посмотреть его в подробностях.
Из минуса - вся та же глобальная проблема в Modern Data Stack, работа с плоскими таблицами, невозможность работать с JSON без подготовки данных.
Ссылки:
[1] https://www.rilldata.com/
[2] https://github.com/rilldata/rill-developer
#dataviz #opensource #data #datatools #startups
Позиционируют продукт как радикально простые панели и выглядит продукт интересно, надо посмотреть его в подробностях.
Из минуса - вся та же глобальная проблема в Modern Data Stack, работа с плоскими таблицами, невозможность работать с JSON без подготовки данных.
Ссылки:
[1] https://www.rilldata.com/
[2] https://github.com/rilldata/rill-developer
#dataviz #opensource #data #datatools #startups
Из любопытных инструментов, в Hex, онлайн сервисе тетрадок для машинного обучения, появились no-code cells [1], это когда вместо написания Python или SQL можно выбрать интерактивно параметры, а сервис сам сгенерирует код.
Выглядит удобно как гибридный инструмент, и для тех кто напишет код сам, и для тех кому угодно не в виде кода, и для тех кто поправит за вторыми, то что они не могут сами.
Наступает время гибридных инструментов!
Ссылки:
[1] https://hex.tech/blog/introducing-no-code-cells
#datatools #sql #python
Выглядит удобно как гибридный инструмент, и для тех кто напишет код сам, и для тех кому угодно не в виде кода, и для тех кто поправит за вторыми, то что они не могут сами.
Наступает время гибридных инструментов!
Ссылки:
[1] https://hex.tech/blog/introducing-no-code-cells
#datatools #sql #python
Как и многие имевшие отношение к госИТ я читаю телеграм канал ГосТех'а и их последние тексты про мировой опыт ИТ в государстве.
Как бы при этом сказать, уровень этих текстов удручающий, ещё лет 7-8 назад я видел куда более детальный анализ того что делается в мире и сам составлял с несколько десятков презентаций, текстов, докладов и иной аналитике обо всём вот этом.
Чтобы не томить, я кратко опишу в чём сейчас мировой опыт заключается и как он отличается от российского. Оговорюсь что мировой опыт - это не только развитые страны, но и все более менее крупные.
1. Стратегии и долгосрочные планы
В мире - до реализации, реже, в процессе принимают национальные стратегии развития ИТ, облачных технологий, данных и ИИ. При необходимости их корректируют, их наличие мониторят, например, ОЭСР и ООН.
В России - стратегии скорее редкость, если они и есть то вторичны реальным процессам, а чаще их нет.
2. Открытый код госпроектов
В мире - происходит массовое раскрытие кода госпроектов, проектов финансируемых госорганами и госучреждениями и компонентов этих проектов. В основном на Github, но и на других платформах. Сотни организаций, тысячи репозиториев кода.
В России - раскрытие кода госорганами и госучреждениями не практикуется, повторное использование кода почти нулевое.
3. Облачная инфраструктура
В мире - сертификация и унификация требований к облачным провайдерам для обеспечения работы госсистем. Цель в том чтобы разработчики умеющие работать с коммерческими облаками могли бы без переподготовки работать над госпроектами и в экономии средств на обслуживании оборудования и инфраструктуры.
В России - вместо сертификации коммерческих облачных провайдеров, несколько безуспешных попыток запустить гособлака.
4. Работа с данными
В мире - в основе работы с данными работа с потребителями, бизнесом и гражданам, а лишь потом решение задач самих госорганов. Работа с данными строится вокруг порталов открытых данных созданных для публикации данных государства. Эти порталы активно развиваются.
В России - усиление работы с данными для потребностей госорганов, патерналистичный подход к доступности данных для пользователей, вместо данных, предоставляются госсервисы. Общее снижение открытости государства для независимого анализа и гражданского контроля
5. Стандарты
В мире - принятие национальных и международных стандартов работы с данными, спецификаций обмена сведениями, использование стандартов для интеграции информационных систем.
В России - минимизация международных стандартов, медленное создание национальных стандартов. Внедрение общих технологий через централизацию информационных систем.
6. Интеграция информационных систем
В мире - большая работа по интеграции унаследованных систем, систем в разных юрисдикциях и у разных уровней и ветвей власти, тщательная проработка юридических аспектов интеграции и обработки данных.
В России - сверхцентрализация информационных систем, вместо интеграции замена информационных систем регионов на единые федеральные. Политизация процесса интеграции, де-факто, перевод всех ветвей власти в зависимость от федеральной исполнительной власти.
—
Это, конечно, не всё, я таких пунктов могу написать ещё несколько десятков страниц, но хочу сделать акцент на другом. Информатизацию уже давно нельзя отделять от внутренней политики, в первую очередь контроля центральной/федеральной исполнительной власти, не только за гражданами, но и за всеми остальными ветвями и видами власти. Это сохраняющийся тренд вот уже почти два десятилетия и он никуда не делся.
Поэтому, наглой рекламы добавлю, если хотите узнать как устроено госИТ в мире и в России, читайте меня, а не телеграм канал ГосТеха😜
#russia #it #digital #government
Как бы при этом сказать, уровень этих текстов удручающий, ещё лет 7-8 назад я видел куда более детальный анализ того что делается в мире и сам составлял с несколько десятков презентаций, текстов, докладов и иной аналитике обо всём вот этом.
Чтобы не томить, я кратко опишу в чём сейчас мировой опыт заключается и как он отличается от российского. Оговорюсь что мировой опыт - это не только развитые страны, но и все более менее крупные.
1. Стратегии и долгосрочные планы
В мире - до реализации, реже, в процессе принимают национальные стратегии развития ИТ, облачных технологий, данных и ИИ. При необходимости их корректируют, их наличие мониторят, например, ОЭСР и ООН.
В России - стратегии скорее редкость, если они и есть то вторичны реальным процессам, а чаще их нет.
2. Открытый код госпроектов
В мире - происходит массовое раскрытие кода госпроектов, проектов финансируемых госорганами и госучреждениями и компонентов этих проектов. В основном на Github, но и на других платформах. Сотни организаций, тысячи репозиториев кода.
В России - раскрытие кода госорганами и госучреждениями не практикуется, повторное использование кода почти нулевое.
3. Облачная инфраструктура
В мире - сертификация и унификация требований к облачным провайдерам для обеспечения работы госсистем. Цель в том чтобы разработчики умеющие работать с коммерческими облаками могли бы без переподготовки работать над госпроектами и в экономии средств на обслуживании оборудования и инфраструктуры.
В России - вместо сертификации коммерческих облачных провайдеров, несколько безуспешных попыток запустить гособлака.
4. Работа с данными
В мире - в основе работы с данными работа с потребителями, бизнесом и гражданам, а лишь потом решение задач самих госорганов. Работа с данными строится вокруг порталов открытых данных созданных для публикации данных государства. Эти порталы активно развиваются.
В России - усиление работы с данными для потребностей госорганов, патерналистичный подход к доступности данных для пользователей, вместо данных, предоставляются госсервисы. Общее снижение открытости государства для независимого анализа и гражданского контроля
5. Стандарты
В мире - принятие национальных и международных стандартов работы с данными, спецификаций обмена сведениями, использование стандартов для интеграции информационных систем.
В России - минимизация международных стандартов, медленное создание национальных стандартов. Внедрение общих технологий через централизацию информационных систем.
6. Интеграция информационных систем
В мире - большая работа по интеграции унаследованных систем, систем в разных юрисдикциях и у разных уровней и ветвей власти, тщательная проработка юридических аспектов интеграции и обработки данных.
В России - сверхцентрализация информационных систем, вместо интеграции замена информационных систем регионов на единые федеральные. Политизация процесса интеграции, де-факто, перевод всех ветвей власти в зависимость от федеральной исполнительной власти.
—
Это, конечно, не всё, я таких пунктов могу написать ещё несколько десятков страниц, но хочу сделать акцент на другом. Информатизацию уже давно нельзя отделять от внутренней политики, в первую очередь контроля центральной/федеральной исполнительной власти, не только за гражданами, но и за всеми остальными ветвями и видами власти. Это сохраняющийся тренд вот уже почти два десятилетия и он никуда не делся.
Поэтому, наглой рекламы добавлю, если хотите узнать как устроено госИТ в мире и в России, читайте меня, а не телеграм канал ГосТеха😜
#russia #it #digital #government
Тем временем, буквально недавно, в июле, появилось предложение по изменению в стандарт HTTP добавлением типа запроса QUERY для запросов в базы данных [1] [2] нечто что имеет самое непосредственное отношение к современным базам данных, индексированию веб сайтов и работе большого числа веб ресурсов.
По сути идея в том чтобы иметь тип запросов который, с одной стороны, должен нести нагрузку при передаче от клиента, а с другой поддерживать кеширование, то что сейчас не обеспечивается для POST запросов ну или вернее обеспечивается путем настройки кеширующих веб-серверов, на уровне кеш серверов ключ-значение и так далее.
У меня лично нет уверенности в строгой необходимости такого изменения. Запросы в HTTP ещё давно проектировались по модели CRUD (GET, POST, DELETE, PUT и PATCH), а аналога SELECT никогда небыло. Большая часть REST API и запросов Ajax работают на базе GET или POST запросов.
Будет ли эффективен запрос QUERY? Хочется увидеть референсную реализацию и тестирование производительности.
Ссылки:
[1] https://datatracker.ietf.org/doc/draft-ietf-httpbis-safe-method-w-body/
[2] https://horovits.medium.com/http-s-new-method-for-data-apis-http-query-1ff71e6f73f3
#data #standards
По сути идея в том чтобы иметь тип запросов который, с одной стороны, должен нести нагрузку при передаче от клиента, а с другой поддерживать кеширование, то что сейчас не обеспечивается для POST запросов ну или вернее обеспечивается путем настройки кеширующих веб-серверов, на уровне кеш серверов ключ-значение и так далее.
У меня лично нет уверенности в строгой необходимости такого изменения. Запросы в HTTP ещё давно проектировались по модели CRUD (GET, POST, DELETE, PUT и PATCH), а аналога SELECT никогда небыло. Большая часть REST API и запросов Ajax работают на базе GET или POST запросов.
Будет ли эффективен запрос QUERY? Хочется увидеть референсную реализацию и тестирование производительности.
Ссылки:
[1] https://datatracker.ietf.org/doc/draft-ietf-httpbis-safe-method-w-body/
[2] https://horovits.medium.com/http-s-new-method-for-data-apis-http-query-1ff71e6f73f3
#data #standards
Полезная статья [1] о применении машинного обучения и глубокого обучения для задач VDU (Visual document understanding), распознавания текстов (и образов) в документах. Автор пишет о том как на базе библиотеки transformers [2] от HuggingFaces, модели Donut [3] (Document understanding transformer) и базы сканированных чеков она настроила их автоматическое распознавание в структурированный формат в JSON так что на выходе получается не текст неким свободным образом написанный, а структура объекта чтобы сразу класть в базу данных.
Скорее всего если сравнивать с промышленными платными OCR движками, то качество их распознавание должно быть лучше, но тут автор сравнивает с открытым движком Tesseract который, по её утверждению, справляется хуже.
Donut выглядит интересным открытым продуктом, его определённо стоит попробовать на каких-то живых сканах структурированный сведений чтобы понять границы его применимости.
Ссылки:
[1] https://towardsdatascience.com/ocr-free-document-understanding-with-donut-1acfbdf099be
[2] https://huggingface.co/docs/transformers/index
[3] https://github.com/clovaai/donut
[4] https://github.com/zzzDavid/ICDAR-2019-SROIE
#data #opensource #ml #datascience
Скорее всего если сравнивать с промышленными платными OCR движками, то качество их распознавание должно быть лучше, но тут автор сравнивает с открытым движком Tesseract который, по её утверждению, справляется хуже.
Donut выглядит интересным открытым продуктом, его определённо стоит попробовать на каких-то живых сканах структурированный сведений чтобы понять границы его применимости.
Ссылки:
[1] https://towardsdatascience.com/ocr-free-document-understanding-with-donut-1acfbdf099be
[2] https://huggingface.co/docs/transformers/index
[3] https://github.com/clovaai/donut
[4] https://github.com/zzzDavid/ICDAR-2019-SROIE
#data #opensource #ml #datascience
Milvus [1] векторная база NoSQL данных позволяющая быстро реализовывать поиск по подобиям, например, поиск по похожим изображениям или поиск похожих химических структур. Является одним из проектов The Linux Foundation [2].
Из особенностей, интерфейс работы в виде коллекций чем-то похожий на MongoDB, но с преднастроенной схемой данных.
Для веб интерфейса к нему идёт отдельно надстройка Attu [3]․
А также есть много примеров построения разных видов поиска [4].
Ссылки:
[1] https://milvus.io/
[2] https://lfaidata.foundation/projects/
[3] https://github.com/zilliztech/attu
[4] https://milvus.io/docs/v2.1.x/image_similarity_search.md
#datatools #databases #opensource
Из особенностей, интерфейс работы в виде коллекций чем-то похожий на MongoDB, но с преднастроенной схемой данных.
Для веб интерфейса к нему идёт отдельно надстройка Attu [3]․
А также есть много примеров построения разных видов поиска [4].
Ссылки:
[1] https://milvus.io/
[2] https://lfaidata.foundation/projects/
[3] https://github.com/zilliztech/attu
[4] https://milvus.io/docs/v2.1.x/image_similarity_search.md
#datatools #databases #opensource
Когда много пишешь всегда наступает момент когда надо систематизировать написанное.
Я собрал мои тексты про информатизацию государства, открытые государственные данные, качество госданных, государственные финансы, государственную политику и т.д. в одну большую подборку в рассылке [1].
Там только большие тексты, без учёта опубликованного в этом телеграм канале, в фэйсбуке и тд. Тексты вышедшие колонками в Ведомостях, Forbes, РБК и в моих блоге и в рассылке. Я мог упустить колонки в других изданиях, но большую часть материалов должен быть охватить.
Полезного чтения!
Ссылки:
[1] https://begtin.substack.com/p/29
#opendata #government #policy #dataquality #govfinances
Я собрал мои тексты про информатизацию государства, открытые государственные данные, качество госданных, государственные финансы, государственную политику и т.д. в одну большую подборку в рассылке [1].
Там только большие тексты, без учёта опубликованного в этом телеграм канале, в фэйсбуке и тд. Тексты вышедшие колонками в Ведомостях, Forbes, РБК и в моих блоге и в рассылке. Я мог упустить колонки в других изданиях, но большую часть материалов должен быть охватить.
Полезного чтения!
Ссылки:
[1] https://begtin.substack.com/p/29
#opendata #government #policy #dataquality #govfinances
В рубрике как это работает у них проект Nueva Economía de la Lengua [1], Новая языковая экономика в Испании.
В его основе инвестиции в размере 1.1 миллиарда евро в изучение испанского языка из которых:
- 475 миллионов евро идёт на создание цифровой платформы изучение языка и оцифровку материалов Института Сервантеса
- 330 миллионов евро идёт на создание языковых моделей для работы искусственного интеллекта.
Эти модели уже активно создаются. Из последних можно привести в пример ESCORPUS [2] языковая модель высокого качества на 50 миллионов слов, а также исходный код и многочисленные другие модели языков и публикации научные и популярные [3] создаваемые в суперкомпьютерном центре в Барселоне.
Обо всём этом, проектах и результатах, на сайте Министерства экономики Испании [4], результатов там немало.
Всё это делает испанский язык наиболее вероятным языком после английского языка по появлению новых продуктов на базе языковых моделей. Может быть ещё китайский язык составляет конкуренцию, разве что.
С точки зрения работы с данными можно рассматривать этот план как создание огромных качественных открытых наборов данных с чётко сформулированными целями в рамках долгосрочной государственной политики.
Испанский язык один из наиболее распространённых в мире и его распространение явно продолжится.
А есть ли на постсоветском пространстве похожие инициативы? Есть ли государственные инвестиции и открытые модели для русского, казахского, армянского, узбекского и других языков? Можно ли сохранять свои языки популярными и востребованными не вкладываясь в технологии их применения?
Ссылки:
[1] https://planderecuperacion.gob.es/como-acceder-a-los-fondos/pertes/perte-nueva-economia-de-la-lengua
[2] https://huggingface.co/datasets/LHF/escorpius
[3] https://github.com/PlanTL-GOB-ES
[4] https://plantl.mineco.gob.es/Paginas/index.aspx
#opendata #datasets #spain #languages #government #policy #eu
В его основе инвестиции в размере 1.1 миллиарда евро в изучение испанского языка из которых:
- 475 миллионов евро идёт на создание цифровой платформы изучение языка и оцифровку материалов Института Сервантеса
- 330 миллионов евро идёт на создание языковых моделей для работы искусственного интеллекта.
Эти модели уже активно создаются. Из последних можно привести в пример ESCORPUS [2] языковая модель высокого качества на 50 миллионов слов, а также исходный код и многочисленные другие модели языков и публикации научные и популярные [3] создаваемые в суперкомпьютерном центре в Барселоне.
Обо всём этом, проектах и результатах, на сайте Министерства экономики Испании [4], результатов там немало.
Всё это делает испанский язык наиболее вероятным языком после английского языка по появлению новых продуктов на базе языковых моделей. Может быть ещё китайский язык составляет конкуренцию, разве что.
С точки зрения работы с данными можно рассматривать этот план как создание огромных качественных открытых наборов данных с чётко сформулированными целями в рамках долгосрочной государственной политики.
Испанский язык один из наиболее распространённых в мире и его распространение явно продолжится.
А есть ли на постсоветском пространстве похожие инициативы? Есть ли государственные инвестиции и открытые модели для русского, казахского, армянского, узбекского и других языков? Можно ли сохранять свои языки популярными и востребованными не вкладываясь в технологии их применения?
Ссылки:
[1] https://planderecuperacion.gob.es/como-acceder-a-los-fondos/pertes/perte-nueva-economia-de-la-lengua
[2] https://huggingface.co/datasets/LHF/escorpius
[3] https://github.com/PlanTL-GOB-ES
[4] https://plantl.mineco.gob.es/Paginas/index.aspx
#opendata #datasets #spain #languages #government #policy #eu
planderecuperacion.gob.es
PERTE Nueva economía de la lengua
Una oportunidad para aprovechar el potencial del español y de las lenguas cooficiales como factor de crecimiento económico y competitividad internacional.