Управление статистики ООН опубликовало мобильное приложение UNdata app [1] с данными статистики с портала data.un.org. По отзывам оно хоть и не вау, но средняя оценка 4.3 [2] и оно не то чтобы совсем бесполезно, а может даже и весьма пригодится кому-то.
Кстати стат ведомства в мире не то чтобы балуют пользователей удобным доступом через мобильные приложения. Из известных мне, только у швейцарского SwissStat есть официальное мобильное приложение [3]
Надо ли статведомствам делать самим мобильные приложения? Нет, я считаю что нет. Надо делать очень хорошие API и возможность массовой выгрузки наборов данных, и организовывать конкурсы и хакатоны для создания приложений с открытым кодом.
Правда, в случае ООН это очень сложно, международная бюрократия совсем неповоротлива.
Ссылки։
[1] https://unstats.un.org/UNSDWebsite/Publications/StatisticalPocketbook/
[2] https://play.google.com/store/apps/details?id=unstats.un.org.countrystats
[3] https://play.google.com/store/apps/details?id=ch.admin.bfs.swissstat
#opendata #un #mobileapps
Кстати стат ведомства в мире не то чтобы балуют пользователей удобным доступом через мобильные приложения. Из известных мне, только у швейцарского SwissStat есть официальное мобильное приложение [3]
Надо ли статведомствам делать самим мобильные приложения? Нет, я считаю что нет. Надо делать очень хорошие API и возможность массовой выгрузки наборов данных, и организовывать конкурсы и хакатоны для создания приложений с открытым кодом.
Правда, в случае ООН это очень сложно, международная бюрократия совсем неповоротлива.
Ссылки։
[1] https://unstats.un.org/UNSDWebsite/Publications/StatisticalPocketbook/
[2] https://play.google.com/store/apps/details?id=unstats.un.org.countrystats
[3] https://play.google.com/store/apps/details?id=ch.admin.bfs.swissstat
#opendata #un #mobileapps
Продолжая тему статистики и ООН, 3 марта завершилась 54 сессия Статкомитета ООН посвящённая статистике. Там довольно много документов опубликовано по итогам [1], по стандартам, большим данным, качеству данных, в том числе все документы публикуются на 6 языках включая русский язык. Например, многим будет любопытен документ по большим данным Report of the Committee of Experts on Big Data and Data Science for Official Statistics [2] с некоторым количеством примеров их использования статведомствами по всему миру, но интересно не только это.
В этом году было принято официально включить тему открытых данных как элемент официальной повестки UNStats. Об этом пишут в НКО Open Data Watch [3] которые все эти годы двигали эту тему․
И тут я не могу не обратить внимание на то что лидеры по работе с большими данными сейчас - это Китай. В частности Правительство Китая намеренно разместить глобальный центр по большим данным для работы с мировой/глобальной статистикой и работой экспертов из многих стран. Они почти наверняка будут представлять его на конференции UN Data Forum в Ханчжоу в этом году.
Что можно сказать про пост-советское пространство? В деятельности комиссии по большим данным принимает участие только статкомитет Грузии. Российский Росстат, к примеру, и все экономические образования вроде Статкомитета СНГ и ЕАЭС во всём этом не участвуют.
Ссылки:
[1] https://unstats.un.org/UNSDWebsite/statcom/documents/54
[2] https://unstats.un.org/UNSDWebsite/statcom/session_54/documents/2023-17-BigData-R.pdf
[3] https://twitter.com/OpenDataWatch/status/1631428639983009793
#opendata #statistics #bigdata #un #unstats
В этом году было принято официально включить тему открытых данных как элемент официальной повестки UNStats. Об этом пишут в НКО Open Data Watch [3] которые все эти годы двигали эту тему․
И тут я не могу не обратить внимание на то что лидеры по работе с большими данными сейчас - это Китай. В частности Правительство Китая намеренно разместить глобальный центр по большим данным для работы с мировой/глобальной статистикой и работой экспертов из многих стран. Они почти наверняка будут представлять его на конференции UN Data Forum в Ханчжоу в этом году.
Что можно сказать про пост-советское пространство? В деятельности комиссии по большим данным принимает участие только статкомитет Грузии. Российский Росстат, к примеру, и все экономические образования вроде Статкомитета СНГ и ЕАЭС во всём этом не участвуют.
Ссылки:
[1] https://unstats.un.org/UNSDWebsite/statcom/documents/54
[2] https://unstats.un.org/UNSDWebsite/statcom/session_54/documents/2023-17-BigData-R.pdf
[3] https://twitter.com/OpenDataWatch/status/1631428639983009793
#opendata #statistics #bigdata #un #unstats
День открытых данных ещё продолжается, а я тем временем выступил с презентацией Как искать данные с помощью каталогов данных. Проект datacatalogs.ru о том как проект устроен, развивается, для чего создавался и к чему идёт. А создавался он для появления поисковика по данным в будущем.
Видео тоже вскоре будет доступно.
Ссылки։
[1] https://www.beautiful.ai/player/-NPgdYTNJKkJTXp_0zgA
#opendata #opengov #datadiscovery
Видео тоже вскоре будет доступно.
Ссылки։
[1] https://www.beautiful.ai/player/-NPgdYTNJKkJTXp_0zgA
#opendata #opengov #datadiscovery
Beautiful.ai
Как искать данные с помощью каталогов данных. Проект datacatalogs.ru
Get started with Beautiful.ai today.
Как работать с данными гуманитариям, например, историкам? Где взять данные, как их подготавливать, какие банки данных и сервисы доступны онлайн? Подборка опубликованных наборов данных по древней истории։
- World-Historical Dataverse [1] от University of Pittsburgh World History Center, коллекция наборов данных посвящённых истории распространения языков, крупным историческим событиям и древней географии
- Project MERCURY datasets [2] коллекция набора данных проекта Меркурий, посвящённого компьютерному моделированию Древнего Рима
- Re3Data Ancient Cultures [3] каталоги и базы данных по древним культурам собранные в проекте Re3Data
- Europeana Datasets. Overview for Ancient World [4] наборы данных по древнему миру в проекте Европеана
- Nomisma datasets [5] проект-агрегатор открытых данных по нумизматике, включая коллекции древних монет
- Open-archaeo: A list of open source archaeological software and resources [6] каталог открытых наборов данных связанных с археологией
- Digital Humanities Platform of Shanghai Library [7] каталог связанных данных по древней истории при библиотеке Шанхая
Ссылки։
[1] https://dataverse.harvard.edu/dataverse/worldhistorical
[2] https://projectmercury.eu/datasets
[3] https://www.re3data.org/search?subjects[]=101%20Ancient%20Cultures
[4] https://pro.europeana.eu/timecoverage/ancient-world
[5] http://nomisma.org/datasets
[6] https://open-archaeo.info/tags/datasets/
[7] http://data.library.sh.cn/index
#opendata #digitalhumanities #ancienthistory #datasets #openscience
- World-Historical Dataverse [1] от University of Pittsburgh World History Center, коллекция наборов данных посвящённых истории распространения языков, крупным историческим событиям и древней географии
- Project MERCURY datasets [2] коллекция набора данных проекта Меркурий, посвящённого компьютерному моделированию Древнего Рима
- Re3Data Ancient Cultures [3] каталоги и базы данных по древним культурам собранные в проекте Re3Data
- Europeana Datasets. Overview for Ancient World [4] наборы данных по древнему миру в проекте Европеана
- Nomisma datasets [5] проект-агрегатор открытых данных по нумизматике, включая коллекции древних монет
- Open-archaeo: A list of open source archaeological software and resources [6] каталог открытых наборов данных связанных с археологией
- Digital Humanities Platform of Shanghai Library [7] каталог связанных данных по древней истории при библиотеке Шанхая
Ссылки։
[1] https://dataverse.harvard.edu/dataverse/worldhistorical
[2] https://projectmercury.eu/datasets
[3] https://www.re3data.org/search?subjects[]=101%20Ancient%20Cultures
[4] https://pro.europeana.eu/timecoverage/ancient-world
[5] http://nomisma.org/datasets
[6] https://open-archaeo.info/tags/datasets/
[7] http://data.library.sh.cn/index
#opendata #digitalhumanities #ancienthistory #datasets #openscience
dataverse.harvard.edu
World-Historical Dataverse
The World-Historical Dataverse is a dataset archive published by the World History Center at the University of Pittsburgh. It is intended to contribute to the development and exchange of datasets relevant to world-historical documentation and analysis. Any…
Интересное чтение про данные, технологии и не только։
- Writing Well: A Data Engineer’s Advantage [1] просто прекрасный совет который я могу повторять всем дата инженерам и разработчикам. Уметь писать тексты, документировать свою работу - это не софт скилл, это профессиональный левел ап.
- Here’s why your efforts to extract value from data are going nowhere [2] о том что если у данные у вас плохие то как ни старайся хорошего результата не будет и о том что кроме профессий data science и data engineering есть ещё профессия которой пока нет нормального названия, но по сути это люди которые производят данные. Их труд менее всего выпячивается, ценится и так далее. Значимость тексту придаёт и то что его автор Cassie Kozyrkov, Chief Decision Scientist в Google. Она там же активно продвигает The Data Cards playbook, о котором далее.
- The Data Cards Playbook [3] по-русски звучит как "карточки данных". Карточки данных - это структурированные резюме существенных фактов о различных аспектах наборов данных ML, необходимых заинтересованным сторонам на протяжении всего жизненного цикла проекта для ответственной разработки ИИ. Это сложный и концептуальный, но важный и интересный путь описания документации наборам данных для ИИ.
- Tabular Announcement [4] анонс стартапа Tabular предлагающего хранилище данных в виде таблиц Apache Iceberg и с поддержкой многих языков/инструментов запросов причём хранят данные в хранилище AWS S3 к которому пользователь даёт доступ, так что обещают отсутствие vendor lock-in. Кстати, отсутствие vendor lock-in часто звучит как преимущество в последнее время. Правда оно не распространяется на итоговое хранилище которое почти всегда AWS, Azure, GCS или Snowflake.
Ссылки։
[1] https://medium.com/@luukmes/writing-well-a-data-engineers-advantage-2fd08efaedb0
[2] https://towardsdatascience.com/heres-why-your-efforts-extract-value-from-data-are-going-nowhere-8e4ffacbdbc0
[3] https://sites.research.google/datacardsplaybook/
[4] https://tabular.io/blog/announcing-tabular/
#datatools #data #readings #dataengineering
- Writing Well: A Data Engineer’s Advantage [1] просто прекрасный совет который я могу повторять всем дата инженерам и разработчикам. Уметь писать тексты, документировать свою работу - это не софт скилл, это профессиональный левел ап.
- Here’s why your efforts to extract value from data are going nowhere [2] о том что если у данные у вас плохие то как ни старайся хорошего результата не будет и о том что кроме профессий data science и data engineering есть ещё профессия которой пока нет нормального названия, но по сути это люди которые производят данные. Их труд менее всего выпячивается, ценится и так далее. Значимость тексту придаёт и то что его автор Cassie Kozyrkov, Chief Decision Scientist в Google. Она там же активно продвигает The Data Cards playbook, о котором далее.
- The Data Cards Playbook [3] по-русски звучит как "карточки данных". Карточки данных - это структурированные резюме существенных фактов о различных аспектах наборов данных ML, необходимых заинтересованным сторонам на протяжении всего жизненного цикла проекта для ответственной разработки ИИ. Это сложный и концептуальный, но важный и интересный путь описания документации наборам данных для ИИ.
- Tabular Announcement [4] анонс стартапа Tabular предлагающего хранилище данных в виде таблиц Apache Iceberg и с поддержкой многих языков/инструментов запросов причём хранят данные в хранилище AWS S3 к которому пользователь даёт доступ, так что обещают отсутствие vendor lock-in. Кстати, отсутствие vendor lock-in часто звучит как преимущество в последнее время. Правда оно не распространяется на итоговое хранилище которое почти всегда AWS, Azure, GCS или Snowflake.
Ссылки։
[1] https://medium.com/@luukmes/writing-well-a-data-engineers-advantage-2fd08efaedb0
[2] https://towardsdatascience.com/heres-why-your-efforts-extract-value-from-data-are-going-nowhere-8e4ffacbdbc0
[3] https://sites.research.google/datacardsplaybook/
[4] https://tabular.io/blog/announcing-tabular/
#datatools #data #readings #dataengineering
Medium
Writing Well: A Data Engineer’s Advantage
How to write clear and concise emails as a data engineer
Forwarded from Инфокультура
Мы продолжаем пополнять наш проект Каталог каталогов данных (datacatalogs.ru)
В этот раз в каталог были добавлены геопорталы в республиках Узбекистан и Казахстан։
- Общественный геопортал Кадастрового агентства Республики Узбекистан https://open.ngis.ru
- Геопортал Комитета по правовой статистике Генеральной прокуратуры Республики Казахстан https://gis.kgp.kz
- Геопортал компании Карачаганак Петролиум Оперейтинг Б.В. https://maps.kpo.kz
- Картографическая основа Управления Земельного кадастра и Автоматизированной информационной системы государственного земельного кадастра https://aisgzk.kz/aisgzk/ru/content/maps/
- Геоинформационный портал города Астана https://gis.esaulet.kz
- Геопортал Акционерного общества «Национальная геологическая служба» https://ngs.geology.kz
На этих порталах публикуются от десяти до сотен слоёв с данными и предоставляется доступ к данным через API сервисы ArcGIS на базе сервера которого они созданы.
Записи об этих порталах вскоре появятся в поиске каталога.
#opendata #datacatalogs
В этот раз в каталог были добавлены геопорталы в республиках Узбекистан и Казахстан։
- Общественный геопортал Кадастрового агентства Республики Узбекистан https://open.ngis.ru
- Геопортал Комитета по правовой статистике Генеральной прокуратуры Республики Казахстан https://gis.kgp.kz
- Геопортал компании Карачаганак Петролиум Оперейтинг Б.В. https://maps.kpo.kz
- Картографическая основа Управления Земельного кадастра и Автоматизированной информационной системы государственного земельного кадастра https://aisgzk.kz/aisgzk/ru/content/maps/
- Геоинформационный портал города Астана https://gis.esaulet.kz
- Геопортал Акционерного общества «Национальная геологическая служба» https://ngs.geology.kz
На этих порталах публикуются от десяти до сотен слоёв с данными и предоставляется доступ к данным через API сервисы ArcGIS на базе сервера которого они созданы.
Записи об этих порталах вскоре появятся в поиске каталога.
#opendata #datacatalogs
ODS.AI когда-то было очень активное и продвинутое сообщество, но время не щадит никого и ничего, особенно когда по очереди вылезают вот такие проблемы описываемые автором. Российское сообщество по открытым данным мы собирали в телеграм изначально, хотя и делали попытки делать сообщество в Slack'е, но ничего не вышло, а в Телеграм всё было вполне естественно. Другие площадки вроде Matrix вполне могут существовать, но часто это сбор почти с нуля. Например, сообщество по открытым данным при Open Knowledge Foundation существует в Matrix, оно живое, но на уровне сообщения в месяц. Не умирает, но не бурлит. Сообщества - это важно, больше сообществ хороших и разных и не токсичных.
А каких сообществ по данным нам не хватает в русскоязычном и не только пространстве?
#community #data
А каких сообществ по данным нам не хватает в русскоязычном и не только пространстве?
#community #data
Forwarded from 🔋 Труба данных
О покойниках или хорошо, или ничего.
Последний год было очень печально наблюдать смерть ODS. Для тех, кто не знает, что это такое, когда-то это была одна из самых крупных (если не самая крупная) сеть сообществ по DS и все, что связано с обработкой и хранением данных.
Если не обращать внимание на некоторых ну жутко токсичных людей, сообщество было очень полезным. Начиная от какого-то понимания рынка зарплат (к вакансиям было требование, чтобы они публиковались с вилкой), до каких-то узко-специализирванных каналов по технологиям, где всегда можно было подчерпнуть интересный материал.
Если не заходить в каналы-флудилки, это приносило пользу.
Но за последние 2 года там образовался культ нескольких личностей, часть полезных каналов просто утонуло в токсичности. А последний год стал вообще лебединой песней:
Сначала Slack сказал “Нам не важно, что вы большое и полезное сообщество, раз вы из РФ, платите по $10 за пользователя” и отключил регистрацию из РФ.
Организаторы отказались от того, чтобы сообщество стало платным, поэтому сообществу отключили историю выше 10к сообщений. С учетом адового флуда, все полезное быстро ушло.
Затем организаторы решили мигрировать в Matrix (это Web3 частик с e2e шифрованием), предумали всякие федерации и конфедерации (что за безумие?). Инвайты туда выдавали еле-еле, половина не работала, половина чатов и каналов пустовали. В общем, полная херня и ничего не вышло дельного.
А затем организаторы запачкались еще в “конференсном туризме” от РКН и в связах с государством.
Соответственно, вроде как 21 марта Slack должен отключить вообще полностью сообщество. И вот уже народ начал создавать свои сообщества в Slack зарегистрировавшись из других стран, в Mattermost, Discord и еще везде. В итоге, одно огромное сообщество распадется на свои очень маленькие кучки людей по интересам.
@ohmydataengineer
Последний год было очень печально наблюдать смерть ODS. Для тех, кто не знает, что это такое, когда-то это была одна из самых крупных (если не самая крупная) сеть сообществ по DS и все, что связано с обработкой и хранением данных.
Если не обращать внимание на некоторых ну жутко токсичных людей, сообщество было очень полезным. Начиная от какого-то понимания рынка зарплат (к вакансиям было требование, чтобы они публиковались с вилкой), до каких-то узко-специализирванных каналов по технологиям, где всегда можно было подчерпнуть интересный материал.
Если не заходить в каналы-флудилки, это приносило пользу.
Но за последние 2 года там образовался культ нескольких личностей, часть полезных каналов просто утонуло в токсичности. А последний год стал вообще лебединой песней:
Сначала Slack сказал “Нам не важно, что вы большое и полезное сообщество, раз вы из РФ, платите по $10 за пользователя” и отключил регистрацию из РФ.
Организаторы отказались от того, чтобы сообщество стало платным, поэтому сообществу отключили историю выше 10к сообщений. С учетом адового флуда, все полезное быстро ушло.
Затем организаторы решили мигрировать в Matrix (это Web3 частик с e2e шифрованием), предумали всякие федерации и конфедерации (что за безумие?). Инвайты туда выдавали еле-еле, половина не работала, половина чатов и каналов пустовали. В общем, полная херня и ничего не вышло дельного.
А затем организаторы запачкались еще в “конференсном туризме” от РКН и в связах с государством.
Соответственно, вроде как 21 марта Slack должен отключить вообще полностью сообщество. И вот уже народ начал создавать свои сообщества в Slack зарегистрировавшись из других стран, в Mattermost, Discord и еще везде. В итоге, одно огромное сообщество распадется на свои очень маленькие кучки людей по интересам.
@ohmydataengineer
Почему открытые данные - это всегда культура и далее технологии на примере данных о COVID-19 в России. Если кто-то не знает, в России за 2.5 года ковида Пр-во и Минздрав РФ в частности не публиковали наборы данных по эпидемии. Вместо этого они создали портал стопкоронавирус.рф имеющий скорее PR функцию и некоторые графики с отображением цифр. Да, были те энтузиасты кто эти графики преобразовывал в данные (используя парсинг), но в целом официальной публикации данных не было. А с декабря 2022 года, ещё и этот портал перестали обновлять.
Однако всё это время публиковался и продолжает публиковаться Еженедельный бюллетень по гриппу [1] в котором, в том числе, есть информация по заболеваемости COVID-19, но сам бюллетень публикуется в формате "не сказать бы лишнего". Там есть слова и графики и нет таблиц, нет разбивки заболеваемости по регионам и по городам, хотя такие сведения совершенно точно собираются и есть у составителей бюллетеня из ФГБУ «НИИ гриппа им. А.А. Смородинцева». Эти данные совершенно точно есть у сотрудников Минздрава РФ и знаете что самое удивительное? Что даже этот бюллетень доступен.
Минздрав РФ чуть ли не худшее ведомство в России по уровню открытости, я очень рекомендую послушать и посмотреть выступление Ксении Бабихиной из проекта Если быть точным [2] об опыте взаимодействия, отрицательном опыте, к сожалению.
А возвращаясь к данным о COVID-19, то, казалось бы, что мешает НИИ Гриппа публиковать развернутую статистику, что мешает Минздраву РФ размещать эти данные на портале открытых данных РФ, что мешало АНО "Диалог" или кто там вёл проект стопкоронавирус.рф предоставлять данные в машиночитаемом формате. Тем более что все они действовали и действуют на деньги налогоплательщиков.
Можно было бы посмотреть на пример Швейцарии и их опыта раскрытия не просто статистики, а всех случаях заболевания в обезличенном виде [3].
Вопрос о том "что мешает?" риторический.
Ссылки։
[1] https://www.influenza.spb.ru/system/epidemic_situation/laboratory_diagnostics/
[2] https://www.youtube.com/live/zYSr8gYJd4c?feature=share&t=3141
[3] https://t.me/begtin/4662
#opendata #healthcare #covid19
Однако всё это время публиковался и продолжает публиковаться Еженедельный бюллетень по гриппу [1] в котором, в том числе, есть информация по заболеваемости COVID-19, но сам бюллетень публикуется в формате "не сказать бы лишнего". Там есть слова и графики и нет таблиц, нет разбивки заболеваемости по регионам и по городам, хотя такие сведения совершенно точно собираются и есть у составителей бюллетеня из ФГБУ «НИИ гриппа им. А.А. Смородинцева». Эти данные совершенно точно есть у сотрудников Минздрава РФ и знаете что самое удивительное? Что даже этот бюллетень доступен.
Минздрав РФ чуть ли не худшее ведомство в России по уровню открытости, я очень рекомендую послушать и посмотреть выступление Ксении Бабихиной из проекта Если быть точным [2] об опыте взаимодействия, отрицательном опыте, к сожалению.
А возвращаясь к данным о COVID-19, то, казалось бы, что мешает НИИ Гриппа публиковать развернутую статистику, что мешает Минздраву РФ размещать эти данные на портале открытых данных РФ, что мешало АНО "Диалог" или кто там вёл проект стопкоронавирус.рф предоставлять данные в машиночитаемом формате. Тем более что все они действовали и действуют на деньги налогоплательщиков.
Можно было бы посмотреть на пример Швейцарии и их опыта раскрытия не просто статистики, а всех случаях заболевания в обезличенном виде [3].
Вопрос о том "что мешает?" риторический.
Ссылки։
[1] https://www.influenza.spb.ru/system/epidemic_situation/laboratory_diagnostics/
[2] https://www.youtube.com/live/zYSr8gYJd4c?feature=share&t=3141
[3] https://t.me/begtin/4662
#opendata #healthcare #covid19
объясняем.рф
Стопкоронавирус
Актуальные новости о коронавирусной инфекции в России. Данные из официальных источников. Информация о вакцинах, прививках и заболеваемости в регионах РФ
Открытый код, открытые данные, открытые стандарты, как назвать всё это вместе? Экосистема открытости или как-то ещё? Один из ответов на этот вопрос - это совместная инициатива нескольких международных агентств развития под названием Digital Public Goods Allience [1] вокруг понятия Digital Public Goods которое можно перевести как цифровое общественное достояние․
По этой концепции они разработали стандарт Digital Public Goods Standard [2] под который подпадают։
- Open Software
- Open Data
- Open AI models
- Open Standards
- Open Content
Весь этот стандарт и инициативы построены вокруг целей устойчивого развития (SDG) [3] и структур и повестки ООН.
Я как-то писал что международная бюрократия очень медленна в адаптации всего нового, и ООН и агентства международного развития очень медленно шли в направлении открытости, но когда пришли, то теперь это надолго и тема открытости будет для структур ООН одной из ключевых ещё долго.
Ссылки։
[1] https://digitalpublicgoods.net
[2] https://digitalpublicgoods.net/standard/
[3] https://sdgs.un.org/goals
#opendata #opensource
По этой концепции они разработали стандарт Digital Public Goods Standard [2] под который подпадают։
- Open Software
- Open Data
- Open AI models
- Open Standards
- Open Content
Весь этот стандарт и инициативы построены вокруг целей устойчивого развития (SDG) [3] и структур и повестки ООН.
Я как-то писал что международная бюрократия очень медленна в адаптации всего нового, и ООН и агентства международного развития очень медленно шли в направлении открытости, но когда пришли, то теперь это надолго и тема открытости будет для структур ООН одной из ключевых ещё долго.
Ссылки։
[1] https://digitalpublicgoods.net
[2] https://digitalpublicgoods.net/standard/
[3] https://sdgs.un.org/goals
#opendata #opensource
Давно хочу написать про недооценённые и не всегда очевидные профессии на рынке данных, они как бы есть, но им часто названий нет и им не учат։
1. Специалисты по поиску данных нет точного названия этой деятельности, самое близкое data discovery и можно было бы назвать профессию data discoverer. Это те кто ищут данные, общедоступные, или из коммерческих источников, или во внутренних базах данных, но главное что ищут и находят. В реальности этим занимаются дата аналитики, дата сайентисты, дата инженеры, это довольно частая деятельность, очень и очень редко отчуждаемая от других задач. Чаще всего это задача для дата-аналитиков пишущих ТЗ для остальных. Этому почти не учат, этого нет как образовательной дисциплины .
2. Специалисты по документированию данных ближе всего к ним по функциям и задачам те кто занимаются документированием ПО. У описания данных есть свои особенности, отдельные инструменты вроде каталогов корпоративных данных и профессию можно было бы назвать Data Technical Writer или Data Documentation Specialist. Многие воспринимают документирование, что ПО, что данных, что технических продуктов как очень un-sexy профессию. Знания нужны как у специалиста по базам данных или дата инженера, а понимание ценности такой работы есть не у всех работодателей и команд. Но эта работа особенно важна для любых дата продуктов, когда ты создаёшь открытые данные или коммерческие на продажу, их надо хорошо и правильно описывать.
3. Специалисты по производству данных здесь я теряюсь как правильно их назвать․ Data producers? Data creators? Data workers? Есть те кто изначально создаёт данные, реже руками, чаще при проектировании их сбора, автоматизированно или автоматически. Это одна из важнейших и плохо описанных и понимаемых профессий во многих областях. Очень часто из-за недооценённости правильного проектирования сбора данных проекты по машинному обучению не взлетают или дают сомнительные и спорные результаты, потому что обучающая выборка оказывается очень субъективной. Об этом часто можно прочитать в обсуждениях моделей распознаваний, например, лиц которые обучали на ограниченных данных только одной расы и они плохо работают на остальных.
Это не полный список недооценённых профессий. Не все могут, хотят и становятся дата-сайентистами, дата-аналитиками или дата-инженерами, внутри команд по работе с данными есть разные потребности и задачи.
#data #thoughts #professions
1. Специалисты по поиску данных нет точного названия этой деятельности, самое близкое data discovery и можно было бы назвать профессию data discoverer. Это те кто ищут данные, общедоступные, или из коммерческих источников, или во внутренних базах данных, но главное что ищут и находят. В реальности этим занимаются дата аналитики, дата сайентисты, дата инженеры, это довольно частая деятельность, очень и очень редко отчуждаемая от других задач. Чаще всего это задача для дата-аналитиков пишущих ТЗ для остальных. Этому почти не учат, этого нет как образовательной дисциплины .
2. Специалисты по документированию данных ближе всего к ним по функциям и задачам те кто занимаются документированием ПО. У описания данных есть свои особенности, отдельные инструменты вроде каталогов корпоративных данных и профессию можно было бы назвать Data Technical Writer или Data Documentation Specialist. Многие воспринимают документирование, что ПО, что данных, что технических продуктов как очень un-sexy профессию. Знания нужны как у специалиста по базам данных или дата инженера, а понимание ценности такой работы есть не у всех работодателей и команд. Но эта работа особенно важна для любых дата продуктов, когда ты создаёшь открытые данные или коммерческие на продажу, их надо хорошо и правильно описывать.
3. Специалисты по производству данных здесь я теряюсь как правильно их назвать․ Data producers? Data creators? Data workers? Есть те кто изначально создаёт данные, реже руками, чаще при проектировании их сбора, автоматизированно или автоматически. Это одна из важнейших и плохо описанных и понимаемых профессий во многих областях. Очень часто из-за недооценённости правильного проектирования сбора данных проекты по машинному обучению не взлетают или дают сомнительные и спорные результаты, потому что обучающая выборка оказывается очень субъективной. Об этом часто можно прочитать в обсуждениях моделей распознаваний, например, лиц которые обучали на ограниченных данных только одной расы и они плохо работают на остальных.
Это не полный список недооценённых профессий. Не все могут, хотят и становятся дата-сайентистами, дата-аналитиками или дата-инженерами, внутри команд по работе с данными есть разные потребности и задачи.
#data #thoughts #professions
Big Transitions in the Tech Industry [1] отчёт Hired State of Software Engineers за 2023 год в виде 55 слайдов по рынку труда для разработчиков ПО, в том числе тех кто работает с машинным обучением и дата-инженерией.
Все слайды приводить не буду, только некоторые которые меня больше заинтересовали и выводы։
1․ Python - язык номер один для работы с данными и в инфобезе, для других областей язык номер 2-3-5, в общем всё равно очень популярен
2. Самые "горячие" индустрии по мнению разработчиков։ AI/ML/Data science, Fintech, Healthtech, Cybersecurity
И самое удивительное, наибольший дефицит сейчас разработчиков на Ruby on Rails, Ruby и Go. Это про разрыв ожиданий рынка и того что эти языки совсем не так популярны, не самые популярные.
С важной оговоркой что Hired оценивали рынок США и частично Канады и Великобритании.
Ссылки:
[1] https://pages.hired.email/rs/289-SIY-439/images/Hired_2023%20State%20of%20Software%20Engineers.pdf
#data #readings #jobmarket #itmarket
Все слайды приводить не буду, только некоторые которые меня больше заинтересовали и выводы։
1․ Python - язык номер один для работы с данными и в инфобезе, для других областей язык номер 2-3-5, в общем всё равно очень популярен
2. Самые "горячие" индустрии по мнению разработчиков։ AI/ML/Data science, Fintech, Healthtech, Cybersecurity
И самое удивительное, наибольший дефицит сейчас разработчиков на Ruby on Rails, Ruby и Go. Это про разрыв ожиданий рынка и того что эти языки совсем не так популярны, не самые популярные.
С важной оговоркой что Hired оценивали рынок США и частично Канады и Великобритании.
Ссылки:
[1] https://pages.hired.email/rs/289-SIY-439/images/Hired_2023%20State%20of%20Software%20Engineers.pdf
#data #readings #jobmarket #itmarket
Вот так сейчас выглядит сайт российской федеральной государственной информационной системы ГАС "Управление" если её открывать в браузере [1]. Это открытый контур, без необходимости авторизации
Особенность этой системы в том что она не то чтобы вершина творчества и ориентирована всегда была только на госслужащих которые пользоваться ей не то чтобы любят и не то чтобы она нужна.
Но именно вот и не только так в какой-то момент может начать выглядеть понуждение к установке российского корневого сертификата.
Пока это ГАС Управление - это фигня, если это будет VK - это уже будет не фигня. Но больше вероятности что сертификат будут ставить на Андроид с мобильными приложениями.
Ничего хорошего в этом, конечно, нет.
Ссылки:
[1] https://gasu.gov.ru/infopanel?id=11851
#privacy #security #russia #badsecurity
Особенность этой системы в том что она не то чтобы вершина творчества и ориентирована всегда была только на госслужащих которые пользоваться ей не то чтобы любят и не то чтобы она нужна.
Но именно вот и не только так в какой-то момент может начать выглядеть понуждение к установке российского корневого сертификата.
Пока это ГАС Управление - это фигня, если это будет VK - это уже будет не фигня. Но больше вероятности что сертификат будут ставить на Андроид с мобильными приложениями.
Ничего хорошего в этом, конечно, нет.
Ссылки:
[1] https://gasu.gov.ru/infopanel?id=11851
#privacy #security #russia #badsecurity
Я 3 дня не писал в канал, это довольно большой срок, поскольку я даже когда не пишу и не публикую сразу, обычно 3-4 темы "подвешиваю" для автоматической публикации и редко бывает что я что-то не читаю и не пишу об этом. Но в этот раз причина объективная, очередное поветрие то ли гриппа, то ли чего-то ещё, сильно ограничило возможности что-либо записывать, но не читать.
Итак։
- Datasets at your fingertips in Google Search [1] в блоге Google Research свежие новости и цифры про их поиск, Google Dataset Search. Можем узнать что там уже проиндексировано 45 миллионов наборов данных, то что они делают ставку на описание наборов данных по стандарту schema.org и то всё более делают фокус на доступность данных для исследователей и индексацию научных репозиториев данных. Я ранее критиковал поисковик Гугла [2] и эта критика остаётся актуальной, но альтернативных поисковиков по данным пока просто нет.
- Mathesar [3] не текст, но инструмент по созданию интерфейса над базой PostgreSQL похожий на Google-sheets или Airtable. Интереснейшая штука пригодна не только для простых задач, надо поизучать, возможно она конкурентноспособна в сравнении с Strapi, Directus и других DMS (Data management system) и HCMS (Headless CMS).
- Predicting wine quality using chemical properties [4] исследование энтузиаста в области food science с созданием предсказательной модели оценки качества вина на основе химических свойств.
- I made JSON.parse() 2x faster [5] очень практическая, техническая статья о том как автор существенно ускорял разбор JSON документов для интеграции Javascript движок Hermes.
- Toward a 21st Century National Data Infrastructure: Mobilizing Information for the Common Good (2023) [6] исследовательский отчёт о создании национальной инфраструктуры данных в США. Текст подробный, со многими полезными упоминаниями существующих проектов.
- The URBAN AI GUIDE [7] от французских исследователей руководство о том как применять ИИ в городском контексте
- datacatalogs.ru update [8] наш коллега по Инфокультуре, Глеб Свечников пишет в LinkedIn о работе над обновлением интерфейса datacatalogs.ru, полезно всем кто думает о визуализации коллекций разных данных, не только каталогов данных
Ссылки։
[1] https://ai.googleblog.com/2023/02/datasets-at-your-fingertips-in-google.html
[2] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d
[3] https://github.com/centerofci/mathesar
[4] https://spiralizing.github.io/DSEntries/WineQuality/
[5] https://radex.io/react-native/json-parse/
[6] https://nap.nationalacademies.org/read/26688/chapter/1#v
[7] https://urbanai.fr/our-works/urban-ai-guide/
[8] https://www.linkedin.com/pulse/datacatalogsru-update-gleb-svechnikov/
#readings #data #ai #opendata
Итак։
- Datasets at your fingertips in Google Search [1] в блоге Google Research свежие новости и цифры про их поиск, Google Dataset Search. Можем узнать что там уже проиндексировано 45 миллионов наборов данных, то что они делают ставку на описание наборов данных по стандарту schema.org и то всё более делают фокус на доступность данных для исследователей и индексацию научных репозиториев данных. Я ранее критиковал поисковик Гугла [2] и эта критика остаётся актуальной, но альтернативных поисковиков по данным пока просто нет.
- Mathesar [3] не текст, но инструмент по созданию интерфейса над базой PostgreSQL похожий на Google-sheets или Airtable. Интереснейшая штука пригодна не только для простых задач, надо поизучать, возможно она конкурентноспособна в сравнении с Strapi, Directus и других DMS (Data management system) и HCMS (Headless CMS).
- Predicting wine quality using chemical properties [4] исследование энтузиаста в области food science с созданием предсказательной модели оценки качества вина на основе химических свойств.
- I made JSON.parse() 2x faster [5] очень практическая, техническая статья о том как автор существенно ускорял разбор JSON документов для интеграции Javascript движок Hermes.
- Toward a 21st Century National Data Infrastructure: Mobilizing Information for the Common Good (2023) [6] исследовательский отчёт о создании национальной инфраструктуры данных в США. Текст подробный, со многими полезными упоминаниями существующих проектов.
- The URBAN AI GUIDE [7] от французских исследователей руководство о том как применять ИИ в городском контексте
- datacatalogs.ru update [8] наш коллега по Инфокультуре, Глеб Свечников пишет в LinkedIn о работе над обновлением интерфейса datacatalogs.ru, полезно всем кто думает о визуализации коллекций разных данных, не только каталогов данных
Ссылки։
[1] https://ai.googleblog.com/2023/02/datasets-at-your-fingertips-in-google.html
[2] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d
[3] https://github.com/centerofci/mathesar
[4] https://spiralizing.github.io/DSEntries/WineQuality/
[5] https://radex.io/react-native/json-parse/
[6] https://nap.nationalacademies.org/read/26688/chapter/1#v
[7] https://urbanai.fr/our-works/urban-ai-guide/
[8] https://www.linkedin.com/pulse/datacatalogsru-update-gleb-svechnikov/
#readings #data #ai #opendata
Чума, война и утечки данных (с)
Как и многие, я слежу за тем сколь многие данные утекают сейчас из российских сайтов, информационных систем и сервисов. Причём если раньше были утечки у коммерческих компаний и их продуктов, вроде утечек СДЭК, Деливери.Клаб, Яндекс.Еда и Вкусвилл и регулятор(-ы) чуть ли не сразу заговорили об оборотных штрафах, а пользователи, не без оснований, возмущались непомерно малыми штрафами. Я знаю какое-то количество людей до сих пор расстроенных что не получили компенсации от коммерческих компаний после масштабных утечек.
Однако, лично меня ещё тогда заботил вопрос, а что будет когда утечки данных начнут происходить с сайтов госорганов или госкомпаний или разного рода гос-НКО. Им регулятор тоже будет грозить оборотными штрафами?
И вот что можно пронаблюдать сейчас։
- утечки персональных данных из как минимум трёх продуктов Сбера։ Сберлогистика, СберПраво и СберСпасибо
- утечки персональных данных проектов Агентства Стратегических Инициатив
- утечка данных о зарегистрированных пользователях с сайта Минтруда
- утечка данных о сотрудниках и студентах НИУ ВШЭ
Ссылки я приводить не буду, ищущие да и обрящут. Про большую часть упомянутого писали, или СМИ, или профильные телеграм каналы.
И? Где регулятор? Где тотальная проверка организаций после утечек? Где публичные расследования и увольнения руководителей по ИТ и инфобезу если они вообще там есть?
Коммерческие компании, при всех их недостатках, всё это время реагировали куда адекватнее на утечки их данных. Так что всё это показывает, и регулятора, и затронутые госструктуры крайне неприглядно.
Тут есть ещё два немаловажных факта о которых нельзя не упомянуть։
1. Сбер - это не только множество сервисов для потребителей, но и ГосТех. Только если в случае СберПрава вы идёте и пользуетесь им добровольно, то ГосТех - это история принудительная. А что если ГосТех протечёт ...? Пока не так страшно, потому что я давно уже пишу что ничего критического они туда ещё не поместили, но нынешней репутацией Сбербанка сама затея становится ещё более сомнительной.
2. Стремительное закрытие госорганами многих доступных данных, вроде госзакупок, субсидий, данных об учредителях и владельцах недвижимости было, в первую очередь, чтобы скрыть их от журналистов расследователей. Резонный вопрос теперь, а толку то? У журналистов расследователей теперь на руках с каждой неделей всё больше данных из утечек. На их основе можно проводить довольно серьёзный анализ, и то что ещё не так много было публикаций, так это только потому что это персональные данные и этические ограничения.
#data #leaks #privacy #government
Как и многие, я слежу за тем сколь многие данные утекают сейчас из российских сайтов, информационных систем и сервисов. Причём если раньше были утечки у коммерческих компаний и их продуктов, вроде утечек СДЭК, Деливери.Клаб, Яндекс.Еда и Вкусвилл и регулятор(-ы) чуть ли не сразу заговорили об оборотных штрафах, а пользователи, не без оснований, возмущались непомерно малыми штрафами. Я знаю какое-то количество людей до сих пор расстроенных что не получили компенсации от коммерческих компаний после масштабных утечек.
Однако, лично меня ещё тогда заботил вопрос, а что будет когда утечки данных начнут происходить с сайтов госорганов или госкомпаний или разного рода гос-НКО. Им регулятор тоже будет грозить оборотными штрафами?
И вот что можно пронаблюдать сейчас։
- утечки персональных данных из как минимум трёх продуктов Сбера։ Сберлогистика, СберПраво и СберСпасибо
- утечки персональных данных проектов Агентства Стратегических Инициатив
- утечка данных о зарегистрированных пользователях с сайта Минтруда
- утечка данных о сотрудниках и студентах НИУ ВШЭ
Ссылки я приводить не буду, ищущие да и обрящут. Про большую часть упомянутого писали, или СМИ, или профильные телеграм каналы.
И? Где регулятор? Где тотальная проверка организаций после утечек? Где публичные расследования и увольнения руководителей по ИТ и инфобезу если они вообще там есть?
Коммерческие компании, при всех их недостатках, всё это время реагировали куда адекватнее на утечки их данных. Так что всё это показывает, и регулятора, и затронутые госструктуры крайне неприглядно.
Тут есть ещё два немаловажных факта о которых нельзя не упомянуть։
1. Сбер - это не только множество сервисов для потребителей, но и ГосТех. Только если в случае СберПрава вы идёте и пользуетесь им добровольно, то ГосТех - это история принудительная. А что если ГосТех протечёт ...? Пока не так страшно, потому что я давно уже пишу что ничего критического они туда ещё не поместили, но нынешней репутацией Сбербанка сама затея становится ещё более сомнительной.
2. Стремительное закрытие госорганами многих доступных данных, вроде госзакупок, субсидий, данных об учредителях и владельцах недвижимости было, в первую очередь, чтобы скрыть их от журналистов расследователей. Резонный вопрос теперь, а толку то? У журналистов расследователей теперь на руках с каждой неделей всё больше данных из утечек. На их основе можно проводить довольно серьёзный анализ, и то что ещё не так много было публикаций, так это только потому что это персональные данные и этические ограничения.
#data #leaks #privacy #government
Я совсем пропустил что в ORelly вышла 1 марта любопытная колонка Technology Trends for 2023 [1] про технологические тренды которые они измеряют с помощью своей образовательной платформы.
Там много интересного про разработку ПО в принципе, ключевое, ИМХО в 35% росте того что называют code practices, по сути это работа с репозиториями кода и того
недостаточно знать язык программирования, важно уметь самоорганизовывать свой код и работать по правилам в команде.
Но интереснее большой блок про данные и разницу между 2021 годом и 2022-м, тут сразу несколько интересных трендов с моими комментариями։
- рост интереса к дата-инженерии на 35% - совершенно неудивительно потому что дата-инженерия имеет порог вхождения ниже чем data science, но всё ещё требует высокой квалификации и туда не такой мощный поток новичков с минимальными знаниями, зато многие выбирают это направление для смены специализации внутри профессии.
- Hadoop превращается в унаследованную платформу - вообще это давно происходит, если кто-то сейчас говорить про большие данные, Hadoop и тд. можно помечать что человек уже оторвался от современного технологического стека. Я это чувствую давно, а тут ещё такое замечательное подтверждение от ORelly.
- на 15% вырос интерес к языку R - вот тут кто бы подумал, я то полагал что Python давно уже станет безусловным мэйнстримом для всего что касается работы с данными, но нет, не Python'ом единым. R всё ещё используется и активно, для самых разных, обычно, аналитических задач
И там ещё много интересных инсайтов чтобы задуматься о грядущих изменениях в технологиях и на рынке труда.
Ссылки:
[1] https://www.oreilly.com/radar/technology-trends-for-2023/
#trends #it #data #orelly
Там много интересного про разработку ПО в принципе, ключевое, ИМХО в 35% росте того что называют code practices, по сути это работа с репозиториями кода и того
недостаточно знать язык программирования, важно уметь самоорганизовывать свой код и работать по правилам в команде.
Но интереснее большой блок про данные и разницу между 2021 годом и 2022-м, тут сразу несколько интересных трендов с моими комментариями։
- рост интереса к дата-инженерии на 35% - совершенно неудивительно потому что дата-инженерия имеет порог вхождения ниже чем data science, но всё ещё требует высокой квалификации и туда не такой мощный поток новичков с минимальными знаниями, зато многие выбирают это направление для смены специализации внутри профессии.
- Hadoop превращается в унаследованную платформу - вообще это давно происходит, если кто-то сейчас говорить про большие данные, Hadoop и тд. можно помечать что человек уже оторвался от современного технологического стека. Я это чувствую давно, а тут ещё такое замечательное подтверждение от ORelly.
- на 15% вырос интерес к языку R - вот тут кто бы подумал, я то полагал что Python давно уже станет безусловным мэйнстримом для всего что касается работы с данными, но нет, не Python'ом единым. R всё ещё используется и активно, для самых разных, обычно, аналитических задач
И там ещё много интересных инсайтов чтобы задуматься о грядущих изменениях в технологиях и на рынке труда.
Ссылки:
[1] https://www.oreilly.com/radar/technology-trends-for-2023/
#trends #it #data #orelly