Про чистку ведомственных баз данных от излишков информации. Часть 2 из 2
Важнее разговор про инвентаризацию. Инвентаризация данных, в нормальных, мирных условиях проводится с целью обмена ими. Данные - это ценный экономический ресурс, который может быть доступ в рамках открытости гос-ва (open data) или программ обмена данными (data sharing), но практически всегда конвертируется в новые продукты, бизнесы, научные работы, статьи, исследования и так далее. Инвентаризация же с целью информационной безопасности - это подтверждение что работа с данными в России окончательно переходит из режима развития в режим военной экономики. Для рынка информационной безопасности - это прекрасная новость, для рынков торговли данными, создания продуктов на их основе и любой аналитики - это растянувшаяся катастрофа. Это длительная неопределенность и непонимание того какой источник данных закроют завтра, послезавтра?
Мы уже видим это на примерах закрытого портала data.gov.ru, который при его никчёмности, номинально демонстрировал что в России госинициатива по открытости данных на федеральном уровне жива. Его закрыли тоже на инвентаризацию? Мы видим это на примере огромных штрафов за раскрытие данных ЕГРН, до 600 тысяч. Я думаю что всем очевидно что их применять будут, в первую очередь, к расследовательским СМИ и расследователям.
Всё это вызывает опасения закрытия всех иных "чувствительных и необходимых" данных. ЕГРЮЛ ещё доступен хотя бы и без данных о учредителях. Ограничат? Данные о госторгах и госзакупках ещё публикуются. Скроют и их? Про статистические показатели мы уже поняли что депутаты разрешили Пр-ву скрывать любую официальную статистику. Интересно, хотя бы постановления Пр-ва РФ по поводу сокрытия данных будут открытые или их тоже засекретят? Иногда мне удивительно что ещё законодательство страны не переводят в полу-секретный режим, это же тоже базы данных.
Как бы то ни было, мои финальные выводы из происходящего в том что ставки на экономическое развитие и малый и средний бизнес более нет. Есть военная экономика, есть несколько десятков Дзайбацу [2] на которых делается ставка, и окончательно нет малого-среднего бизнеса и все инновационной экономики. Учитывая что только развитие инновационной экономики было единственной более-менее допустимой опорой в части доступа к государственным данным, то и можно говорить об окончательной заморозке этой темы в России.
При этом надо понимать что не Максут Шадаев принимает об этом решения, он, в лучшем случае, озвучивает уже произошедшее. Система госуправления в России выстроена так что даже федеральные министры лишены значительной части субъектности, а решения принимаются на уровне премьера, вице-премьеров и ограниченного числа ключевых госкорпоратов и политической элиты. И началось всё не с его речи, конечно же, мы лишь услышали подтверждение того что было и раньше
Ссылки:
[1] https://rg.ru/2023/04/18/mincifry-zajmetsia-reviziej-vedomstvennyh-baz-dannyh.html
[2] https://ru.wikipedia.org/wiki/Дзайбацу
#opendata #closeddata #russia #data #itmarket
Важнее разговор про инвентаризацию. Инвентаризация данных, в нормальных, мирных условиях проводится с целью обмена ими. Данные - это ценный экономический ресурс, который может быть доступ в рамках открытости гос-ва (open data) или программ обмена данными (data sharing), но практически всегда конвертируется в новые продукты, бизнесы, научные работы, статьи, исследования и так далее. Инвентаризация же с целью информационной безопасности - это подтверждение что работа с данными в России окончательно переходит из режима развития в режим военной экономики. Для рынка информационной безопасности - это прекрасная новость, для рынков торговли данными, создания продуктов на их основе и любой аналитики - это растянувшаяся катастрофа. Это длительная неопределенность и непонимание того какой источник данных закроют завтра, послезавтра?
Мы уже видим это на примерах закрытого портала data.gov.ru, который при его никчёмности, номинально демонстрировал что в России госинициатива по открытости данных на федеральном уровне жива. Его закрыли тоже на инвентаризацию? Мы видим это на примере огромных штрафов за раскрытие данных ЕГРН, до 600 тысяч. Я думаю что всем очевидно что их применять будут, в первую очередь, к расследовательским СМИ и расследователям.
Всё это вызывает опасения закрытия всех иных "чувствительных и необходимых" данных. ЕГРЮЛ ещё доступен хотя бы и без данных о учредителях. Ограничат? Данные о госторгах и госзакупках ещё публикуются. Скроют и их? Про статистические показатели мы уже поняли что депутаты разрешили Пр-ву скрывать любую официальную статистику. Интересно, хотя бы постановления Пр-ва РФ по поводу сокрытия данных будут открытые или их тоже засекретят? Иногда мне удивительно что ещё законодательство страны не переводят в полу-секретный режим, это же тоже базы данных.
Как бы то ни было, мои финальные выводы из происходящего в том что ставки на экономическое развитие и малый и средний бизнес более нет. Есть военная экономика, есть несколько десятков Дзайбацу [2] на которых делается ставка, и окончательно нет малого-среднего бизнеса и все инновационной экономики. Учитывая что только развитие инновационной экономики было единственной более-менее допустимой опорой в части доступа к государственным данным, то и можно говорить об окончательной заморозке этой темы в России.
При этом надо понимать что не Максут Шадаев принимает об этом решения, он, в лучшем случае, озвучивает уже произошедшее. Система госуправления в России выстроена так что даже федеральные министры лишены значительной части субъектности, а решения принимаются на уровне премьера, вице-премьеров и ограниченного числа ключевых госкорпоратов и политической элиты. И началось всё не с его речи, конечно же, мы лишь услышали подтверждение того что было и раньше
Ссылки:
[1] https://rg.ru/2023/04/18/mincifry-zajmetsia-reviziej-vedomstvennyh-baz-dannyh.html
[2] https://ru.wikipedia.org/wiki/Дзайбацу
#opendata #closeddata #russia #data #itmarket
Российская газета
Минцифры почистит ведомственные базы данных от излишков информации - Российская газета
Минцифры занялось проблемой утечек данных и планирует ревизию ведомственных баз данных. Об этом рассказал глава ведомства Максут Шадаев. По словам министра, необходимо оставить в доступе только те данные, которые нужны непосредственно для работы.
This media is not supported in your browser
VIEW IN TELEGRAM
Совсем свежая статья с видеопримерами от команды NVIDIA про языковую модель по генерации видео на основе описания текстом [1]. Проще говоря: генеративный ИИ текст-в-видео.
Что характерно там не только примеры общей модели, но и обучения на видеозаписях, например, кота и генерации видео на их основе. Иначе говоря, возможность создавать персонализированный видео-контент на основе предоставленных материалов.
Про математическую и техническую реализацию лучше посмотреть в самой статье, а я про практическое применение.
Возможно полнометражные фильмы появятся ещё не скоро, но что неизбежно появится очень быстро и будет иметь различные социальные и экономические последствия - это:
1) Персонифицированная порнография и падение доходов у порноактрис и эротических моделей, поскольку можно нагенерировать множество изображений и видео предобучив на имеющихся. Это уже происходит для изображений, теперь будет и для видео.
2) Оживление мёртвых людей в виртуальном пространстве. Продажа вечной "цифровой жизни" и тд. Оно и так есть, оно и так развивается, а генерация качественного видео это усилит.
Ссылки:
[1] https://research.nvidia.com/labs/toronto-ai/VideoLDM/
#ai #research
Что характерно там не только примеры общей модели, но и обучения на видеозаписях, например, кота и генерации видео на их основе. Иначе говоря, возможность создавать персонализированный видео-контент на основе предоставленных материалов.
Про математическую и техническую реализацию лучше посмотреть в самой статье, а я про практическое применение.
Возможно полнометражные фильмы появятся ещё не скоро, но что неизбежно появится очень быстро и будет иметь различные социальные и экономические последствия - это:
1) Персонифицированная порнография и падение доходов у порноактрис и эротических моделей, поскольку можно нагенерировать множество изображений и видео предобучив на имеющихся. Это уже происходит для изображений, теперь будет и для видео.
2) Оживление мёртвых людей в виртуальном пространстве. Продажа вечной "цифровой жизни" и тд. Оно и так есть, оно и так развивается, а генерация качественного видео это усилит.
Ссылки:
[1] https://research.nvidia.com/labs/toronto-ai/VideoLDM/
#ai #research
Пока мы тут обсуждаем кого ИИ лишит профессии, спешу сказать что разработчикам и инженерам не стоит надеяться на скорое исчезновение их профессий (что хорошо) и даже на то что ИИ очень сильно облегчит жизнь (что не так хорошо). Почему? Потому что большую часть инженеров и разработчиков что я знаю на реальных продуктах и проектах - это отладка и legacy, это разгребание накопленного непотребства, создание кривых подпорок из кривых подпорок и ещё много чего. За исключением очень редких уникальных случаев когда это не так. ИИ может лишить интересной работы по созданию чего-то абсолютно с нуля и ещё сильнее усложнить переход разработчиков из джунов в миддлы, потому что чуть ли не главные их отличия - это умение работать самостоятельно и самостоятельно вести отладку.
#ai #profession #dataengineering
#ai #profession #dataengineering
На чём Google обучает свой чат-бот, журналисты Washington Post заглянули внутрь Google C4 [1] набора данных для обучения языковой модели. Более всего там базы патентов из patents.google.com которая собрана из открытых баз патентов США и других стран, там же база публичных отчётов компаний sec.gov и ещё многие другие открытые государственные данные, в основном из США. Другой немаловажный источник - Википедия.
Просто интересно, вместе с запретом Википедии депутаты в России чат боты обученные на ней тоже запретят?
А по факту именно свободные знания и открытые государственные знания создают существенную долю языковых моделей на которых создаются новые ИИ инструменты.
Ссылки:
[1] https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/
#opendata #ai #datasets #google
Просто интересно, вместе с запретом Википедии депутаты в России чат боты обученные на ней тоже запретят?
А по факту именно свободные знания и открытые государственные знания создают существенную долю языковых моделей на которых создаются новые ИИ инструменты.
Ссылки:
[1] https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/
#opendata #ai #datasets #google
Продолжая про проект Common Data Index, для тех кто интересуется какие каталоги данных есть в мире в Github'е в репозитории [1] уже собрано описание более чем 1450 каталогов с данными, а это включает то на каком ПО они работают, какие там точки подключения к API и многое другое.
Причём вначале было около 1700, но более чем 350 уже не существуют и были удалены и около 100 ещё добавлено.
Тем кто хочет посмотреть на список то он есть в виде наборов данных в JSON lines [2] и CSV [3].
Так вот что я могу сказать, так это повторить предыдущие выводы:
1. Геоданные составляют основную часть открытых и общедоступных данных, если не считать отдельные агрегаторы научных данных вроде zenodo.org, после их индексирования скорее всего несколько это изменится
2. Проблема в том что геокаталогов много, а списков их нет. Например, инсталляций Geonetwork уже собрано 111 и их ещё очень много и искать их долго. А число инсталляций GeoNode, GeoServer просто не сосчитать. Правда обычно там и данных публикуется до 100 наборов данных, максимум.
3. Россия родина изобретателей велосипедов (с). Не шучу, какое-то неимоверное число собственных разработок порталов данных и геопорталов. Хороших мало, но тоже есть. Поражает скорее расточительность. Это резко контрастирует с европейскими странами и более всего похоже на Китай.
4. Я частично уже понимаю как собирать метаданные с большинства порталов данных , это положительный момент, большую часть наборов данных можно охватить используя примерно 10-15 схем метаданных. Это типовое ПО и крупные проекты вроде Zenodo, DataOne и др.
А самое главное что на основе это уже удалось собрать индекс первичных данных на 3.1 миллионов наборов данных.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry
[2] https://github.com/commondataio/dataportals-registry/raw/main/data/datasets/catalogs.jsonl
[3] https://github.com/commondataio/dataportals-registry/raw/main/data/datasets/catalogs_export.csv
#opendata #datasets #geodata #datacatalogs
Причём вначале было около 1700, но более чем 350 уже не существуют и были удалены и около 100 ещё добавлено.
Тем кто хочет посмотреть на список то он есть в виде наборов данных в JSON lines [2] и CSV [3].
Так вот что я могу сказать, так это повторить предыдущие выводы:
1. Геоданные составляют основную часть открытых и общедоступных данных, если не считать отдельные агрегаторы научных данных вроде zenodo.org, после их индексирования скорее всего несколько это изменится
2. Проблема в том что геокаталогов много, а списков их нет. Например, инсталляций Geonetwork уже собрано 111 и их ещё очень много и искать их долго. А число инсталляций GeoNode, GeoServer просто не сосчитать. Правда обычно там и данных публикуется до 100 наборов данных, максимум.
3. Россия родина изобретателей велосипедов (с). Не шучу, какое-то неимоверное число собственных разработок порталов данных и геопорталов. Хороших мало, но тоже есть. Поражает скорее расточительность. Это резко контрастирует с европейскими странами и более всего похоже на Китай.
4. Я частично уже понимаю как собирать метаданные с большинства порталов данных , это положительный момент, большую часть наборов данных можно охватить используя примерно 10-15 схем метаданных. Это типовое ПО и крупные проекты вроде Zenodo, DataOne и др.
А самое главное что на основе это уже удалось собрать индекс первичных данных на 3.1 миллионов наборов данных.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry
[2] https://github.com/commondataio/dataportals-registry/raw/main/data/datasets/catalogs.jsonl
[3] https://github.com/commondataio/dataportals-registry/raw/main/data/datasets/catalogs_export.csv
#opendata #datasets #geodata #datacatalogs
GitHub
GitHub - commondataio/dataportals-registry: Registry of data portals, catalogs, data repositories including data catalogs dataset…
Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry
Тем временем в Великобритании Правительство закрывает проект по цифровой закупке продуктов [1] в рамках Digital Marketplace. Многие из тех кто продавали таким образом госструктурам ПО и услуги считают что это большой шаг назад [2]. Мне вот не удалось найти объяснения этого шага, он выглядит довольно странно со стороны.
В лекциях чиновникам я регулярно рассказывал про эту инициативу как пример правильного подхода, жаль что на него теперь уже не сослаться.
Ссылки:
[1] https://www.digitalmarketplace.service.gov.uk/
[2] https://twitter.com/dominiccampbell/status/1649015861913477124?s=46&t=zIrjZL532Q-g_BoBMdJtaQ
#government #uk #procurement #digital
В лекциях чиновникам я регулярно рассказывал про эту инициативу как пример правильного подхода, жаль что на него теперь уже не сослаться.
Ссылки:
[1] https://www.digitalmarketplace.service.gov.uk/
[2] https://twitter.com/dominiccampbell/status/1649015861913477124?s=46&t=zIrjZL532Q-g_BoBMdJtaQ
#government #uk #procurement #digital
В рубрике интересных наборов данных, мало кто знает что в Испании кроме официальной статистики, есть так называемая экспериментальная статистика, показатели которой рассчитываются, в основном, из разного рода информационных систем и которая прежде чем стать официальной проверяется, но при этом тоже общедоступна. Раздел с экспериментальной статистикой есть на сайте их Института статистики [1] и включает, например:
- Демографический профиль компании
- Распределение расходов резидентов во время их поездок за границу по странам назначения
- Оценка заполняемости туристических объектов с использованием данных с цифровых платформ
- Исследования по мобильности на основе мобильного телефона
- Распределение расходов иностранных гостей на посещение Испании
И ещё много чего, интересное там есть.
Вот та же статистика по расходам иностранцев в Испании очень любопытна [2] по всем ключевым странам источникам туристов они собирают данные по транзакциям по банковским картам. Происхождение туриста определяется по местонахождению банка эмитента карты. Из постсоветских стран там только Россия и только до 1 квартала 2022 года, до отключения от карт Visa и Mastercard для российских пользователей. Видно также предпочтение по территориям. Россияне больше тратили в Каталонии, Валенсии и Андалусии, а мексиканцы в Мадриде и тд.
Обновляют ежеквартально, все данные можно скачать как CSV, XLSX и др. форматы.
Ссылки:
[1] https://www.ine.es/en/experimental/experimental_en.htm
[2] https://www.ine.es/en/experimental/gasto_tarjetas/trimestral.htm
#opendata #dataviz #datasets #spending #tourism #statistics
- Демографический профиль компании
- Распределение расходов резидентов во время их поездок за границу по странам назначения
- Оценка заполняемости туристических объектов с использованием данных с цифровых платформ
- Исследования по мобильности на основе мобильного телефона
- Распределение расходов иностранных гостей на посещение Испании
И ещё много чего, интересное там есть.
Вот та же статистика по расходам иностранцев в Испании очень любопытна [2] по всем ключевым странам источникам туристов они собирают данные по транзакциям по банковским картам. Происхождение туриста определяется по местонахождению банка эмитента карты. Из постсоветских стран там только Россия и только до 1 квартала 2022 года, до отключения от карт Visa и Mastercard для российских пользователей. Видно также предпочтение по территориям. Россияне больше тратили в Каталонии, Валенсии и Андалусии, а мексиканцы в Мадриде и тд.
Обновляют ежеквартально, все данные можно скачать как CSV, XLSX и др. форматы.
Ссылки:
[1] https://www.ine.es/en/experimental/experimental_en.htm
[2] https://www.ine.es/en/experimental/gasto_tarjetas/trimestral.htm
#opendata #dataviz #datasets #spending #tourism #statistics
В рубрике как это устроено у них Единый портал научных данных Республики Корея DataOn [1].
Объединяет систему публикации научных данных и поисковую систему по наборам данных в мире.
Включает более 37 тысяч наборов данных опубликованных корейскими учёными в 14 отраслевых репозиториях и более чем 1.6 миллионов наборов данных из репозиториев научных данных других стран.
Репозиторий был создан в декабре 2018 года и с той поры активно развивается.
Ссылки:
[1] https://dataon.kisti.re.kr/
#opendata #datasets #openaccess #openresearch #datacatalogs #korea
Объединяет систему публикации научных данных и поисковую систему по наборам данных в мире.
Включает более 37 тысяч наборов данных опубликованных корейскими учёными в 14 отраслевых репозиториях и более чем 1.6 миллионов наборов данных из репозиториев научных данных других стран.
Репозиторий был создан в декабре 2018 года и с той поры активно развивается.
Ссылки:
[1] https://dataon.kisti.re.kr/
#opendata #datasets #openaccess #openresearch #datacatalogs #korea
У меня уже целая коллекция поисковиков по данным, напомню самый известный и популярный в мире это Google Dataset Search, но это не значит что нет попыток создать другие агрегаторы и поисковые системы по наборам данных. Я ранее писал про Auctus, и ряд других, а вот нашёл ещё один IDRA [1] небольшой проект от итальянской компании Engineering, они создают этот проект на средства одной из исследовательских программ Евросоюза.
Судя по документации умеют харвестить данные из примерно 10 видов каталогов, к ним есть коннекторы, но в примере приведены только 9 каталогов 2-х типов: CKAN и DKAN.
Из интересного, делают акцент на поддержке протокола Orion Context Broker (NGSI v2) которые относятся скорее к инженерному миру чем к дата-инженерному или открытым данным, полагаю что это следствие интересов именно этой команды.
По многим параметрам выглядят неплохо, в первую очередь по охвату потенциальных источников данных. Поэтому лично я за этим проектом наблюдаю, но считаю что надо идти другим путём и этот путь в создании итеративно: реестра каталогов данных, базу первичных индексов и только потом поисковую систему.
Об этом всём я тоже рассказываю в телеграм канале. А пока +1 пример поисковой системы по данным.
Ссылки:
[1] https://idra.opsi-lab.it/IdraPortal/#/about
#opendata #data #datasearch #opensource
Судя по документации умеют харвестить данные из примерно 10 видов каталогов, к ним есть коннекторы, но в примере приведены только 9 каталогов 2-х типов: CKAN и DKAN.
Из интересного, делают акцент на поддержке протокола Orion Context Broker (NGSI v2) которые относятся скорее к инженерному миру чем к дата-инженерному или открытым данным, полагаю что это следствие интересов именно этой команды.
По многим параметрам выглядят неплохо, в первую очередь по охвату потенциальных источников данных. Поэтому лично я за этим проектом наблюдаю, но считаю что надо идти другим путём и этот путь в создании итеративно: реестра каталогов данных, базу первичных индексов и только потом поисковую систему.
Об этом всём я тоже рассказываю в телеграм канале. А пока +1 пример поисковой системы по данным.
Ссылки:
[1] https://idra.opsi-lab.it/IdraPortal/#/about
#opendata #data #datasearch #opensource
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Открытые данные Минэка больше недоступны
Ровно месяц прошел с «закрытия» Портала открытых данных и бодрого обещания Минэка «присылать данные по запросу». В день закрытия портала отправила запрос на получение данных Минэка, которые сейчас недоступны, т.к. публиковались только на Портале открытых данных, что противоречит законодательству.
Спустя месяц получаем следующую картину:
- Портал открытых данных недоступен, вместе с этим и недоступен ни один набор данных Минэкономразиватия
- Запрос на получение открытых данных, отправленный на почту mineconom@economy.gov.ru, рассматривается месяц в рамках рассмотрения обращений граждан
- В ответе на запрос (напомню, готовили его месяц) дублируется информация, которая была опубликована на сайте Минэка: «Портал временно закрыт, но данные можно получить по запросу». Фактически это больше похоже на «Данных нет, но вы держитесь», т.к. данные-то я запросила, но не получила.
- Вся контактная информация для запросов данных повторно удалена с портала открытых данных и заменена на заглушку: «Ведутся технические работы», телеграм-чат, созданный Минэком, молчит.
Пруф с ответом прикреплен к посту.
Ровно месяц прошел с «закрытия» Портала открытых данных и бодрого обещания Минэка «присылать данные по запросу». В день закрытия портала отправила запрос на получение данных Минэка, которые сейчас недоступны, т.к. публиковались только на Портале открытых данных, что противоречит законодательству.
Спустя месяц получаем следующую картину:
- Портал открытых данных недоступен, вместе с этим и недоступен ни один набор данных Минэкономразиватия
- Запрос на получение открытых данных, отправленный на почту mineconom@economy.gov.ru, рассматривается месяц в рамках рассмотрения обращений граждан
- В ответе на запрос (напомню, готовили его месяц) дублируется информация, которая была опубликована на сайте Минэка: «Портал временно закрыт, но данные можно получить по запросу». Фактически это больше похоже на «Данных нет, но вы держитесь», т.к. данные-то я запросила, но не получила.
- Вся контактная информация для запросов данных повторно удалена с портала открытых данных и заменена на заглушку: «Ведутся технические работы», телеграм-чат, созданный Минэком, молчит.
Пруф с ответом прикреплен к посту.
Я несколько раз писал про то сколько открытых данных публикуют в Китае, в первую очередь в научной сфере, в централизованной базе SciDb.cn для исследовательских данных. Но, честно говоря, я уже ощущаю что сильно недооценивал масштаб их публикаций. А он таков что практически у каждой из провинций Китая есть портал открытых данных, данные на них регулярно обновляются. Их, китайская специфика, в большом числе открытых API и акценте на данных городской/провинциальной инфраструктуры в виде API к их инфраструктурным информационным системам.
И даже у компаний вроде Baidu есть программы предоставления данных партнёрам открытым образом [1], это не open data, но подпадает под data sharing.
В Университете Фуданя есть ежегодный обзор и рейтинг провинций Китая по открытости данных [2] и рейтинг этот вырос вдвое за 3 года, с 102 пунктов в 2019 г. до 208 пунктов в 2022 г.
Можно обратить внимание насколько там было ещё неразвито в 2013-2016 годах когда как раз в России у практически всех регионов были порталы открытых данных.
В Китае они стали появляться позже и медленнее, и всё ещё нет общенационального, но явно до него осталось недолго, 1-2 года максимум, а скорее раньше.
Я об этом ещё напишу подробнее, материалов накопилось уже на большой обзор.
Ссылки:
[1] https://open.baidu.com/
[2] http://ifopendata.cn/
#opendata #china #data
И даже у компаний вроде Baidu есть программы предоставления данных партнёрам открытым образом [1], это не open data, но подпадает под data sharing.
В Университете Фуданя есть ежегодный обзор и рейтинг провинций Китая по открытости данных [2] и рейтинг этот вырос вдвое за 3 года, с 102 пунктов в 2019 г. до 208 пунктов в 2022 г.
Можно обратить внимание насколько там было ещё неразвито в 2013-2016 годах когда как раз в России у практически всех регионов были порталы открытых данных.
В Китае они стали появляться позже и медленнее, и всё ещё нет общенационального, но явно до него осталось недолго, 1-2 года максимум, а скорее раньше.
Я об этом ещё напишу подробнее, материалов накопилось уже на большой обзор.
Ссылки:
[1] https://open.baidu.com/
[2] http://ifopendata.cn/
#opendata #china #data
В рубрике интересных инструментов работы с данными AutoProfiler [1]
Расширение для Jupyter Notebook для автоматической визуализации данных в дата фреймах. Выглядит просто, когда видишь в первый раз кажется что "это же очевидно!", а на практике имеет большую пользу. Интересно останется ли только поддержка Pandas или добавят и Polars, например?
В любом случае это полезный практический инструмент.
Внутри него используется библиотека Vega-Altair [2] которая для таких визуализацией представляется весьма практичной.
А сама идея сопровождать таблицы данных визуализациями не нова, вот такой подход с отображением технических параметров датасета мне нравится, в первую очередь пригодностью к автоматизации.
Ссылки:
[1] https://github.com/cmudig/AutoProfiler
[2] https://altair-viz.github.io/index.html
#data #datatools #opensource #codenotebooks
Расширение для Jupyter Notebook для автоматической визуализации данных в дата фреймах. Выглядит просто, когда видишь в первый раз кажется что "это же очевидно!", а на практике имеет большую пользу. Интересно останется ли только поддержка Pandas или добавят и Polars, например?
В любом случае это полезный практический инструмент.
Внутри него используется библиотека Vega-Altair [2] которая для таких визуализацией представляется весьма практичной.
А сама идея сопровождать таблицы данных визуализациями не нова, вот такой подход с отображением технических параметров датасета мне нравится, в первую очередь пригодностью к автоматизации.
Ссылки:
[1] https://github.com/cmudig/AutoProfiler
[2] https://altair-viz.github.io/index.html
#data #datatools #opensource #codenotebooks
Интересное чтение про данные, технологии и не только:
- World’s largest battery maker announces major breakthrough in energy density [1] в компании CATL, ведущем производителе аккумуляторов в мире заявили о прорыве в хранении энергии и научились хранить до 500Wh на килограмм, для сравнения у батарей Tesla примерно вдвое меньше. Такая энергоёмкость снова возвращает к возможности создания электрических двигателей для самолётов. Если что CATL китайский производитель и это особенно интересно на фоне нынешних торговых войн. Подхлестнёт ли это исследования энергоёмкости в США и ЕС?
- Games are problems people pay to solve [2] короткий внятный текст про то что игры про то что люди платят за то что они решают задачи в изолированных безопасных пространствах. Со ссылками на хорошие книги по теме, а автор же написал книгу Mental Models Book.
- Prompt engineering [3] про инженерные методы взаимодействия с большими языковыми моделями. Без воды, много примеров, хорошо изложено. Отложил на почитать в ближайшие поездки.
- A genealogy of open [4] лонгрид о природе понятия открытости. Речь, в первую очередь, от открытости образования и образовательных материалов, но автор касается и других связанных тем: открытая наука, открытые данные и тд.
- Whose data commons? Whose city? [5] авторы рассуждают об открытости данных городов и важности инициатив в этой области. Выводы у них правда в форме: "надо об этом много говорить", кто же спорит. Но пишут со ссылками, хорошими аргументами и по делу.
Ссылки:
[1] https://thedriven.io/2023/04/21/worlds-largest-battery-maker-announces-major-breakthrough-in-battery-density/
[2] https://invertedpassion.com/games-are-problems-people-pay-to-solve/
[3] https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
[4] https://www.inthelibrarywiththeleadpipe.org/2023/genealogy-of-open/
[5] https://www.bennettinstitute.cam.ac.uk/blog/whose-data-commons-part-one/
#opendata #technology #readings #data #games #open
- World’s largest battery maker announces major breakthrough in energy density [1] в компании CATL, ведущем производителе аккумуляторов в мире заявили о прорыве в хранении энергии и научились хранить до 500Wh на килограмм, для сравнения у батарей Tesla примерно вдвое меньше. Такая энергоёмкость снова возвращает к возможности создания электрических двигателей для самолётов. Если что CATL китайский производитель и это особенно интересно на фоне нынешних торговых войн. Подхлестнёт ли это исследования энергоёмкости в США и ЕС?
- Games are problems people pay to solve [2] короткий внятный текст про то что игры про то что люди платят за то что они решают задачи в изолированных безопасных пространствах. Со ссылками на хорошие книги по теме, а автор же написал книгу Mental Models Book.
- Prompt engineering [3] про инженерные методы взаимодействия с большими языковыми моделями. Без воды, много примеров, хорошо изложено. Отложил на почитать в ближайшие поездки.
- A genealogy of open [4] лонгрид о природе понятия открытости. Речь, в первую очередь, от открытости образования и образовательных материалов, но автор касается и других связанных тем: открытая наука, открытые данные и тд.
- Whose data commons? Whose city? [5] авторы рассуждают об открытости данных городов и важности инициатив в этой области. Выводы у них правда в форме: "надо об этом много говорить", кто же спорит. Но пишут со ссылками, хорошими аргументами и по делу.
Ссылки:
[1] https://thedriven.io/2023/04/21/worlds-largest-battery-maker-announces-major-breakthrough-in-battery-density/
[2] https://invertedpassion.com/games-are-problems-people-pay-to-solve/
[3] https://lilianweng.github.io/posts/2023-03-15-prompt-engineering/
[4] https://www.inthelibrarywiththeleadpipe.org/2023/genealogy-of-open/
[5] https://www.bennettinstitute.cam.ac.uk/blog/whose-data-commons-part-one/
#opendata #technology #readings #data #games #open
The Driven
World’s largest battery maker announces major breakthrough in energy density
"A new era of universal electrification of sea, land and air transportation." CATL announces new battery that doubles energy intensity.
Я регулярно пишу про то как устроено в части работы с данными в разных странах, а в последнее время и чаще про страны постсоветского пространства и редко, но нахожу время для критики Минэкономразвития и Минцифры, это не значит что в РФ нет разумных проектов и инициатив о которых нельзя было бы рассказать.
Я приведу в пример три из них.
Открытые данные Минкультуры РФ (opendata.mkrf.ru)
Хорошо спроектированный и профессиональный движок для публикации открытых данных и для работы с данными в принципе. При том что там опубликовано всего 62 набора данных, но это данные относительно большого объёма, доступные по API, в разных форматах и с визуализацией. Очень хочется чтобы Минкультуры РФ непрополимерило потеряло его, потому что то что я знаю так то что после кадровых преобразований в Минкультуры уже неизвестно кто им занимается. Ещё жаль что ни одного внедрения этого движка кроме как на сайте Минкультуры нет.
Платформа поставки данных ФНС России (vpd.nalog.gov.ru)
Это не открытые данные идеологически, но это инициатива по предоставлению чувствительных данных, как ещё говорят data sharing. Я слышал много положительных отзывов от людей в региональной власти в РФ о том что жаль что у других ФОИВов нет подобного или что они не предоставляют свои данные также через такую платформу.
История финансовой системы (https://minfin.gov.ru/ru/ministry/historylib/common/finance/fin_history)
Большая коллекция книг исторических бюджетов и других материалов опубликованных Минфином России в разделе у себя на сайте. Что важно - многие документы ещё Российской Империи и СССР. Полезно для тех кто изучает территорий входящих и входивших в эту местность. Активно используется многими историками. За многое Минфину РФ спасибо не скажешь, а за это конкретно спасибо.
Госрасходы (spending.gov.ru)
Здесь немного бесстыдной рекламы проектам к которые я когда-то создавал. Проект создан на базе госконтрактов, данных по госпрограммам, госпроектам и многим другим данным относящимся к госфинансам и расходам/доходам гос-ва. После того как я ушёл снова заниматься коммерческими и общественными проектами им уже несколько лет занимается Ольга Пархимович (@ahminfin), она изредка пишет про открытость госфинансов и открытые данные. Подписывайтесь, думаю что прирост подписчиков промотивирует её писать чаще;)
—
Я знаю очень много других весьма неплохих практик открытости и работы с данными, о каких то не могу писать, потому что о них ничего нет публичного, о каких-то пишу, но редко, потому что чаще пишу на русском языке о том что происходит в мире.
В России же, к сожалению, хорошие практики теряются в общем тренде не закрытость гос-ва и то что лучшие практики не применяются. Если бы к примеру, новость о закрытии федерального портала data.gov.ru звучала бы как то что Минэк договорился с командой Минкульта о переносе их портала и создании качественного нового портала - то ну что бы их критиковал? Или если бы сотрудники Минэка покаялись бы и озвучили что сами понимают что всё продолбали и теперь передают полномочия налоговой службе по новой версии портала, то и такому можно было бы лишь апплодировать.
Но ничего такого не будет;)
Поэтому заканчиваю на минорной ноте, хорошие примеры есть, хорошие практики есть, люди с компетенциями есть даже внутри государства и его подрядчиков, но что-то в консерватории поправить надо (с) как говорил Жванецкий
#bestpractices #russia #government #opendata #data
Я приведу в пример три из них.
Открытые данные Минкультуры РФ (opendata.mkrf.ru)
Хорошо спроектированный и профессиональный движок для публикации открытых данных и для работы с данными в принципе. При том что там опубликовано всего 62 набора данных, но это данные относительно большого объёма, доступные по API, в разных форматах и с визуализацией. Очень хочется чтобы Минкультуры РФ не
Платформа поставки данных ФНС России (vpd.nalog.gov.ru)
Это не открытые данные идеологически, но это инициатива по предоставлению чувствительных данных, как ещё говорят data sharing. Я слышал много положительных отзывов от людей в региональной власти в РФ о том что жаль что у других ФОИВов нет подобного или что они не предоставляют свои данные также через такую платформу.
История финансовой системы (https://minfin.gov.ru/ru/ministry/historylib/common/finance/fin_history)
Большая коллекция книг исторических бюджетов и других материалов опубликованных Минфином России в разделе у себя на сайте. Что важно - многие документы ещё Российской Империи и СССР. Полезно для тех кто изучает территорий входящих и входивших в эту местность. Активно используется многими историками. За многое Минфину РФ спасибо не скажешь, а за это конкретно спасибо.
Госрасходы (spending.gov.ru)
Здесь немного бесстыдной рекламы проектам к которые я когда-то создавал. Проект создан на базе госконтрактов, данных по госпрограммам, госпроектам и многим другим данным относящимся к госфинансам и расходам/доходам гос-ва. После того как я ушёл снова заниматься коммерческими и общественными проектами им уже несколько лет занимается Ольга Пархимович (@ahminfin), она изредка пишет про открытость госфинансов и открытые данные. Подписывайтесь, думаю что прирост подписчиков промотивирует её писать чаще;)
—
Я знаю очень много других весьма неплохих практик открытости и работы с данными, о каких то не могу писать, потому что о них ничего нет публичного, о каких-то пишу, но редко, потому что чаще пишу на русском языке о том что происходит в мире.
В России же, к сожалению, хорошие практики теряются в общем тренде не закрытость гос-ва и то что лучшие практики не применяются. Если бы к примеру, новость о закрытии федерального портала data.gov.ru звучала бы как то что Минэк договорился с командой Минкульта о переносе их портала и создании качественного нового портала - то ну что бы их критиковал? Или если бы сотрудники Минэка покаялись бы и озвучили что сами понимают что всё продолбали и теперь передают полномочия налоговой службе по новой версии портала, то и такому можно было бы лишь апплодировать.
Но ничего такого не будет;)
Поэтому заканчиваю на минорной ноте, хорошие примеры есть, хорошие практики есть, люди с компетенциями есть даже внутри государства и его подрядчиков, но что-то в консерватории поправить надо (с) как говорил Жванецкий
#bestpractices #russia #government #opendata #data
Пишут что у Сбера появился свой аналог ChatGPT к которому, правда, доступ только по приглашениям. Я его не видел, зато не могу не вспомнить про проект AIID AI Incident Database [1] база из более чем 500 "инцидентов" произошедших с AI. Например, когда машина под управлением AI сбивает пешехода или когда рекомендательный алгоритм с использованием ИИ рекомендует совсем не то и тд. Судя по описаниям некоторых инцидентов, там объектом рассмотрения являются не только ИИ системы, но и нейросети и другие результаты машинного обучения. Я бы скорее говорил что там речь про ADM системы (ADM - automated decision making), но авторы используют термин AI.
И да, данные из этой базы можно скачать одним архивом в машиночитаемой форме [2]
Ссылки:
[1] https://incidentdatabase.ai/
[2] https://incidentdatabase.ai/research/snapshots/
#ai #ethics #incidents #datasets
И да, данные из этой базы можно скачать одним архивом в машиночитаемой форме [2]
Ссылки:
[1] https://incidentdatabase.ai/
[2] https://incidentdatabase.ai/research/snapshots/
#ai #ethics #incidents #datasets
Команда российского Гостех'а в своём телеграм канале пишет поёт себе хвалу [1] о том что Россия признана одним из лидеров гостехизации в рейтиге GTMI (GovTech Maturity Index), но как бы помягче сказать. Библейскими словами - это лукавство.
Действительно, 11 апреля вышло обновление индекса GovTech Maturity Index, 2022 Update — Europe and Central Asia Regional Brief [2].
Так вот обратите внимание что:
1. Кроме России в лидерах там ещё и: Азербайджан, Украина, Сербия, Албания, Хорватия, Молдавия и др.
2. GMTI - это не оценка проектов под названием "ГосТех", а совокупность технологий и решений. Например, гособлака, платформа для госзаказа, электронный бюджет и тд. Если вы почитаете документ внимательно то обнаружите что ни одна из упомянутых там систем к российской системе гостех не относятся.
3. Важно помнить про смысловые отличия терминов. В мире и у Всемирного Банка Гостех - это технологические инновации в госсекторе. Такие же как Edutech, Fintech, Legaltech. В России Гостехом обозвали некий продукт на базе платформы V от Сбербанка.
4. Про все страны в этом документе есть дополнения, про Россию даже не стали упоминать, она есть в рейтингах, но в текстовом описании начисто отсутствует.
Даже не знаю что добавить. Подитожу, да, в российском госсекторе есть технологические проекты позволяющими ему быть на уровне Молдавии и Азербайджана, и да, никакого отношения к этим проектам российский Гостех не имеет и иметь не может.
Ссылки:
[1] https://t.me/gosteh/488
[2] https://openknowledge.worldbank.org/items/f6ec889a-13aa-4eda-9b5f-42ac35f262fe
#government #govtech #worldbank #technology
Действительно, 11 апреля вышло обновление индекса GovTech Maturity Index, 2022 Update — Europe and Central Asia Regional Brief [2].
Так вот обратите внимание что:
1. Кроме России в лидерах там ещё и: Азербайджан, Украина, Сербия, Албания, Хорватия, Молдавия и др.
2. GMTI - это не оценка проектов под названием "ГосТех", а совокупность технологий и решений. Например, гособлака, платформа для госзаказа, электронный бюджет и тд. Если вы почитаете документ внимательно то обнаружите что ни одна из упомянутых там систем к российской системе гостех не относятся.
3. Важно помнить про смысловые отличия терминов. В мире и у Всемирного Банка Гостех - это технологические инновации в госсекторе. Такие же как Edutech, Fintech, Legaltech. В России Гостехом обозвали некий продукт на базе платформы V от Сбербанка.
4. Про все страны в этом документе есть дополнения, про Россию даже не стали упоминать, она есть в рейтингах, но в текстовом описании начисто отсутствует.
Даже не знаю что добавить. Подитожу, да, в российском госсекторе есть технологические проекты позволяющими ему быть на уровне Молдавии и Азербайджана, и да, никакого отношения к этим проектам российский Гостех не имеет и иметь не может.
Ссылки:
[1] https://t.me/gosteh/488
[2] https://openknowledge.worldbank.org/items/f6ec889a-13aa-4eda-9b5f-42ac35f262fe
#government #govtech #worldbank #technology