Forwarded from ministryofpoems
Здравствуйте, начинаем наше дистанционное заседание Комиссии по делам меньшего зла
Итак, первый вопрос, статс секретарь Министерства забивания козла
Докладывает по вопросу планов министерства по злодействам на этот год
Что? Вызвали к министру. Мне вот тут пишут что сегодня он не придёт.
Очень, жаль, это был важный вопрос про планы министерства
Ну да ничего, у нас тут ещё много разного пионерства
Второй вопрос, давний и очень интересный
Как сообщать цифровым образом о злодействах
Докладчиком у нас представитель ГлавЗлодейРегистрации
Прошу Вас начинать Ваши инсинуации
Знаете, мы тут подготовили целую концепцию
Очень планировали обсудить и получить Вашу акцепцию
Но в виду смены нашего ГлавЗлодейРегистрации руководителя
Мы пока вынуждены повременить с исполнением поручения нашего властителя
Сейчас наша концепция проходит внутреннее согласование
Прошу взять паузу, извините и спасибо за внимание
Как же так, второй вопрос сегодня и тоже без обсуждения
Выражаю, как модератор, сам себе осуждение
Мы, честно говоря надеялись, обсудить вопрос обстоятельно
Ну раз так, то в следующий раз обсудим обязательно
Однако, же дорогие друзья-алкоголики
Что-то не очень у нас работает АНО "Доведения до коликов"
Третий вопрос, важная государственная веха
Обсуждаем создание ЗлодейТеха
Для тех кто может быть подзабыл о чём идёт речь
Мы себя, к сожалению, не смогли уберечь
И на нас свалилось большое поручение
Взять ЗлодейТех на попечение
От нас ждут важного ответа
Должен ли быть ЗлодейТех зелёного цвета
Хорошо танцевать, иметь хобот и большие размеры
Просирать, простите, полимеризировать особо крупные полимеры
У нас сегодня об этом расскажет представитель Алкогольного Цеха
И зелёный представитель зелёного лоббиста ЗлодейТеха
Прошу, не стесняйтесь, расскажите и ответьте на вопросы
Мы все вас очень просим
Здравствуйте, мы ранее направили все материалы
Там перечислены наши фамилии и инициалы
Мы что-то там напридумывали, пока очень абстрактно
Ваше мнение нам будет услышать очень приятно.
А можно вопрос? (голос из группы).
Каково место частных злодеев в Вашей ЗлодейТех'овской труппе?
У нас тут больше 20 лет опыта частного крупного злодейства
Работаем со всем, от адмиралтейства до плебейства
Очень хотим понять нашу будущую роль в этой системе
И как, немного больше, расскажите по теме
Спасибо за Ваш вопрос, он очень правильный и важный
Мы его запишем и ответим Вам на него однажды
А у меня вот тоже есть комментарий.
Я хоть и простой злодей-пролетарий
Но не могу не усомниться в Ваших материалах
Потому что материалов категорически мало
Расскажи подробнее о том что запланировали
Чтобы мы Ваш ЗлодейТех санкционировали
И за Ваш вопрос, спасибо, он очень правильный и важный
Мы его запишем и ответим Вам на него однажды
А я вот всячески Вас поддерживаю во всех формах
Нам региональным злодеям надоело это уже по горло
Нет нормальных типовых злодейских решений
Очень жду Ваших больших зелёных свершений
Спасибо и это вопрос тоже, он очень правильный и важный
Мы его запишем и ответим Вам на него однажды
Коллеги, время у нас выходит и прокомментирую как модератор
Представленный вопрос тоже выглядит сыровато
Какое-то у нас в этот раз немного скомканное мероприятие
Но хорошо что от вируса ни у кого нет кондратия
Попросим коллег и этот вопрос проработать альтернативы
Может быть зло может быть не только зелёным, но и синим?
Давайте предложим и другим большим танцующим травоядным
Свои предложения представить в виде приглядным
На этом всем спасибо, заканчиваем наше заседание
И до майской встречи< всем до свидания
Итак, первый вопрос, статс секретарь Министерства забивания козла
Докладывает по вопросу планов министерства по злодействам на этот год
Что? Вызвали к министру. Мне вот тут пишут что сегодня он не придёт.
Очень, жаль, это был важный вопрос про планы министерства
Ну да ничего, у нас тут ещё много разного пионерства
Второй вопрос, давний и очень интересный
Как сообщать цифровым образом о злодействах
Докладчиком у нас представитель ГлавЗлодейРегистрации
Прошу Вас начинать Ваши инсинуации
Знаете, мы тут подготовили целую концепцию
Очень планировали обсудить и получить Вашу акцепцию
Но в виду смены нашего ГлавЗлодейРегистрации руководителя
Мы пока вынуждены повременить с исполнением поручения нашего властителя
Сейчас наша концепция проходит внутреннее согласование
Прошу взять паузу, извините и спасибо за внимание
Как же так, второй вопрос сегодня и тоже без обсуждения
Выражаю, как модератор, сам себе осуждение
Мы, честно говоря надеялись, обсудить вопрос обстоятельно
Ну раз так, то в следующий раз обсудим обязательно
Однако, же дорогие друзья-алкоголики
Что-то не очень у нас работает АНО "Доведения до коликов"
Третий вопрос, важная государственная веха
Обсуждаем создание ЗлодейТеха
Для тех кто может быть подзабыл о чём идёт речь
Мы себя, к сожалению, не смогли уберечь
И на нас свалилось большое поручение
Взять ЗлодейТех на попечение
От нас ждут важного ответа
Должен ли быть ЗлодейТех зелёного цвета
Хорошо танцевать, иметь хобот и большие размеры
Просирать, простите, полимеризировать особо крупные полимеры
У нас сегодня об этом расскажет представитель Алкогольного Цеха
И зелёный представитель зелёного лоббиста ЗлодейТеха
Прошу, не стесняйтесь, расскажите и ответьте на вопросы
Мы все вас очень просим
Здравствуйте, мы ранее направили все материалы
Там перечислены наши фамилии и инициалы
Мы что-то там напридумывали, пока очень абстрактно
Ваше мнение нам будет услышать очень приятно.
А можно вопрос? (голос из группы).
Каково место частных злодеев в Вашей ЗлодейТех'овской труппе?
У нас тут больше 20 лет опыта частного крупного злодейства
Работаем со всем, от адмиралтейства до плебейства
Очень хотим понять нашу будущую роль в этой системе
И как, немного больше, расскажите по теме
Спасибо за Ваш вопрос, он очень правильный и важный
Мы его запишем и ответим Вам на него однажды
А у меня вот тоже есть комментарий.
Я хоть и простой злодей-пролетарий
Но не могу не усомниться в Ваших материалах
Потому что материалов категорически мало
Расскажи подробнее о том что запланировали
Чтобы мы Ваш ЗлодейТех санкционировали
И за Ваш вопрос, спасибо, он очень правильный и важный
Мы его запишем и ответим Вам на него однажды
А я вот всячески Вас поддерживаю во всех формах
Нам региональным злодеям надоело это уже по горло
Нет нормальных типовых злодейских решений
Очень жду Ваших больших зелёных свершений
Спасибо и это вопрос тоже, он очень правильный и важный
Мы его запишем и ответим Вам на него однажды
Коллеги, время у нас выходит и прокомментирую как модератор
Представленный вопрос тоже выглядит сыровато
Какое-то у нас в этот раз немного скомканное мероприятие
Но хорошо что от вируса ни у кого нет кондратия
Попросим коллег и этот вопрос проработать альтернативы
Может быть зло может быть не только зелёным, но и синим?
Давайте предложим и другим большим танцующим травоядным
Свои предложения представить в виде приглядным
На этом всем спасибо, заканчиваем наше заседание
И до майской встречи< всем до свидания
Цифровые гуманитарные проекты (digital humanities) - это необязательно древняя история, они могут быть посвящены и самому что ни на есть настоящему. Например, AusStage. The Australian Live Performance Database
[1] австралийский проект живых выступлений австралийских артистов в своей стране и по всему миру.
В базе
- 31 998 событий
- 21 295 организаций
- 20 966 работ
- 76 186 ресурсов
- 12 881 площадок
Самое давнее событие происходило в 1789 году [2] в виде празднования дня рождения короля Георгия II заключёнными в хижине на земляном полу.
Проект научный, поэтому из него экспортируются данные, а информация собирается, в том числе, из архивов и библиотек, где хранятся афишы, билеты, флаеры, обзоры и многое другое.
А самые актуальные вносятся за 2023 год довольно оперативно.
Ссылки:
[1] https://ausstage.edu.au
[2] https://www.ausstage.edu.au/pages/venue/19230
#digitalhumanities #culture #australia #open #digitalpreservation
[1] австралийский проект живых выступлений австралийских артистов в своей стране и по всему миру.
В базе
- 31 998 событий
- 21 295 организаций
- 20 966 работ
- 76 186 ресурсов
- 12 881 площадок
Самое давнее событие происходило в 1789 году [2] в виде празднования дня рождения короля Георгия II заключёнными в хижине на земляном полу.
Проект научный, поэтому из него экспортируются данные, а информация собирается, в том числе, из архивов и библиотек, где хранятся афишы, билеты, флаеры, обзоры и многое другое.
А самые актуальные вносятся за 2023 год довольно оперативно.
Ссылки:
[1] https://ausstage.edu.au
[2] https://www.ausstage.edu.au/pages/venue/19230
#digitalhumanities #culture #australia #open #digitalpreservation
В рубрике интересных наборов данных Subnational HDI [1] индекс человеческого развития на региональном уровне, например, департаментов во Франции, субъектов федерации в России, штатов в США и тд. Публикуются Global Data Lab, единственное ограничение просят зарегистрироваться у них на сайте перед выгрузкой,
На основе их данных есть самая простая визуализация по регионам.
А вот у команды Mozaiks есть уже совсем не простая визуализация и модель данных [2] для отображения этого индекса на гиперлокальном уровне.
Собственно они в марте 2023 г. опубликовали научную работу Global High-Resolution Estimates of the United Nations Human Development Index Using Satellite Imagery and Machine-learning [3]
Визуализация получается весьма наглядная.
Ссылки:
[1] https://globaldatalab.org/shdi/table/shdi/
[2] https://www.mosaiks.org/hdi
[3] https://www.nber.org/papers/w31044
#opendata #datasets #un #dataviz
На основе их данных есть самая простая визуализация по регионам.
А вот у команды Mozaiks есть уже совсем не простая визуализация и модель данных [2] для отображения этого индекса на гиперлокальном уровне.
Собственно они в марте 2023 г. опубликовали научную работу Global High-Resolution Estimates of the United Nations Human Development Index Using Satellite Imagery and Machine-learning [3]
Визуализация получается весьма наглядная.
Ссылки:
[1] https://globaldatalab.org/shdi/table/shdi/
[2] https://www.mosaiks.org/hdi
[3] https://www.nber.org/papers/w31044
#opendata #datasets #un #dataviz
Про чистку ведомственных баз данных от излишков информации. Часть 1 из 2
Тут все активно обсуждают выступление главы Минцифры Максута Шадаева по поводу того чтобы сделать инвентаризацию данных и не выдавать данные из контуров ведомств [1] и пытаются проделать интерпретации этого выступления.
Признаться я не услышал в нём ничего нового, это ровно что и есть публичное подтверждение достаточно давнего тренда - тренда на ограничение доступа к данным в России. Этот тренд начался не с выступления министра и даже не с введения состояния мобилизационной экономики, этому тренду более 9 лет. Ещё в 2013 году Путин совместно с главами G8 подписывал декларацию открытости данных, а уже в 2014 году G8 превратилось в G7. Какое-то время в России шло два тренда параллельно, с одной стороны шла интенсивная информатизация и попытки формировать инновационный рынок, а с другой растущее число работ журналистов расследователей на данных, которые были доступны, именно благодаря цифровизации экономических отношений. Конечно системы ЕГРН, ЕГРЮЛ, госзакупок и др. создавались не для журналистов, они создавались для ускорения и развития экономических отношений, развития рынков, стартапов и интеграции государственных систем, а также выполнения тех международных обязательств которые имели место быть. Где-то года до 2020 российские госорганы ещё обращали внимание на позиции в международных рейтингах, например, Минфин волновали позиции России в Open Budget Index.
Но, параллельно с этим, закрывались данные о субсидиях, получателях госконтрактов по ряду направлений (госкорпорации по 223-ФЗ), в 2021 году скрыли данные об учредителях НКО, постепенно начали закрытие данных ЕГРН, быстро не могли это сделать из-за огромного рынка стройки и оборота недвижимости и земли, последствия были бы тяжёлыми и так далее. Тренд на закрытость постепенно перебивал тренд на открытость.
В основе этого тренда на закрытость два важнейших страха - страх экономического ущерба, государству, компанию и отдельным людям, в виде попадания под прямые и опосредованные санкции и страх деятельности журналистов расследователей. Причём первое многократно критичнее второго.
Всё это не только про открытые данные в строгом смысле (свободные лицензии, машиночитаемость), но и про доступные данные продаваемые гос-вом, данные в разных, не только машинных форматах и даже сведения к которым доступом получали на чёрном рынке пробива информации. Последнее самое сложное, до сих пор многим сотрудникам госорганов платят не настолько хорошо чтобы у них не возникало соблазна такой подработки.
Централизация данных, особенно персональных, лишь повышала вероятность появления если не утечек, то доступа к рынку пробива.
Но централизованные системы создавались, только делать их дозволялось и дозволяется не всем. Поэтому мне сложно до конца верить словам Максута, в первую очередь потому что относительно недавно был создан единый регистр населения и вот уже создаётся (создан?) реестр военнообязанных. Это системы объединяющие данные разных ведомств, я не поверю что данные там только по запросу. Собственно вся затея с НСУД была как раз для того чтобы избежать "ведомственного огораживания", как раз для интеграции данных для госуслуг и других задач. Фактически слова Максута противоречат политике Минцифры РФ как минимум последних лет.
Продолжение в следующем посте
#opendata #closeddata #data #russia #itmarket
Тут все активно обсуждают выступление главы Минцифры Максута Шадаева по поводу того чтобы сделать инвентаризацию данных и не выдавать данные из контуров ведомств [1] и пытаются проделать интерпретации этого выступления.
Признаться я не услышал в нём ничего нового, это ровно что и есть публичное подтверждение достаточно давнего тренда - тренда на ограничение доступа к данным в России. Этот тренд начался не с выступления министра и даже не с введения состояния мобилизационной экономики, этому тренду более 9 лет. Ещё в 2013 году Путин совместно с главами G8 подписывал декларацию открытости данных, а уже в 2014 году G8 превратилось в G7. Какое-то время в России шло два тренда параллельно, с одной стороны шла интенсивная информатизация и попытки формировать инновационный рынок, а с другой растущее число работ журналистов расследователей на данных, которые были доступны, именно благодаря цифровизации экономических отношений. Конечно системы ЕГРН, ЕГРЮЛ, госзакупок и др. создавались не для журналистов, они создавались для ускорения и развития экономических отношений, развития рынков, стартапов и интеграции государственных систем, а также выполнения тех международных обязательств которые имели место быть. Где-то года до 2020 российские госорганы ещё обращали внимание на позиции в международных рейтингах, например, Минфин волновали позиции России в Open Budget Index.
Но, параллельно с этим, закрывались данные о субсидиях, получателях госконтрактов по ряду направлений (госкорпорации по 223-ФЗ), в 2021 году скрыли данные об учредителях НКО, постепенно начали закрытие данных ЕГРН, быстро не могли это сделать из-за огромного рынка стройки и оборота недвижимости и земли, последствия были бы тяжёлыми и так далее. Тренд на закрытость постепенно перебивал тренд на открытость.
В основе этого тренда на закрытость два важнейших страха - страх экономического ущерба, государству, компанию и отдельным людям, в виде попадания под прямые и опосредованные санкции и страх деятельности журналистов расследователей. Причём первое многократно критичнее второго.
Всё это не только про открытые данные в строгом смысле (свободные лицензии, машиночитаемость), но и про доступные данные продаваемые гос-вом, данные в разных, не только машинных форматах и даже сведения к которым доступом получали на чёрном рынке пробива информации. Последнее самое сложное, до сих пор многим сотрудникам госорганов платят не настолько хорошо чтобы у них не возникало соблазна такой подработки.
Централизация данных, особенно персональных, лишь повышала вероятность появления если не утечек, то доступа к рынку пробива.
Но централизованные системы создавались, только делать их дозволялось и дозволяется не всем. Поэтому мне сложно до конца верить словам Максута, в первую очередь потому что относительно недавно был создан единый регистр населения и вот уже создаётся (создан?) реестр военнообязанных. Это системы объединяющие данные разных ведомств, я не поверю что данные там только по запросу. Собственно вся затея с НСУД была как раз для того чтобы избежать "ведомственного огораживания", как раз для интеграции данных для госуслуг и других задач. Фактически слова Максута противоречат политике Минцифры РФ как минимум последних лет.
Продолжение в следующем посте
#opendata #closeddata #data #russia #itmarket
Про чистку ведомственных баз данных от излишков информации. Часть 2 из 2
Важнее разговор про инвентаризацию. Инвентаризация данных, в нормальных, мирных условиях проводится с целью обмена ими. Данные - это ценный экономический ресурс, который может быть доступ в рамках открытости гос-ва (open data) или программ обмена данными (data sharing), но практически всегда конвертируется в новые продукты, бизнесы, научные работы, статьи, исследования и так далее. Инвентаризация же с целью информационной безопасности - это подтверждение что работа с данными в России окончательно переходит из режима развития в режим военной экономики. Для рынка информационной безопасности - это прекрасная новость, для рынков торговли данными, создания продуктов на их основе и любой аналитики - это растянувшаяся катастрофа. Это длительная неопределенность и непонимание того какой источник данных закроют завтра, послезавтра?
Мы уже видим это на примерах закрытого портала data.gov.ru, который при его никчёмности, номинально демонстрировал что в России госинициатива по открытости данных на федеральном уровне жива. Его закрыли тоже на инвентаризацию? Мы видим это на примере огромных штрафов за раскрытие данных ЕГРН, до 600 тысяч. Я думаю что всем очевидно что их применять будут, в первую очередь, к расследовательским СМИ и расследователям.
Всё это вызывает опасения закрытия всех иных "чувствительных и необходимых" данных. ЕГРЮЛ ещё доступен хотя бы и без данных о учредителях. Ограничат? Данные о госторгах и госзакупках ещё публикуются. Скроют и их? Про статистические показатели мы уже поняли что депутаты разрешили Пр-ву скрывать любую официальную статистику. Интересно, хотя бы постановления Пр-ва РФ по поводу сокрытия данных будут открытые или их тоже засекретят? Иногда мне удивительно что ещё законодательство страны не переводят в полу-секретный режим, это же тоже базы данных.
Как бы то ни было, мои финальные выводы из происходящего в том что ставки на экономическое развитие и малый и средний бизнес более нет. Есть военная экономика, есть несколько десятков Дзайбацу [2] на которых делается ставка, и окончательно нет малого-среднего бизнеса и все инновационной экономики. Учитывая что только развитие инновационной экономики было единственной более-менее допустимой опорой в части доступа к государственным данным, то и можно говорить об окончательной заморозке этой темы в России.
При этом надо понимать что не Максут Шадаев принимает об этом решения, он, в лучшем случае, озвучивает уже произошедшее. Система госуправления в России выстроена так что даже федеральные министры лишены значительной части субъектности, а решения принимаются на уровне премьера, вице-премьеров и ограниченного числа ключевых госкорпоратов и политической элиты. И началось всё не с его речи, конечно же, мы лишь услышали подтверждение того что было и раньше
Ссылки:
[1] https://rg.ru/2023/04/18/mincifry-zajmetsia-reviziej-vedomstvennyh-baz-dannyh.html
[2] https://ru.wikipedia.org/wiki/Дзайбацу
#opendata #closeddata #russia #data #itmarket
Важнее разговор про инвентаризацию. Инвентаризация данных, в нормальных, мирных условиях проводится с целью обмена ими. Данные - это ценный экономический ресурс, который может быть доступ в рамках открытости гос-ва (open data) или программ обмена данными (data sharing), но практически всегда конвертируется в новые продукты, бизнесы, научные работы, статьи, исследования и так далее. Инвентаризация же с целью информационной безопасности - это подтверждение что работа с данными в России окончательно переходит из режима развития в режим военной экономики. Для рынка информационной безопасности - это прекрасная новость, для рынков торговли данными, создания продуктов на их основе и любой аналитики - это растянувшаяся катастрофа. Это длительная неопределенность и непонимание того какой источник данных закроют завтра, послезавтра?
Мы уже видим это на примерах закрытого портала data.gov.ru, который при его никчёмности, номинально демонстрировал что в России госинициатива по открытости данных на федеральном уровне жива. Его закрыли тоже на инвентаризацию? Мы видим это на примере огромных штрафов за раскрытие данных ЕГРН, до 600 тысяч. Я думаю что всем очевидно что их применять будут, в первую очередь, к расследовательским СМИ и расследователям.
Всё это вызывает опасения закрытия всех иных "чувствительных и необходимых" данных. ЕГРЮЛ ещё доступен хотя бы и без данных о учредителях. Ограничат? Данные о госторгах и госзакупках ещё публикуются. Скроют и их? Про статистические показатели мы уже поняли что депутаты разрешили Пр-ву скрывать любую официальную статистику. Интересно, хотя бы постановления Пр-ва РФ по поводу сокрытия данных будут открытые или их тоже засекретят? Иногда мне удивительно что ещё законодательство страны не переводят в полу-секретный режим, это же тоже базы данных.
Как бы то ни было, мои финальные выводы из происходящего в том что ставки на экономическое развитие и малый и средний бизнес более нет. Есть военная экономика, есть несколько десятков Дзайбацу [2] на которых делается ставка, и окончательно нет малого-среднего бизнеса и все инновационной экономики. Учитывая что только развитие инновационной экономики было единственной более-менее допустимой опорой в части доступа к государственным данным, то и можно говорить об окончательной заморозке этой темы в России.
При этом надо понимать что не Максут Шадаев принимает об этом решения, он, в лучшем случае, озвучивает уже произошедшее. Система госуправления в России выстроена так что даже федеральные министры лишены значительной части субъектности, а решения принимаются на уровне премьера, вице-премьеров и ограниченного числа ключевых госкорпоратов и политической элиты. И началось всё не с его речи, конечно же, мы лишь услышали подтверждение того что было и раньше
Ссылки:
[1] https://rg.ru/2023/04/18/mincifry-zajmetsia-reviziej-vedomstvennyh-baz-dannyh.html
[2] https://ru.wikipedia.org/wiki/Дзайбацу
#opendata #closeddata #russia #data #itmarket
Российская газета
Минцифры почистит ведомственные базы данных от излишков информации - Российская газета
Минцифры занялось проблемой утечек данных и планирует ревизию ведомственных баз данных. Об этом рассказал глава ведомства Максут Шадаев. По словам министра, необходимо оставить в доступе только те данные, которые нужны непосредственно для работы.
This media is not supported in your browser
VIEW IN TELEGRAM
Совсем свежая статья с видеопримерами от команды NVIDIA про языковую модель по генерации видео на основе описания текстом [1]. Проще говоря: генеративный ИИ текст-в-видео.
Что характерно там не только примеры общей модели, но и обучения на видеозаписях, например, кота и генерации видео на их основе. Иначе говоря, возможность создавать персонализированный видео-контент на основе предоставленных материалов.
Про математическую и техническую реализацию лучше посмотреть в самой статье, а я про практическое применение.
Возможно полнометражные фильмы появятся ещё не скоро, но что неизбежно появится очень быстро и будет иметь различные социальные и экономические последствия - это:
1) Персонифицированная порнография и падение доходов у порноактрис и эротических моделей, поскольку можно нагенерировать множество изображений и видео предобучив на имеющихся. Это уже происходит для изображений, теперь будет и для видео.
2) Оживление мёртвых людей в виртуальном пространстве. Продажа вечной "цифровой жизни" и тд. Оно и так есть, оно и так развивается, а генерация качественного видео это усилит.
Ссылки:
[1] https://research.nvidia.com/labs/toronto-ai/VideoLDM/
#ai #research
Что характерно там не только примеры общей модели, но и обучения на видеозаписях, например, кота и генерации видео на их основе. Иначе говоря, возможность создавать персонализированный видео-контент на основе предоставленных материалов.
Про математическую и техническую реализацию лучше посмотреть в самой статье, а я про практическое применение.
Возможно полнометражные фильмы появятся ещё не скоро, но что неизбежно появится очень быстро и будет иметь различные социальные и экономические последствия - это:
1) Персонифицированная порнография и падение доходов у порноактрис и эротических моделей, поскольку можно нагенерировать множество изображений и видео предобучив на имеющихся. Это уже происходит для изображений, теперь будет и для видео.
2) Оживление мёртвых людей в виртуальном пространстве. Продажа вечной "цифровой жизни" и тд. Оно и так есть, оно и так развивается, а генерация качественного видео это усилит.
Ссылки:
[1] https://research.nvidia.com/labs/toronto-ai/VideoLDM/
#ai #research
Пока мы тут обсуждаем кого ИИ лишит профессии, спешу сказать что разработчикам и инженерам не стоит надеяться на скорое исчезновение их профессий (что хорошо) и даже на то что ИИ очень сильно облегчит жизнь (что не так хорошо). Почему? Потому что большую часть инженеров и разработчиков что я знаю на реальных продуктах и проектах - это отладка и legacy, это разгребание накопленного непотребства, создание кривых подпорок из кривых подпорок и ещё много чего. За исключением очень редких уникальных случаев когда это не так. ИИ может лишить интересной работы по созданию чего-то абсолютно с нуля и ещё сильнее усложнить переход разработчиков из джунов в миддлы, потому что чуть ли не главные их отличия - это умение работать самостоятельно и самостоятельно вести отладку.
#ai #profession #dataengineering
#ai #profession #dataengineering
На чём Google обучает свой чат-бот, журналисты Washington Post заглянули внутрь Google C4 [1] набора данных для обучения языковой модели. Более всего там базы патентов из patents.google.com которая собрана из открытых баз патентов США и других стран, там же база публичных отчётов компаний sec.gov и ещё многие другие открытые государственные данные, в основном из США. Другой немаловажный источник - Википедия.
Просто интересно, вместе с запретом Википедии депутаты в России чат боты обученные на ней тоже запретят?
А по факту именно свободные знания и открытые государственные знания создают существенную долю языковых моделей на которых создаются новые ИИ инструменты.
Ссылки:
[1] https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/
#opendata #ai #datasets #google
Просто интересно, вместе с запретом Википедии депутаты в России чат боты обученные на ней тоже запретят?
А по факту именно свободные знания и открытые государственные знания создают существенную долю языковых моделей на которых создаются новые ИИ инструменты.
Ссылки:
[1] https://www.washingtonpost.com/technology/interactive/2023/ai-chatbot-learning/
#opendata #ai #datasets #google
Продолжая про проект Common Data Index, для тех кто интересуется какие каталоги данных есть в мире в Github'е в репозитории [1] уже собрано описание более чем 1450 каталогов с данными, а это включает то на каком ПО они работают, какие там точки подключения к API и многое другое.
Причём вначале было около 1700, но более чем 350 уже не существуют и были удалены и около 100 ещё добавлено.
Тем кто хочет посмотреть на список то он есть в виде наборов данных в JSON lines [2] и CSV [3].
Так вот что я могу сказать, так это повторить предыдущие выводы:
1. Геоданные составляют основную часть открытых и общедоступных данных, если не считать отдельные агрегаторы научных данных вроде zenodo.org, после их индексирования скорее всего несколько это изменится
2. Проблема в том что геокаталогов много, а списков их нет. Например, инсталляций Geonetwork уже собрано 111 и их ещё очень много и искать их долго. А число инсталляций GeoNode, GeoServer просто не сосчитать. Правда обычно там и данных публикуется до 100 наборов данных, максимум.
3. Россия родина изобретателей велосипедов (с). Не шучу, какое-то неимоверное число собственных разработок порталов данных и геопорталов. Хороших мало, но тоже есть. Поражает скорее расточительность. Это резко контрастирует с европейскими странами и более всего похоже на Китай.
4. Я частично уже понимаю как собирать метаданные с большинства порталов данных , это положительный момент, большую часть наборов данных можно охватить используя примерно 10-15 схем метаданных. Это типовое ПО и крупные проекты вроде Zenodo, DataOne и др.
А самое главное что на основе это уже удалось собрать индекс первичных данных на 3.1 миллионов наборов данных.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry
[2] https://github.com/commondataio/dataportals-registry/raw/main/data/datasets/catalogs.jsonl
[3] https://github.com/commondataio/dataportals-registry/raw/main/data/datasets/catalogs_export.csv
#opendata #datasets #geodata #datacatalogs
Причём вначале было около 1700, но более чем 350 уже не существуют и были удалены и около 100 ещё добавлено.
Тем кто хочет посмотреть на список то он есть в виде наборов данных в JSON lines [2] и CSV [3].
Так вот что я могу сказать, так это повторить предыдущие выводы:
1. Геоданные составляют основную часть открытых и общедоступных данных, если не считать отдельные агрегаторы научных данных вроде zenodo.org, после их индексирования скорее всего несколько это изменится
2. Проблема в том что геокаталогов много, а списков их нет. Например, инсталляций Geonetwork уже собрано 111 и их ещё очень много и искать их долго. А число инсталляций GeoNode, GeoServer просто не сосчитать. Правда обычно там и данных публикуется до 100 наборов данных, максимум.
3. Россия родина изобретателей велосипедов (с). Не шучу, какое-то неимоверное число собственных разработок порталов данных и геопорталов. Хороших мало, но тоже есть. Поражает скорее расточительность. Это резко контрастирует с европейскими странами и более всего похоже на Китай.
4. Я частично уже понимаю как собирать метаданные с большинства порталов данных , это положительный момент, большую часть наборов данных можно охватить используя примерно 10-15 схем метаданных. Это типовое ПО и крупные проекты вроде Zenodo, DataOne и др.
А самое главное что на основе это уже удалось собрать индекс первичных данных на 3.1 миллионов наборов данных.
Ссылки:
[1] https://github.com/commondataio/dataportals-registry
[2] https://github.com/commondataio/dataportals-registry/raw/main/data/datasets/catalogs.jsonl
[3] https://github.com/commondataio/dataportals-registry/raw/main/data/datasets/catalogs_export.csv
#opendata #datasets #geodata #datacatalogs
GitHub
GitHub - commondataio/dataportals-registry: Registry of data portals, catalogs, data repositories including data catalogs dataset…
Registry of data portals, catalogs, data repositories including data catalogs dataset and catalog description standard - commondataio/dataportals-registry
Тем временем в Великобритании Правительство закрывает проект по цифровой закупке продуктов [1] в рамках Digital Marketplace. Многие из тех кто продавали таким образом госструктурам ПО и услуги считают что это большой шаг назад [2]. Мне вот не удалось найти объяснения этого шага, он выглядит довольно странно со стороны.
В лекциях чиновникам я регулярно рассказывал про эту инициативу как пример правильного подхода, жаль что на него теперь уже не сослаться.
Ссылки:
[1] https://www.digitalmarketplace.service.gov.uk/
[2] https://twitter.com/dominiccampbell/status/1649015861913477124?s=46&t=zIrjZL532Q-g_BoBMdJtaQ
#government #uk #procurement #digital
В лекциях чиновникам я регулярно рассказывал про эту инициативу как пример правильного подхода, жаль что на него теперь уже не сослаться.
Ссылки:
[1] https://www.digitalmarketplace.service.gov.uk/
[2] https://twitter.com/dominiccampbell/status/1649015861913477124?s=46&t=zIrjZL532Q-g_BoBMdJtaQ
#government #uk #procurement #digital
В рубрике интересных наборов данных, мало кто знает что в Испании кроме официальной статистики, есть так называемая экспериментальная статистика, показатели которой рассчитываются, в основном, из разного рода информационных систем и которая прежде чем стать официальной проверяется, но при этом тоже общедоступна. Раздел с экспериментальной статистикой есть на сайте их Института статистики [1] и включает, например:
- Демографический профиль компании
- Распределение расходов резидентов во время их поездок за границу по странам назначения
- Оценка заполняемости туристических объектов с использованием данных с цифровых платформ
- Исследования по мобильности на основе мобильного телефона
- Распределение расходов иностранных гостей на посещение Испании
И ещё много чего, интересное там есть.
Вот та же статистика по расходам иностранцев в Испании очень любопытна [2] по всем ключевым странам источникам туристов они собирают данные по транзакциям по банковским картам. Происхождение туриста определяется по местонахождению банка эмитента карты. Из постсоветских стран там только Россия и только до 1 квартала 2022 года, до отключения от карт Visa и Mastercard для российских пользователей. Видно также предпочтение по территориям. Россияне больше тратили в Каталонии, Валенсии и Андалусии, а мексиканцы в Мадриде и тд.
Обновляют ежеквартально, все данные можно скачать как CSV, XLSX и др. форматы.
Ссылки:
[1] https://www.ine.es/en/experimental/experimental_en.htm
[2] https://www.ine.es/en/experimental/gasto_tarjetas/trimestral.htm
#opendata #dataviz #datasets #spending #tourism #statistics
- Демографический профиль компании
- Распределение расходов резидентов во время их поездок за границу по странам назначения
- Оценка заполняемости туристических объектов с использованием данных с цифровых платформ
- Исследования по мобильности на основе мобильного телефона
- Распределение расходов иностранных гостей на посещение Испании
И ещё много чего, интересное там есть.
Вот та же статистика по расходам иностранцев в Испании очень любопытна [2] по всем ключевым странам источникам туристов они собирают данные по транзакциям по банковским картам. Происхождение туриста определяется по местонахождению банка эмитента карты. Из постсоветских стран там только Россия и только до 1 квартала 2022 года, до отключения от карт Visa и Mastercard для российских пользователей. Видно также предпочтение по территориям. Россияне больше тратили в Каталонии, Валенсии и Андалусии, а мексиканцы в Мадриде и тд.
Обновляют ежеквартально, все данные можно скачать как CSV, XLSX и др. форматы.
Ссылки:
[1] https://www.ine.es/en/experimental/experimental_en.htm
[2] https://www.ine.es/en/experimental/gasto_tarjetas/trimestral.htm
#opendata #dataviz #datasets #spending #tourism #statistics
В рубрике как это устроено у них Единый портал научных данных Республики Корея DataOn [1].
Объединяет систему публикации научных данных и поисковую систему по наборам данных в мире.
Включает более 37 тысяч наборов данных опубликованных корейскими учёными в 14 отраслевых репозиториях и более чем 1.6 миллионов наборов данных из репозиториев научных данных других стран.
Репозиторий был создан в декабре 2018 года и с той поры активно развивается.
Ссылки:
[1] https://dataon.kisti.re.kr/
#opendata #datasets #openaccess #openresearch #datacatalogs #korea
Объединяет систему публикации научных данных и поисковую систему по наборам данных в мире.
Включает более 37 тысяч наборов данных опубликованных корейскими учёными в 14 отраслевых репозиториях и более чем 1.6 миллионов наборов данных из репозиториев научных данных других стран.
Репозиторий был создан в декабре 2018 года и с той поры активно развивается.
Ссылки:
[1] https://dataon.kisti.re.kr/
#opendata #datasets #openaccess #openresearch #datacatalogs #korea
У меня уже целая коллекция поисковиков по данным, напомню самый известный и популярный в мире это Google Dataset Search, но это не значит что нет попыток создать другие агрегаторы и поисковые системы по наборам данных. Я ранее писал про Auctus, и ряд других, а вот нашёл ещё один IDRA [1] небольшой проект от итальянской компании Engineering, они создают этот проект на средства одной из исследовательских программ Евросоюза.
Судя по документации умеют харвестить данные из примерно 10 видов каталогов, к ним есть коннекторы, но в примере приведены только 9 каталогов 2-х типов: CKAN и DKAN.
Из интересного, делают акцент на поддержке протокола Orion Context Broker (NGSI v2) которые относятся скорее к инженерному миру чем к дата-инженерному или открытым данным, полагаю что это следствие интересов именно этой команды.
По многим параметрам выглядят неплохо, в первую очередь по охвату потенциальных источников данных. Поэтому лично я за этим проектом наблюдаю, но считаю что надо идти другим путём и этот путь в создании итеративно: реестра каталогов данных, базу первичных индексов и только потом поисковую систему.
Об этом всём я тоже рассказываю в телеграм канале. А пока +1 пример поисковой системы по данным.
Ссылки:
[1] https://idra.opsi-lab.it/IdraPortal/#/about
#opendata #data #datasearch #opensource
Судя по документации умеют харвестить данные из примерно 10 видов каталогов, к ним есть коннекторы, но в примере приведены только 9 каталогов 2-х типов: CKAN и DKAN.
Из интересного, делают акцент на поддержке протокола Orion Context Broker (NGSI v2) которые относятся скорее к инженерному миру чем к дата-инженерному или открытым данным, полагаю что это следствие интересов именно этой команды.
По многим параметрам выглядят неплохо, в первую очередь по охвату потенциальных источников данных. Поэтому лично я за этим проектом наблюдаю, но считаю что надо идти другим путём и этот путь в создании итеративно: реестра каталогов данных, базу первичных индексов и только потом поисковую систему.
Об этом всём я тоже рассказываю в телеграм канале. А пока +1 пример поисковой системы по данным.
Ссылки:
[1] https://idra.opsi-lab.it/IdraPortal/#/about
#opendata #data #datasearch #opensource
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Открытые данные Минэка больше недоступны
Ровно месяц прошел с «закрытия» Портала открытых данных и бодрого обещания Минэка «присылать данные по запросу». В день закрытия портала отправила запрос на получение данных Минэка, которые сейчас недоступны, т.к. публиковались только на Портале открытых данных, что противоречит законодательству.
Спустя месяц получаем следующую картину:
- Портал открытых данных недоступен, вместе с этим и недоступен ни один набор данных Минэкономразиватия
- Запрос на получение открытых данных, отправленный на почту mineconom@economy.gov.ru, рассматривается месяц в рамках рассмотрения обращений граждан
- В ответе на запрос (напомню, готовили его месяц) дублируется информация, которая была опубликована на сайте Минэка: «Портал временно закрыт, но данные можно получить по запросу». Фактически это больше похоже на «Данных нет, но вы держитесь», т.к. данные-то я запросила, но не получила.
- Вся контактная информация для запросов данных повторно удалена с портала открытых данных и заменена на заглушку: «Ведутся технические работы», телеграм-чат, созданный Минэком, молчит.
Пруф с ответом прикреплен к посту.
Ровно месяц прошел с «закрытия» Портала открытых данных и бодрого обещания Минэка «присылать данные по запросу». В день закрытия портала отправила запрос на получение данных Минэка, которые сейчас недоступны, т.к. публиковались только на Портале открытых данных, что противоречит законодательству.
Спустя месяц получаем следующую картину:
- Портал открытых данных недоступен, вместе с этим и недоступен ни один набор данных Минэкономразиватия
- Запрос на получение открытых данных, отправленный на почту mineconom@economy.gov.ru, рассматривается месяц в рамках рассмотрения обращений граждан
- В ответе на запрос (напомню, готовили его месяц) дублируется информация, которая была опубликована на сайте Минэка: «Портал временно закрыт, но данные можно получить по запросу». Фактически это больше похоже на «Данных нет, но вы держитесь», т.к. данные-то я запросила, но не получила.
- Вся контактная информация для запросов данных повторно удалена с портала открытых данных и заменена на заглушку: «Ведутся технические работы», телеграм-чат, созданный Минэком, молчит.
Пруф с ответом прикреплен к посту.
Я несколько раз писал про то сколько открытых данных публикуют в Китае, в первую очередь в научной сфере, в централизованной базе SciDb.cn для исследовательских данных. Но, честно говоря, я уже ощущаю что сильно недооценивал масштаб их публикаций. А он таков что практически у каждой из провинций Китая есть портал открытых данных, данные на них регулярно обновляются. Их, китайская специфика, в большом числе открытых API и акценте на данных городской/провинциальной инфраструктуры в виде API к их инфраструктурным информационным системам.
И даже у компаний вроде Baidu есть программы предоставления данных партнёрам открытым образом [1], это не open data, но подпадает под data sharing.
В Университете Фуданя есть ежегодный обзор и рейтинг провинций Китая по открытости данных [2] и рейтинг этот вырос вдвое за 3 года, с 102 пунктов в 2019 г. до 208 пунктов в 2022 г.
Можно обратить внимание насколько там было ещё неразвито в 2013-2016 годах когда как раз в России у практически всех регионов были порталы открытых данных.
В Китае они стали появляться позже и медленнее, и всё ещё нет общенационального, но явно до него осталось недолго, 1-2 года максимум, а скорее раньше.
Я об этом ещё напишу подробнее, материалов накопилось уже на большой обзор.
Ссылки:
[1] https://open.baidu.com/
[2] http://ifopendata.cn/
#opendata #china #data
И даже у компаний вроде Baidu есть программы предоставления данных партнёрам открытым образом [1], это не open data, но подпадает под data sharing.
В Университете Фуданя есть ежегодный обзор и рейтинг провинций Китая по открытости данных [2] и рейтинг этот вырос вдвое за 3 года, с 102 пунктов в 2019 г. до 208 пунктов в 2022 г.
Можно обратить внимание насколько там было ещё неразвито в 2013-2016 годах когда как раз в России у практически всех регионов были порталы открытых данных.
В Китае они стали появляться позже и медленнее, и всё ещё нет общенационального, но явно до него осталось недолго, 1-2 года максимум, а скорее раньше.
Я об этом ещё напишу подробнее, материалов накопилось уже на большой обзор.
Ссылки:
[1] https://open.baidu.com/
[2] http://ifopendata.cn/
#opendata #china #data