Актуальное про приватность в мире։
- В Китае регулятор опубликовал черновик закона о регулировании кредитного скоринга Law on Establishing the Social Credit System [1]. По сути устанавливая требования комплаенса для компаний предоставляющих подобные сервисы. Но это ещё только черновик
- В Испании три организации создали Observatorio de Trabajo, Algoritmo y Sociedad (Обсерватория труда, алгоритмов и общества) предназначенную для исследования влияния алгоритмов на рынок труда. Первым их проектом является расследование в отношении сервиса доставки Glovo [2]. Они уже ведут карту судебных разбирательств доставщиков еды и сервисов Glovo, Deliveroo и др․ [3]
- В Испании министерство внутренних дел тестирует систему распознавания лиц на базе продукта французской компании Thales [4].
- Европейский центр алгоритмической прозрачности создан в Севилье (Испания) [5] в рамках DSA (Digital Services Act), свежего законодательства Евросоюза.
Ссылки։
[1] https://www.chinalawtranslate.com/en/franken-law-initial-thoughts-on-the-draft-social-credit-law/
[2] https://www.eldiario.es/catalunya/riders-taxistas-autonomos-unen-denunciar-glovo-cnmc-cartel-no-competir_1_9698511.html
[3] https://observa-tas.org/mapa-de-conflictos/
[4] https://www.eldiario.es/tecnologia/interior-prepara-sistema-reconocimiento-facial-identificar-sospechosos_1_9711509.html
[5] https://algorithmic-transparency.ec.europa.eu/index_en
#privacy #facerecognition #ai #algorithms #regulation
- В Китае регулятор опубликовал черновик закона о регулировании кредитного скоринга Law on Establishing the Social Credit System [1]. По сути устанавливая требования комплаенса для компаний предоставляющих подобные сервисы. Но это ещё только черновик
- В Испании три организации создали Observatorio de Trabajo, Algoritmo y Sociedad (Обсерватория труда, алгоритмов и общества) предназначенную для исследования влияния алгоритмов на рынок труда. Первым их проектом является расследование в отношении сервиса доставки Glovo [2]. Они уже ведут карту судебных разбирательств доставщиков еды и сервисов Glovo, Deliveroo и др․ [3]
- В Испании министерство внутренних дел тестирует систему распознавания лиц на базе продукта французской компании Thales [4].
- Европейский центр алгоритмической прозрачности создан в Севилье (Испания) [5] в рамках DSA (Digital Services Act), свежего законодательства Евросоюза.
Ссылки։
[1] https://www.chinalawtranslate.com/en/franken-law-initial-thoughts-on-the-draft-social-credit-law/
[2] https://www.eldiario.es/catalunya/riders-taxistas-autonomos-unen-denunciar-glovo-cnmc-cartel-no-competir_1_9698511.html
[3] https://observa-tas.org/mapa-de-conflictos/
[4] https://www.eldiario.es/tecnologia/interior-prepara-sistema-reconocimiento-facial-identificar-sospechosos_1_9711509.html
[5] https://algorithmic-transparency.ec.europa.eu/index_en
#privacy #facerecognition #ai #algorithms #regulation
China Law Translate
"Franken-Law": Initial thoughts on the Draft Social Credit Law
An initial overview and critique of China's first draft Social Credit Law.
Как, возможно, многие обратили внимание я не размещаю рекламу в моём телеграм канале @begtin, а всем кто общается с подобным выставляю нереальный ценник.
Причина этого в том что я и сам редко вижу приличную рекламу и знаю насколько раздражают "нативные тексты" и то что я ценю аудиторию к которой обращаюсь. Этот телеграм канал я создавал, вначале, как каталог личных публичных заметок и сейчас его держу в той же форме, размечая, по возможности, каждый пост тегами.
Но если бы реклама была, то заработанные деньги пошли бы, всё равно, на деятельность АНО Инфокультура @infoculture которое я возглавляю и такие наши проекты как Простой русский язык, Госзатраты, Открытые НКО и Национальный цифровой архив. А также многие проекты по открытости "зависли" ещё в начале ковидных годов, но хочется надеяться к ним ещё вернуться.
Я лично стараюсь тратить на сохранение этих проектов хотя бы часть заработанного лично. И время от времени, не слишком часто, буду докучать предложениями этим проектам помочь․ Например, через сервис донатов в телеграм.
#fundraising #projects #blogging
Причина этого в том что я и сам редко вижу приличную рекламу и знаю насколько раздражают "нативные тексты" и то что я ценю аудиторию к которой обращаюсь. Этот телеграм канал я создавал, вначале, как каталог личных публичных заметок и сейчас его держу в той же форме, размечая, по возможности, каждый пост тегами.
Но если бы реклама была, то заработанные деньги пошли бы, всё равно, на деятельность АНО Инфокультура @infoculture которое я возглавляю и такие наши проекты как Простой русский язык, Госзатраты, Открытые НКО и Национальный цифровой архив. А также многие проекты по открытости "зависли" ещё в начале ковидных годов, но хочется надеяться к ним ещё вернуться.
Я лично стараюсь тратить на сохранение этих проектов хотя бы часть заработанного лично. И время от времени, не слишком часто, буду докучать предложениями этим проектам помочь․ Например, через сервис донатов в телеграм.
#fundraising #projects #blogging
www.plainrussian.ru
Проверка на понятность текстов — PlainRussian.ru
Инструмент оценки понятности текстов позволяет определить удобство чтения и простоту восприятия материалов.
Кстати, если Вы ещё не подписались на наш телеграм канал @ruarxive, то самое оно время. Не только новости про архивы и сам проект Национального цифрового архива, но и про другие проекты в цифровой гуманитаристики, архивации, сохранении современного культурного наследия
Forwarded from Национальный цифровой архив
⚡️Новый сервис от Internet Archive: scholar.archive.org
Этот полнотекстовый поисковый индекс включает в себя более 25 миллионов научных статей и других научных документов, хранящихся в Архиве Интернета.
Метаданные поступают из fatcat.wiki — открытого каталога научных работ.
Подробнее о сервисе: https://scholar.archive.org/about.
Этот полнотекстовый поисковый индекс включает в себя более 25 миллионов научных статей и других научных документов, хранящихся в Архиве Интернета.
Метаданные поступают из fatcat.wiki — открытого каталога научных работ.
Подробнее о сервисе: https://scholar.archive.org/about.
В рубрике больших открытых данных библиографические данные научных публикаций в коллекции Bulk Bibliographic Metadata [1]. В этой коллекции собраны полные дампы данных интегрированных в сервис Fatcat [2] из более чем 130 миллионов научных статей в открытом доступе.
Коллекция включает такие наборы данных как։
- полный дамп базы Postgres сервиса Fatcat (более 200 GB)
- дамп базы OpenLex
- дамп метаданных Datacite
- дамп метаданных Crossref
- дамп метаданных DOAJ
- дампы базы DBLP
А также многих других. В общей сложности это 13 терабайт в сжатом виде.
На их основе и построен упоминавшийся ранее проект scholar.archive.org
Ссылки։
[1] https://archive.org/details/ia_biblio_metadata?sort=-publicdate
[2] https://fatcat.wiki/
[3] https://scholar.archive.org
#opendata #datasets #openaccess
Коллекция включает такие наборы данных как։
- полный дамп базы Postgres сервиса Fatcat (более 200 GB)
- дамп базы OpenLex
- дамп метаданных Datacite
- дамп метаданных Crossref
- дамп метаданных DOAJ
- дампы базы DBLP
А также многих других. В общей сложности это 13 терабайт в сжатом виде.
На их основе и построен упоминавшийся ранее проект scholar.archive.org
Ссылки։
[1] https://archive.org/details/ia_biblio_metadata?sort=-publicdate
[2] https://fatcat.wiki/
[3] https://scholar.archive.org
#opendata #datasets #openaccess
PeaceTech (мирные технологии, технологии мира) Новая тема в проектах в области гражданских технологий (civic tech). О них пишут в блоге The GovLab [1] и им посвящён GlobalPeaceTechHub [2] проект EUI School of Transnational Governance и
University of Lucerne вместе с The GovLab ещё в 2021 г.
Основная идея в применении технологии для предупреждения, минимизации последствий военных конфликтов и достижения мира. В качестве примера, ожидаемо, упоминается конфликт на Украине, но явным образом им не ограничивается.
Что характерно, обычно проекты The GovLab финансировались грантами международных фондов или гос-ва, а в данном случае спонсор Kluz Ventures [3] венчурный фонд финансирующий проекты наблюдения за Землёй (спутники) и проекты с ИИ.
Почему это любопытно, поскольку в темах мероприятий по PeaceTech явно звучат вопросы этики данных и ИИ в таких направлениях как "Data as a Weapon" и "Weaponization of ML/AI Learning".
Ссылки։
[1] https://blog.thegovlab.org/post/launch-what-is-peacetech
[2] https://www.globalpeacetech.org/
[3] https://www.kluzventures.com
#ai #civictech #peacetech #opendata #data #regulation
University of Lucerne вместе с The GovLab ещё в 2021 г.
Основная идея в применении технологии для предупреждения, минимизации последствий военных конфликтов и достижения мира. В качестве примера, ожидаемо, упоминается конфликт на Украине, но явным образом им не ограничивается.
Что характерно, обычно проекты The GovLab финансировались грантами международных фондов или гос-ва, а в данном случае спонсор Kluz Ventures [3] венчурный фонд финансирующий проекты наблюдения за Землёй (спутники) и проекты с ИИ.
Почему это любопытно, поскольку в темах мероприятий по PeaceTech явно звучат вопросы этики данных и ИИ в таких направлениях как "Data as a Weapon" и "Weaponization of ML/AI Learning".
Ссылки։
[1] https://blog.thegovlab.org/post/launch-what-is-peacetech
[2] https://www.globalpeacetech.org/
[3] https://www.kluzventures.com
#ai #civictech #peacetech #opendata #data #regulation
В Казахстане на публичное обсуждение выложили Постановление Правительства "О утверждении единого перечня открытых данных государственных органов, размещаемых на интернет-портале открытых данных" [1].
Не будучи гражданином Казахстана я принять участие в обсуждении не смогу, но могу прокомментировать тут.
Есть условные два подхода к открытости данных, первый - открывайте всё что не имеет статуса для служебного пользования, а пользователи сами разберутся что им нужно. И второй, открываем "по белому списку" и контролируем любую публикацию. Казахстан идёт по второму пути, как и в России утверждали, только не общий перечень, а требования по обязательному раскрытию всеми госорганизациями определенного списка данных.
Итак, мои комментарии։
1. Будет публиковаться меньше данных. Это приказ заменяет постановление Правительства Республики Казахстан от 28 октября 2021 года № 774 «Об утверждении единого перечня открытых данных государственных органов, размещаемых на интернет-портале открытых данных» [2] в котором было 974 пункта, а в этом проекте постановления их 951. Почему перечень был сокращён нигде не упомянуто, в том числе в пояснительной записке к постановлению.
2. Ни в проекте постановления этом, ни в предыдущем, ни где-бы то ни было ещё нет упоминания свободных лицензия и режима доступа к данным. напомню что данные на портале Открытые данные eGov [3] формально критериям открытых данных не соответствуют. Они доступны только после авторизации, только гражданам Казахстана или имеющих право там жить или работать (требуется ИИН), а также данные публикуются без условий их использования.
3. Около 22% (213) наборов данных опубликованы АСПР (Бюро национальной статистики). Фактически это статистические показатели с ежегодным или иным периодом обновления, до ежемесячного. Но в системе Taldau [4] более 3600 показателей, есть ощущение что что-то где-то потеряно или недосказано.
4. Только 76 наборов данных предполагаются к постоянной доступности, по сути это постоянный доступ к базам данных через ведомственные API. Из них 70 наборов - это данные Минфина РК. Фактически, большая часть остальные данных - это ведомственная статистика.
5. Некоторые органы публикуют всего два-три набора данных которые, также, являются лишь статистическими показателями, с редким обновлением.
6. Более половины реестров (ищутся по слову "реестр") имеют период актуализации "ежегодно" или "ежеквартально", что для реестрового учёта и раскрытия совершенно недостаточно. Мало кто будет использовать такие открытые данные, а не идти в первоисточник.
Но, конечно, главный вопрос при публикации открытых данных в том а какие данные есть? Не видно что перед формированием списка органы власти проводили инвентаризацию того что у них есть и уже на основе сформированных списков определяли режим доступа к данным. Поэтому к списку много вопросов, что, впрочем, не отменяет того что очень хорошо что тема открытых данных в Республике Казахстан развивается и, хочется надеяться, что принципы открытости по умолчанию, свободного доступа к данным (без авторизации) и свободных лицензий найдут своё отражение в госполитике страны.
Ссылки։
[1] https://legalacts.egov.kz/npa/view?id=14317392
[2] https://adilet.zan.kz/rus/docs/P2100000774
[3] https://data.egov.kz
[4] https://taldau.stat.gov.kz/
#opendata #data #dataset #kazakhstan
Не будучи гражданином Казахстана я принять участие в обсуждении не смогу, но могу прокомментировать тут.
Есть условные два подхода к открытости данных, первый - открывайте всё что не имеет статуса для служебного пользования, а пользователи сами разберутся что им нужно. И второй, открываем "по белому списку" и контролируем любую публикацию. Казахстан идёт по второму пути, как и в России утверждали, только не общий перечень, а требования по обязательному раскрытию всеми госорганизациями определенного списка данных.
Итак, мои комментарии։
1. Будет публиковаться меньше данных. Это приказ заменяет постановление Правительства Республики Казахстан от 28 октября 2021 года № 774 «Об утверждении единого перечня открытых данных государственных органов, размещаемых на интернет-портале открытых данных» [2] в котором было 974 пункта, а в этом проекте постановления их 951. Почему перечень был сокращён нигде не упомянуто, в том числе в пояснительной записке к постановлению.
2. Ни в проекте постановления этом, ни в предыдущем, ни где-бы то ни было ещё нет упоминания свободных лицензия и режима доступа к данным. напомню что данные на портале Открытые данные eGov [3] формально критериям открытых данных не соответствуют. Они доступны только после авторизации, только гражданам Казахстана или имеющих право там жить или работать (требуется ИИН), а также данные публикуются без условий их использования.
3. Около 22% (213) наборов данных опубликованы АСПР (Бюро национальной статистики). Фактически это статистические показатели с ежегодным или иным периодом обновления, до ежемесячного. Но в системе Taldau [4] более 3600 показателей, есть ощущение что что-то где-то потеряно или недосказано.
4. Только 76 наборов данных предполагаются к постоянной доступности, по сути это постоянный доступ к базам данных через ведомственные API. Из них 70 наборов - это данные Минфина РК. Фактически, большая часть остальные данных - это ведомственная статистика.
5. Некоторые органы публикуют всего два-три набора данных которые, также, являются лишь статистическими показателями, с редким обновлением.
6. Более половины реестров (ищутся по слову "реестр") имеют период актуализации "ежегодно" или "ежеквартально", что для реестрового учёта и раскрытия совершенно недостаточно. Мало кто будет использовать такие открытые данные, а не идти в первоисточник.
Но, конечно, главный вопрос при публикации открытых данных в том а какие данные есть? Не видно что перед формированием списка органы власти проводили инвентаризацию того что у них есть и уже на основе сформированных списков определяли режим доступа к данным. Поэтому к списку много вопросов, что, впрочем, не отменяет того что очень хорошо что тема открытых данных в Республике Казахстан развивается и, хочется надеяться, что принципы открытости по умолчанию, свободного доступа к данным (без авторизации) и свободных лицензий найдут своё отражение в госполитике страны.
Ссылки։
[1] https://legalacts.egov.kz/npa/view?id=14317392
[2] https://adilet.zan.kz/rus/docs/P2100000774
[3] https://data.egov.kz
[4] https://taldau.stat.gov.kz/
#opendata #data #dataset #kazakhstan
Kazkhstan_opendata_list_20221130.csv
579.6 KB
К предыдущему посту прилагаю CSV файл с перечнем открытых данных подлежащих публикации в РК. Список был почищен от опечаток и структурирован для самостоятельного анализа. Может кто-то захочет сравнить его со списком из прошлого постановления Пр-ва РК.
#opendata #data #kazakhstan #datasets
#opendata #data #kazakhstan #datasets
На сайте Счетной палаты РФ выложили все открытые бюллетени СП РФ с 1996 года [1] что для российских органов власти шаг абсолютно беспрецедентный даже не потому что многие боятся что-то открывать, а потому что просто продалбывают собственные архивы и даже не пытаются их восстановить когда это понимают.
Поэтому архив отчетов Счетной палаты - это полезная база документов, важная для открытости гос-ва в целом. При этом архив был опубликован в специальном разделе сайта СП РФ [2] недостатком и достоинством которого является то что внутри него используется API для поиска по этим файлам. В результате поисковые системы, Интернет-архив и другие краулеры могут не добраться для индексирования PDF файлов. Но данные из этого же API легко превращаются в набор данных и файлы можно скачать с его помощь.
При смене руководителей организаций очень часто в первую очередь новый руководитель меняет именно сайт. Поэтому мы заархивировали архив отчетов Счетной палаты и слепок всех документов архива находится по ссылке [3], а по другой ссылке набор данных в формате JSONL с метаданными к этим документам [4]
Ссылки։
[1] https://ach.gov.ru/news/project_archive
[2] https://ach.gov.ru/checks/
[3] https://cdn.ruarxive.org/public/dataportals/ach.gov.ru/2022-11-30/checks/files/
[4] https://cdn.ruarxive.org/public/dataportals/ach.gov.ru/2022-11-30/checks/data.jsonl.zip
#datasets #opendata
Поэтому архив отчетов Счетной палаты - это полезная база документов, важная для открытости гос-ва в целом. При этом архив был опубликован в специальном разделе сайта СП РФ [2] недостатком и достоинством которого является то что внутри него используется API для поиска по этим файлам. В результате поисковые системы, Интернет-архив и другие краулеры могут не добраться для индексирования PDF файлов. Но данные из этого же API легко превращаются в набор данных и файлы можно скачать с его помощь.
При смене руководителей организаций очень часто в первую очередь новый руководитель меняет именно сайт. Поэтому мы заархивировали архив отчетов Счетной палаты и слепок всех документов архива находится по ссылке [3], а по другой ссылке набор данных в формате JSONL с метаданными к этим документам [4]
Ссылки։
[1] https://ach.gov.ru/news/project_archive
[2] https://ach.gov.ru/checks/
[3] https://cdn.ruarxive.org/public/dataportals/ach.gov.ru/2022-11-30/checks/files/
[4] https://cdn.ruarxive.org/public/dataportals/ach.gov.ru/2022-11-30/checks/data.jsonl.zip
#datasets #opendata
reestr-inostrannyih-agentov-01-12-2022.zip
93 KB
Минюст опубликовал единый реестр иностранных агентов [1] в виде PDF файла в 15 страниц и 493 записи. Не буду комментировать странности ведения и публикации этого реестра в PDF файле и тем более его содержание.
В любом случае журналистам и не только для анализа будет удобнее работать с Excel и CSV файлами, поэтому именно их прилагаю.
Ссылки։
[1] https://minjust.gov.ru/uploaded/files/reestr-inostrannyih-agentov-01-12-2022.pdf
#opendata #dataset
В любом случае журналистам и не только для анализа будет удобнее работать с Excel и CSV файлами, поэтому именно их прилагаю.
Ссылки։
[1] https://minjust.gov.ru/uploaded/files/reestr-inostrannyih-agentov-01-12-2022.pdf
#opendata #dataset
В США Propublica опубликовали наиболее подробную карту загрязнения воздуха в США [1] с возможностью выбрать конкретную локацию и увидеть на карте уровни загрязнения на очень детальном уровне.
В основе карты данные EPA Risk-Screening Environmental Indicators (RSEI) Model [2] публикуемые Агентством по защите природы США в многочисленных форматах открытых данных [3]. Там буквально есть всё։ CSV, SHP, данные переписи наложенные на модель RSEI и даже база MS Access и всё выложенное на FTP сервер для массовой выгрузки [4].
Хороший пример того как надо публиковать данные о качестве жизни органам власти и о том что можно создать на их основе.
Ссылки։
[1] https://projects.propublica.org/toxmap/
[2] https://www.epa.gov/rsei
[3] https://www.epa.gov/rsei/ways-get-rsei-results#products
[4] https://gaftp.epa.gov/rsei/Current_Version/Version2310_RY2020/
#opendata #datasets #lifequality #pollution #usa
В основе карты данные EPA Risk-Screening Environmental Indicators (RSEI) Model [2] публикуемые Агентством по защите природы США в многочисленных форматах открытых данных [3]. Там буквально есть всё։ CSV, SHP, данные переписи наложенные на модель RSEI и даже база MS Access и всё выложенное на FTP сервер для массовой выгрузки [4].
Хороший пример того как надо публиковать данные о качестве жизни органам власти и о том что можно создать на их основе.
Ссылки։
[1] https://projects.propublica.org/toxmap/
[2] https://www.epa.gov/rsei
[3] https://www.epa.gov/rsei/ways-get-rsei-results#products
[4] https://gaftp.epa.gov/rsei/Current_Version/Version2310_RY2020/
#opendata #datasets #lifequality #pollution #usa
В дополнение к новости про архив отчетов Счетной палаты [1], копия отчетов загружена в Интернет архив [2], это будет удобнее тем кто хочет скачать их одним файлом. Там же набор данных с метаданными и ссылками на документы отчетов. Структура директорий в файле с отчетами воспроизводит структуру сайта Счетной палаты, поэтому можно по каждой ссылки из набора данных найти нужный сохранённый файл.
Общий объём 4.2 гигабайта в сжатом виде, около 5 гигабайт в распакованном виде
Архив был сделан с помощью программы с открытым кодом apibackuper [3], её настройки для выгрузки данных Счетной палаты можно найти здесь, в репозитории apibackuper-datarchive [4].
Для чего можно использовать набор данных с отчетами Счетной палаты?
1. В аналитических задачах связанных с контролем за государственными финансами.
2. В задачах идентификации именованных объектов.
Может быть можно ещё для чего-то.
Напомню что если Вы знаете о возможном исчезновении или риске исчезновения каких-либо значимых данных, напишите нам, в @ruarxive через сайт, письмом или сообщением или в чате и мы постараемся оперативно сохранить эти данные.
Ссылки։
[1] https://t.me/begtin/4442
[2] https://archive.org/details/achgovru-checks
[3] https://github.com/ruarxive/apibackuper
[3] https://github.com/ruarxive/apibackuper-dataarchive/tree/main/achgovru-checks
#opendata #datasets #government
Общий объём 4.2 гигабайта в сжатом виде, около 5 гигабайт в распакованном виде
Архив был сделан с помощью программы с открытым кодом apibackuper [3], её настройки для выгрузки данных Счетной палаты можно найти здесь, в репозитории apibackuper-datarchive [4].
Для чего можно использовать набор данных с отчетами Счетной палаты?
1. В аналитических задачах связанных с контролем за государственными финансами.
2. В задачах идентификации именованных объектов.
Может быть можно ещё для чего-то.
Напомню что если Вы знаете о возможном исчезновении или риске исчезновения каких-либо значимых данных, напишите нам, в @ruarxive через сайт, письмом или сообщением или в чате и мы постараемся оперативно сохранить эти данные.
Ссылки։
[1] https://t.me/begtin/4442
[2] https://archive.org/details/achgovru-checks
[3] https://github.com/ruarxive/apibackuper
[3] https://github.com/ruarxive/apibackuper-dataarchive/tree/main/achgovru-checks
#opendata #datasets #government
Telegram
Ivan Begtin
На сайте Счетной палаты РФ выложили все открытые бюллетени СП РФ с 1996 года [1] что для российских органов власти шаг абсолютно беспрецедентный даже не потому что многие боятся что-то открывать, а потому что просто продалбывают собственные архивы и даже…
Не про данные, но про открытость․ В мире продолжается "ползучий тренд" по увеличению сроков действия действия авторских прав [1] и вот свежая новость, правительство Канады с 30 декабря 2022 года продлевает сроки действия авторских прав с 50 на 70 лет [2], тем самым гармонизируя законодательство со странами Евросоюза и США.
Об этом всём и последствиях пишут в блоге интернет-архива Канады [3] и там же ссылка на научную статью What Happens When Books Enter the Public Domain? [4] главный вывод в которой о том что продление сроков авторских прав не приносит пользы обществу.
В России, кстати, также срок действия авторских прав уже давно составляет 70 лет минимум.
Ссылки։
[1] https://ru.wikipedia.org/wiki/Сроки_действия_авторских_прав
[2] https://orders-in-council.canada.ca/attachment.php?attach=42842&lang=en
[3] https://internetarchivecanada.org/2022/11/23/a-missed-opportunity-to-revive-obscure-canadian-literature/
[4] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3401684
#copyright #open
Об этом всём и последствиях пишут в блоге интернет-архива Канады [3] и там же ссылка на научную статью What Happens When Books Enter the Public Domain? [4] главный вывод в которой о том что продление сроков авторских прав не приносит пользы обществу.
В России, кстати, также срок действия авторских прав уже давно составляет 70 лет минимум.
Ссылки։
[1] https://ru.wikipedia.org/wiki/Сроки_действия_авторских_прав
[2] https://orders-in-council.canada.ca/attachment.php?attach=42842&lang=en
[3] https://internetarchivecanada.org/2022/11/23/a-missed-opportunity-to-revive-obscure-canadian-literature/
[4] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3401684
#copyright #open
Wikipedia
Сроки действия авторских прав
Сроки действия авторских прав — сроки, установленные законами об авторских правах в разных странах, после которых не требуются разрешения авторов на копирование, публикование или использование той или иной авторской работы. Термины «копия» и «публикация»…
Интересное чтение про данные, технологии и не только։
- A bot that watched 70,000 hours of Minecraft could unlock AI’s next big thing [1] в OpenAI сделали бота который умеет "крафтить" инструменты в Minecraft и играть значительно лучше людей. Но фишка не в Minecraft'е, а в том что бот обучался на 70 тысячах часах видео и далее воспроизводил сложные действия людей. Иначе говоря, если иметь значительное время записи действий человека, то с помощью ИИ можно гораздо быстрее обучать машины делать какие-либо ручные монотонные действия.
- Trino at Apple [2] о том как работает движок для распределённых запросов Trino внутри Apple. Интерактивность выступления оставляет желать лучшего, а содержание интересно, поскольку инфраструктура у Apple велика и задачи непростые.
- Snack Stack: If Programming Languages Were Desserts … [3] если бы языки программирования были бы десертами. Лично я никогда бы не проассоциировал Perl с молекулярной кухней, но фантазии у автора весьма яркие, читать смешно.
- Modern Data Modeling: Start with the End? [4] современное моделирование данных с акцентом на dbt. Скорее техническое чем глубоко концептуальное, но небесполезное.
- Data Gaps Initiative [5] инициатива министров финансов G20 после финансового кризиса в 2009 году по систематизации сбора данных которые помогли бы предотвратить следующий подобный кризис. Во время встречи лидеров G20 на Бали инициативу расширили [6] на такие темы как։ изменение климата, распределение доходов и богатства, финтех и фининклюзивность и доступ к частным источникам данных и повышении качества, точности и оперативности официальной статистики.
- We could run out of data to train AI language programs [7] о том что гонка за увеличением объёмов данных для обучения больших языковых моделей уже не работает и что важнее повышать качество данных и работать над связностью используемых тренировочных данных. Проблема, кстати, актуальная в особенности для малых языков для которых мало текстов для обучения.
Ссылки։
[1] https://www.technologyreview.com/2022/11/25/1063707/ai-minecraft-video-unlock-next-big-thing-openai-imitation-learning/
[2] https://trino.io/blog/2022/11/28/trino-summit-2022-apple-recap.html
[3] https://thenewstack.io/snack-stack-if-programming-languages-were-desserts/
[4] https://www.adventofdata.com/modern-data-modeling-start-with-the-end/
[5] https://www.imf.org/en/News/Seminars/Conferences/g20-data-gaps-initiative
[6] https://www.imf.org/en/News/Articles/2022/11/28/pr22410-g20-leaders-welcome-ndgi-to-address-climate-change-inclusion-financial-innovation
[7] https://www.technologyreview.com/2022/11/24/1063684/we-could-run-out-of-data-to-train-ai-language-programs/
#ai #technology #data #regulation #readings
- A bot that watched 70,000 hours of Minecraft could unlock AI’s next big thing [1] в OpenAI сделали бота который умеет "крафтить" инструменты в Minecraft и играть значительно лучше людей. Но фишка не в Minecraft'е, а в том что бот обучался на 70 тысячах часах видео и далее воспроизводил сложные действия людей. Иначе говоря, если иметь значительное время записи действий человека, то с помощью ИИ можно гораздо быстрее обучать машины делать какие-либо ручные монотонные действия.
- Trino at Apple [2] о том как работает движок для распределённых запросов Trino внутри Apple. Интерактивность выступления оставляет желать лучшего, а содержание интересно, поскольку инфраструктура у Apple велика и задачи непростые.
- Snack Stack: If Programming Languages Were Desserts … [3] если бы языки программирования были бы десертами. Лично я никогда бы не проассоциировал Perl с молекулярной кухней, но фантазии у автора весьма яркие, читать смешно.
- Modern Data Modeling: Start with the End? [4] современное моделирование данных с акцентом на dbt. Скорее техническое чем глубоко концептуальное, но небесполезное.
- Data Gaps Initiative [5] инициатива министров финансов G20 после финансового кризиса в 2009 году по систематизации сбора данных которые помогли бы предотвратить следующий подобный кризис. Во время встречи лидеров G20 на Бали инициативу расширили [6] на такие темы как։ изменение климата, распределение доходов и богатства, финтех и фининклюзивность и доступ к частным источникам данных и повышении качества, точности и оперативности официальной статистики.
- We could run out of data to train AI language programs [7] о том что гонка за увеличением объёмов данных для обучения больших языковых моделей уже не работает и что важнее повышать качество данных и работать над связностью используемых тренировочных данных. Проблема, кстати, актуальная в особенности для малых языков для которых мало текстов для обучения.
Ссылки։
[1] https://www.technologyreview.com/2022/11/25/1063707/ai-minecraft-video-unlock-next-big-thing-openai-imitation-learning/
[2] https://trino.io/blog/2022/11/28/trino-summit-2022-apple-recap.html
[3] https://thenewstack.io/snack-stack-if-programming-languages-were-desserts/
[4] https://www.adventofdata.com/modern-data-modeling-start-with-the-end/
[5] https://www.imf.org/en/News/Seminars/Conferences/g20-data-gaps-initiative
[6] https://www.imf.org/en/News/Articles/2022/11/28/pr22410-g20-leaders-welcome-ndgi-to-address-climate-change-inclusion-financial-innovation
[7] https://www.technologyreview.com/2022/11/24/1063684/we-could-run-out-of-data-to-train-ai-language-programs/
#ai #technology #data #regulation #readings
MIT Technology Review
A bot that watched 70,000 hours of Minecraft could unlock AI’s next big thing
Online videos are a vast and untapped source of training data—and OpenAI says it has a new way to use it.
У Privacy International материал о том как британское правительство поменяло способ слежки за мигрантами отпущенными под залог с электронных браслетов на ногах на умные часы [1] для чего привлекли частного подрядчика Buddi Limited [2].
У Guardian в этом году было уже две публикации с расследованиями того как организована слежка за мигрантами [3] уличёнными в преступлениях. Если кратко, то меры включают ношение устройства такого как электронный браслет с передачей информации 24 на 7 и запросом до 5 раз в день присылать фотографии.
Ничего не напоминает? Да, очень похоже на ковидный мониторинг как он был организован в России в Москве. Так вот похоже сама задумка непрерывной слежки для временно или постоянно дискриминируемыми группами населения становятся популярными у полицейский в разных странах.
Когда режим слежки за отпускаемыми под залог или за мигрантами могут внедрить в России? Да сразу после того как появится крупный внутригосударственный лоббист который продавит эту технологию.
Можно обратить внимание что, Buddi Limited, поставщик умных часов Минюста Великобритании, публично позиционировал свои продукты как продукты для пожилых людей.
Ссылки։
[1] https://privacyinternational.org/long-read/4991/buddi-limited-immigration-enforcements-favourite-tracking-buddy
[2] https://www.buddi.co.uk/
[3] https://www.theguardian.com/politics/2022/aug/05/facial-recognition-smartwatches-to-be-used-to-monitor-foreign-offenders-in-uk
[4] https://www.theguardian.com/world/2022/oct/05/ankle-tags-used-to-target-young-black-men-london-mayors-report-finds
#privacy #police #surveillance #crimetech
У Guardian в этом году было уже две публикации с расследованиями того как организована слежка за мигрантами [3] уличёнными в преступлениях. Если кратко, то меры включают ношение устройства такого как электронный браслет с передачей информации 24 на 7 и запросом до 5 раз в день присылать фотографии.
Ничего не напоминает? Да, очень похоже на ковидный мониторинг как он был организован в России в Москве. Так вот похоже сама задумка непрерывной слежки для временно или постоянно дискриминируемыми группами населения становятся популярными у полицейский в разных странах.
Когда режим слежки за отпускаемыми под залог или за мигрантами могут внедрить в России? Да сразу после того как появится крупный внутригосударственный лоббист который продавит эту технологию.
Можно обратить внимание что, Buddi Limited, поставщик умных часов Минюста Великобритании, публично позиционировал свои продукты как продукты для пожилых людей.
Ссылки։
[1] https://privacyinternational.org/long-read/4991/buddi-limited-immigration-enforcements-favourite-tracking-buddy
[2] https://www.buddi.co.uk/
[3] https://www.theguardian.com/politics/2022/aug/05/facial-recognition-smartwatches-to-be-used-to-monitor-foreign-offenders-in-uk
[4] https://www.theguardian.com/world/2022/oct/05/ankle-tags-used-to-target-young-black-men-london-mayors-report-finds
#privacy #police #surveillance #crimetech
Privacy International
Buddi Limited - Immigration Enforcement's favourite tracking buddy
Since early 2021, PI have been investigating and challenging the latest stride in the UK’s cruel migration policies: the roll-out of GPS ankle tags to monitor migrants released on immigration bail, a dehumanising,
В рубрике интересных наборов открытых данных публикуемых в России и малоизвестных, поскольку относящихся к узким научным областям знаний. В данном случае к биоинформатике.
- HOMOCOMO [1] проект по полной коллекции моделей связывания факторов транскрипции для человека и мыши с помощью крупномасштабного анализа ChIP-Seq создан на гранты РФФИ, РНФ и Skoltech Systems Biology Fellowship. Данные доступны под лицензией WTFPL ("Do What The Fuck You Want To Public License") [2]
- VDJdb [3] это курируемая база данных последовательностей Т-клеточных рецепторов (TCR) с известной антигенной специфичностью. Основной целью VDJdb является облегчение доступа к существующей информации о специфичности антигена Т-клеточного рецептора, т. е. способность распознавать определенные эпитопы в определенных контекстах MHC. Проект создавался совместным российским и европейским финансированием [4], а все данные и исходных код доступны на Github.
- GTRD (Gene Transcription Regulation Database) [5] наиболее полная коллекция единообразно обработанных данных ChIP-seq по идентификации сайтов связывания факторов транскрипции для человека и мыши. Доступно в виде данных для скачивания в машиночитаемых форматах.
А также многие другие данные создаются как открытые в проектах где российская наука существует и была интегрирована с мировой.
Ссылки։
[1] https://hocomoco11.autosome.org/
[2] https://en.wikipedia.org/wiki/WTFPL
[3] https://vdjdb.cdr3.net/
[4] https://vdjdb.cdr3.net/credits
[5] http://gtrd.biouml.org/#
#opendata #openaccess #FAIR
- HOMOCOMO [1] проект по полной коллекции моделей связывания факторов транскрипции для человека и мыши с помощью крупномасштабного анализа ChIP-Seq создан на гранты РФФИ, РНФ и Skoltech Systems Biology Fellowship. Данные доступны под лицензией WTFPL ("Do What The Fuck You Want To Public License") [2]
- VDJdb [3] это курируемая база данных последовательностей Т-клеточных рецепторов (TCR) с известной антигенной специфичностью. Основной целью VDJdb является облегчение доступа к существующей информации о специфичности антигена Т-клеточного рецептора, т. е. способность распознавать определенные эпитопы в определенных контекстах MHC. Проект создавался совместным российским и европейским финансированием [4], а все данные и исходных код доступны на Github.
- GTRD (Gene Transcription Regulation Database) [5] наиболее полная коллекция единообразно обработанных данных ChIP-seq по идентификации сайтов связывания факторов транскрипции для человека и мыши. Доступно в виде данных для скачивания в машиночитаемых форматах.
А также многие другие данные создаются как открытые в проектах где российская наука существует и была интегрирована с мировой.
Ссылки։
[1] https://hocomoco11.autosome.org/
[2] https://en.wikipedia.org/wiki/WTFPL
[3] https://vdjdb.cdr3.net/
[4] https://vdjdb.cdr3.net/credits
[5] http://gtrd.biouml.org/#
#opendata #openaccess #FAIR
Разработчики ИИ пугающими темпами создают сервисы и продукты замещающие людей творческих профессий։ художников, писателей, дизайнеров, музыкантов. Все уже слышали про Midjourney и Stable Diffusion, а тут подборка продуктов менее известных, но не менее интересных։
- Soundraw [1] сервис создающий музыку для заднего фона для Вашего видео, игры или ещё чего-либо. Лицензия не позволяет только использовать её для массового прослушивания именно как только музыку, а не как часть составного продукта. Зато просто таки напрашивается как часть продуктов вроде TikTok и его аналогов. Вместе пресета мелодий, тут можно создать музыку под себя настраивая длительность, стиль, ритм и тд.
- Metaphor [2] обещают не много, не мало, а заменить поисковые системы вроде Google. А пока генерируют набор ссылок по структурированному запросу. Выглядит как прототип экспериментальной поисковой системы. В чистом виде Google пока не заменит, но для некоторых областей будет очень интересно, например, в поиске научных публикаций по специализированным темам.
- LexicaArt [3] генератор изображений похожий на Stable Diffusion, но включающий поисковик по тому что успели нагенерировать другие. База там огромная, можно найти иногда необычные изображения, много примеров и, конечно, сгенерировать собственные
- Լex [4] сервис помогающий писателям дописывать куски текстов когда они застревают в какой-то части повествования. Ну, мы же понимаем, вначале помогает, потом заменяет писателей;) Сервис пока доступен ограниченно, но есть видео того как он работает [5]
- Runway [6] сервис по убиранию фона из видел, быстрому редактированию, преобразованию текста в 3D модели и ещё много чему по работе с видео с помощью ИИ
Таких сервисов и продуктов становится всё больше, они появляются каждую неделю и их станет всё больше.
Здесь можно порассуждать что ждёт креативные профессии в ближайшие годы и многочисленные области применения области применения креативного ИИ для развлечения или пользы человечеству.
Ссылки։
[1] https://soundraw.io
[2] https://metaphor.systems/
[3] https://lexica.art/
[4] https://lex.page/
[5] https://www.youtube.com/watch?v=4zctPN_mO4o&t=10s
[6] https://runwayml.com/
#ai #startups
- Soundraw [1] сервис создающий музыку для заднего фона для Вашего видео, игры или ещё чего-либо. Лицензия не позволяет только использовать её для массового прослушивания именно как только музыку, а не как часть составного продукта. Зато просто таки напрашивается как часть продуктов вроде TikTok и его аналогов. Вместе пресета мелодий, тут можно создать музыку под себя настраивая длительность, стиль, ритм и тд.
- Metaphor [2] обещают не много, не мало, а заменить поисковые системы вроде Google. А пока генерируют набор ссылок по структурированному запросу. Выглядит как прототип экспериментальной поисковой системы. В чистом виде Google пока не заменит, но для некоторых областей будет очень интересно, например, в поиске научных публикаций по специализированным темам.
- LexicaArt [3] генератор изображений похожий на Stable Diffusion, но включающий поисковик по тому что успели нагенерировать другие. База там огромная, можно найти иногда необычные изображения, много примеров и, конечно, сгенерировать собственные
- Լex [4] сервис помогающий писателям дописывать куски текстов когда они застревают в какой-то части повествования. Ну, мы же понимаем, вначале помогает, потом заменяет писателей;) Сервис пока доступен ограниченно, но есть видео того как он работает [5]
- Runway [6] сервис по убиранию фона из видел, быстрому редактированию, преобразованию текста в 3D модели и ещё много чему по работе с видео с помощью ИИ
Таких сервисов и продуктов становится всё больше, они появляются каждую неделю и их станет всё больше.
Здесь можно порассуждать что ждёт креативные профессии в ближайшие годы и многочисленные области применения области применения креативного ИИ для развлечения или пользы человечеству.
Ссылки։
[1] https://soundraw.io
[2] https://metaphor.systems/
[3] https://lexica.art/
[4] https://lex.page/
[5] https://www.youtube.com/watch?v=4zctPN_mO4o&t=10s
[6] https://runwayml.com/
#ai #startups
soundraw.io
AI Music Generator SOUNDRAW
Discover the power of AI generated music with our platform. Create unique songs in just a few clicks. Edit & personalize the songs you create to your specific needs. Generate unlimited royalty-free music to use in your songs, projects and videos. Distribute…
В StackOverflow, сервисе вопросов и ответов, изначально для инженеров и программистов, запретили использование ChatGPT [1]. Пока временно, а там будет видно․ Главная причина в том что ChatGPT генерирует ответы которые выглядят как хорошие, а на самом деле не так уже хороши, а то и плохи.
А вот у Бена Томпсона в блоге пост AI Homework [2] о последствиях применения ChatGPT в некоторых областях, в частности в школе и студентами.
На всякий случай напомню что ChatGPT это свежий движок по генерации ответов и поддержания разговора
от команды которая делала языковую модель GPT-3. Его особенность в высокой осмысленности ответов, которые, даже если неверны, начинают походить на осмысленный диалог. У ChatGPT меньше чем за неделю уже более 1 миллиона пользователей, так что мы ещё немало услышим и о самом продукте и о том что в ближайшие месяцы будет появляться на его основе․
Ссылки։
[1] https://meta.stackoverflow.com/questions/421831/temporary-policy-chatgpt-is-banned
[2] https://stratechery.com/2022/ai-homework/
#ai #startups
А вот у Бена Томпсона в блоге пост AI Homework [2] о последствиях применения ChatGPT в некоторых областях, в частности в школе и студентами.
На всякий случай напомню что ChatGPT это свежий движок по генерации ответов и поддержания разговора
от команды которая делала языковую модель GPT-3. Его особенность в высокой осмысленности ответов, которые, даже если неверны, начинают походить на осмысленный диалог. У ChatGPT меньше чем за неделю уже более 1 миллиона пользователей, так что мы ещё немало услышим и о самом продукте и о том что в ближайшие месяцы будет появляться на его основе․
Ссылки։
[1] https://meta.stackoverflow.com/questions/421831/temporary-policy-chatgpt-is-banned
[2] https://stratechery.com/2022/ai-homework/
#ai #startups
Meta Stack Overflow
Policy: Generative AI (e.g., ChatGPT) is banned
Moderator Note: This post has been locked to prevent comments because people have been using them for protracted debate and discussion (we've deleted over 300 comments on this post alone, not even