Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Те кто работал когда-либо с многочисленными библиотеками в языке Python знают про то как часто там одними и теми же словами называется разное или разными словами одинаковое и как оно часто несовместимо между собой.

Команда из Quansight Labs [1] сформировала консорциум по унификации API по работе с данными в языке Python [2], при поддержке таких компаний как Intel, Microsoft, Tensorflow, Google Research и других. О том почему это так важно и сколько накопилось отличий между библиотеками numpy, cupy, dask.array, jax, mxnet, pytorch и tensorflow они пишут в блоге этого консорциума [3]

Это хорошая инициатива, с открытым кодом [4] и полезными результатами для сообщества.

Ссылки:
[1] https://labs.quansight.org/
[2] https://data-apis.org
[3] https://data-apis.org/blog/announcing_the_consortium/
[4] https://github.com/data-apis

#python #data
В The Barrons статья Susan Ariel Aaronson о том почему личные данные американцев - это вопрос национальной безопасности [1] и о инициативе Clean Network по защите данных американцев от китайской коммунистической партии [2].

Автор в статье, при этом, как бы даже не намекает, а говорит прямо что указывать компаниям в других странах и юрисдикциях надо после того как навести порядок в самих США с нарушением приватности граждан.

А вот сама инициатива, Clean Network весьма примечательна. Она была анонсирована 5 августа и включает 5 направлений:
- Clean Carrier - не допускать китайские компании к подключению к телекому в США
- Clean Store - не допускать китайские приложения в магазины приложений в США
- Clean Apps - не допускать мобильным устройствам из Китая иметь предустановленные приложения и загружать из из магазинов приложений из других стран
- Clean Cloud - не допускать обработку персональных данных и иных чувствительных данных в китайских облачных сервисах
- Clean Cable - не допускать прослушку морских кабелей китайскими разведчиками.

И без меня достаточно желающих рассказать о том как, на самом деле, в США компании и разведывательные агентства следят за всем миром, так что я воздержусь от этого.

Но обращу внимание что что практика копирования зарубежного регулирования со своими модификациями распространена в России.

Ссылки:
[1] https://www.barrons.com/articles/why-personal-data-is-a-national-security-issue-51597244422
[2] https://www.state.gov/announcing-the-expansion-of-the-clean-network-to-safeguard-americas-assets/

#china #usa #personaldata #privacy
С января 2020 стартовал европейский проект TRUSTS [1] по созданию платформы торговли персональными и проприетарными данными с учётом всех правил и ограничений Евросоюза, включая GDPR. В проекте участвует консорциум из 17 организаций, академических, финансовых, стартапов в области данных, а Евросоюз выделил на него чуть менее 6 миллионов евро на 3 года [2].

Этот проект создан в рамках направления "Supporting the emergence of data markets and the data economy" [3] под которым в Евросоюзе создаются такие проекты как:
- Kraken Brokerage [4] платформа по защите персональных данных в облачных средах
- PIMCITY [5] повышение контроля пользователей за их данными собираемыми веб-сайтами
и многие другие проекты.

По моему опыту наблюдения за проектами в рамках Европейской исследовательской программы Horizon 2020 они редко превращаются в практические системы/стартапы/продукты, но очень часто прямо или косвенно влияют на выработку госполитики и регулирование в Евросоюзе.

Ссылки:
[1] https://www.trusts-data.eu/
[2] https://cordis.europa.eu/project/id/871481
[3] https://cordis.europa.eu/programme/id/H2020_ICT-13-2018-2019
[4] https://cordis.europa.eu/project/id/871473
[5] https://cordis.europa.eu/project/id/871370

#privacy #personaldata #eu
Microsoft Flight Simulator [1] - авиасимулятор нового поколения, вышедший 18 августа этого года, вот это действительно большой и самый что ни на есть показательный пример применения открытых данных и технологий работы большими (очень большими) данными. Авиасимулятор работает на основе 2.5 петабайта данных, хранимых в облаке Azure и созданных на основе данных OpenStreetMap и Bing Maps, а также огромного объёма машинного обучения и определения цвета и типа крыш, типа зданий и тд. и тп.

В обзоре от Protocol [2] описывается как серьёзный шаг вперед о сравнению с современной облачной гейминдустрией.

Но не обошлось без казусов, поскольку используются краудосинговые данные которые не всегда хорошо проверены, иногда опечатка может приводить к странным результатам, как, например, гигантский обелиск у Мельбурна [3].

Авиасимулятор, ожидаемо, невероятно требователен к дисковому пространству, его необходимо не менее 150 гигабайт, к каналу связи, оперативной памяти и процессору.

Ссылки:
[1] https://en.wikipedia.org/wiki/Microsoft_Flight_Simulator_(2020_video_game)
[2] https://www.protocol.com/microsoft-flight-simulator-2020
[3] https://www.theverge.com/2020/8/21/21395084/microsoft-flight-simulator-melbourne-obelish-openstreetmap-bing-maps-data-glitch

#opendata #gaming
Курс по дата-этике [1] от Jeremy Howard, создателя Kaggle - это бесплатный академический онлайн курс из 6 уроков:

1. Disinformation
2. Bias & Fairness
3. Ethical Foundations & Practical Tools
4. Privacy & surveillance
5. Our Ecosystem: Metrics, Venture Capital, & Losing the Forest for the Trees
6. Algorithmic Colonialism, and Next Steps

Ранее автор его лично читал в Университете Сан-Франциско в Data Institute в январе-феврале 2020 года [2] , а сейчас курс доступен всем желающим.

А я напомню и про другой курс, того же автора Practical Deep Learning for Coders [3] который связан с книгой Deep Learning for Coders with fastai and PyTorch: AI Applications Without a PhD [4] вышедшей 4 августа 2020 года.

Если Вы хотите разобраться в этике работы с данными при машинном обучении, то сейчас эти курсы, особенно первый, лучшее с чего можно начать

Ссылки:
[1] http://ethics.fast.ai/
[2] https://www.usfca.edu/data-institute
[3] https://course.fast.ai/
[4] https://www.amazon.com/Deep-Learning-Coders-fastai-PyTorch/dp/1492045527

#ai #deeplearning #dataethics
За время коронавируса появляются новые отраслевые озёра данных (data lakes) для исследователей, многие с коммерческим уклоном. Например, CVID data lake [1] в рамках продукта Cortelis Research Intelligence от Clarivate [2] аналитического агентства с широким спектром продуктов для исследователей. Они анонсировали это облако, буквально, 5 дней назад, 20 августа [3] и, пока, без подробностей того что находится внутри него.

Существует и другое, бесплатное озеро данных, C3.ai COVID-19 Data Lake [4] от C3.ai соответственно. Подробностей чуть больше, есть демо и описание доступа к озеру через REST API с примерами в Jupiter Notebook и других научных записных книжках. О них была заметка в Forbes [5] ещё в мае 2020 года.

Чуть более простое и, также, бесплатное озеро данных по COVID-19 есть в Amazon AWS [6], включая базы данных и наборы данных особенно большого размера. Например, CORD19 [7], база исследований по коронавирусу для которой на базе AWS существует, в том числе, поисковик cord19.aws [8]

Несколько меньшее по объёму озеро данных есть и в облаке Microsoft Azure [9].

Озера данных это не единственный способ работы исследователей с данными связанными с коронавирусом. Офис стратегии по науке работы с данными при National Institutes of Health в США ведет реестр открытых (open access) ресурсов для исследователей [10] работающих с данных.

В целом складывается ощущение что формирование озер данных в отраслевом применении становится трендом и, в зависимости от выбранной стратегии, здесь большую роль могут сыграть крупнейшие игроки облачных сервисов. Фактически, постепенное развитие Azure Open Datasets, Google BigQuery и Open Data on AWS и показывает что большие общедоступные наборы данных - это хорошая приманка для пользователей облачных сервисов. Некоторые наборы и базы данных давно существуют, только, в облаках. Например, база поискового индекса Commoncrawl существует по умолчанию на Amazon AWS [11]

Для этого у Amazon есть Open Data Sponsorship program [12], у Microsoft есть Open Data Initiative [13], у Google нет отдельной программы, но есть рассказ о том как они работают над открытостью кода и данных [14]

Подводя итог, очень похоже что озера данных для исследователей окажутся устойчивым продуктом и далее будут существовать в двух формах. Профессиональной - закрытые озера данных для профессионалов, с большим числом узкоспециализированных инструментов и общедоступной форме где данные предоставляются крупнейшими игроками облачных решений в рамках их инициатив по открытым данным.

Ссылки:
[1] https://clarivate.com/cortellis/solutions/cvid-data-lake/
[2] https://en.wikipedia.org/wiki/Clarivate
[3] https://finance.yahoo.com/news/clarivate-launches-coronavirus-virology-infectious-140300688.html
[4] https://c3.ai/products/c3-ai-covid-19-data-lake/
[5] https://www.forbes.com/sites/adrianbridgwater/2020/05/27/tom-siebels-c3ai-charts-new-data-lake-for-covid-19-research/
[6] https://aws.amazon.com/ru/covid-19-data-lake/
[7] https://www.semanticscholar.org/cord19
[8] https://cord19.aws
[9] https://azure.microsoft.com/ru-ru/services/open-datasets/catalog/covid-19-data-lake/
[10] https://datascience.nih.gov/covid-19-open-access-resources
[11] https://registry.opendata.aws/commoncrawl/
[12] https://aws.amazon.com/ru/opendata/open-data-sponsorship-program/
[13] https://www.microsoft.com/en-us/open-data-initiative
[14] https://www.blog.google/technology/research/open-source-and-open-data/

#datalakes #data #opendata #covid19 #research
Правительство утвердило Концепцию регулирования технологий ИИ и робототехники, новость на сайте Минэкономразвития [1] и в Российской газете [2] почему-то не содержит ссылки на текст самого актуального документа этой концепции. И тут я не могу не напомнить про одну большую проблему с сайтом федерального правительства и доступности информации на нём. Документы там публикуются с задержкой в месяц, если сейчас (25 августа) открыть сайт в разделе поиска по документам [3] то там будут документы начиная с 25 июля 2020 года. Некоторые, избранные, документы публикуются чуть актуальнее, за 22 августа [4].

Для сравнения, материалы на официальном интернет-портале правовой информации (publication.pravo.gov.ru) публикуются с задержкой около 3-6 дней с момента подписания [5]. Конечно, надо делать коррекцию на выходные и праздничные дни, но, в общем и в целом, что-то не так с публикацией документов на сайте федерального правительства.

Отходя ещё дальше от концепции и взглянув на номера публикуемых документов мы можем увидеть что на 21 августа было принято 1262 Постановление Правительства (ПП) и 2141 Распоряжение Правительства (РП). В прошлом году всего было принято 1960 ППсок и 3273 РПсок.

Для сравнения, последний номер Указа Президента (УП) на 21 августа был номер 520, в прошлом году их было 604 за весь 2019 год. Кстати на сайте Президента (kremlin.ru) также задержка с публикацией документов в 1.5 месяца (45 дней) [6]

А вот федеральных законов (ФЗ) у нас уже 309 на 31 июля 2020 года, в прошлом году было всего 444, а на 30 июля их было всего 256 [7].

Подвожу итоги:
- количество принятия постановлений и распоряжений правительства, указов Президента и фед. законов выросло за 2020 год несмотря на коронавирус;
- мои оценочные прогнозы к концу года: 4000 РП, 2500 ПП, 800 УП и 600 ФЗ
- оперативность публикации документов на сайтах Правительства и Президента РФ значительно снизилась
- качество написанных документов лучше оценят специалисты

P.S. Статистику нормативной деятельности я веду в небольшом проекте lawstats на data.world где есть и цифры и визуализации по принятым НПА с 1994 по 2019 годы, а также списки самих НПА и статистика по ним.

Ссылки:
[1] https://economy.gov.ru/material/news/pravitelstvo_utverdilo_koncepciyu_regulirovaniya_tehnologiy_ii_i_robototehniki.html
[2] https://rg.ru/2020/08/24/utverzhdena-koncepciia-pravovogo-regulirovaniia-iskusstvennogo-intellekta.html
[3] http://government.ru/docs/all/
[4] http://government.ru/docs/
[5] http://publication.pravo.gov.ru/Search/Period?type=weekly
[6] http://kremlin.ru/acts/bank
[7] http://publication.pravo.gov.ru/Document/View/0001201907300064
[8] https://data.world/infoculture/lawstats

#laws #lawstats #ai
А вот и новости госзакупок связанных с данными в нашей столице. ООО "Центр налоговой политики" [1], директором и единственным бенефициаром которого является, Кирилл Никитин, руководитель российской практики PwC по оказанию услуг государственным органам и компаниям государственного сектора и кандидат в Мосгордуму (остальное желающие сами могут найти в сети), 19 августа выиграло контракт на 100 миллионов рублей [1] у ГБУ города Москвы "Аналитический центр".

Тема контракта весьма интересна: выполнение научно-исследовательской работы по теме «Разработка методологии и реализация комплекса мероприятий по оперативному индикативному мониторингу и прогнозированию состояния отраслей экономики города Москвы».

Фактически он про НИР про работу с данными о состоянии экономики Москвы, про анализ источников, систематизацию и тд.

На что стоит обратить внимание так это на то как этот контракт устроен поэтапно:
- этап 1: даты 20.08.2020 - 18.09.2020 -> ~50 млн. рублей
- этап 2: даты 19.09.2020 - 17.12.2020 -> ~30 млн. руб
- этап 3: даты 18.12.2020 - 30.06.2021 -> ~20 млн рублей

Если считать в такой "смешной" единице измерений как миллионо-день то получится:
- этап 1: 50 млн. руб / 29 дней = 1,72 млн. руб в день
- этап 2: 30 млн. руб / 89 дней = 0,337 млн. руб в день
- этап 3: 20 млн. руб / 194 дней = 0,103 млн. руб в день

А теперь самое интересное, задачи первого этапа из ТЗ контракта (барабанная дробь):
1. Разработка плана мероприятий по организации индикативного мониторинга и прогнозирования состояния экономики города Москвы
2. Разработка плана мероприятий по разработке требований к автоматизированной системе мониторинга и отраслевых мер налоговой и бюджетной политики, способствующих экономическому росту в ключевых отраслях экономики города Москвы

Стоит ли это 50 миллионов рублей за 29 дней? Серьёзно? Два плана мероприятий за месяц и 50 миллионов? Интересно, какая там "маржа" заложена к себестоимости, 1000% ?


Ссылки:
[1] https://www.tax-policy.ru/
[2] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=2770483583420000012

#data #spending #moscowgovernment #moscow
Forwarded from Госзатраты
[1] Научные исследования: cамые дорогие контракты за прошедшую неделю 16.08.2020-23.08.2020:
Услуги, связанные с научными исследованиями и экспериментальными разработками в области прочих общественных наук и др.
Сумма контракта: 100 млн. руб.
Наименование заказчика: ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ГОРОДА МОСКВЫ "АНАЛИТИЧЕСКИЙ ЦЕНТР"
Поставщик: ООО "Центр налоговой политики"
Регион: Москва
Дата заключения: 19.08.2020

Подробнее о контракте
#научные_исследования
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Реестр субсидий на портале Электронного бюджета отображается в обновленном формате. Теперь в нем отсутствуют сведения о ГРБС (надеемся, это техническая ошибка, а не сокрытие данных, как в случае с поставщиками по 223-ФЗ). 🙂

Оперативно выявлять ошибки в открытых данных Минфина России и Казначейства России нам позволяет работа над проектами «Госрасходы» и «Госзатраты». Команды проектов не только собирают, преобразуют и структурируют данные, но и используют их (что редко встречается в госорганах).

Надеемся, указанные проблемы API и веб-интерфейса реестра субсидий будут быстро исправлены.
Ivan Begtin
А вот и новости госзакупок связанных с данными в нашей столице. ООО "Центр налоговой политики" [1], директором и единственным бенефициаром которого является, Кирилл Никитин, руководитель российской практики PwC по оказанию услуг государственным органам и компаниям…
Вдогонку к моей прошлой публикации о контракте на индикативный мониторинг и прогнозирование в г. Москве со мной связался Кирилл Никитин, владелец Центра налоговой политики и привожу его комментарии:
- на самом деле цена первого этапа 30 миллионов рублей, а 20 миллионов рублей - это аванс по всему контракту
- с сентября 2019 года в PwC он не работает

Коллеги мне тут напомнили что Кирилл опытный консалтер и вполне возможно что его услуги/услуги его организации столько и стоят. Я не буду лично оценивать, не знаю. Готов выслушать разные мнения.

Но что безусловно, так, к сожалению, Правительство Москвы не публикует результаты таких контрактов. И к этом также очень и очень много вопросов, но уже не к исполнителям, а к заказчикам.

#spending #moscow #contracts
Оказывается что в ГосДуму внесли законопроект о признании должностными лицами глав госкомпаний чтобы упростить подведение их под уголовные дела [1] (ссылка на ведомости, извините).

И тут я не могу прокомментировать и задать важный вопрос. А на руководителей фондов/АНО/некоммерческих партнерств и тд. с госучастием - это распространяется?

Должно распространяться, но там нет понятия "доли" государства и учредителя. Хотя и госкорпорации НКО.

Ссылки:
[1] https://www.vedomosti.ru/society/articles/2020/08/25/837741-pravitelstvo-priravnyalo

#govngo
В дополнение к предыдущей публикации, на руководителей НКО распространяется. Звучит определение так:

1) примечание 1 к статье 201 изложить в следующей редакции:
1. В статьях настоящей главы, а также в статье 304 настоящего Кодекса выполняющим управленческие функции в коммерческой или иной организации, за исключением организаций, указанных в примечании 1 к статье 285 настоящего Кодекса, а также в некоммерческой организации, не являющейся государственным органом, органом местного самоуправления, государственным или муниципальным учреждением, признается лицо, выполняющее функции единоличного исполнительного органа, члена совета директоров или иного коллегиального исполнительного органа, а также лицо, постоянно, временно либо по специальному полномочию выполняющее организационно-распорядительные или административно-хозяйственные функции в этих организациях.";

текст отсюда [1]. А то есть распространяется и на членов советов директоров тоже и членов коллегиальных органов.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/1013018-7

#govngo
Новая социальная тема по нарушению прав граждан/потребителей - это property tech (proptech) также называемое landlord tech. Технологии для домовладельцев которые затрагивают и нарушают права арендующих жилые или нежилые помещения. В проекте Landlord tech watch [1] собраны многочисленные примеры, как видов таких нарушений прав, так и конкретных примеров на территории США.

Эти нарушения включают, например:
- установку систем распознавания лиц на вход
- установку внутренних систем слежения
- использование мобильных приложений для коммуникации с арендодателями
- проверку арендодателя через базы полиции, банковский скоринг и тд
и ещё многое другое.

В статьях которые приводятся на сайте есть много отсылок к housing inequality и digital housing, а также к джентрификации территорий по причине развития подобных технологий.

Актуально ли это в России? Технологическая задержка внедрения подобных технологий у нас может составлять от 5 до 25 лет, в зависимости от территории и области применения. Российский массовый рынок съёма жилья является "серым", но всё меняется, лично я не удивлюсь если proptech в российских реалиях окажется частно-государственным партнерством с акцентом на собираемость налогов и иных платежей, например, коммунальных.

Ссылки:
[1] https://antievictionmappingproject.github.io/landlordtech/

#proptech #govtech #landlordtech #surveillance
Итоговый документ Концепции развития регулирования отношений в сфере технологий искусственного интеллекта и робототехники до 2024 года на сайте официального опубликования НПА publication.pravo.gov.ru [1] где он существует только в виде скана документа, как и все документы которые поступают и раскрываются на сайте официального опубликования в текстовом виде.

Это всё несмотря на то что в на дворе 20-е годы 21-го века, внедрённый документооборот и тд и даже дистанционная работа из-за коронавируса, но официальные документы до сих пор вначале сканами и потом уже, через месяцы в виде текста. Но о том как организована работа с НПА в России я уже писал и не хочу повторяться, там много что есть что исправлять.

По концепции, постараюсь её структурированно изложить.
Вовлечённые стороны
- Минэкономразвития России (сводит предложения по реализации)
- Федеральные органы исполнительной власти (направляют предложения по реализации и руководствуются концепцией)
- Госкорпорация Роскосмос (направляет предложения по реализации и руководствуется концепцией)
- Федеральное агентство технологического регулирования и метрологии (организация работы комитетов по разработке и уточнению терминов в ИИ, ч. II. п.6)

Сроки
- длительность действия: 3-4 года 3 месяца (19 августа 2020 - 31 декабря 2023(4?) года ). Не указано включён ли 2024 год.
- направление предложений ФОИВами в Минэкономразвития: до 19 ноября 2020 года

Финансирование
- Национальная программа "Цифровая экономика в Российской Федерации" (национальный проект)

{пропускаю здесь большой блок декомпозиции структуры самой стратегии и взаимосвязи с другими государственными инициативами}

На что стоит обратить внимание
- есть ГК Роскосмос, но нет других госкорпораций включая: ВЭБ.РФ (инвестиции в ИИ), Ростехнологии (разработка ИИ для военных и гражданских нужд) и тд.
- срок концепции до 2024 года - это удлинённый 3-х летний бюджетный цикл, очень короткий
- взаимодействие с отраслевыми ассоциациями нормативно не закреплено, если и будет то уже на уровне НПА Минэкономразвития
- организационная рамка не задана и не указана необходимость разработки НПА для этой организационной рамки

Есть ещё много что дополнить, но это надо уже читать не в виде скана, а в текстовом формате.

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202008260005

#law #regulation #ai
Тем временем в Беларуси 12 ИТ-компаний находятся в процессе полного релокейта, 59 — частичного, а 112 компаний ищут возможность релокейта [1].

Ситуация, конечно, печальная. В каком-то смысле именно ИТ было той области которая в Беларуси развивалась хорошо и отключения Интернета очень скоро могут превратить страну в "картофельную республику", без какого-либо современного производства и услуг.

Ссылки:
[1] https://dev.by/news/linkedin-relokeit

#belarus
Удивительно сколь многие данные о России можно и нужно искать не в России, а в глобальных базах данных, чаще открытых, иногда не до конца открытых, иногда коммерческих.

Вот несколько примеров:
- база электростанций в наборе данных Global Power Plant Database [1] на сайте проекта Resource Watch. Там же и много других данных по
- выплаты нефтяных компаний государству налогами и не только, на сайте Resource Projects [2], пример Роснефть [3]
- составы правления и отслеживания изменений в составах правления публичных компаний [4] в The Official Board (кроме них есть ещё несколько похожих сервисов)
- OpenSignal даёт интересные инсайты и доступ к коммерческим данным по работе операторов мобильной связи [5], а также данных в рамках OpenCellID Project [6] и Mozilla Location Service [7] о башнях сотовой связи
- о том как распространяются мобильные приложения для основных платформ в России можно узнать из сервисов AppFollow [8], AppAnnie [9] и ещё многих других

Всё это неполный список того что называют "альтернативными данными" и то что можно анализировать не пользуясь открытыми государственными данными, просто по той причине что этих данных просто может не быть.

Ссылки:
[1] https://resourcewatch.org/data/explore/Powerwatch
[2] http://www.resourceprojects.org/
[3] http://www.resourceprojects.org/company/Rosneft/
[4] https://www.theofficialboard.com/companies/c/russian-federation
[5] https://www.opensignal.com/reports/2020/05/russia/mobile-network-experience
[6] https://opencellid.org
[7] https://location.services.mozilla.com
[8] https://appfollow.io
[9] https://www.appannie.com

#opendata #data #alternativedata
В Великобритании выяснилось что система предсказания вероятности наиболее тяжких преступлений, Most Serious Violence (MSV) определяла вероятности преступления со значительной меньшей точностью чем ранее было заявлено. В статье в Wired [1] есть отсылки на документ этического комитета за июль 2020 года [2] о текущем статусе внедрения системы NDAS и программной ошибке которая только в июле и была исправлена.

О разработке системы NDAS, в которую входит модуль MSV, формально было анонсировано в конце 2018 года и выделено 10 миллионов фунтов [3]. Это специальная аналитическая информационная система предсказания преступлений проходящая уже 2-й год пилотное внедрение в нескольких округах Великобритании. Её уникальность в том что это система работающая на огромных первичных данных учётов преступлений, баз по организованной преступности, иных учётов и баз данных позволяющих строить сложную детальную аналитику и вести списки лиц с наибольшей вероятностью могущих совершить преступления.

Я лично много лет изучаю precrime системы и считаю что их внедрение в каком-то смысле неизбежно и может быть ограничено только этическими принципами прописанными на уровне законов и способностью не только правоохранительной системы, но и социальных служб обеспечивать профилактику преступлений.

Ссылки:
[1] https://www.wired.co.uk/article/police-violence-prediction-ndas
[2] https://www.westmidlands-pcc.gov.uk/ethics-committee/ethics-committee-reports-and-minutes/
[3] https://www.gov.uk/government/news/home-office-funds-innovative-policing-technology-to-prevent-crime

#data #ai #precrime
NewAtlas пишет [1] о том что в США учёные из Purdue University стартовали исследование рецидивизма с помощью искусственного интеллекта. Вместе с местными властями в округа Типпекану (Tippecanoe) они намерены отслеживать сердечный ритм и состояние здоровья и поведение 250 досрочно освобожденных которым будет выдан специальный браслет и установлено мобильное приложение. Их действия будут сравниваться с действиями другой группы аналогичного размера, выступающей как контрольной.

Не все согласны что это исследование будет эффективным, например Liz O’Sullivan, технический директор проекта Surveillance Technology Oversight Project (S.T.O.P) [2] обращает внимание на то что люди меняют свое поведение когда знают что они находятся под наблюдением.

Подробнее о проекте информация [3] есть на сайте National Institute of Justice при департаменте юстиции США.

Я со своей стороны не могу не добавить что часто забывают что подобные персонализированные системы слежки охватывают не только тех кто носит браслеты или другие устройства и устанавливает специальное ПО на телефоны, но и всех кто их окружают там где они бывают. Устройства собирают сведения о инфраструктуре ad hoc momentum позволяя осуществлять слежку и за теми кто ими не пользуется, но находится рядом.

Ссылки:
[1] https://newatlas.com/computers/parolees-tracked-artificial-intelligence-prevent-recidivism/
[2] https://www.stopspying.org/
[3] https://nij.ojp.gov/topics/articles/specialized-smartphones-could-keep-released-offenders-track-successful-reentry

#precrime #ai #data #privacy
О работе с данными в академической среде на примере компьютерной лингвистики. Многие знают что компьютерная лингвистика - это область науки где, с одной стороны много данных, включая открытые, создается исследователями, а с другой стороны часто востребованы и коммерческими компаниями, в самых разных задачах обработки естественного языка. Это приводит к появлению гибридных бизнес моделей которые можно рассматривать, и как социально ответственный бизнеc, и как возможность самофинансирования некоммерческой деятельности - смотря как взглянуть.

Пример подобного коммерческого Sketch Engine [1], британо-чешского стартапа Lexical Computing [2] в котором собраны корпусы десятков языков всего мира. Корпуса созданы как на базе текстов в Википедии, так и на базе других крупных баз корпусов языков, таких как Aranea [3].

Важная особенность корпусов языков в их значительном объёме. С ними очень сложно работать без достаточных технических ресурсов памяти, процессора и хранения, поэтому поэтому коммерческий сервис даёт возможность работать с корпусами текстов несмотря на эти ограничения и предоставляет большой набор инструментов специально для исследователей в области компьютерной лингвистики.

При этом так же команда публикует сокращённую версию продукта под лицензией GPL - NoSketchEngine [4] который можно установить у себя локально и также с ним работать.

В это важная особенность сервисов создаваемых на базе академических/исследовательских данных. Практически во всех областях где есть вовлечение бизнеса и исследователей продукты построены по схожим принципам:
- бизнес модель основана на университетской подписке и подписке коммерческих компаний
- очень сильно заточены под предметную область и создают множество инструментов и интерфейсов под потребности именно исследователей
- значительно упрощают работу с данными очень большого объёма
- есть возможность указывать точные ссылки для библиографии
- есть или бесплатный доступ для исследователей, или какая-то часть кода/данных общедоступны

Таких примеров ещё много в разных областях. Такой продукт как Wolfram Alpha [5] создан не только для математиков, но и для всех кто исследует в сотнях отраслях и предоставляет, опять же, не данные, а инструменты на них основанные. Проект Censys [6] создавался как результаты академических работ по сканированию интернета на уязвимости, а сейчас является заметным коммерческим продуктом в области сетевой безопасности, с потребителями как из академической, так и коммерческой сред. А предоставление первичных больших данных стало в нём одним из продуктов Bulk Data [7]

Как и во всех продуктах основанных на данных, в данном случае важнейшим является то какую добавленную стоимость этот продукт создаёт.

Ссылки:
[1] https://www.sketchengine.eu
[2] https://www.lexicalcomputing.com/
[3] http://ucts.uniba.sk/aranea_about/index.html
[4] https://nlp.fi.muni.cz/trac/noske
[5] http://www.wolframalpha.com
[6] http://censys.io
[7] https://censys.io/product/product-data

#data #science #opendata #bigdata
Лучше всего получается то что делаешь под свои задачи (с)

Несколько внутренних инструментов решили перевести в open source и теперь они доступны на Github'е:
mongo2md - утилита помогающая в генерации документации/описания данных находящихся в коллекциях MongoDB [1]. Не умеет пока автодокуметировать поля к таблицам автоматически, но помогает очень сильно упростить работу тех кто документирует руками. Как можно понять из названия, создаёт Markdown файлы на основе схем коллекций которые само же распознает.

apibackuper - утилита по архивации данных отдаваемых через API. Подходит для всех тех случаев когда владелец данных предоставляет API с каким-то ограничением на один запрос, но не отдаёт нужные данные целиком для массовой выгрузки. В результате иногда надо делать тысячи запросов к API пролистывая все нужные данные. Эта утилита автоматизирует эти запросы к API, настраивается с помощью простого конфиг файла и экспортирует данные в нужном формате. Проверено на API на таких сайтах как как: Единый портал бюджетной системы, Корневой удостоверяющий центр, Headhunter API, Госрасходы. Функции именно в архивации на (полной копии данных) на определённый момент (фактически она нужна для создания внутреннего цифрового архива и архивации сайтов работащих через API/Ajax и не поддающихся веб-архивации классическими инструментами).

Ссылки:
[1] https://github.com/datacoon/mongo2md
[2] https://github.com/ruarxive/apibackuper
#opensource #api #data