Ivan Begtin

Те кто работал когда-либо с многочисленными библиотеками в языке Python знают про то как часто там одними и теми же словами называется разное или разными словами одинаковое и как оно часто несовместимо между собой.

Команда из Quansight Labs [1] сформировала консорциум по унификации API по работе с данными в языке Python [2], при поддержке таких компаний как Intel, Microsoft, Tensorflow, Google Research и других. О том почему это так важно и сколько накопилось отличий между библиотеками numpy, cupy, dask.array, jax, mxnet, pytorch и tensorflow они пишут в блоге этого консорциума [3]

Это хорошая инициатива, с открытым кодом [4] и полезными результатами для сообщества.

Ссылки:
[1] https://labs.quansight.org/
[2] https://data-apis.org
[3] https://data-apis.org/blog/announcing_the_consortium/
[4] https://github.com/data-apis

#python #data

data-apis.org

Consortium for Python Data API Standards

1.4K viewsIvan Begtin, 19:03

Add a comment

Ivan Begtin

В The Barrons статья Susan Ariel Aaronson о том почему личные данные американцев - это вопрос национальной безопасности [1] и о инициативе Clean Network по защите данных американцев от китайской коммунистической партии [2].

Автор в статье, при этом, как бы даже не намекает, а говорит прямо что указывать компаниям в других странах и юрисдикциях надо после того как навести порядок в самих США с нарушением приватности граждан.

А вот сама инициатива, Clean Network весьма примечательна. Она была анонсирована 5 августа и включает 5 направлений:
- Clean Carrier - не допускать китайские компании к подключению к телекому в США
- Clean Store - не допускать китайские приложения в магазины приложений в США
- Clean Apps - не допускать мобильным устройствам из Китая иметь предустановленные приложения и загружать из из магазинов приложений из других стран
- Clean Cloud - не допускать обработку персональных данных и иных чувствительных данных в китайских облачных сервисах
- Clean Cable - не допускать прослушку морских кабелей китайскими разведчиками.

И без меня достаточно желающих рассказать о том как, на самом деле, в США компании и разведывательные агентства следят за всем миром, так что я воздержусь от этого.

Но обращу внимание что что практика копирования зарубежного регулирования со своими модификациями распространена в России.

Ссылки:
[1] https://www.barrons.com/articles/why-personal-data-is-a-national-security-issue-51597244422
[2] https://www.state.gov/announcing-the-expansion-of-the-clean-network-to-safeguard-americas-assets/

#china #usa #personaldata #privacy

Barron's

Why Personal Data Is a National Security Issue

Targeting TikTok, WeChat, and other Chinese apps won't solve America's fundamental data problems.

1.4K viewsIvan Begtin, 04:18

Add a comment

Ivan Begtin

С января 2020 стартовал европейский проект TRUSTS [1] по созданию платформы торговли персональными и проприетарными данными с учётом всех правил и ограничений Евросоюза, включая GDPR. В проекте участвует консорциум из 17 организаций, академических, финансовых, стартапов в области данных, а Евросоюз выделил на него чуть менее 6 миллионов евро на 3 года [2].

Этот проект создан в рамках направления "Supporting the emergence of data markets and the data economy" [3] под которым в Евросоюзе создаются такие проекты как:
- Kraken Brokerage [4] платформа по защите персональных данных в облачных средах
- PIMCITY [5] повышение контроля пользователей за их данными собираемыми веб-сайтами
и многие другие проекты.

По моему опыту наблюдения за проектами в рамках Европейской исследовательской программы Horizon 2020 они редко превращаются в практические системы/стартапы/продукты, но очень часто прямо или косвенно влияют на выработку госполитики и регулирование в Евросоюзе.

Ссылки:
[1] https://www.trusts-data.eu/
[2] https://cordis.europa.eu/project/id/871481
[3] https://cordis.europa.eu/programme/id/H2020_ICT-13-2018-2019
[4] https://cordis.europa.eu/project/id/871473
[5] https://cordis.europa.eu/project/id/871370

#privacy #personaldata #eu

TRUSTS

Home

Project Partners

https://youtu.be/eitIXdxLUno
TRUSTS explained
Watch the video and get an insight into one of Europe's innovations!

2.2K viewsIvan Begtin, 04:36

Add a comment

Ivan Begtin

Microsoft Flight Simulator [1] - авиасимулятор нового поколения, вышедший 18 августа этого года, вот это действительно большой и самый что ни на есть показательный пример применения открытых данных и технологий работы большими (очень большими) данными. Авиасимулятор работает на основе 2.5 петабайта данных, хранимых в облаке Azure и созданных на основе данных OpenStreetMap и Bing Maps, а также огромного объёма машинного обучения и определения цвета и типа крыш, типа зданий и тд. и тп.

В обзоре от Protocol [2] описывается как серьёзный шаг вперед о сравнению с современной облачной гейминдустрией.

Но не обошлось без казусов, поскольку используются краудосинговые данные которые не всегда хорошо проверены, иногда опечатка может приводить к странным результатам, как, например, гигантский обелиск у Мельбурна [3].

Авиасимулятор, ожидаемо, невероятно требователен к дисковому пространству, его необходимо не менее 150 гигабайт, к каналу связи, оперативной памяти и процессору.

Ссылки:
[1] https://en.wikipedia.org/wiki/Microsoft_Flight_Simulator_(2020_video_game)
[2] https://www.protocol.com/microsoft-flight-simulator-2020
[3] https://www.theverge.com/2020/8/21/21395084/microsoft-flight-simulator-melbourne-obelish-openstreetmap-bing-maps-data-glitch

#opendata #gaming

Wikipedia

Microsoft Flight Simulator (2020 video game)

2020 flight simulator video game developed by Asobo Studio

2.4K viewsIvan Begtin, 06:19

1 comment

Ivan Begtin

Курс по дата-этике [1] от Jeremy Howard, создателя Kaggle - это бесплатный академический онлайн курс из 6 уроков:

1. Disinformation
2. Bias & Fairness
3. Ethical Foundations & Practical Tools
4. Privacy & surveillance
5. Our Ecosystem: Metrics, Venture Capital, & Losing the Forest for the Trees
6. Algorithmic Colonialism, and Next Steps

Ранее автор его лично читал в Университете Сан-Франциско в Data Institute в январе-феврале 2020 года [2] , а сейчас курс доступен всем желающим.

А я напомню и про другой курс, того же автора Practical Deep Learning for Coders [3] который связан с книгой Deep Learning for Coders with fastai and PyTorch: AI Applications Without a PhD [4] вышедшей 4 августа 2020 года.

Если Вы хотите разобраться в этике работы с данными при машинном обучении, то сейчас эти курсы, особенно первый, лучшее с чего можно начать

Ссылки:
[1] http://ethics.fast.ai/
[2] https://www.usfca.edu/data-institute
[3] https://course.fast.ai/
[4] https://www.amazon.com/Deep-Learning-Coders-fastai-PyTorch/dp/1492045527

#ai #deeplearning #dataethics

ethics.fast.ai

Practical Data Ethics

Free, online course from fast.ai and USF Data Institute covering disinformation, bias & fairness, ethical foundations, practical tools, privacy & surveillance, the silicon valley ecosystem, and algorithmic colonialism

2.1K viewsIvan Begtin, 08:00

Add a comment

Ivan Begtin

За время коронавируса появляются новые отраслевые озёра данных (data lakes) для исследователей, многие с коммерческим уклоном. Например, CVID data lake [1] в рамках продукта Cortelis Research Intelligence от Clarivate [2] аналитического агентства с широким спектром продуктов для исследователей. Они анонсировали это облако, буквально, 5 дней назад, 20 августа [3] и, пока, без подробностей того что находится внутри него.

Существует и другое, бесплатное озеро данных, C3.ai COVID-19 Data Lake [4] от C3.ai соответственно. Подробностей чуть больше, есть демо и описание доступа к озеру через REST API с примерами в Jupiter Notebook и других научных записных книжках. О них была заметка в Forbes [5] ещё в мае 2020 года.

Чуть более простое и, также, бесплатное озеро данных по COVID-19 есть в Amazon AWS [6], включая базы данных и наборы данных особенно большого размера. Например, CORD19 [7], база исследований по коронавирусу для которой на базе AWS существует, в том числе, поисковик cord19.aws [8]

Несколько меньшее по объёму озеро данных есть и в облаке Microsoft Azure [9].

Озера данных это не единственный способ работы исследователей с данными связанными с коронавирусом. Офис стратегии по науке работы с данными при National Institutes of Health в США ведет реестр открытых (open access) ресурсов для исследователей [10] работающих с данных.

В целом складывается ощущение что формирование озер данных в отраслевом применении становится трендом и, в зависимости от выбранной стратегии, здесь большую роль могут сыграть крупнейшие игроки облачных сервисов. Фактически, постепенное развитие Azure Open Datasets, Google BigQuery и Open Data on AWS и показывает что большие общедоступные наборы данных - это хорошая приманка для пользователей облачных сервисов. Некоторые наборы и базы данных давно существуют, только, в облаках. Например, база поискового индекса Commoncrawl существует по умолчанию на Amazon AWS [11]

Для этого у Amazon есть Open Data Sponsorship program [12], у Microsoft есть Open Data Initiative [13], у Google нет отдельной программы, но есть рассказ о том как они работают над открытостью кода и данных [14]

Подводя итог, очень похоже что озера данных для исследователей окажутся устойчивым продуктом и далее будут существовать в двух формах. Профессиональной - закрытые озера данных для профессионалов, с большим числом узкоспециализированных инструментов и общедоступной форме где данные предоставляются крупнейшими игроками облачных решений в рамках их инициатив по открытым данным.

Ссылки:
[1] https://clarivate.com/cortellis/solutions/cvid-data-lake/
[2] https://en.wikipedia.org/wiki/Clarivate
[3] https://finance.yahoo.com/news/clarivate-launches-coronavirus-virology-infectious-140300688.html
[4] https://c3.ai/products/c3-ai-covid-19-data-lake/
[5] https://www.forbes.com/sites/adrianbridgwater/2020/05/27/tom-siebels-c3ai-charts-new-data-lake-for-covid-19-research/
[6] https://aws.amazon.com/ru/covid-19-data-lake/
[7] https://www.semanticscholar.org/cord19
[8] https://cord19.aws
[9] https://azure.microsoft.com/ru-ru/services/open-datasets/catalog/covid-19-data-lake/
[10] https://datascience.nih.gov/covid-19-open-access-resources
[11] https://registry.opendata.aws/commoncrawl/
[12] https://aws.amazon.com/ru/opendata/open-data-sponsorship-program/
[13] https://www.microsoft.com/en-us/open-data-initiative
[14] https://www.blog.google/technology/research/open-source-and-open-data/

#datalakes #data #opendata #covid19 #research

Cortellis

Coronavirus, Virology and Infectious Disease (CVID) Data Lake- Cortellis

Analyze the COVID-19 & infectious disease landscape like never before. Our CVID data lake combines comprehensive data assets, analytics and experts.

1.3K viewsIvan Begtin, 04:37

Add a comment

Ivan Begtin

Правительство утвердило Концепцию регулирования технологий ИИ и робототехники, новость на сайте Минэкономразвития [1] и в Российской газете [2] почему-то не содержит ссылки на текст самого актуального документа этой концепции. И тут я не могу не напомнить про одну большую проблему с сайтом федерального правительства и доступности информации на нём. Документы там публикуются с задержкой в месяц, если сейчас (25 августа) открыть сайт в разделе поиска по документам [3] то там будут документы начиная с 25 июля 2020 года. Некоторые, избранные, документы публикуются чуть актуальнее, за 22 августа [4].

Для сравнения, материалы на официальном интернет-портале правовой информации (publication.pravo.gov.ru) публикуются с задержкой около 3-6 дней с момента подписания [5]. Конечно, надо делать коррекцию на выходные и праздничные дни, но, в общем и в целом, что-то не так с публикацией документов на сайте федерального правительства.

Отходя ещё дальше от концепции и взглянув на номера публикуемых документов мы можем увидеть что на 21 августа было принято 1262 Постановление Правительства (ПП) и 2141 Распоряжение Правительства (РП). В прошлом году всего было принято 1960 ППсок и 3273 РПсок.

Для сравнения, последний номер Указа Президента (УП) на 21 августа был номер 520, в прошлом году их было 604 за весь 2019 год. Кстати на сайте Президента (kremlin.ru) также задержка с публикацией документов в 1.5 месяца (45 дней) [6]

А вот федеральных законов (ФЗ) у нас уже 309 на 31 июля 2020 года, в прошлом году было всего 444, а на 30 июля их было всего 256 [7].

Подвожу итоги:
- количество принятия постановлений и распоряжений правительства, указов Президента и фед. законов выросло за 2020 год несмотря на коронавирус;
- мои оценочные прогнозы к концу года: 4000 РП, 2500 ПП, 800 УП и 600 ФЗ
- оперативность публикации документов на сайтах Правительства и Президента РФ значительно снизилась
- качество написанных документов лучше оценят специалисты

P.S. Статистику нормативной деятельности я веду в небольшом проекте lawstats на data.world где есть и цифры и визуализации по принятым НПА с 1994 по 2019 годы, а также списки самих НПА и статистика по ним.

Ссылки:
[1] https://economy.gov.ru/material/news/pravitelstvo_utverdilo_koncepciyu_regulirovaniya_tehnologiy_ii_i_robototehniki.html
[2] https://rg.ru/2020/08/24/utverzhdena-koncepciia-pravovogo-regulirovaniia-iskusstvennogo-intellekta.html
[3] http://government.ru/docs/all/
[4] http://government.ru/docs/
[5] http://publication.pravo.gov.ru/Search/Period?type=weekly
[6] http://kremlin.ru/acts/bank
[7] http://publication.pravo.gov.ru/Document/View/0001201907300064
[8] https://data.world/infoculture/lawstats

#laws #lawstats #ai

1.2K viewsIvan Begtin, edited 05:46

Ivan Begtin

А вот и новости госзакупок связанных с данными в нашей столице. ООО "Центр налоговой политики" [1], директором и единственным бенефициаром которого является, Кирилл Никитин, руководитель российской практики PwC по оказанию услуг государственным органам и компаниям государственного сектора и кандидат в Мосгордуму (остальное желающие сами могут найти в сети), 19 августа выиграло контракт на 100 миллионов рублей [1] у ГБУ города Москвы "Аналитический центр".

Тема контракта весьма интересна: выполнение научно-исследовательской работы по теме «Разработка методологии и реализация комплекса мероприятий по оперативному индикативному мониторингу и прогнозированию состояния отраслей экономики города Москвы».

Фактически он про НИР про работу с данными о состоянии экономики Москвы, про анализ источников, систематизацию и тд.

На что стоит обратить внимание так это на то как этот контракт устроен поэтапно:
- этап 1: даты 20.08.2020 - 18.09.2020 -> ~50 млн. рублей
- этап 2: даты 19.09.2020 - 17.12.2020 -> ~30 млн. руб
- этап 3: даты 18.12.2020 - 30.06.2021 -> ~20 млн рублей

Если считать в такой "смешной" единице измерений как миллионо-день то получится:
- этап 1: 50 млн. руб / 29 дней = 1,72 млн. руб в день
- этап 2: 30 млн. руб / 89 дней = 0,337 млн. руб в день
- этап 3: 20 млн. руб / 194 дней = 0,103 млн. руб в день

А теперь самое интересное, задачи первого этапа из ТЗ контракта (барабанная дробь):
1. Разработка плана мероприятий по организации индикативного мониторинга и прогнозирования состояния экономики города Москвы
2. Разработка плана мероприятий по разработке требований к автоматизированной системе мониторинга и отраслевых мер налоговой и бюджетной политики, способствующих экономическому росту в ключевых отраслях экономики города Москвы
—
Стоит ли это 50 миллионов рублей за 29 дней? Серьёзно? Два плана мероприятий за месяц и 50 миллионов? Интересно, какая там "маржа" заложена к себестоимости, 1000% ?

Ссылки:
[1] https://www.tax-policy.ru/
[2] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=2770483583420000012

#data #spending #moscowgovernment #moscow

2.1K viewsIvan Begtin, 07:37

Add a comment

Ivan Begtin

Forwarded from Госзатраты

[1] Научные исследования: cамые дорогие контракты за прошедшую неделю 16.08.2020-23.08.2020:
Услуги, связанные с научными исследованиями и экспериментальными разработками в области прочих общественных наук и др.
Сумма контракта: 100 млн. руб.
Наименование заказчика: ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ГОРОДА МОСКВЫ "АНАЛИТИЧЕСКИЙ ЦЕНТР"
Поставщик: ООО "Центр налоговой политики"
Регион: Москва
Дата заключения: 19.08.2020

Подробнее о контракте
#научные_исследования

1.1K viewsIvan Begtin, 07:37

Ivan Begtin

Forwarded from Ах, этот Минфин (Olya Parkhimovich)

Реестр субсидий на портале Электронного бюджета отображается в обновленном формате. Теперь в нем отсутствуют сведения о ГРБС (надеемся, это техническая ошибка, а не сокрытие данных, как в случае с поставщиками по 223-ФЗ). 🙂

Оперативно выявлять ошибки в открытых данных Минфина России и Казначейства России нам позволяет работа над проектами «Госрасходы» и «Госзатраты». Команды проектов не только собирают, преобразуют и структурируют данные, но и используют их (что редко встречается в госорганах).

Надеемся, указанные проблемы API и веб-интерфейса реестра субсидий будут быстро исправлены.

1.1K viewsIvan Begtin, 13:23

Ivan Begtin

Вдогонку к моей прошлой публикации о контракте на индикативный мониторинг и прогнозирование в г. Москве со мной связался Кирилл Никитин, владелец Центра налоговой политики и привожу его комментарии:
- на самом деле цена первого этапа 30 миллионов рублей, а 20 миллионов рублей - это аванс по всему контракту
- с сентября 2019 года в PwC он не работает

Коллеги мне тут напомнили что Кирилл опытный консалтер и вполне возможно что его услуги/услуги его организации столько и стоят. Я не буду лично оценивать, не знаю. Готов выслушать разные мнения.

Но что безусловно, так, к сожалению, Правительство Москвы не публикует результаты таких контрактов. И к этом также очень и очень много вопросов, но уже не к исполнителям, а к заказчикам.

#spending #moscow #contracts

1.2K viewsIvan Begtin, 12:37

Add a comment

Ivan Begtin

Оказывается что в ГосДуму внесли законопроект о признании должностными лицами глав госкомпаний чтобы упростить подведение их под уголовные дела [1] (ссылка на ведомости, извините).

И тут я не могу прокомментировать и задать важный вопрос. А на руководителей фондов/АНО/некоммерческих партнерств и тд. с госучастием - это распространяется?

Должно распространяться, но там нет понятия "доли" государства и учредителя. Хотя и госкорпорации НКО.

Ссылки:
[1] https://www.vedomosti.ru/society/articles/2020/08/25/837741-pravitelstvo-priravnyalo

#govngo

Ведомости

Правительство приравняло в УК менеджеров госкомпаний к должностным лицам

Это позволит проще возбуждать уголовные дела

1.8K viewsIvan Begtin, 14:49

1 comment

Ivan Begtin

В дополнение к предыдущей публикации, на руководителей НКО распространяется. Звучит определение так:
—
1) примечание 1 к статье 201 изложить в следующей редакции:
1. В статьях настоящей главы, а также в статье 304 настоящего Кодекса выполняющим управленческие функции в коммерческой или иной организации, за исключением организаций, указанных в примечании 1 к статье 285 настоящего Кодекса, а также в некоммерческой организации, не являющейся государственным органом, органом местного самоуправления, государственным или муниципальным учреждением, признается лицо, выполняющее функции единоличного исполнительного органа, члена совета директоров или иного коллегиального исполнительного органа, а также лицо, постоянно, временно либо по специальному полномочию выполняющее организационно-распорядительные или административно-хозяйственные функции в этих организациях.";
—
текст отсюда [1]. А то есть распространяется и на членов советов директоров тоже и членов коллегиальных органов.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/1013018-7

#govngo

1.5K viewsIvan Begtin, 15:01

Add a comment

Ivan Begtin

Новая социальная тема по нарушению прав граждан/потребителей - это property tech (proptech) также называемое landlord tech. Технологии для домовладельцев которые затрагивают и нарушают права арендующих жилые или нежилые помещения. В проекте Landlord tech watch [1] собраны многочисленные примеры, как видов таких нарушений прав, так и конкретных примеров на территории США.

Эти нарушения включают, например:
- установку систем распознавания лиц на вход
- установку внутренних систем слежения
- использование мобильных приложений для коммуникации с арендодателями
- проверку арендодателя через базы полиции, банковский скоринг и тд
и ещё многое другое.

В статьях которые приводятся на сайте есть много отсылок к housing inequality и digital housing, а также к джентрификации территорий по причине развития подобных технологий.

Актуально ли это в России? Технологическая задержка внедрения подобных технологий у нас может составлять от 5 до 25 лет, в зависимости от территории и области применения. Российский массовый рынок съёма жилья является "серым", но всё меняется, лично я не удивлюсь если proptech в российских реалиях окажется частно-государственным партнерством с акцентом на собираемость налогов и иных платежей, например, коммунальных.

Ссылки:
[1] https://antievictionmappingproject.github.io/landlordtech/

#proptech #govtech #landlordtech #surveillance

Landlord Tech Watch

Landlord Tech—in industry so-called property tech or proptech—is leading to new forms of housing injustice in ways that increase the power of landlords and further disempower tenants and those seeking shelter.

3.6K viewsIvan Begtin, 17:51

Add a comment

Ivan Begtin

Итоговый документ Концепции развития регулирования отношений в сфере технологий искусственного интеллекта и робототехники до 2024 года на сайте официального опубликования НПА publication.pravo.gov.ru [1] где он существует только в виде скана документа, как и все документы которые поступают и раскрываются на сайте официального опубликования в текстовом виде.

Это всё несмотря на то что в на дворе 20-е годы 21-го века, внедрённый документооборот и тд и даже дистанционная работа из-за коронавируса, но официальные документы до сих пор вначале сканами и потом уже, через месяцы в виде текста. Но о том как организована работа с НПА в России я уже писал и не хочу повторяться, там много что есть что исправлять.

По концепции, постараюсь её структурированно изложить.
Вовлечённые стороны
- Минэкономразвития России (сводит предложения по реализации)
- Федеральные органы исполнительной власти (направляют предложения по реализации и руководствуются концепцией)
- Госкорпорация Роскосмос (направляет предложения по реализации и руководствуется концепцией)
- Федеральное агентство технологического регулирования и метрологии (организация работы комитетов по разработке и уточнению терминов в ИИ, ч. II. п.6)

Сроки
- длительность действия: 3-4 года 3 месяца (19 августа 2020 - 31 декабря 2023(4?) года ). Не указано включён ли 2024 год.
- направление предложений ФОИВами в Минэкономразвития: до 19 ноября 2020 года

Финансирование
- Национальная программа "Цифровая экономика в Российской Федерации" (национальный проект)

{пропускаю здесь большой блок декомпозиции структуры самой стратегии и взаимосвязи с другими государственными инициативами}

На что стоит обратить внимание
- есть ГК Роскосмос, но нет других госкорпораций включая: ВЭБ.РФ (инвестиции в ИИ), Ростехнологии (разработка ИИ для военных и гражданских нужд) и тд.
- срок концепции до 2024 года - это удлинённый 3-х летний бюджетный цикл, очень короткий
- взаимодействие с отраслевыми ассоциациями нормативно не закреплено, если и будет то уже на уровне НПА Минэкономразвития
- организационная рамка не задана и не указана необходимость разработки НПА для этой организационной рамки

Есть ещё много что дополнить, но это надо уже читать не в виде скана, а в текстовом формате.

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202008260005

#law #regulation #ai

1.2K viewsIvan Begtin, 05:53

Add a comment

Ivan Begtin

Тем временем в Беларуси 12 ИТ-компаний находятся в процессе полного релокейта, 59 — частичного, а 112 компаний ищут возможность релокейта [1].

Ситуация, конечно, печальная. В каком-то смысле именно ИТ было той области которая в Беларуси развивалась хорошо и отключения Интернета очень скоро могут превратить страну в "картофельную республику", без какого-либо современного производства и услуг.

Ссылки:
[1] https://dev.by/news/linkedin-relokeit

#belarus

dev.by

Опрос в LinkedIn: 12 ИТ-компаний в процессе полного релокейта, 59 — частичного

12 ИТ-компаний находятся в процессе полного релокейта, 59 — частичного. Ещё 112 компаний начали искать возможности для релокейта. Таковы предварительные результаты опроса, который организовал на своей странице в LinkedIn сооснователь и СЕО Iomico Николай…

1.6K viewsIvan Begtin, 13:38

Add a comment

Ivan Begtin

Удивительно сколь многие данные о России можно и нужно искать не в России, а в глобальных базах данных, чаще открытых, иногда не до конца открытых, иногда коммерческих.

Вот несколько примеров:
- база электростанций в наборе данных Global Power Plant Database [1] на сайте проекта Resource Watch. Там же и много других данных по
- выплаты нефтяных компаний государству налогами и не только, на сайте Resource Projects [2], пример Роснефть [3]
- составы правления и отслеживания изменений в составах правления публичных компаний [4] в The Official Board (кроме них есть ещё несколько похожих сервисов)
- OpenSignal даёт интересные инсайты и доступ к коммерческим данным по работе операторов мобильной связи [5], а также данных в рамках OpenCellID Project [6] и Mozilla Location Service [7] о башнях сотовой связи
- о том как распространяются мобильные приложения для основных платформ в России можно узнать из сервисов AppFollow [8], AppAnnie [9] и ещё многих других

Всё это неполный список того что называют "альтернативными данными" и то что можно анализировать не пользуясь открытыми государственными данными, просто по той причине что этих данных просто может не быть.

Ссылки:
[1] https://resourcewatch.org/data/explore/Powerwatch
[2] http://www.resourceprojects.org/
[3] http://www.resourceprojects.org/company/Rosneft/
[4] https://www.theofficialboard.com/companies/c/russian-federation
[5] https://www.opensignal.com/reports/2020/05/russia/mobile-network-experience
[6] https://opencellid.org
[7] https://location.services.mozilla.com
[8] https://appfollow.io
[9] https://www.appannie.com

#opendata #data #alternativedata

resourcewatch.org

Resource Watch

1.3K viewsIvan Begtin, 14:03

Add a comment

Ivan Begtin

В Великобритании выяснилось что система предсказания вероятности наиболее тяжких преступлений, Most Serious Violence (MSV) определяла вероятности преступления со значительной меньшей точностью чем ранее было заявлено. В статье в Wired [1] есть отсылки на документ этического комитета за июль 2020 года [2] о текущем статусе внедрения системы NDAS и программной ошибке которая только в июле и была исправлена.

О разработке системы NDAS, в которую входит модуль MSV, формально было анонсировано в конце 2018 года и выделено 10 миллионов фунтов [3]. Это специальная аналитическая информационная система предсказания преступлений проходящая уже 2-й год пилотное внедрение в нескольких округах Великобритании. Её уникальность в том что это система работающая на огромных первичных данных учётов преступлений, баз по организованной преступности, иных учётов и баз данных позволяющих строить сложную детальную аналитику и вести списки лиц с наибольшей вероятностью могущих совершить преступления.

Я лично много лет изучаю precrime системы и считаю что их внедрение в каком-то смысле неизбежно и может быть ограничено только этическими принципами прописанными на уровне законов и способностью не только правоохранительной системы, но и социальных служб обеспечивать профилактику преступлений.

Ссылки:
[1] https://www.wired.co.uk/article/police-violence-prediction-ndas
[2] https://www.westmidlands-pcc.gov.uk/ethics-committee/ethics-committee-reports-and-minutes/
[3] https://www.gov.uk/government/news/home-office-funds-innovative-policing-technology-to-prevent-crime

#data #ai #precrime

WIRED UK

Police built an AI to predict violent crime. It was seriously flawed

A Home Office-funded project that used artificial intelligence to predict gun and knife crime was found to be wildly inaccurate

1.7K viewsIvan Begtin, 04:16

Add a comment

Ivan Begtin

NewAtlas пишет [1] о том что в США учёные из Purdue University стартовали исследование рецидивизма с помощью искусственного интеллекта. Вместе с местными властями в округа Типпекану (Tippecanoe) они намерены отслеживать сердечный ритм и состояние здоровья и поведение 250 досрочно освобожденных которым будет выдан специальный браслет и установлено мобильное приложение. Их действия будут сравниваться с действиями другой группы аналогичного размера, выступающей как контрольной.

Не все согласны что это исследование будет эффективным, например Liz O’Sullivan, технический директор проекта Surveillance Technology Oversight Project (S.T.O.P) [2] обращает внимание на то что люди меняют свое поведение когда знают что они находятся под наблюдением.

Подробнее о проекте информация [3] есть на сайте National Institute of Justice при департаменте юстиции США.

Я со своей стороны не могу не добавить что часто забывают что подобные персонализированные системы слежки охватывают не только тех кто носит браслеты или другие устройства и устанавливает специальное ПО на телефоны, но и всех кто их окружают там где они бывают. Устройства собирают сведения о инфраструктуре ad hoc momentum позволяя осуществлять слежку и за теми кто ими не пользуется, но находится рядом.

Ссылки:
[1] https://newatlas.com/computers/parolees-tracked-artificial-intelligence-prevent-recidivism/
[2] https://www.stopspying.org/
[3] https://nij.ojp.gov/topics/articles/specialized-smartphones-could-keep-released-offenders-track-successful-reentry

#precrime #ai #data #privacy

New Atlas

AI surveillance study tracks criminals post release to cut recidivism

A pair of computer scientists from Purdue University are leading a controversial new four-year study using AI-enabled surveillance to track recently released prison parolees. The project’s goal is to lower rates of recidivism by identifying early interventions…

1.3K viewsIvan Begtin, 05:21

Add a comment

Ivan Begtin

О работе с данными в академической среде на примере компьютерной лингвистики. Многие знают что компьютерная лингвистика - это область науки где, с одной стороны много данных, включая открытые, создается исследователями, а с другой стороны часто востребованы и коммерческими компаниями, в самых разных задачах обработки естественного языка. Это приводит к появлению гибридных бизнес моделей которые можно рассматривать, и как социально ответственный бизнеc, и как возможность самофинансирования некоммерческой деятельности - смотря как взглянуть.

Пример подобного коммерческого Sketch Engine [1], британо-чешского стартапа Lexical Computing [2] в котором собраны корпусы десятков языков всего мира. Корпуса созданы как на базе текстов в Википедии, так и на базе других крупных баз корпусов языков, таких как Aranea [3].

Важная особенность корпусов языков в их значительном объёме. С ними очень сложно работать без достаточных технических ресурсов памяти, процессора и хранения, поэтому поэтому коммерческий сервис даёт возможность работать с корпусами текстов несмотря на эти ограничения и предоставляет большой набор инструментов специально для исследователей в области компьютерной лингвистики.

При этом так же команда публикует сокращённую версию продукта под лицензией GPL - NoSketchEngine [4] который можно установить у себя локально и также с ним работать.

В это важная особенность сервисов создаваемых на базе академических/исследовательских данных. Практически во всех областях где есть вовлечение бизнеса и исследователей продукты построены по схожим принципам:
- бизнес модель основана на университетской подписке и подписке коммерческих компаний
- очень сильно заточены под предметную область и создают множество инструментов и интерфейсов под потребности именно исследователей
- значительно упрощают работу с данными очень большого объёма
- есть возможность указывать точные ссылки для библиографии
- есть или бесплатный доступ для исследователей, или какая-то часть кода/данных общедоступны

Таких примеров ещё много в разных областях. Такой продукт как Wolfram Alpha [5] создан не только для математиков, но и для всех кто исследует в сотнях отраслях и предоставляет, опять же, не данные, а инструменты на них основанные. Проект Censys [6] создавался как результаты академических работ по сканированию интернета на уязвимости, а сейчас является заметным коммерческим продуктом в области сетевой безопасности, с потребителями как из академической, так и коммерческой сред. А предоставление первичных больших данных стало в нём одним из продуктов Bulk Data [7]

Как и во всех продуктах основанных на данных, в данном случае важнейшим является то какую добавленную стоимость этот продукт создаёт.

Ссылки:
[1] https://www.sketchengine.eu
[2] https://www.lexicalcomputing.com/
[3] http://ucts.uniba.sk/aranea_about/index.html
[4] https://nlp.fi.muni.cz/trac/noske
[5] http://www.wolframalpha.com
[6] http://censys.io
[7] https://censys.io/product/product-data

#data #science #opendata #bigdata

Sketch Engine

language corpus management and query system

Sketch Engine is the ultimate corpus tool to create and search text corpora in 95+ languages. Try 30-day free trial.

1.2K viewsIvan Begtin, edited 07:59

Ivan Begtin

Лучше всего получается то что делаешь под свои задачи (с)

Несколько внутренних инструментов решили перевести в open source и теперь они доступны на Github'е:
mongo2md - утилита помогающая в генерации документации/описания данных находящихся в коллекциях MongoDB [1]. Не умеет пока автодокуметировать поля к таблицам автоматически, но помогает очень сильно упростить работу тех кто документирует руками. Как можно понять из названия, создаёт Markdown файлы на основе схем коллекций которые само же распознает.

apibackuper - утилита по архивации данных отдаваемых через API. Подходит для всех тех случаев когда владелец данных предоставляет API с каким-то ограничением на один запрос, но не отдаёт нужные данные целиком для массовой выгрузки. В результате иногда надо делать тысячи запросов к API пролистывая все нужные данные. Эта утилита автоматизирует эти запросы к API, настраивается с помощью простого конфиг файла и экспортирует данные в нужном формате. Проверено на API на таких сайтах как как: Единый портал бюджетной системы, Корневой удостоверяющий центр, Headhunter API, Госрасходы. Функции именно в архивации на (полной копии данных) на определённый момент (фактически она нужна для создания внутреннего цифрового архива и архивации сайтов работащих через API/Ajax и не поддающихся веб-архивации классическими инструментами).

Ссылки:
[1] https://github.com/datacoon/mongo2md
[2] https://github.com/ruarxive/apibackuper
#opensource #api #data

GitHub

GitHub - datacoon/mongo2md: A command line tool for MongoDB documentation generation from mongodb collections schemas

A command line tool for MongoDB documentation generation from mongodb collections schemas - GitHub - datacoon/mongo2md: A command line tool for MongoDB documentation generation from mongodb collect...

1.2K viewsIvan Begtin, 10:42

Add a comment

About

Blog

Apps

Platform