Ivan Begtin
8.04K subscribers
1.72K photos
3 videos
101 files
4.41K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Свежие картинки по LLMops Market Map от CB Insights [1]. Все эти картинки, симпатичные, но они лишь визуально иллюстрируют рынок AI/LLM/Generative AI и инвестиции в него.

Лично мне среди AI продуктов интереснее всего развитие поисковиков по данным и продукты по автоматизации (ИИзации) аналитики по данным. Уже есть несколько стартапов обещающих автоматизацию построения дашбордов на основе клиентских данных.

Ссылки:
[1] https://www.cbinsights.com/research/large-language-model-operations-llmops-market-map/

#ai #analytics #llmops
В Rest of world статья о стереотипах о странах заложенных в генеративные ИИ [1]. Например, Indian person обычно старый мужчина с бородой, Mexican person обычно мужчина в сомбреро, а American person чаще женщина и чаще блондинка на фоне флага.

В целом статья о том как генеративный ИИ сужает мир до стереотипов и в этом мало хорошего, впрочем эта проблема на поверхности и точно будет решаться в новых моделях, инструментах, практике их применения.

Ссылки:
[1] https://restofworld.org/2023/ai-image-stereotypes/

#ai #generativeai #sterotypes #readings
На фоне всё усиливающегося государственного регулирования в области персональных данных в России я не могу не вспомнить как 5 лет назад в 2018 году я проводил исследование "легализованных утечек персональных данных". Это когда персональные данные не хакеры крадут, а когда государственные органы по причине непонимания последствий хренового регулирования и несоблюдения базовых требований разработки информационных систем делают эти данные доступными. Я писал об этом у себя в блоге [1] и были публикации в РБК и не только в 2919 году. А ещё до этого в 2018 году я эти материалы отправлял в Роскомнадзор, одному, не буду называть кому, зам. министру цифрового развития и тд.

Полный текст того исследования я никогда не публиковал и даже убрал его публичную версию, без инструкций по воспроизведению, из открытого доступа, но вот что я вам скажу. Мало что изменилось с тех пор. Исчезли некоторые самые одиозные случаи, вроде того как УЦ Миноброны светил внутренние контакты/email'ы, а также некоторые особо вопиющие случаи раскрытия паспортных данных.

Но, исправили далеко не все!🤦‍♂️Особенно в части утечек связки ФИО + СНИЛС + email. Это не так подгорает по сравнению с хакерскими утечками, но не так уже мало количественно.

По многим причинам я далее не публиковал обновления того исследования, в первую очередь поскольку не было никакого желания чтобы закрывали некоторые важные публичные источники данных, а также с тем что нет желания давать хакерам наводки.

Но... увы, не могу не констатировать что российское государство довольно плохой регулятор персональных данных. Фактически, сапожник без сапог.

Ссылки:
[1] https://beta.begtin.tech/pdleaks-p3-govsys/
[2] https://www.rbc.ru/politics/15/05/2019/5cdac8469a79479a27bd4eca

#privacy #reports #readings #personaldata #regulation
Полезное чтение про данные, технологии и не только:
- Generative AI Prohibited Use Policy [1] политика Google по продуктам Generative AI. Документ от марта 2023 года, хорош своей лаконичностью, многим нормотворцам на заметку. Саморегулирование в области ИИ должно быть, в том числе, таким.
- TileDB closes a $34M Series B round [2] про стартап TileDB облачной и с открытым кодом СУБД который привлёк раунд B инвестиций на $34M. Из особенностей продукта это ориентация на данные в виде массивов и адаптированность под данные для машинного обучения и геоданные
- Where is data diplomacy happening? A reading list [3] о том где и как происходит "дипломатия данных" в мире. Неплохой список, со ссылками на практические инициативы, книги и научные статьи.
- From Data to Decision Intelligence: The Potential of Decision Accelerator Labs [4] новый-старый термин Decision Intelligence в статье Stefaan G. Verhulst о недостаточности решений основанных на данных и необходимости их интеграции с существующими процессами, практиками, жизненным опытом и так далее. Термин давно встречается в контексте продуктов для business intelligence [5]
- Ranking Nations [6] книга за авторством Stephen Morse о том как читать и понимать рейтинги стран основанные на статистических показателях. Книга свежая, я лично её ещё не читал, но скорее всего запланирую на ближайшие месяцы. Судя по описанию она весьма полезна для развития критического мышления в приложении к глобальным оценкам.

Ссылки:
[1] https://policies.google.com/terms/generative-ai/use-policy
[2] https://tiledb.com/blog/tiledb-closes-series-b-to-advance-the-vision-of-the-modern-database
[3] https://medium.com/odi-research/where-is-data-diplomacy-happening-a-reading-list-45ce5eddf016
[4] https://medium.com/data-stewards-network/from-data-to-decision-intelligence-the-potential-of-decision-accelerator-labs-33f4060734a8
[5] https://en.wikipedia.org/wiki/Decision_intelligence
[6] https://www.e-elgar.com/shop/usd/ranking-nations-9781800886308.html

#readings #ai #data #policies #statistics
В рубрике интересных проектов на данных Open Syllabus [1] проект по сбору базы данных и визуализации информации о литературе для чтения рекомендуемой на курсах в университетах и колледжах. Огромный охват курсов по США, Великобритании и другим англосаксонским странам, в меньшей степени по странам Европы, а также довольно много по Японии, Тайваню и ряду других стран. Сразу скажу что из постсоветских стран там нет России, Туркменистана, Азербайджана, Таджикистана, остальные есть, но, как я понимаю, только в англоязычной их части и привязанные к англоязычным курсам.

В то же время проект очень наглядный, хорошо демонстрирующий влияние писателей и произведений на образование. Из российских писателей времен империи ожидаемо акцент на Достоевском.

Все источники открытые, явно немало ручной работы. Сам проект имеет открытый контур в виде базы, рейтингов, визуализаций и тд.

А монетизация идёт через сервис аналитики для методистов [2].


Ссылки:
[1] https://www.opensyllabus.org
[2] https://analytics.opensyllabus.org

#opendata #readings #texts #syllabus
Сегодня я выступал на EDPC [1] с темой Прозрачность политик приватности как необходимая часть политик компаний про то как ведущие компании ведут свои политики приватности и этики в открытом доступе. Частично выступление есть в моей презентации [2], а через какое-то время будут доступны и записи выступлений на сайте мероприятия.

У многих выступающих звучала явно или опосредовано мысль про ухудшение регулирования данных в России, кто-то говорил о том что "Россия и раньше не была нормальной юрисдикцией, а что уж говорить и сейчас", а я лично не устаю повторять что "акулы почуяли кровь" (с), регуляторы почувствовали безнаказанность и готовы жертвовать экономикой ради цензуры.

И тут, как будто неслучайно, появилась новость на РБК о поручении Президента РФ по переносу игр в доменную зону .ru/.рф [3]. А почему раньше глобальные игроки этого не делали? Может быть из-за изуверских российских законов в этой области? Может быть из-за свежих законов, постановлений Пр-ва и приказов служб и министерств усиливающих право госструктур на то чтобы залезать в любые данные любых компаний? Игровая индустрия в этом смысле глобальна, юрисдикции выбираются по критериям возможности приёма платежей (штат Делавэр в США или Сингапур), по адекватности регулирования работы с данными и по техническим возможностям (отклику при передаче данных), а также по цене инфраструктуры.

Но я скажу ещё и о другом. Российское регулирование в последние годы особенно сильно скатилось к модели "президент поручил" или "вот мы такое придумали". Теперь в его основе почти никогда нет заранее проведённого анализа, исследования, подкреплённых фактами обоснований, доводов за или против и тд. Есть лоббисты обладающие административным ресурсом протаскивающие любую ересь под соусом безумности контекста и есть госолигархия и госаппарат протаскивающие усиление государственного контроля.

Здесь хотелось бы добавить какой-то не слишком пессимистичный вывод, но оптимизма мало.

Ссылки:
[1] https://edpc.network
[2] https://www.beautiful.ai/player/-Nh7XHE3Ae2sXhVDyRZz
[3] https://www.rbc.ru/technology_and_media/19/10/2023/6531212f9a794737466a98ab

#privacy #personaldata #regulation
Прекрасная история преподавателя на Python у которого навсегда забанили аккаунт для рекламы его курсов на Facebook [1] предположив что курсы про Python и Pandas - это курсы про работу с живыми питонами и пандами. Причём сделали это даже после ревью его аккаунта который однозначно показывал что его владелец учит программированию за деньги, а не дрессирует диких животных.

Что интересно так это то что из текста можно узнать о том что Facebook придерживается политики удаления данных в течении 180 дней и поэтому когда через год он через знакомых в Facebook'е попросил узнать за что же его забанили и как разбанить, оказалось что этих сведений уже нет. Пожизненная блокировка есть, а обоснований её уже нет.

Эта история одна из многих побуждающих к дискуссии о том что глобальные монополии с их правилами могут быть даже хуже чем взаимодействие с госорганами, у них может напрочь отсутствовать механизм аппеляции, например.

Ссылки:
[1] https://lerner.co.il/2023/10/19/im-banned-for-life-from-advertising-on-meta-because-i-teach-python/

#python #stories #facebook
В рубрике интересных наборов данных United Nations Parallel Corpus [1] с одной стороны многим известный, а с другой, на удивление, далеко не всем.

Этот набор данных включает связанные тексты на разных языках позволяя развивать технологии перевода, как минимум, между популярными языками которые использует ООН.

В общей сложности это 799 276 документов и 1 727 539 пар связанных документов.

Доступно под свободной лицензией, но не стандартной, а с требованием упоминания ООН и исследования в рамках которого этот набор данных был создан.

Ссылки:
[1] https://conferences.unite.un.org/uncorpus

#opendata #un #datasets #languages #translation
Совершенно незаслуженно упущенный мной и ранее не упомянутый вызов/challenge по созданию 30 дневных карт, 30DayMapChallenge [1]. Он организован специально для самых упоротых упорных дизайнеров, проходит 30 дней с 1 по 30 ноября в течение которых необходимо каждый день публиковать карту на заданную тему: точки, линии, полигоны и так далее. Каждый день надо публиковать результат в социальных медиа с хэштегом #30DayMapChallenge

Весь проект - это частная инициатива Topi Tjukanov который проводит эти конкурсы с 2019 года. Можно посмотреть, например, на работы 2022 года [2].

Никаких призов нет, только фан и репутации в сообществе. Это крутой челлендж, с оценкой результатов по "лайкам" и "ретвитам". Потому что это вызов (challenge), а не конкурс

Правил там немного, главное из которых я бы выделил Don’t be an asshole. Для тех кто хочет самому(-ой) себе бросить вызов - это будет прекрасная возможность, попробовать свои навыки, а потом ещё и рассказать об этом по завершению.

Ссылки:
[1] https://30daymapchallenge.com
[2] https://30daymapchallenge.com/2022/

#gis #contests #challenges #geodata #opendata
По поводу ЦБ РФ и "закрытой комнаты" со статистикой [1], когда данные передаются исследователям внутри физически закрытой инфраструктуры - это совсем не новая идея.
Подобное достаточно давно есть во многих странах. Например, в Великобритании довольно давно существует служба UK Data Service [2] обеспечивающая доступ учёных к инфраструктуре данных имеющих "особую чувствительность", вплоть до персональных данных в некоторых случаях.

У службы есть три режима распространения данных [3]:
- открытые данные: свободные лицензии CC-BY или OGL и свободное скачивание
- защищённые данные: можно скачать после регистрации и соглашения со специальной лицензией
- контролируемые данные через SecureLab: Доступ к слишком подробным, деликатным или конфиденциальным данным осуществляется через SecureLab. После регистрации опытные исследователи могут подать заявку на доступ к контролируемым данным.

SecureLab - это специальное ПО и режим доступа к данным только с контролируемых рабочих мест, с полной записью процесса доступа к данным. Сессия пользователя записывается и сохраняется, на случай нарушения пользователем соглашения о доступе к данным. Данные нельзя скачивать, только сохранить результаты своего исследования.

В основном такой режим доступа распространяется на детальные данные переписей, опросов и детальных показателей по бизнесу. В UK многие индикаторы индивидуальные для компаний, в отличие, к примеру, от России, являются коммерческой тайной и доступны только при соблюдении определённых условий.

В чём важные характеристики UK Data Service:
1. Есть общий открытый общедоступный каталог данных где перечислены все наборы данных: открытые, закрытые, охраняемые [5]. Это означает что нет ситуации когда Вы не можете запросить данные просто поскольку не знаете о их существовании.
2. Даже закрытые данные доступные через SecureLab тщательно документированы и документация общедоступна [6]
3. К каждому набору данных приложены не только данные (для открытых данных или доступных после регистрации), но и результаты исследований на их основе [7]

Кроме Великобритании такая практика есть во многих странах, я бы даже сказал что почти во всех развитых странах, где-то это организованно системно, где-то на соглашениях исследовательских центров и статистических служб, центральных банков и тд.

Подобная практика является хорошей и допустимой при соблюдении баланса открытости и приватности, публикации документации, общедоступного каталога и при том что в закрытой части оказываются только, действительно, чувствительные данные.

Иначе говоря, если ЦБ РФ даст исследователям доступ к данным которые ранее не раскрывались и затрагивают коммерческую тайну или иные ограничения - это скорее хорошая практика, эти данные и не могли бы быть открытыми.

А если ЦБ РФ перенесёт в "закрытую комнату" ту статистику что они публикуют сейчас и она исчезнет из открытого доступа или резко сократится в объёме и детализации, то это будет исключительно плохим шагом для рынка, общества и так далее.

Поскольку подробностей пока нет, я лично не знаю какой сценарий тут предполагается.

Ссылки:
[1] https://www.vedomosti.ru/finance/articles/2023/10/24/1002303-tsb-sozdat-komnatu-s-zakritoi-statistikoi
[2] https://ukdataservice.ac.uk
[3] https://ukdataservice.ac.uk/find-data/access-conditions/
[4] https://ukdataservice.ac.uk/cd137-enduserlicence/
[5] https://beta.ukdataservice.ac.uk/datacatalogue/studies/?Search=#!?Search=&Rows=10&Sort=0&DateFrom=440&DateTo=2023&AccessFacet=Controlled&Page=1
[6] https://beta.ukdataservice.ac.uk/datacatalogue/studies/study?id=6697#!/documentation
[7] https://beta.ukdataservice.ac.uk/datacatalogue/studies/study?id=6697#!/resources

#opendata #banking #cbrf #data #datasets #datacatalogs
Data Provenance Explorer [1] большая инициатива по анализу, систематизации и аудиту наборов данных используемых для обучения больших языковых моделей.

В общей сложности более 1800 наборов данных с указанием их происхождения, лицензий, создателей, источников и других метаданных.

Проект является результатом написания одноимённой научной статьи The Data Provenance Initiative:
A Large Scale Audit of Dataset Licensing & Attribution in AI
[2] коллективом 18 авторов из разных академических и коммерческих организаций.

Статья не менее интересная и полезная и сама идея кажется очень правильной, заглянуть на то чём обучаются языковые модели и исправлять там где надо исправлять.

Ссылки:
[1] https://dataprovenance.org
[2] https://www.dataprovenance.org/paper.pdf

#opendata #datasets #ai #research #data
Кстати, а обратили ли вы внимание что англоязычные версии сайтов многих российских органов власти более не существуют или не обновляются? Например, у Минцифры РФ англоязычная версия не обновлялась с 2015 года [1], и ссылки с русскоязычной версии сайта на неё давно нет.

Но китайской версии тоже нет, или французской, например, хотя в Африке говорят в основном на английском и французском и это, типа, потенциально приоритетный рынок. Как и арабский язык, на котором тоже нет.

Вывода у меня из этого никакого нет, кроме того что большая часть разговоров про международные отношения у российских регуляторов с мировыми - это так, болтовня. Нет ничего такого или, настолько закрыто что можно не обращать внимание.

Ссылки:
[1] https://digital.gov.ru/en/

#government #regulation
В рубрике интересных наборов данных Платформа ИИ Минздрава РФ [1] с задачами и будущими конкурсами по теме ИИ на основе данных. Можно обратить внимание что пока Минцифры РФ уже который год пытается породить портал с данными для ИИ, а Минэкономразвития РФ ликвидировало портал открытых данных, у Минздрава вполне себе разумный по логике доступности и существования проект.

Пока там всего лишь 12 задач, с тем что первые задачи публиковались с ноября 2022 г. К каждой задаче есть датасеты и вполне себе немалого размера.

На этом хорошее всё, а теперь про плохое.
1. Для доступа к данным необходимо авторизовываться через Госуслуги
2. Одной авторизации недостаточно, регистрация лишь инициирует заявку на доступ которая рассматривается где-то внутри.
3. Кто реально за этой платформой стоит, кто за неё отвечает непонятно. Что странно, так не делают, людям которые делают такие проекты не должно быть стыдно за свою работу.
4. Вообще ничего нет про юридическую часть. Ни условий использования данных, ни их прослеживание, ни code of conduct и тд.
5. В разделе "Документы" к каждой задачи приведены ссылки на зарубежные исследования, а не исследования на основе этих данных.

В целом ощущения от инициативы что интенции может и хорошие, но думали про неё внутри Минздрава РФ мало и плохо.

Ссылки:
[1] https://ai.minzdrav.gov.ru

#data #datasets #russia #government #health
Можно сказать что в продолжение платформы данных для ИИ, о доступности данных. Посмотрим на ещё один пример, Правительство Москвы публикует так называемые "Московские датасеты" для обучения ИИ алгоритмов[1].

Чтобы получить доступ к ним надо заполнить форму заявки [2], можно увидеть её на скриншоте, а саму форму отправить по email'у на сайте.

Так вот знаете что здесь особенно выделяется? Ни один из наборов данных перечисленных в заявке не является, не то что деперсонализированными данными, но и даже конфиденциальными.

Почему, к примеру, доступ к данным метеостанций или о загрязнений почвы необходимо просить? Почему эти данные не публикуются как открытые данные на обновлённом портале открытых данных [3] вот в чём вопрос.

При том что у Правительства Москвы и его подчинённых структур порталов с данными много. Например, на портале сервисов ИИ для лучевой диагностики (mosmed.ai) [4] тоже публикуются наборы данных и куда более чувствительные чем данные метеостанций. Там публикуются данные прошедшие деперсонализацию и для их получения достаточно указать свой email.

Эти наборы данных тоже не открытые данные, но их открытость выше чем на Портале ИИ Москвы.

Итого налицо непоследовательная политика городских властей, ложащаяся в общий тренд закрытости и ограничения доступа к данным.


Ссылки:
[1] https://ai.mos.ru
[2] https://ai.mos.ru/datasets-access-form.pdf
[3] https://data-new.mos.ru
[4] https://mosmed.ai

#opendata #closeddata #russia #ai #moscow