В рубрике интересных наборов данных ДетКорпус [1] аннотированный корпус русской детской литературы, который отражает литературный процесс XX—XXI в. Включает включает более 2273 прозаических произведений, написанных на русском языке в период с 1900-х по 2010-е годы и адресованных детям и подросткам.
Опубликован в виде интерфейса для поиска и в виде набора данных, общим объёмом около 1 ГБ в архиве [2] и под лицензией Creative Commons Zero.
Полезный набор данных для многих задач связанных с анализом текстов для детей и изучением русского языка в принципе.
Ссылки:
[1] http://detcorpus.ru/
[2] https://dataverse.pushdom.ru/dataset.xhtml?persistentId=doi:10.31860/openlit-2021.4-C001
#opendata #datasets #russian #languages
Опубликован в виде интерфейса для поиска и в виде набора данных, общим объёмом около 1 ГБ в архиве [2] и под лицензией Creative Commons Zero.
Полезный набор данных для многих задач связанных с анализом текстов для детей и изучением русского языка в принципе.
Ссылки:
[1] http://detcorpus.ru/
[2] https://dataverse.pushdom.ru/dataset.xhtml?persistentId=doi:10.31860/openlit-2021.4-C001
#opendata #datasets #russian #languages
Многие кто пишет сейчас про ИТ, про данные, про разработку ПО пишут про карьерные треки для разработчиков, дата инженеров и дата сайентистов.
Я думал было тоже написать о том что лучше изучать, порекомендовать тем кто думает о карьере о том с чего начать, но вместо этого я очень коротко расскажу на своём примере о решениях в карьере которые могут многое изменить.
Мне сейчас 42 при том что программирую я с 6 лет (на минимальном уровне) и с 15 лет осмысленно, начиная с программ на ассемблере на бумаге в тетрадке и далее где-то стандартный, где-то не всегда стандартный набор инструментов и языков программирования моего поколения (Pascal, C/C++, Tcl/Tk, C#, Java, Shell и тому подобное).
Так вот в жизни я дважды приходил к состоянию когда я приходил к тому что возникает развилка в виде отказа от технических навыков или их восстановление.
Первый раз - это было в 27 лет, когда я за 8 лет успел поработать на сисадмином спутниковых сетей, автоматизатором тестирования, программистом, системным архитектором и руководителем проектов и далее мой выбор был между тем чтобы полностью в управление проектами или восстанавливать технические навыки. Вместо продолжения корпоративной карьеры я выбрал создание своего стартапа, тогда он не взлетел, и полное восстановление технических навыков. Я, фактически, почти с нуля восстановил знания Python на котором я последний раз программировал в 22 года.
Второй раз - это было относительно недавно, когда за всё время развития цифровых технологий, открытости и тд. моя деятельность сильно сместилась в евангелизм открытости, открытые данные и в управление НКО и бизнесом одновременно. Совмещать написание текстов, управление и сохранение технических навыков очень сложно. Совмещать с общественной деятельностью просиживания штанов в общественных советах ещё сложнее. В какой-то момент я для себя решил что из всей этой общественной движухи оставить только самое важное и восстановить свои технические навыки, в первую очередь в инженерии данных. Поэтому регулярно я не только что-то постоянно учу, но и поддерживаю свои навыки как senior python engineer. Что кажется странным окружающим знающим меня по совершенно другой деятельности;)
Хотя карьерные треки в ИТ делятся на инженерные и управленческие, но ими не ограничиваются. Важны не только заработок, но и число степеней свободы, возможность самореализации и, самое главное удовольствие, от того что ты делаешь.
И вот эти два решения я считаю в моей карьере самыми главными.
В качестве резюме, несколько тезисов которые я могу извлечь из своего опыта:
1. Карьерные треки можно менять, они не так линейны как их описывают, и они показывают твою эволюцию внутри большой/средней компании, а мир гораздо шире чем только такие специализированные пути.
2. Надо понимать что почти всегда переход к управлению или к коммуникациям (технический PR, евангелизм технологий) сопровождается потерей знаний. В какой-то момент возникает выбор о том поддерживать ли их, лично я делал выбор в пользу их восстановления, многие делают его в пользу большей медийности, ухода в полностью управленческое звено и тд.
3. При работе в ИТ необходимо тратить хотя бы 3-4 часа в неделю на изучение чего-то нового и примерно столько же на повторение/проверку/закрепление уже известного.
4. Работа с данными не отличается от всех остальных программных инженерий ничем кроме значительного рыночного спроса и необходимости знания не только общепрограммных языков, но и языков для работы с данными (SQL, GraphQL и тд.)
5. Лучшее портфолио - открытый код, хорошо документированный, решающий четкую задачу, в виде репозитория сделанного по рекомендациям и отражающий что разработчик/инженер умеет программировать, документировать, четко артикулировать задачу и демонстрировать результат. Это всё про профессиональные навыки самоорганизации промышленной разработки.
#careers #thoughts
Я думал было тоже написать о том что лучше изучать, порекомендовать тем кто думает о карьере о том с чего начать, но вместо этого я очень коротко расскажу на своём примере о решениях в карьере которые могут многое изменить.
Мне сейчас 42 при том что программирую я с 6 лет (на минимальном уровне) и с 15 лет осмысленно, начиная с программ на ассемблере на бумаге в тетрадке и далее где-то стандартный, где-то не всегда стандартный набор инструментов и языков программирования моего поколения (Pascal, C/C++, Tcl/Tk, C#, Java, Shell и тому подобное).
Так вот в жизни я дважды приходил к состоянию когда я приходил к тому что возникает развилка в виде отказа от технических навыков или их восстановление.
Первый раз - это было в 27 лет, когда я за 8 лет успел поработать на сисадмином спутниковых сетей, автоматизатором тестирования, программистом, системным архитектором и руководителем проектов и далее мой выбор был между тем чтобы полностью в управление проектами или восстанавливать технические навыки. Вместо продолжения корпоративной карьеры я выбрал создание своего стартапа, тогда он не взлетел, и полное восстановление технических навыков. Я, фактически, почти с нуля восстановил знания Python на котором я последний раз программировал в 22 года.
Второй раз - это было относительно недавно, когда за всё время развития цифровых технологий, открытости и тд. моя деятельность сильно сместилась в евангелизм открытости, открытые данные и в управление НКО и бизнесом одновременно. Совмещать написание текстов, управление и сохранение технических навыков очень сложно. Совмещать с общественной деятельностью просиживания штанов в общественных советах ещё сложнее. В какой-то момент я для себя решил что из всей этой общественной движухи оставить только самое важное и восстановить свои технические навыки, в первую очередь в инженерии данных. Поэтому регулярно я не только что-то постоянно учу, но и поддерживаю свои навыки как senior python engineer. Что кажется странным окружающим знающим меня по совершенно другой деятельности;)
Хотя карьерные треки в ИТ делятся на инженерные и управленческие, но ими не ограничиваются. Важны не только заработок, но и число степеней свободы, возможность самореализации и, самое главное удовольствие, от того что ты делаешь.
И вот эти два решения я считаю в моей карьере самыми главными.
В качестве резюме, несколько тезисов которые я могу извлечь из своего опыта:
1. Карьерные треки можно менять, они не так линейны как их описывают, и они показывают твою эволюцию внутри большой/средней компании, а мир гораздо шире чем только такие специализированные пути.
2. Надо понимать что почти всегда переход к управлению или к коммуникациям (технический PR, евангелизм технологий) сопровождается потерей знаний. В какой-то момент возникает выбор о том поддерживать ли их, лично я делал выбор в пользу их восстановления, многие делают его в пользу большей медийности, ухода в полностью управленческое звено и тд.
3. При работе в ИТ необходимо тратить хотя бы 3-4 часа в неделю на изучение чего-то нового и примерно столько же на повторение/проверку/закрепление уже известного.
4. Работа с данными не отличается от всех остальных программных инженерий ничем кроме значительного рыночного спроса и необходимости знания не только общепрограммных языков, но и языков для работы с данными (SQL, GraphQL и тд.)
5. Лучшее портфолио - открытый код, хорошо документированный, решающий четкую задачу, в виде репозитория сделанного по рекомендациям и отражающий что разработчик/инженер умеет программировать, документировать, четко артикулировать задачу и демонстрировать результат. Это всё про профессиональные навыки самоорганизации промышленной разработки.
#careers #thoughts
Полезный документ Structured and interoperable beneficial ownership data [1] в виде инструкций, методик и рекомендаций как властям стран раскрывать данные о конечных бенефициарах юридических лиц. Документ от команды Open Ownership которые не только публикуют на своём сайте наборы данных конечных бенефициаров, но и продвигают практики раскрытия данных по всему миру.
Тут важна не только сама тема в которой успехи хотя и есть, но сдвигается всё медленно, слишком большое политическое сопротивление в мире, но вот с качеством проработки документов, инструкций и донесения результатов у этой команды весьма хорошо всё организовано.
Не думаю что в России применение этого стандарта возможно в ближайшие годы (десятилетия), но во многих постсоветских странах его уже применяют.
Ссылки:
[1] https://www.openownership.org/en/publications/structured-and-interoperable-beneficial-ownership-data/
#opendata #readings
Тут важна не только сама тема в которой успехи хотя и есть, но сдвигается всё медленно, слишком большое политическое сопротивление в мире, но вот с качеством проработки документов, инструкций и донесения результатов у этой команды весьма хорошо всё организовано.
Не думаю что в России применение этого стандарта возможно в ближайшие годы (десятилетия), но во многих постсоветских странах его уже применяют.
Ссылки:
[1] https://www.openownership.org/en/publications/structured-and-interoperable-beneficial-ownership-data/
#opendata #readings
В рубрике как это работает у них - коммунистический Вьетнам.
В 2020 году во Вьетнаме создали государственный портал открытых данных data.gov.vn [1] который является местом для публикации данных и агрегатором данных из других репозиториев и порталов, таких как портал открытых данных города Хошимин [2] и многих других.
Портал создан на основе проекта портала данных Национального бюро информационных наук и технологий [3] который, в первую очередь агрегировал данные университетов и исследовательских центров.
Важно отметить что хотя на портале декларируется более 10 616 наборов данных, по факту, из них 10 045 - это наборы данных из научного репозитория Ханойского национального университета [4] где 99% материалов - это книги и публикации. То есть в реальности на портале менее 600 наборов данных, но даже если так важен сам факт его наличия в коммунистической азиатской стране где цифровой трансформацией занимается государственный военный холдинг [5].
Кроме того на национальный портал ещё и многие данные просто не попадают, например, с портала данных города Дананг [6], а то есть у портала даже как агрегатора есть куда развиваться.
Все порталы во Вьетнаме делают на базе движка с открытым кодом CKAN, работа порталах построена скорее по модели open by default и качество публикуемых данных пока невелико с одной стороны, с другой стороны видно что сама тема для страны актуальна и национальный и остальные порталы открытых данных развиваются.
Ссылки:
[1] https://data.gov.vn
[2] https://opendata.hochiminhcity.gov.vn
[3] https://dulieu.itrithuc.vn
[4] https://repository.vnu.edu.vn
[5] https://english.mic.gov.vn/Pages/TinTuc/154612/PM-asks-Viettel-group-to-take-lead-in-digital-transformation.html
[6] https://opendata.danang.gov.vn/
#opendata #opengov #vietnam #casestudies
В 2020 году во Вьетнаме создали государственный портал открытых данных data.gov.vn [1] который является местом для публикации данных и агрегатором данных из других репозиториев и порталов, таких как портал открытых данных города Хошимин [2] и многих других.
Портал создан на основе проекта портала данных Национального бюро информационных наук и технологий [3] который, в первую очередь агрегировал данные университетов и исследовательских центров.
Важно отметить что хотя на портале декларируется более 10 616 наборов данных, по факту, из них 10 045 - это наборы данных из научного репозитория Ханойского национального университета [4] где 99% материалов - это книги и публикации. То есть в реальности на портале менее 600 наборов данных, но даже если так важен сам факт его наличия в коммунистической азиатской стране где цифровой трансформацией занимается государственный военный холдинг [5].
Кроме того на национальный портал ещё и многие данные просто не попадают, например, с портала данных города Дананг [6], а то есть у портала даже как агрегатора есть куда развиваться.
Все порталы во Вьетнаме делают на базе движка с открытым кодом CKAN, работа порталах построена скорее по модели open by default и качество публикуемых данных пока невелико с одной стороны, с другой стороны видно что сама тема для страны актуальна и национальный и остальные порталы открытых данных развиваются.
Ссылки:
[1] https://data.gov.vn
[2] https://opendata.hochiminhcity.gov.vn
[3] https://dulieu.itrithuc.vn
[4] https://repository.vnu.edu.vn
[5] https://english.mic.gov.vn/Pages/TinTuc/154612/PM-asks-Viettel-group-to-take-lead-in-digital-transformation.html
[6] https://opendata.danang.gov.vn/
#opendata #opengov #vietnam #casestudies
В рубрике что читать регулярно, подборка рассылок для полезного чтения про данные и технологии.
Проектирование систем
- ByteByteGo [1] регулярная рассылка по системному дизайну с большим числом наглядных визуализаций от автора System Design Interview. Очень доходчиво, для начинающих - обязательно, для опытных в технологиях - полезно
Инженерия данных
- Data Engineering Weekly [2] известная рассылка по инженерии данных. Ничего сверх выдающегося, ничего лишнего. Минимальные комментарии составителя, много ссылок на корпоративные публикации про их стеки данных.
Data Science
- The Sequence [3] рассылка с материалами по ИИ в режиме weekly curated digest (еженедельная отбираемая подборка). Не слишком технично чтобы читать не только учёным, не слишком популярно чтобы был полной ерундой.
Открытые данные
- The Week in Data [4] рассылка от Open Data Institute (UK) про открытые данные и практики обмена данными (data sharing). Половина про их дела, половина про новости по миру.
Ссылки:
[1] https://blog.bytebytego.com
[2] https://www.dataengineeringweekly.com/
[3] https://thesequence.substack.com
[4] https://theodi.org/knowledge-opinion/the-week-in-data/
#readings #data #mailing
Проектирование систем
- ByteByteGo [1] регулярная рассылка по системному дизайну с большим числом наглядных визуализаций от автора System Design Interview. Очень доходчиво, для начинающих - обязательно, для опытных в технологиях - полезно
Инженерия данных
- Data Engineering Weekly [2] известная рассылка по инженерии данных. Ничего сверх выдающегося, ничего лишнего. Минимальные комментарии составителя, много ссылок на корпоративные публикации про их стеки данных.
Data Science
- The Sequence [3] рассылка с материалами по ИИ в режиме weekly curated digest (еженедельная отбираемая подборка). Не слишком технично чтобы читать не только учёным, не слишком популярно чтобы был полной ерундой.
Открытые данные
- The Week in Data [4] рассылка от Open Data Institute (UK) про открытые данные и практики обмена данными (data sharing). Половина про их дела, половина про новости по миру.
Ссылки:
[1] https://blog.bytebytego.com
[2] https://www.dataengineeringweekly.com/
[3] https://thesequence.substack.com
[4] https://theodi.org/knowledge-opinion/the-week-in-data/
#readings #data #mailing
Bytebytego
ByteByteGo Newsletter | Alex Xu | Substack
Explain complex systems with simple terms, from the authors of the best-selling system design book series. Join over 1,000,000 friendly readers. Click to read ByteByteGo Newsletter, a Substack publication.
Может ли открытый код помочь построить открытое общество?
Одноимённая статья Can open-source technologies support open societies? [1] от The Brookings Institution о том что открытый код может помочь в построении открытых обществ и помочь в достижении целей устойчивого развития.
Всё это актуально в рамках "Дорожной карты цифровой кооперации" опубликованной в ООН в 2020 г. [2]
Общая идея в том что, да, открытый код и общественная цифровая инфраструктура (digital public infrastructure) способны создавать новые экосистемы, но важно помнить что происходит это только при целенаправленных шагах в этом направлении.
Статья полезная и отражает международную повестку продвигаемую ООН с практической точки зрения.
Ссылки:
[1] https://www.brookings.edu/research/can-open-source-technologies-support-open-societies/
[2] https://www.un.org/en/content/digital-cooperation-roadmap/
#opensource #un #readings
Одноимённая статья Can open-source technologies support open societies? [1] от The Brookings Institution о том что открытый код может помочь в построении открытых обществ и помочь в достижении целей устойчивого развития.
Всё это актуально в рамках "Дорожной карты цифровой кооперации" опубликованной в ООН в 2020 г. [2]
Общая идея в том что, да, открытый код и общественная цифровая инфраструктура (digital public infrastructure) способны создавать новые экосистемы, но важно помнить что происходит это только при целенаправленных шагах в этом направлении.
Статья полезная и отражает международную повестку продвигаемую ООН с практической точки зрения.
Ссылки:
[1] https://www.brookings.edu/research/can-open-source-technologies-support-open-societies/
[2] https://www.un.org/en/content/digital-cooperation-roadmap/
#opensource #un #readings
Brookings
Can open-source technologies support open societies?
Victoria Welborn and George Ingram explore digital public goods as drivers of inclusion and products through which to standardize and safeguard rights.
Если Вы используете <что угодно>, то за Вами следят
Скоро это будет универсальным заголовком, потому что экономика слежки, surveillance capitalism, также называемая надзорным капитализмом устроена так что даже если Вы ничего не имеете и никому не нужны за Вами всё равно следят, а если тратите и деньги у Вас есть, то следят гарантированно и повсеместно.
Свежая новость, ТикТок поймали на слежке через браузер встроенный приложение [1], собственно не только ТикТок, но и многие другие встраиватели браузеров в аппы стали внедрять в просматриваемый HTML код возможность отслеживания действий пользователей.
Но ТикТок пошёл дальше всех и начал отслеживать вообще ВСЕ действия который пользователь делал при открытии страницы: нажатые клавиши и тд. Поймали это с помощью сервиса InAppBrowser.com который можно открыть в одном из приложений на iPhone и убедиться в том что код внедрен в тело страницы. Таким же образом недавно поймали Meta [2] ровно на том же самом.
Для тех кто хочет технических подробностей, автор находок Felix Krause рассказывает о них у себя в блоге [3]
Ссылки:
[1] https://www.forbes.com/sites/richardnieva/2022/08/18/tiktok-in-app-browser-research/
[2] https://www.theguardian.com/technology/2022/aug/11/meta-injecting-code-into-websites-visited-by-its-users-to-track-them-research-says
[3] https://krausefx.com/blog/ios-privacy-instagram-and-facebook-can-track-anything-you-do-on-any-website-in-their-in-app-browser
#privacy #mobileapps #facebook #tiktok
Скоро это будет универсальным заголовком, потому что экономика слежки, surveillance capitalism, также называемая надзорным капитализмом устроена так что даже если Вы ничего не имеете и никому не нужны за Вами всё равно следят, а если тратите и деньги у Вас есть, то следят гарантированно и повсеместно.
Свежая новость, ТикТок поймали на слежке через браузер встроенный приложение [1], собственно не только ТикТок, но и многие другие встраиватели браузеров в аппы стали внедрять в просматриваемый HTML код возможность отслеживания действий пользователей.
Но ТикТок пошёл дальше всех и начал отслеживать вообще ВСЕ действия который пользователь делал при открытии страницы: нажатые клавиши и тд. Поймали это с помощью сервиса InAppBrowser.com который можно открыть в одном из приложений на iPhone и убедиться в том что код внедрен в тело страницы. Таким же образом недавно поймали Meta [2] ровно на том же самом.
Для тех кто хочет технических подробностей, автор находок Felix Krause рассказывает о них у себя в блоге [3]
Ссылки:
[1] https://www.forbes.com/sites/richardnieva/2022/08/18/tiktok-in-app-browser-research/
[2] https://www.theguardian.com/technology/2022/aug/11/meta-injecting-code-into-websites-visited-by-its-users-to-track-them-research-says
[3] https://krausefx.com/blog/ios-privacy-instagram-and-facebook-can-track-anything-you-do-on-any-website-in-their-in-app-browser
#privacy #mobileapps #facebook #tiktok
Forwarded from Инфокультура
Инфокультура провела новое исследование приватности мобильных приложений. На этот раз в фокусе — новый магазин мобильных приложений для Android RuStore. Он рекомендован для предустановки на продаваемые смартфоны в России.
Мы изучили данные о 1014 мобильных приложениях и обнаружили 820 приложений (87,8%), которые имеют как минимум один отслеживающий трекер в коде. Для них характерно следующее:
1. По числу приложений, трекеры которых в них установлены, лидируют юрисдикции: США, Россия и Китай. В 93,8% таких приложений используются трекеры компаний США.
2. Российские трекеры, в основном от компаний «Яндекс» и VK, используются 3 477 (58%) приложениях.
4. Всего в 44 приложениях установлены чисто российские трекеры, без соседства с трекерами иных юрисдикций.
5. Только в 17 приложениях нет ни одного разрешения к функциям и данным устройства, а также нет ни одного установленного трекера.
6. Из потенциально опасных разрешений в приложениях чаще всего встречаются: доступ на чтение и запись в хранилище данных, доступ к камере, доступ к точному и приблизительному местоположению, получению информации об устройстве и записи аудио.
7. Из 29 приложений, в которых установлено 10 и более опасных разрешений, 10 приложений — принадлежат компании VK.
8. Больше всего таких разрешений запрашивают приложения «VK Звонки», «Одноклассники», «ICQ», которые принадлежат компании VK.
Подробнее о результатах анализа читайте: https://rustoreprivacy.infoculture.ru.
Мы изучили данные о 1014 мобильных приложениях и обнаружили 820 приложений (87,8%), которые имеют как минимум один отслеживающий трекер в коде. Для них характерно следующее:
1. По числу приложений, трекеры которых в них установлены, лидируют юрисдикции: США, Россия и Китай. В 93,8% таких приложений используются трекеры компаний США.
2. Российские трекеры, в основном от компаний «Яндекс» и VK, используются 3 477 (58%) приложениях.
4. Всего в 44 приложениях установлены чисто российские трекеры, без соседства с трекерами иных юрисдикций.
5. Только в 17 приложениях нет ни одного разрешения к функциям и данным устройства, а также нет ни одного установленного трекера.
6. Из потенциально опасных разрешений в приложениях чаще всего встречаются: доступ на чтение и запись в хранилище данных, доступ к камере, доступ к точному и приблизительному местоположению, получению информации об устройстве и записи аудио.
7. Из 29 приложений, в которых установлено 10 и более опасных разрешений, 10 приложений — принадлежат компании VK.
8. Больше всего таких разрешений запрашивают приложения «VK Звонки», «Одноклассники», «ICQ», которые принадлежат компании VK.
Подробнее о результатах анализа читайте: https://rustoreprivacy.infoculture.ru.
Результаты свежего исследования Инфокультуры с анализом приватности (читай - слежки) 1014 мобильных приложений для Android опубликованных в магазине приложений RuStore.
Мы работали над ним около месяца, анализируя все опубликованные приложения на предмет тех разрешений которые затребуют на устройствах пользователей и наличия в них кода специальных библиотек (трекеров) используемых для слежки за потребителями.
Почему RuStore и приложения оттуда? Потому что усилиями Минцифры РФ и Правительства РФ именно этот магазин приложений стал официальным, фактически, нормативно закреплённым. Можно говорить о том что компания ВК и Правительство РФ теперь несут совокупную ответственность за то как приложения оттуда следят за нами.
Выводы [не]удивительные:
- большая часть приложения включает трекеры, требуют больше разрешений чем им реально может быть нужно, а сам магазин приложений не имеет стандартов верификации.
- большая часть приложений передают данные компаниям в юрисдикциях которые Правительство РФ называет "недружественными"
- даже госприложения включают трекеры, например компании Google, передающие данные о гражданах в другие страны и в BigTech корпорации
44 госприложения мы анализировали в прошлом году, но в этот раз решили подойти масштабнее и проанализировали 1014 приложений всех категорий. Было это дольше, но не менее увлекательно.
С результатами исследования мы публикуем все данные в CSV и исходный код по их подготовке [2].
Если будут сложности самостоятельного анализа данных в CSV и если Вы журналист или исследователь, хотите сделать собственную визуализацию или материал, свяжитесь с нами на infoculture@infoculture.ru, мы поможем․
Ссылки:
[1] https://rustoreprivacy.infoculture.ru
[2] https://github.com/infoculture/rustore-privacy/
#privacy #infoculture #android #mobileapps
Мы работали над ним около месяца, анализируя все опубликованные приложения на предмет тех разрешений которые затребуют на устройствах пользователей и наличия в них кода специальных библиотек (трекеров) используемых для слежки за потребителями.
Почему RuStore и приложения оттуда? Потому что усилиями Минцифры РФ и Правительства РФ именно этот магазин приложений стал официальным, фактически, нормативно закреплённым. Можно говорить о том что компания ВК и Правительство РФ теперь несут совокупную ответственность за то как приложения оттуда следят за нами.
Выводы [не]удивительные:
- большая часть приложения включает трекеры, требуют больше разрешений чем им реально может быть нужно, а сам магазин приложений не имеет стандартов верификации.
- большая часть приложений передают данные компаниям в юрисдикциях которые Правительство РФ называет "недружественными"
- даже госприложения включают трекеры, например компании Google, передающие данные о гражданах в другие страны и в BigTech корпорации
44 госприложения мы анализировали в прошлом году, но в этот раз решили подойти масштабнее и проанализировали 1014 приложений всех категорий. Было это дольше, но не менее увлекательно.
С результатами исследования мы публикуем все данные в CSV и исходный код по их подготовке [2].
Если будут сложности самостоятельного анализа данных в CSV и если Вы журналист или исследователь, хотите сделать собственную визуализацию или материал, свяжитесь с нами на infoculture@infoculture.ru, мы поможем․
Ссылки:
[1] https://rustoreprivacy.infoculture.ru
[2] https://github.com/infoculture/rustore-privacy/
#privacy #infoculture #android #mobileapps
Из-за сделки Яндекса с ВК наша новость про результаты исследования приватности мобильных приложений [1] слегка утопла, пишут о ней куда меньше чем хотелось бы, но актуальность оно сохранит ещё долго.
Я дополню несколькими важными тезисами которые в основную часть исследования не попали:
1. То что мы проанализировали - это статический анализ, он показывает наличие кода который предполагает передачу данных. Не анализировалось то какие приложения сами собирают и что для себя. Такие методики есть, но это сильно-сильно дольше и дороже, называется динамический анализ, делается стартапами вроде AppCensus.
2. Почему RuStore? Потому что он стал официальным государственным магазином приложений. Это его принципиально отличает от всех остальных магазинов приложений в России.
3. Что не успели - не успели сопоставить те же приложения в Google Play, трудоёмкость избыточна и выборочные проверки показали что разработчики не заморачиваются разными версиями приложения для разных магазинов приложений.
4. Что важно? У RuStore отсутствуют очень важные данные по популярности и числу скачиваний по приложениям. В результате сложно измерить "уровень вреда" по влиянию (impact) приложений, как говорят.
5. Что не стали делать? Не стали сознательно делать списки приложений которыми лучше не пользоваться и которые лучше заменить.
6. Что ещё можно было бы сделать в будущем? Добавить юридический анализ, посмотреть в условия использования и их соответствие фактической ситуации наличия трекеров внутри приложения.
Ссылки:
[1] https://t.me/begtin/4187
#android #mobileapps #privacy
Я дополню несколькими важными тезисами которые в основную часть исследования не попали:
1. То что мы проанализировали - это статический анализ, он показывает наличие кода который предполагает передачу данных. Не анализировалось то какие приложения сами собирают и что для себя. Такие методики есть, но это сильно-сильно дольше и дороже, называется динамический анализ, делается стартапами вроде AppCensus.
2. Почему RuStore? Потому что он стал официальным государственным магазином приложений. Это его принципиально отличает от всех остальных магазинов приложений в России.
3. Что не успели - не успели сопоставить те же приложения в Google Play, трудоёмкость избыточна и выборочные проверки показали что разработчики не заморачиваются разными версиями приложения для разных магазинов приложений.
4. Что важно? У RuStore отсутствуют очень важные данные по популярности и числу скачиваний по приложениям. В результате сложно измерить "уровень вреда" по влиянию (impact) приложений, как говорят.
5. Что не стали делать? Не стали сознательно делать списки приложений которыми лучше не пользоваться и которые лучше заменить.
6. Что ещё можно было бы сделать в будущем? Добавить юридический анализ, посмотреть в условия использования и их соответствие фактической ситуации наличия трекеров внутри приложения.
Ссылки:
[1] https://t.me/begtin/4187
#android #mobileapps #privacy
Telegram
Ivan Begtin
Результаты свежего исследования Инфокультуры с анализом приватности (читай - слежки) 1014 мобильных приложений для Android опубликованных в магазине приложений RuStore.
Мы работали над ним около месяца, анализируя все опубликованные приложения на предмет…
Мы работали над ним около месяца, анализируя все опубликованные приложения на предмет…
В рубрике интересных продуктов для работы с данными SurrealDb [1] свежая документоориентированная СУБД категории NewSQL позиционируемая создателями как облачная без-серверная СУБД.
Облачная версия у них ещё в разработке, а открытый код уже общедоступен, можно установить и тестировать на собственных задачах.
Внутри язык запросов похожий на SQL, но не SQL, называется https://SurrealQL [2] не поддерживающий JOIN'ы по изначальному его дизайну.
Причём код стал открытым только летом прошлого года [3], а на сентябрь обещают версию 1.0, однако сейчас он стремительно набирает популярность, порядка 1500+ лайков за август 2022 года и далее популярность нарастает.
Среди клиентских библиотек основная NodeJS, по позиционированию СУБД скорее под Jamstack чем под MDS (Modern Data Stack), так что для тех кто программирует на JS она может быть полезной находкой.
Ссылки:
[1] https://surrealdb.com
[2] https://surrealdb.com/docs/surrealql
[3] https://surrealdb.com/roadmap
#opensource #rdbms #datatools
Облачная версия у них ещё в разработке, а открытый код уже общедоступен, можно установить и тестировать на собственных задачах.
Внутри язык запросов похожий на SQL, но не SQL, называется https://SurrealQL [2] не поддерживающий JOIN'ы по изначальному его дизайну.
Причём код стал открытым только летом прошлого года [3], а на сентябрь обещают версию 1.0, однако сейчас он стремительно набирает популярность, порядка 1500+ лайков за август 2022 года и далее популярность нарастает.
Среди клиентских библиотек основная NodeJS, по позиционированию СУБД скорее под Jamstack чем под MDS (Modern Data Stack), так что для тех кто программирует на JS она может быть полезной находкой.
Ссылки:
[1] https://surrealdb.com
[2] https://surrealdb.com/docs/surrealql
[3] https://surrealdb.com/roadmap
#opensource #rdbms #datatools
SurrealDB
SurrealDB | The ultimate multi-model database for tomorrow's applications
SurrealDB is the ultimate database for tomorrow's serverless, jamstack, single-page, and traditional applications.
Если российские подсанкционные банки так хотят иметь приложения в аппсторе, то реально путь у них только один - разрабатыва́ть и публиковать открытые спецификации и API для доступа, так чтобы приложения были не для доступа к ним, а типа универсальные, для подключения к любому банку по этому стандарту. Примеры вроде OpenBanking в мире есть.
Но что-то мне подсказывает что ничего такого не будет.
#thoughts
Но что-то мне подсказывает что ничего такого не будет.
#thoughts
В журнале IEEE Spectum вышел обзор Top Programming Languages 2022 [1] о самых популярных языках программирования по категориям сводного рейтинга (spectrum), вакансий и трендов.
Там же у них методика [2] на основе частотности упоминаемости на различных ресурсах и
Python на 3-м месте в вакансиях и на первом в остальных. Чему я лично рад, поскольку Python вот уже много лет мой любимый язык программирования, не удивительна популярность Java, а вот SQL резко выбился в лидеры востребованности у работодателей.
В том же журнале об этом отдельная статья The Rise of SQL [3], но там даже не упоминают Modern Data Stack, унификацию языка запросов, восхождение dbt и тд. В общем у меня нет ощущения значительной глубины понимания из той заметки, но, их взгляд на происходящее имеет право на существование.
Для сравнения в исследовании JetBrains за прошлый год на первом месте был Javascript [4] и мне лично, наоборот, это не нравится, JS вообще не вызывает у меня симпатии с самого его зарождения. И у JetBrains в исследованиях гораздо популярнее и востребованнее Go и Rust и другие молодые языки разработки.
Поэтому к публикации в IEEE Spectrum надо бы относится с долей осторожности, но изучать и преподавать Python никогда не поздно;)
Ссылки:
[1] https://spectrum.ieee.org/top-programming-languages-2022
[2] https://spectrum.ieee.org/top-programming-languages-methods
[3] https://spectrum.ieee.org/the-rise-of-sql
[4] https://www.jetbrains.com/lp/devecosystem-2021/
#python #languages #programming
Там же у них методика [2] на основе частотности упоминаемости на различных ресурсах и
Python на 3-м месте в вакансиях и на первом в остальных. Чему я лично рад, поскольку Python вот уже много лет мой любимый язык программирования, не удивительна популярность Java, а вот SQL резко выбился в лидеры востребованности у работодателей.
В том же журнале об этом отдельная статья The Rise of SQL [3], но там даже не упоминают Modern Data Stack, унификацию языка запросов, восхождение dbt и тд. В общем у меня нет ощущения значительной глубины понимания из той заметки, но, их взгляд на происходящее имеет право на существование.
Для сравнения в исследовании JetBrains за прошлый год на первом месте был Javascript [4] и мне лично, наоборот, это не нравится, JS вообще не вызывает у меня симпатии с самого его зарождения. И у JetBrains в исследованиях гораздо популярнее и востребованнее Go и Rust и другие молодые языки разработки.
Поэтому к публикации в IEEE Spectrum надо бы относится с долей осторожности, но изучать и преподавать Python никогда не поздно;)
Ссылки:
[1] https://spectrum.ieee.org/top-programming-languages-2022
[2] https://spectrum.ieee.org/top-programming-languages-methods
[3] https://spectrum.ieee.org/the-rise-of-sql
[4] https://www.jetbrains.com/lp/devecosystem-2021/
#python #languages #programming
Wir dokumentieren Deutschland
В рубрике как это работает у них проект bund.de [1] и его основательница Лилит Виттманн. Лилит с волонтерами занимается тем что находит недокументированные государственные API, документируют их и выкладывают документацию на сайт bund.de помогая повторному использованию данных. Фактически выполняют за правительство Германии ту работу которую они должны делать сами. Например, во Франции этим занимается государственная компания Etalab создавшая каталог api.gouv.fr
Из свежих работ Лилит и её команды - это превращение торгового реестра Германии (аналога российского ЕГРЮЛа) в машиночитаемую форму. С 1 августа в Германии он стал "открытым", но лишь частично, не в виде открытых данных. Она пишет у себя в блоге о том как они обрабатывают эти данные и собирают набор данных [2]. В общий доступ они его не выкладывают, но можно заполнить форму и получить их для исследовательских целей (это около 100ГБ).
То что делает Лилит и команда волонтеров - это то что волонтеры в Германии, Великобритании, России и т.д. делали ещё 10 лет назад. До появления национальных порталов открытых данных мы устраивали хакатоны и конкурсы по извлечению данных из открытых источников и превращению их в открытые данные.
Потом стали появлятся госинициативы, но не все из них были достаточно системы чтобы решить вопросы с доступом к данным, поэтому история ходит по кругу.
В прошлом году наша команда собрала более 100 открытых точек подключения к открытым недокументированным API информационных систем в России и сделать аналог bund.de или api.gouv.fr это несложно и быстро. Но время ещё, видимо, не пришло.
Кстати, Лилит Виттманн известна тем что когда-то вычислила секретное германское ведомство с помощью Airtag [3]. Так что боевая девушка, думаю что ещё станет депутатом Бундестага когда-нибудь или сделает политическую карьеру.
Ссылки:
[1] https://bund.de
[2] https://lilithwittmann.medium.com/bund-dev-wir-befreien-das-handelsregister-8168ad46b4e
[3] https://t.me/begtin/3473
#opendata #germany #opengov #api
В рубрике как это работает у них проект bund.de [1] и его основательница Лилит Виттманн. Лилит с волонтерами занимается тем что находит недокументированные государственные API, документируют их и выкладывают документацию на сайт bund.de помогая повторному использованию данных. Фактически выполняют за правительство Германии ту работу которую они должны делать сами. Например, во Франции этим занимается государственная компания Etalab создавшая каталог api.gouv.fr
Из свежих работ Лилит и её команды - это превращение торгового реестра Германии (аналога российского ЕГРЮЛа) в машиночитаемую форму. С 1 августа в Германии он стал "открытым", но лишь частично, не в виде открытых данных. Она пишет у себя в блоге о том как они обрабатывают эти данные и собирают набор данных [2]. В общий доступ они его не выкладывают, но можно заполнить форму и получить их для исследовательских целей (это около 100ГБ).
То что делает Лилит и команда волонтеров - это то что волонтеры в Германии, Великобритании, России и т.д. делали ещё 10 лет назад. До появления национальных порталов открытых данных мы устраивали хакатоны и конкурсы по извлечению данных из открытых источников и превращению их в открытые данные.
Потом стали появлятся госинициативы, но не все из них были достаточно системы чтобы решить вопросы с доступом к данным, поэтому история ходит по кругу.
В прошлом году наша команда собрала более 100 открытых точек подключения к открытым недокументированным API информационных систем в России и сделать аналог bund.de или api.gouv.fr это несложно и быстро. Но время ещё, видимо, не пришло.
Кстати, Лилит Виттманн известна тем что когда-то вычислила секретное германское ведомство с помощью Airtag [3]. Так что боевая девушка, думаю что ещё станет депутатом Бундестага когда-нибудь или сделает политическую карьеру.
Ссылки:
[1] https://bund.de
[2] https://lilithwittmann.medium.com/bund-dev-wir-befreien-das-handelsregister-8168ad46b4e
[3] https://t.me/begtin/3473
#opendata #germany #opengov #api
В рубрике о нас пишут, о нашем исследовании приватности мобильных приложений написали:
- Эксперты оценили долю американских трекеров в RuStore РБК
- «Инфокультура» исследовала приватность мобильных приложений в RuStore Роскомсвобода
- Почти 90% приложений в RuStore имеют встроенный иностранный трекер Runet.News
- В приложениях российского магазина RuStore нашли зарубежные модули слежки Ferra
а также ещё пара десятков СМИ и телеграм каналов.
Не менее важно кто ничего о нём не написал: CNews, Коммерсант, Ведомости и ещё ряд изданий. Как говорится, Бог простит, а я запишу (с) ;)
Это не последнее наше исследование, будут и другие и не только про мобильные приложения.
#research #privacy #mobileapps
- Эксперты оценили долю американских трекеров в RuStore РБК
- «Инфокультура» исследовала приватность мобильных приложений в RuStore Роскомсвобода
- Почти 90% приложений в RuStore имеют встроенный иностранный трекер Runet.News
- В приложениях российского магазина RuStore нашли зарубежные модули слежки Ferra
а также ещё пара десятков СМИ и телеграм каналов.
Не менее важно кто ничего о нём не написал: CNews, Коммерсант, Ведомости и ещё ряд изданий. Как говорится, Бог простит, а я запишу (с) ;)
Это не последнее наше исследование, будут и другие и не только про мобильные приложения.
#research #privacy #mobileapps
РБК
Эксперты оценили долю американских трекеров в RuStore
Почти 90% приложений из магазина RuStore используют иностранные трекеры — они могут собирать как техошибки, так и данные пользователей. Создатель маркетплейса — холдинг VK подчеркивает: на безопасность данных это не влияет
В рубрике больших наборов данных, базы событий в Github.
Github - это крупнейшая в мире платформа по работу с открытым кодом, с открытым API и возможностью отслеживать собственные и чужие репозитории кода. Она часто является объектом работы исследователей и существует несколько крупных слепков данных по событиям на платформе.
GHTorrent [1] большой слепок данных за 2019-2020 годы, не обновлявшийся с июля 2020 года. Удобно что сразу можно скачать в формате MongoDB, неудобно неактуальностью
GHArchive [2] база из 20+ событий в Github, в виде файлов дампов для выгрузки и обработки․ Пишут правда что в данных есть существенные пробелы [3].
Копия базы из GHArchive есть в онлайн базе Clickhouse [4] на декабрь 2020 года. Доступ удобнее, но пробелы и устаревание присутствуют.
Альтернативные способы - это использовать открытое API проекта Software Heritage [5] или API самого Github [6]․
Ссылки:
[1] https://ghtorrent.org/
[2] https://www.gharchive.org/
[3] https://medium.com/@jennysahng/how-to-mine-github-data-in-2022-e9c70b3f61d3
[4] https://ghe.clickhouse.tech/
[5] https://archive.softwareheritage.org/api/
[6] https://docs.github.com/en/rest
#opendata #datasets #opensource
Github - это крупнейшая в мире платформа по работу с открытым кодом, с открытым API и возможностью отслеживать собственные и чужие репозитории кода. Она часто является объектом работы исследователей и существует несколько крупных слепков данных по событиям на платформе.
GHTorrent [1] большой слепок данных за 2019-2020 годы, не обновлявшийся с июля 2020 года. Удобно что сразу можно скачать в формате MongoDB, неудобно неактуальностью
GHArchive [2] база из 20+ событий в Github, в виде файлов дампов для выгрузки и обработки․ Пишут правда что в данных есть существенные пробелы [3].
Копия базы из GHArchive есть в онлайн базе Clickhouse [4] на декабрь 2020 года. Доступ удобнее, но пробелы и устаревание присутствуют.
Альтернативные способы - это использовать открытое API проекта Software Heritage [5] или API самого Github [6]․
Ссылки:
[1] https://ghtorrent.org/
[2] https://www.gharchive.org/
[3] https://medium.com/@jennysahng/how-to-mine-github-data-in-2022-e9c70b3f61d3
[4] https://ghe.clickhouse.tech/
[5] https://archive.softwareheritage.org/api/
[6] https://docs.github.com/en/rest
#opendata #datasets #opensource
В рубрике как это работает у них Атлас биоразнообразия Австралии [1]
Это большой национальный исследовательский проект по консолидации всех исследовательских данных о флоре и фауне Австралии. Он объединяет данные десятков биобанков страны и на нём опубликовано более 11 тысяч наборов данных [2] большая часть которых - это списки/подборки видов животных и растений по типу и месту.
В атласе собрано уже более 113 миллионов записей и значительная их часть - это материалы собираемые проектами гражданских учёных (citizen scientists) и оцифрованные прямой грантовой поддержкой.
В Австралии существует 644 гражданских проекта сбора информации о животных [3], специальное мобильное приложение BioCollect App [4].
А также ежегодно по грантовой программе можно получить от 20 до 50 тысяч австралийских долларов на оцифровку существующих архивов в рамках Australian Biodiversity Data Mobilisation Program [5]. То есть, если какой-то музей или университет Австралии хочет оцифровать и выложить данные по своей коллекции фотографий кенгуру или записок полевых исследователей, то у них есть возможность претендовать на грант и компенсировать хотя бы часть расходов.
При достаточно простых условиях:
- эти данные уже должны существовать, оплачивается их оцифровка
- они должны быть связаны с национальными приоритетами
- в форме записей о встречаемости видов
- в виде открытых данных и с соблюдением стандарта Darwin Core
Ссылки:
[1] https://www.ala.org.au
[2] https://collections.ala.org.au/datasets
[3] https://biocollect.ala.org.au/acsa#isCitizenScience%3Dtrue%26max%3D30%26sort%3DdateCreatedSort
[4] https://www.ala.org.au/biocollect-mobile-apps/
[5] https://www.ala.org.au/blogs-news/the-ala-australian-biodiversity-data-mobilisation-program/
#opendata #datasets #australia
Это большой национальный исследовательский проект по консолидации всех исследовательских данных о флоре и фауне Австралии. Он объединяет данные десятков биобанков страны и на нём опубликовано более 11 тысяч наборов данных [2] большая часть которых - это списки/подборки видов животных и растений по типу и месту.
В атласе собрано уже более 113 миллионов записей и значительная их часть - это материалы собираемые проектами гражданских учёных (citizen scientists) и оцифрованные прямой грантовой поддержкой.
В Австралии существует 644 гражданских проекта сбора информации о животных [3], специальное мобильное приложение BioCollect App [4].
А также ежегодно по грантовой программе можно получить от 20 до 50 тысяч австралийских долларов на оцифровку существующих архивов в рамках Australian Biodiversity Data Mobilisation Program [5]. То есть, если какой-то музей или университет Австралии хочет оцифровать и выложить данные по своей коллекции фотографий кенгуру или записок полевых исследователей, то у них есть возможность претендовать на грант и компенсировать хотя бы часть расходов.
При достаточно простых условиях:
- эти данные уже должны существовать, оплачивается их оцифровка
- они должны быть связаны с национальными приоритетами
- в форме записей о встречаемости видов
- в виде открытых данных и с соблюдением стандарта Darwin Core
Ссылки:
[1] https://www.ala.org.au
[2] https://collections.ala.org.au/datasets
[3] https://biocollect.ala.org.au/acsa#isCitizenScience%3Dtrue%26max%3D30%26sort%3DdateCreatedSort
[4] https://www.ala.org.au/biocollect-mobile-apps/
[5] https://www.ala.org.au/blogs-news/the-ala-australian-biodiversity-data-mobilisation-program/
#opendata #datasets #australia
Atlas of Living Australia
Home
Для тех кто проектирует продукты на данных Data Product Canvas [1] нарисованный профессором Leandro Carvalho и доступный всем желающим.
Правда не он первый рисующий подобное. Например, похожий по смыслу и иной по стилю есть от команды Know-Center GmbH, Graz [2] в Австрии.
А если поискать то найдется и ещё. Такие штуки полезны при проектировании продуктов основанных на данных, возможно какие-то даже стоит перевести на русский язык.
Ссылки:
[1]https://medium.com/@leandroscarvalho/data-product-canvas-a-practical-framework-for-building-high-performance-data-products-7a1717f79f0
[2] https://aisel.aisnet.org/bled2020/8/
#itarchitecture #itdesign #data #dataproducts
Правда не он первый рисующий подобное. Например, похожий по смыслу и иной по стилю есть от команды Know-Center GmbH, Graz [2] в Австрии.
А если поискать то найдется и ещё. Такие штуки полезны при проектировании продуктов основанных на данных, возможно какие-то даже стоит перевести на русский язык.
Ссылки:
[1]https://medium.com/@leandroscarvalho/data-product-canvas-a-practical-framework-for-building-high-performance-data-products-7a1717f79f0
[2] https://aisel.aisnet.org/bled2020/8/
#itarchitecture #itdesign #data #dataproducts