Forwarded from Ах, этот Минфин (Olya Parkhimovich)
ФНС России загрузила в Государственный информационной ресурс бухгалтерской (финансовой) отчетности данные за 2020 год по 2,3 млн организаций.
В лучших традициях ФНС, данные по одной организации в виде веб-интерфейса доступны бесплатно, а за API придется заплатить (об этом прямо написано в пресс-релизе). Стоимость машиночитаемого удовольствия - 200 тыс. руб. в год.
Для интереса посмотрела, сколько примерно ФНС заработала на этих данных за предыдущий год - 12,2 млн руб., что примерно равняется 61 пользователю.
12 млн руб. - стоимость отсутствия в открытом доступе API (или хотя бы дампов данных) с обновляемыми сведениями о бухгалтерской финансовой отчетности компаний. Надеюсь, хотя бы налог на прибыль организации с этой суммы оплатили :).
ФНС не единственный орган, практикующий продажу данных. Пару лет назад (вряд ли что-то с тех пор изменилось) в продаже данных был замечен и Росстат, который не просто продавал данные компаниям и гражданам, а продавал их муниципальным (и, возможно, региональным) госорганам.
В лучших традициях ФНС, данные по одной организации в виде веб-интерфейса доступны бесплатно, а за API придется заплатить (об этом прямо написано в пресс-релизе). Стоимость машиночитаемого удовольствия - 200 тыс. руб. в год.
Для интереса посмотрела, сколько примерно ФНС заработала на этих данных за предыдущий год - 12,2 млн руб., что примерно равняется 61 пользователю.
12 млн руб. - стоимость отсутствия в открытом доступе API (или хотя бы дампов данных) с обновляемыми сведениями о бухгалтерской финансовой отчетности компаний. Надеюсь, хотя бы налог на прибыль организации с этой суммы оплатили :).
ФНС не единственный орган, практикующий продажу данных. Пару лет назад (вряд ли что-то с тех пор изменилось) в продаже данных был замечен и Росстат, который не просто продавал данные компаниям и гражданам, а продавал их муниципальным (и, возможно, региональным) госорганам.
В блоге Signal пост о том как их команда попыталась разместить рекламу в Инстаграм с информацией о тех критериях по которым она подбиралась в рекламной сети Facebook [1]. Всё это чтобы показать то сколько информации Facebook собирает о пользователе.
Аккаунт им быстро закрыли, без объяснения причин. Авторы подчёркивают что компании AdTech такие как Facebook собирают много данных, но не хотят чтобы другие знали о том что и в каком объёме они собирают.
Это, кстати, хорошая идея для мини-исследования/расследования которое может провести любой журналист в России. Разместить такие рекламные объявления во Vkontakte (Mail.ru) или в рекламной сети Яндекс. Но, скорее всего, рекламный аккаунт, также, закроют навсегда;)
Ссылки:
[1] https://signal.org/blog/the-instagram-ads-you-will-never-see/
#adtech #signal #ads #privacy #surveillance
Аккаунт им быстро закрыли, без объяснения причин. Авторы подчёркивают что компании AdTech такие как Facebook собирают много данных, но не хотят чтобы другие знали о том что и в каком объёме они собирают.
Это, кстати, хорошая идея для мини-исследования/расследования которое может провести любой журналист в России. Разместить такие рекламные объявления во Vkontakte (Mail.ru) или в рекламной сети Яндекс. Но, скорее всего, рекламный аккаунт, также, закроют навсегда;)
Ссылки:
[1] https://signal.org/blog/the-instagram-ads-you-will-never-see/
#adtech #signal #ads #privacy #surveillance
Twitter покупает Scroll [1], компанию создателей Nuzzel [2], автоматизированной рассылки на основе Ваших интересов, интересов друзей в Twitter и тд. Очень удобный сервис, я пользовался им много лет, через него получаю около 25% всех новостей о которых пишу тут на своём канале. Например, последняя новость про эксперименты Signal с рекламой в Facebook оттуда же. Twitter судя по всему планируют сделать эти функции частью своей платформы, что, конечно, совсем неплохо.
Но, жаль конечно, что анонс о покупке был 4 мая, а уже 6 мая сервис Nuzzel закрывается. Всё это в лучших традициях Yahoo, которые уничтожали многие свои покупки, но и не только. Больше похоже что внутри Twitter'а сервис рассылок уже на финальной стадии, Scroll они покупают для закрытия конкурента.
В своё время я перебрал несколько десятков сервисов мониторинга публикаций в СМИ и в соц сетях по нужным мне темам, и ничего универсального. Когда-то пробовал сделать на базе Paper.li [3], обнаружил плохое покрытие российских источников информации и так далее. В итоге остановился на нескольких рассылках таких как The GovLab digest, Nuzzel и ещё несколько. Поэтому закрытие Nuzzel расстраивает.
Ссылки:
[1] https://scroll.blog/2021/05/04/scroll-is-joining-twitter/
[2] https://nuzzel.com
[3] https://paper.li
#mailing #startups
Но, жаль конечно, что анонс о покупке был 4 мая, а уже 6 мая сервис Nuzzel закрывается. Всё это в лучших традициях Yahoo, которые уничтожали многие свои покупки, но и не только. Больше похоже что внутри Twitter'а сервис рассылок уже на финальной стадии, Scroll они покупают для закрытия конкурента.
В своё время я перебрал несколько десятков сервисов мониторинга публикаций в СМИ и в соц сетях по нужным мне темам, и ничего универсального. Когда-то пробовал сделать на базе Paper.li [3], обнаружил плохое покрытие российских источников информации и так далее. В итоге остановился на нескольких рассылках таких как The GovLab digest, Nuzzel и ещё несколько. Поэтому закрытие Nuzzel расстраивает.
Ссылки:
[1] https://scroll.blog/2021/05/04/scroll-is-joining-twitter/
[2] https://nuzzel.com
[3] https://paper.li
#mailing #startups
Совсем свежий открытый проект по контролю качества данных soda-sql [1] от создателей платформы мониторинга качества данных Soda [2]. Помимо того что сама платформа выглядит интересно, хотя и не применима в российских условиях госпроектов, к примеру, но сделана она с правильными акцентами на наблюдаемость данных и автоматизацию контроля качества. А тут ещё и soda-sql, можно сказать что инструмент из коробки для оценки пропусков в данных и подсчёта десятка разных метрик для оценки их качества. Для тех кто собирает собственные технологические стеки работы с данными - этот инструмент будет удобным дополнением.
Автоматизация контроля качества данных - это важная "фишка" современных платформ сбора и обработки данных поэтому за Soda стоит понаблюдать и далее, и как за решением с открытым кодом, и как за платформой.
Ссылки:
[1] https://github.com/sodadata/soda-sql
[2] https://www.soda.io/
#data #dataquality
Автоматизация контроля качества данных - это важная "фишка" современных платформ сбора и обработки данных поэтому за Soda стоит понаблюдать и далее, и как за решением с открытым кодом, и как за платформой.
Ссылки:
[1] https://github.com/sodadata/soda-sql
[2] https://www.soda.io/
#data #dataquality
GitHub
GitHub - sodadata/soda-sql: Soda SQL and Soda Spark have been deprecated and replaced by Soda Core. docs.soda.io/soda-core/overview.html
Soda SQL and Soda Spark have been deprecated and replaced by Soda Core. docs.soda.io/soda-core/overview.html - sodadata/soda-sql
По поводу инициативы МВД по созданию приложений по борьбе с телефонными спамерами [1], давайте будем честными, когда государство приходит на рынки где есть лучшего качества частные решения - это почти всего имеет за собой одну из 3-х причин:
1. Неэффективно потратить бюджетные средства.
2. Непонимание потребностей пользователей/граждан и некачественной госполитики в этой области.
3. Расширение полномочий/возможностей органов власти.
А иногда и все эти 3 причины вместе. В случае с созданием мобильного приложений от МВД я хочу обратить ваше внимание что у МВД и других силовых органов есть ограничения накладываемые на оперативно-розыскную деятельность (ОРД), ограничивающие запросы МВД к сотовым операторам и другим организациям. А имея под своим прямым контролем данные которые можно собрать таким сервисом можно многое собирать о гражданине и без ОРД.
Это всё +1 причина не пользоваться сотовой связью для звонков без острой необходимости.
Ссылки:
[1] https://vc.ru/legal/241427-mvd-do-konca-goda-zapustit-mobilnyy-servis-kotoryy-budet-preduprezhdat-o-zvonkah-moshennikov
#privacy #surveillance #mvd #russia
1. Неэффективно потратить бюджетные средства.
2. Непонимание потребностей пользователей/граждан и некачественной госполитики в этой области.
3. Расширение полномочий/возможностей органов власти.
А иногда и все эти 3 причины вместе. В случае с созданием мобильного приложений от МВД я хочу обратить ваше внимание что у МВД и других силовых органов есть ограничения накладываемые на оперативно-розыскную деятельность (ОРД), ограничивающие запросы МВД к сотовым операторам и другим организациям. А имея под своим прямым контролем данные которые можно собрать таким сервисом можно многое собирать о гражданине и без ОРД.
Это всё +1 причина не пользоваться сотовой связью для звонков без острой необходимости.
Ссылки:
[1] https://vc.ru/legal/241427-mvd-do-konca-goda-zapustit-mobilnyy-servis-kotoryy-budet-preduprezhdat-o-zvonkah-moshennikov
#privacy #surveillance #mvd #russia
vc.ru
МВД до конца года запустит мобильный сервис, который будет предупреждать о звонках мошенников — Право на vc.ru
Его создание обойдётся почти в 45 млн рублей.
Бизнес модель связанной с данными о которой я регулярно пишу - это предоставление большого объёма данных компаниями занимающимися хостингом и иной инфраструктурой. Хороший пример - Amazon с их реестром открытых данных большого объёма [1], данные можно скачивать откуда угодно, но гораздо удобнее из датацентров самого Amazon.
Другой пример - Microsoft Azure Open Datasets [2] с совершенно той же логикой и, похоже на них, Google BigQuery [3] и в этом списке я ранее не упоминал CreoDIAS (DIAS) [4], консорциум созданный CloudFerro, Wroclaw Institute of Spatial Information and Artificial Intelligence (WIZIPISI), Geomatys, Eversis и Sinergise [5] и имеющий контракт с Европейским космическим агенством (ESA).
CreoDIAS, как и все ранее упомянутые, работают преимущественно с открытыми данными от ESA, но и я рядом коммерческих поставщиков. Важнее объёмы данных - это 21.9 петабайт в архиве и около 20 терабайт ежедневные обновления. Большая часть данных, около 90%, это снимки спутников Sentinel 1, Sentinel 2, Sentinel 3.
Бизнес модель CreoDIAS в том что они предоставляют много тарифных планов для аренды серверов непосредственно подключённых к их ЦОДам и предположительно удешевляют стоимость обработки спутниковых данных и снимков.
В Евросоюзе организаторы хакатонов CASSINI [6] предоставляют доступ к инфраструктуре CreoDIAS для участников и дают возможность создавать космические ИТ проекты с доступом к этим данным.
Конечно этот пример не единственный, многие отраслевые банки данных всё более становятся гибридными сервисами совмещая доступ к данным, доступ к инструментам с облачной инфраструктурой. В нескольких формах такое уже есть в биоинформатике и иных data-rich областях медицины и фармацевтики и во многом другом.
Ссылки:
[1] http://registry.opendata.aws/
[2] https://azure.microsoft.com/en-us/services/open-datasets/
[3] https://cloud.google.com/bigquery/public-data
[4] https://creodias.eu
[5] https://creodias.eu/about-us
[6] https://hackathons.cassini.eu/
#opendata #satellite #hackathons #earthobservation #datahosting
Другой пример - Microsoft Azure Open Datasets [2] с совершенно той же логикой и, похоже на них, Google BigQuery [3] и в этом списке я ранее не упоминал CreoDIAS (DIAS) [4], консорциум созданный CloudFerro, Wroclaw Institute of Spatial Information and Artificial Intelligence (WIZIPISI), Geomatys, Eversis и Sinergise [5] и имеющий контракт с Европейским космическим агенством (ESA).
CreoDIAS, как и все ранее упомянутые, работают преимущественно с открытыми данными от ESA, но и я рядом коммерческих поставщиков. Важнее объёмы данных - это 21.9 петабайт в архиве и около 20 терабайт ежедневные обновления. Большая часть данных, около 90%, это снимки спутников Sentinel 1, Sentinel 2, Sentinel 3.
Бизнес модель CreoDIAS в том что они предоставляют много тарифных планов для аренды серверов непосредственно подключённых к их ЦОДам и предположительно удешевляют стоимость обработки спутниковых данных и снимков.
В Евросоюзе организаторы хакатонов CASSINI [6] предоставляют доступ к инфраструктуре CreoDIAS для участников и дают возможность создавать космические ИТ проекты с доступом к этим данным.
Конечно этот пример не единственный, многие отраслевые банки данных всё более становятся гибридными сервисами совмещая доступ к данным, доступ к инструментам с облачной инфраструктурой. В нескольких формах такое уже есть в биоинформатике и иных data-rich областях медицины и фармацевтики и во многом другом.
Ссылки:
[1] http://registry.opendata.aws/
[2] https://azure.microsoft.com/en-us/services/open-datasets/
[3] https://cloud.google.com/bigquery/public-data
[4] https://creodias.eu
[5] https://creodias.eu/about-us
[6] https://hackathons.cassini.eu/
#opendata #satellite #hackathons #earthobservation #datahosting
Microsoft
Open Datasets | Microsoft Azure
Use curated, public datasets to improve the accuracy of your machine learning models with Azure Open Datasets. Save time on data discovery and prep.
Вышел свежий законопроект про НСУД [1], я набросал свои мысли по его поводу, формат достаточно большой чтобы не поместилось в канал, но недостаточно для рассылки, поэтому в блоге [2] для разнообразия.
Мне скорее не нравится то что получается чем нравится. Опять нет ничего про открытость данных, в закон вписывают одну ФГИС и одну ГИС, а Правительству РФ дают ещё один инструмент прямого влияния на муниципалитеты.
Ссылки:
[1] https://regulation.gov.ru/p/115660
[2] https://begtin.tech/nsudlaw/
#data #nsud
Мне скорее не нравится то что получается чем нравится. Опять нет ничего про открытость данных, в закон вписывают одну ФГИС и одну ГИС, а Правительству РФ дают ещё один инструмент прямого влияния на муниципалитеты.
Ссылки:
[1] https://regulation.gov.ru/p/115660
[2] https://begtin.tech/nsudlaw/
#data #nsud
Ivan Begtin blog
Было ваше, стало государственное
На regulation опубликовали законопроект о НСУД [1], в виде проекта изменений в 149-ФЗ «Об информации, информационных технологиях и о защите информации», сейчас он должен проходить антикоррупционную экспертизу. Разрабатывали этот законопроект давно, наконец…
Одним из моих первых официальных мест работы в конце 90-х была небольшая телеком компания сидевшая в НИИ Радио, где я был сисадмином всякого телеком оборудования. В одной комнате сидели мы, в составе 4-5 человек собиравшие стенды из маршрутизаторов Motorola, адаптеров Cronyx и другого железа, которое потом развертывалось на далёких объектах для организации IP телефонии через спутниковые линки, а в соседней комнате уже какие-то дельцы (не удивлюсь что тогда бывшие или действующие сотрудники НИИ) организовали риэлторскую фирму. В самом институте только в нескольких местах/этажах тогда теплилась жизнь, так что мне ещё повезло что я был занят реальным делом.
Мне тогда довелось поездить по сибирским городам с ворохом железа в руках, поночевать в контейнерах, постах охраны, в серверных, понастраивать мониторинг оборудования через Tcl/Tk + Expect, постичь дзен в программировании на zsh и настройках маршрутизаторов и ещё много всего пригодившегося в будущем когда я много лет занимался программированием и автоматизацией тестирования ПО.
Всех сопричастным с Днём Радио!
Мне тогда довелось поездить по сибирским городам с ворохом железа в руках, поночевать в контейнерах, постах охраны, в серверных, понастраивать мониторинг оборудования через Tcl/Tk + Expect, постичь дзен в программировании на zsh и настройках маршрутизаторов и ещё много всего пригодившегося в будущем когда я много лет занимался программированием и автоматизацией тестирования ПО.
Всех сопричастным с Днём Радио!
На самом деле картинка не очень показательна, интереснее эти цифры выглядели бы в пропорциях:
- к расходам других крупнейших лоббистов
- к выручке этих компаний
- к капитализации этих компаний
и тд.
К сожалению, по России даже косвенно очень сложно измерить масштаб лоббирования цифровым бизнесом. Бизнес-модель другая, не цифровые конгломераты оказывают наибольшее влияние, а гос[банки/предприятия/корпорации] уходят в цифру.
#lobbying #it #digital
- к расходам других крупнейших лоббистов
- к выручке этих компаний
- к капитализации этих компаний
и тд.
К сожалению, по России даже косвенно очень сложно измерить масштаб лоббирования цифровым бизнесом. Бизнес-модель другая, не цифровые конгломераты оказывают наибольшее влияние, а гос[
#lobbying #it #digital
Forwarded from Венчур в картинках
Расходы технологических компаний на лоббирование своих интересов
Не думаю, что какое-то значение имеет сама сумма расходов, но тренд показателен.
@ventureinpics
Не думаю, что какое-то значение имеет сама сумма расходов, но тренд показателен.
@ventureinpics
В продолжение о подходах к каталогизации данных, управлении метаданными, в Towards Data Science заметка от Prukalpa, сооснователя Atlan, про проблемы с документированием данных и их подход к этой теме [1].
Публикация, конечно, больше похожа на пред-анонс продукта который они собираются продавать на своей платформе, но, сам подход 5WH1 (What, Why, Where, Who, When, and How) заслуживает внимания. В первую очередь значительным упрощением по сравнению с другими подходами к метаданным для наборов данных. Это, в принципе, характерно для всего рынка/коммерческих каталогов данных и систем управления метаданными в упрощении по умолчанию и расширению по необходимости. Почему? Потому что ведение метаданных - это тяжёлая ручная работа. Особенно тяжёлая поскольку многие дата сайентисты считают свою работу творческой, а сбор, описание и документирование наборов данных её самой тяжёлой стороной.
Я писал обо всём этом в рассылке:
- Наблюдаемость данных [2]
- Качество данных и всё что с ними связано [3]
- Стандарты работы с данными [4]
Если коротко, то документированность - это часть оценки качества данных. А качественные данные - это дорого, их надо такими создавать с самого начала, или прикладывать большие организационные усилия.
Частично я писал ранее в рассылках об этом, модели работы с метаданными делятся на примерно 5 типов:
- научный (давайте делать всё правильно, неспешно, стандартизируя и привязывая к предметной области потому что данные всегда привязаны к предметной области и главное чтобы было удобно исследователям которые в неё погружены)
- архивный (давайте сохранять всё так чтобы через 10-20 лет открыв описание мы могли бы повторно это всё использовать, долгосрочное сохранение важнее всего)
- общественно-государственный (давайте всё быстро-быстро вывалим в открытый доступ, принципиальная доступность важнее качества, поэтому минимум документации и метаданных)
- технологический (у нас куча информационных систем, нам надо их интегрировать и все они ещё и критически важные, потому мы отбираем самое критичное, описываем, навязываем правила по получению данных, много взаимодействуем с первоисточниками, меняем их правила по необходимости)
- коммерческий под data science (нам нужно чтобы разные команды дата саентистов могли обмениваться данными/инструментами/наработками, чтобы наработки не терялись после их ухода и всегда можно было бы объяснить как мы сделали те или иные выводы и снизить издержки на это всё по возможности)
Собственно и подходы к документированию, к ведению метаданных, к стоимости всего этого процесса зависят от подхода. К слову в НСУД (Национальная система управления данными) в РФ [5] пытаются строить по технологической модели. Это довольно дорогой процесс, неизбежный в проектах меньшего масштаба и существующий внутри всех крупных информационных систем, но крайне трудоёмкий и от того стоимость его велика. Там та же логика что и со СМЭВ, на самом деле, в текущей форме это и есть эволюция СМЭВ. Я об этом ещё отдельно напишу, даже со всеми оговорками, НСУД имеет перспективу стать самой дорогой системой в российском гос-ИТ.
Как бы то ни было под каждый подход есть свои продукты, компетенции по автоматизации, коммерческие и открытые решения и, на самом деле, мало чего-то универсального. Поэтому работа с документированием наборов данных начинается с вопроса: А какую задачу мы решаем?
Ссылки:
[1] https://towardsdatascience.com/data-documentation-woes-heres-a-framework-6aba8f20626c
[2] https://begtin.substack.com/p/2-
[3] https://begtin.substack.com/p/8-
[4] https://begtin.substack.com/p/11
[5] https://nsud.info.gov.ru/
#opendata #datasets
Публикация, конечно, больше похожа на пред-анонс продукта который они собираются продавать на своей платформе, но, сам подход 5WH1 (What, Why, Where, Who, When, and How) заслуживает внимания. В первую очередь значительным упрощением по сравнению с другими подходами к метаданным для наборов данных. Это, в принципе, характерно для всего рынка/коммерческих каталогов данных и систем управления метаданными в упрощении по умолчанию и расширению по необходимости. Почему? Потому что ведение метаданных - это тяжёлая ручная работа. Особенно тяжёлая поскольку многие дата сайентисты считают свою работу творческой, а сбор, описание и документирование наборов данных её самой тяжёлой стороной.
Я писал обо всём этом в рассылке:
- Наблюдаемость данных [2]
- Качество данных и всё что с ними связано [3]
- Стандарты работы с данными [4]
Если коротко, то документированность - это часть оценки качества данных. А качественные данные - это дорого, их надо такими создавать с самого начала, или прикладывать большие организационные усилия.
Частично я писал ранее в рассылках об этом, модели работы с метаданными делятся на примерно 5 типов:
- научный (давайте делать всё правильно, неспешно, стандартизируя и привязывая к предметной области потому что данные всегда привязаны к предметной области и главное чтобы было удобно исследователям которые в неё погружены)
- архивный (давайте сохранять всё так чтобы через 10-20 лет открыв описание мы могли бы повторно это всё использовать, долгосрочное сохранение важнее всего)
- общественно-государственный (давайте всё быстро-быстро вывалим в открытый доступ, принципиальная доступность важнее качества, поэтому минимум документации и метаданных)
- технологический (у нас куча информационных систем, нам надо их интегрировать и все они ещё и критически важные, потому мы отбираем самое критичное, описываем, навязываем правила по получению данных, много взаимодействуем с первоисточниками, меняем их правила по необходимости)
- коммерческий под data science (нам нужно чтобы разные команды дата саентистов могли обмениваться данными/инструментами/наработками, чтобы наработки не терялись после их ухода и всегда можно было бы объяснить как мы сделали те или иные выводы и снизить издержки на это всё по возможности)
Собственно и подходы к документированию, к ведению метаданных, к стоимости всего этого процесса зависят от подхода. К слову в НСУД (Национальная система управления данными) в РФ [5] пытаются строить по технологической модели. Это довольно дорогой процесс, неизбежный в проектах меньшего масштаба и существующий внутри всех крупных информационных систем, но крайне трудоёмкий и от того стоимость его велика. Там та же логика что и со СМЭВ, на самом деле, в текущей форме это и есть эволюция СМЭВ. Я об этом ещё отдельно напишу, даже со всеми оговорками, НСУД имеет перспективу стать самой дорогой системой в российском гос-ИТ.
Как бы то ни было под каждый подход есть свои продукты, компетенции по автоматизации, коммерческие и открытые решения и, на самом деле, мало чего-то универсального. Поэтому работа с документированием наборов данных начинается с вопроса: А какую задачу мы решаем?
Ссылки:
[1] https://towardsdatascience.com/data-documentation-woes-heres-a-framework-6aba8f20626c
[2] https://begtin.substack.com/p/2-
[3] https://begtin.substack.com/p/8-
[4] https://begtin.substack.com/p/11
[5] https://nsud.info.gov.ru/
#opendata #datasets
Medium
Data Documentation Woes? Here’s a Framework.
The principles and steps we used to build a documentation-first culture
Небольшая команда из стартапа Quickwit использовали базу Common Crawl (бесплатный открытый поисковый индекс) и создали игрушку автоподсказчик продолжения поисковой фразы [1].
Сервис позволяет продолжать слова существительными или прилагательными, например "Cats are carnivores" или "Cats are awesome".
В этом демо у них использовались текст около 1 миллиарда веб страниц, с общим индексом в 6.8 терабайт.
А стоимость всей инфраструктуры выходит в $1000 ежемесячно. Вообще больше всего это похоже на рекламу Amazon и их сервисов работы с данными, потому что при желании можно было бы существенно расходы сократить, но усилий надо было бы приложить существенно больше.
В любом случае получилась небольшая технологическая игрушка, весьма забавная.
Ссылки:
[1] https://common-crawl.quickwit.io
Сервис позволяет продолжать слова существительными или прилагательными, например "Cats are carnivores" или "Cats are awesome".
В этом демо у них использовались текст около 1 миллиарда веб страниц, с общим индексом в 6.8 терабайт.
А стоимость всей инфраструктуры выходит в $1000 ежемесячно. Вообще больше всего это похоже на рекламу Amazon и их сервисов работы с данными, потому что при желании можно было бы существенно расходы сократить, но усилий надо было бы приложить существенно больше.
В любом случае получилась небольшая технологическая игрушка, весьма забавная.
Ссылки:
[1] https://common-crawl.quickwit.io
Это как никогда острая и болезненная тема в том что первой реакцией государства на трагические события оказывается реакция по ограничению прав и свобод. Ключевая проблема не в анонимности в сети, а в отсутствии профилактики преступлений, в значительном падении роли участковых и так далее.
#privacy #anonymity
#privacy #anonymity
Forwarded from DRC LAW: IT-юристы
Опять началась широкая дискуссии по поводу анонимности в интернете.
После трагедии в Казане спикер Госдумы Вячеслав Володин предложил ограничить анонимность в Интернете. Покончить с анонимностью в соцсетях также предложили и в Общественной палате России, ссылаясь на международный опыт, в том числе опыт Австрии и Южной Кореи.
Следует сказать, что это уже не первая и не последняя попытка лишения российских пользователей анонимности. Власти и не отрицают своего желания деанонимизировать каждого в интернете, и даже несколько лет назад приняли неработающий закон об обязательной идентификации пользователей мессенджеров.
Однако все отсылки на международную практику являются не более чем манипуляцией общественным сознанием, не имеющей ничего общего с реальностью.
В 2019 году правящая партия Правительство Австрии действительно продвигала план по борьбе с языком ненависти, заставляя пользователей социальных сетей и онлайн-комментаторов сообщать подробности о своей реальной личности. Кроме того в том же году Правительство представило федеральный законопроект, получивший название «запрет на использование цифровых масок», который требовал бы от пользователей регистрацию на платформе и форумах с указанием имена и адреса, прежде чем они смогут оставить один комментарий. Однако после серьезной волны общественного обсуждения, Правительство Австрии отказалось от этих планов.
А в Южной Кореи Конституционный суд страны еще в 2012 году отменил нормы закона, обязывавшие интернет-пользователей, комментирующих сообщения, раскрывать свои настоящие имена. В постановлении было указано, что эти нормы ограничивают свободу слова в Южной Корее.
Как неоднократно отмечали в ООН, право на анонимность является фундаментальным правом человека и представляет из себя гарантию для реализации иных прав человека, в т.ч. права на свободу мнения и свободу слова.
Так что у вас есть право на анонимность. И любое наступление на это право следует воспринимать как наступление на базовые права человека, несовместимое с международными конвенциями. Не стоит обманывать себя самих. И ни в коем случае не давайте обманывать себя другим. Никакая деанонмизация не сделает нашу жизнь в онлайн или в оффлайне боле безопасной.
После трагедии в Казане спикер Госдумы Вячеслав Володин предложил ограничить анонимность в Интернете. Покончить с анонимностью в соцсетях также предложили и в Общественной палате России, ссылаясь на международный опыт, в том числе опыт Австрии и Южной Кореи.
Следует сказать, что это уже не первая и не последняя попытка лишения российских пользователей анонимности. Власти и не отрицают своего желания деанонимизировать каждого в интернете, и даже несколько лет назад приняли неработающий закон об обязательной идентификации пользователей мессенджеров.
Однако все отсылки на международную практику являются не более чем манипуляцией общественным сознанием, не имеющей ничего общего с реальностью.
В 2019 году правящая партия Правительство Австрии действительно продвигала план по борьбе с языком ненависти, заставляя пользователей социальных сетей и онлайн-комментаторов сообщать подробности о своей реальной личности. Кроме того в том же году Правительство представило федеральный законопроект, получивший название «запрет на использование цифровых масок», который требовал бы от пользователей регистрацию на платформе и форумах с указанием имена и адреса, прежде чем они смогут оставить один комментарий. Однако после серьезной волны общественного обсуждения, Правительство Австрии отказалось от этих планов.
А в Южной Кореи Конституционный суд страны еще в 2012 году отменил нормы закона, обязывавшие интернет-пользователей, комментирующих сообщения, раскрывать свои настоящие имена. В постановлении было указано, что эти нормы ограничивают свободу слова в Южной Корее.
Как неоднократно отмечали в ООН, право на анонимность является фундаментальным правом человека и представляет из себя гарантию для реализации иных прав человека, в т.ч. права на свободу мнения и свободу слова.
Так что у вас есть право на анонимность. И любое наступление на это право следует воспринимать как наступление на базовые права человека, несовместимое с международными конвенциями. Не стоит обманывать себя самих. И ни в коем случае не давайте обманывать себя другим. Никакая деанонмизация не сделает нашу жизнь в онлайн или в оффлайне боле безопасной.
РИА Новости
Володин предложил ограничить анонимность в интернете
Необходимо обсудить предложения по ограничению анонимности в интернете, считает спикер Госдумы Вячеслав Володин. РИА Новости, 11.05.2021
В рубрике интересных наборов данных данные Управления транспортной безопасности США которые еженедельно в PDF форматах публикуют статистику по пересечению границы США [1] с разбивкой до часа и конкретного терминала. ИТшник Mike Lorengo написал код по преобразованию этих документов в машиночитаемую форму и опубликовал вместе с данными [2] на Github и написал об этом всём на Reddit [3].
Причём он подошёл к делу системно, нарисовал схему сбора и обработки данных, задокументировал и визуализировал.
Для разбора PDF'ов использует Azure Form Recognizer [4], облачный сервис по распознаванию PDF форм.
Мне вспомнилось как я похожим образом анализировал данные о выездах скорой помощи в Москве около 10 лет назад. Тогда, в 2011 году существовал сайт Московского департамента здравоохранения mosgorzdrav.ru где публиковались ежесуточные сводки по выездам бригад скорой помощи. Данные там публиковались в HTML по заданному формату начиная с 2005 года, и их все я тогда выкачал и выложил в открытый репозиторий [5]. Вот так и было, открытых данных было мало, но собрать с сайтов можно было гораздо больше.
Сейчас по Москве таких данных уже и не найти. Но в PDF их публикуют, например, в ГБУЗ БСМП в Карелии в виде регулярных PDF отчетов [6] или в ГБУЗ Самарская СМП, правда, без истории, только за предыдущую неделю [7].
Надо попробовать пособирать подобные данные и обработать одним из облачных обработчиков PDF форм. Задачи то похожие.
Ссылки:
[1] https://www.tsa.gov/foia/readingroom
[2] https://github.com/mikelor/TsaThroughput
[3] https://www.reddit.com/r/datasets/comments/mx87q8/tsa_throughput_dataset_alternate_source/
[4] https://azure.microsoft.com/en-us/services/cognitive-services/form-recognizer/
[5] https://github.com/infoculture/mosgorzdrav
[6] https://muzbsmp.ru/o-gbuz-bsmp/operativnaja-informacija-o-rabote-skoroj-medicinskoj-pomocshi/informacija-o-rabote-vyezdnyh-brigad-i-dispetcherskoj-sluzhby/
[7] http://03samara.ru/page/operativnaja-svodka
#timeseries #data
Причём он подошёл к делу системно, нарисовал схему сбора и обработки данных, задокументировал и визуализировал.
Для разбора PDF'ов использует Azure Form Recognizer [4], облачный сервис по распознаванию PDF форм.
Мне вспомнилось как я похожим образом анализировал данные о выездах скорой помощи в Москве около 10 лет назад. Тогда, в 2011 году существовал сайт Московского департамента здравоохранения mosgorzdrav.ru где публиковались ежесуточные сводки по выездам бригад скорой помощи. Данные там публиковались в HTML по заданному формату начиная с 2005 года, и их все я тогда выкачал и выложил в открытый репозиторий [5]. Вот так и было, открытых данных было мало, но собрать с сайтов можно было гораздо больше.
Сейчас по Москве таких данных уже и не найти. Но в PDF их публикуют, например, в ГБУЗ БСМП в Карелии в виде регулярных PDF отчетов [6] или в ГБУЗ Самарская СМП, правда, без истории, только за предыдущую неделю [7].
Надо попробовать пособирать подобные данные и обработать одним из облачных обработчиков PDF форм. Задачи то похожие.
Ссылки:
[1] https://www.tsa.gov/foia/readingroom
[2] https://github.com/mikelor/TsaThroughput
[3] https://www.reddit.com/r/datasets/comments/mx87q8/tsa_throughput_dataset_alternate_source/
[4] https://azure.microsoft.com/en-us/services/cognitive-services/form-recognizer/
[5] https://github.com/infoculture/mosgorzdrav
[6] https://muzbsmp.ru/o-gbuz-bsmp/operativnaja-informacija-o-rabote-skoroj-medicinskoj-pomocshi/informacija-o-rabote-vyezdnyh-brigad-i-dispetcherskoj-sluzhby/
[7] http://03samara.ru/page/operativnaja-svodka
#timeseries #data
GitHub
GitHub - mikelor/TsaThroughput: Monitors the TSA Published Statistics, Downloads new PDF files and Saves as .json
Monitors the TSA Published Statistics, Downloads new PDF files and Saves as .json - GitHub - mikelor/TsaThroughput: Monitors the TSA Published Statistics, Downloads new PDF files and Saves as .json