Ivan Begtin

Сервис выдачи бесплатных TLS сертификатов для доменов Let's Encrypt [1] еще в феврале 2017 года стал наиболее популярным сервисом создания сертификатов, а в этом месяце достинг планки в 35%, это доля сертификатов выдаваемых Let's Encrypt, по оценке NetTrack [2]. Напомню что в мае 2016 года Let's Encrypt начинал свой взлет, но у него была доля в только 5% всех сертификатов.

Практически все коммерческие сервисы такие как Godaddy, Geotrust и Comodo теряют свою долю и пользователи все чаще подключают сертификаты Let's encrypt автоматически.

Эта история важна еще и тем что базовая безопасность перестала восприниматься как услуга и стала восприниматься как инфраструктура. В ситуации когда TLS должно быть базовым протоколом работы сети, то и раздачей сертификатов должна заниматься общественная организация. Пока все идет к тому что у коммерческих игроков через пару лет не останется тут вообще никаких шансов на заработок.

Но единственная ли это область где качественный недорогой некоммерческий сервис способен "убить рынок" ? Что будет если такие сервисы появились бы для электронного документооборота или бухгалтерских услуг?

Когда-то таким образом переструктурировался весь рынок электронной почты. Когда раздавая бесплатные почтовые аккаунты крупнейшие цифровые сервисы практически убили все сервисы платной электронной почты. На какое-то время.

Ссылки:
[1] https://letsencrypt.org/
[2] https://nettrack.info/ssl_certificate_issuers.html
[3] https://en.wikipedia.org/wiki/Let%27s_Encrypt

#internet #web #security

letsencrypt.org

Let's Encrypt

Let's Encrypt is a free, automated, and open certificate authority brought to you by the nonprofit Internet Security Research Group (ISRG). Read all about our nonprofit work this year in our 2023 Annual Report.

2.4K viewsIvan Begtin, edited 21:18

Ivan Begtin

12. Хуже этого может быть только если в определенный момент Правительство купит/национализирует Крипто-Про и заставит ставить его на все продаваемые в России компьютеры, смартфоны и другие устройства. А доступ к сайтам будет через Chromium-ГОСТ с поддержкой отечественной криптографии. Но во первых это будет дорого, во вторых сложно, и в третьих, ну просто всегда есть те кто в этом не заинтересован. Но если даже только промелькнет новость о чём-то подобным - помните, время паниковать. Потому что отечественная криптография - это один из наиболее легко обосновываемых и внедряемых способов нарушить сетевую нейтральность на страновом уровне.

#government #web #domains

3.1K viewsIvan Begtin, 22:14

Add a comment

Ivan Begtin

Почему необходимо архивировать государственные сайты? Потому что они исчезают. Например, архив ВАК существует за 2014-2019 годы [1]. А вот архив ВАК за 2004-2013 годы ранее располагался по адресу vak1.ed.gov.ru и уже недоступен [2] и неизвестно можно ли получить доступ к этим данным если сделать запрос в Минобрнауки РФ. И, конечно, нет какого-то централизованного официального архива выведенных из эксплуатации госсайтов и сайтов связанной с деятельностью госорганов и их подведов.

К счастью, конкретно этот сайт и ещё ряд сайтов из старой системы ВАКа были полностью нами заархивированы в 2017 году [3], но лежат они в виде WARC файлов в десятки гигабайт. Для поиска по этим материалам надо делать интерфейс на который в нашем цифровом архиве ruarxive.org [3] никогда не было достаточных ресурсов. И, по хорошему, вопрос долгосрочной доступности госданных должен быть государственной темой, а не общественной деятельностью.

А пока если Вам нужны архивные материалы ВАК с vak1.ed.gov.ru, то Вы знаете где их найти.

Ссылки:
[1] http://arhvak.minobrnauki.gov.ru/
[2] http://vak1.ed.gov.ru/
[3] https://hubofdata.ru/dataset?q=vak
[4] http://ruarxive.org

#archives #web #webarchive

ruarxive.org

Russian national digital archive (ruarxive.org) | Russian national digital archive (ruarxive.org)

Archive of digital-born websites, data, images, video and other objects

1.4K viewsIvan Begtin, 05:38

Ivan Begtin

В рубрике интересных наборов данных, база Web Data Commons - Schema.org Table Corpus [1] j опубликованный 29 марта 2021 года командой Web Data Commons [2], проекта Университета Манхейма. В наборе данных 4.2 миллиона таблиц в виде данных в формате schema.org [3] извлечённых из веб-страниц Common Crawl.

Исходный код экстрактора данных данных также доступен [4].

Хороший проект, интересные результаты, и реальная польза от Common Crawl как гигантской базы данных веб-страниц на основе которой проводятся многочисленные исследования. А для разного рода коммерческих проектов по агрегации данных это всё может быть интересным источником вдохновения.

Ссылки:
[1] http://webdatacommons.org/structureddata/schemaorgtables/
[2] http://webdatacommons.org/
[3] https://schema.org/
[4] http://webdatacommons.org/framework/index.html

#opendata #data #web #crawl

schema.org

Schema.org - Schema.org

Schema.org is a set of extensible schemas that enables webmasters to embed
structured data on their web pages for use by search engines and other applications.

1.5K viewsIvan Begtin, 13:39

Ivan Begtin

В рубрике интересных наборов данных OSCAR (Open Super-large Crawled Aggregated coRpus) Dataset 21.09 [1] многоязычный корпус текстов созданный на базе Common Crawl [2] с помощью ungoliant [3], специального приложения по потоковому извлечению текстов из дампов Common Crawl.

А также для тех ищет большие веб архивы WebTAP, Princeton Web Census Data Release [4] архив результатов сбора ежемесячного сбора данных с 2015 по 2019 годы по 1 миллиону сайтов сведений о измерении приватности. В общей сложности около 15 терабайт. Также, у них немало публикаций по результатам сбора этих данных. [5]

Ссылки:
[1] https://oscar-corpus.com/post/oscar-v21-09/
[2] http://commoncrawl.org
[3] https://github.com/oscar-corpus/ungoliant
[4] https://webtransparency.cs.princeton.edu/webcensus/data-release/
[5] https://webtap.princeton.edu/publications/

#web #datasets

1.3K viewsIvan Begtin, 12:11

Ivan Begtin

В рубрике больших открытых наборов данных HTTP Archive [1], большая открытая база по веб-технологиям собираемая из данных миллионов веб сайтов и составляющая почти 44ТБ данных и 8.4М сайтов на 2022 год.

Команда проекта состоит из волонтеров которые ежегодно актуализируют эту базу данных и подготавливают веб-альманах с рассказом о том как технологии меняются и развиваются. Альманах за 2022 год [2] был выпущен в сентябре 2022 г. и обновлен в октябре и включает много интересного, например, раздел про публикацию структурированных общедоступных данных в формах JSON-LD, микроформатах и тд. [3]. Интересный факт - структурированных данных всё больше, самые популярные форматы RDF и Open Graph.
Правда важно отметить что RDF - это RDFa и применяется, в основном, для отметки изображений с типом foaf:image. А вот использование microformats2 [4] совершенно минимальное.

Там очень много что есть изучить по производительности, разметке, приватности, безопасности и иным сведениям по датасету.

В качестве примера, любопытные языковые и страновые факты:
- русский язык указан на веб-страницах в HTML примерно 2% сайтов (входит в список наиболее популярных наравне с английским, немецким, испанским, португальским и японским)
- самые популярные "фабрики шрифтов" (font foundries) - это Google и Font Awesome
- кириллические шрифты вторые по распространённости после латинского письма
- 1С-Битрикс входит в топ-10 CMS, правда, с наихудшими, по сравнению с остальными, оценками доступности контента для людей с ограниченными возможностями

Важно то что все эти данные общедоступны через Google BigQuery․ К ним можно подключится и делать нужные выборки сведений, для чего есть подробное руководство [5].

Поэтому практически ничто не мешает использовать эти данные в собственных исследованиях.

Ссылки:
[1] https://httparchive.org/
[2] https://almanac.httparchive.org/en/2022/
[3] https://almanac.httparchive.org/en/2022/structured-data
[4] https://microformats.org/wiki/microformats2
[5] https://github.com/HTTPArchive/httparchive.org/blob/main/docs/gettingstarted_bigquery.md

#opendata #datasets #web

httparchive.org

The HTTP Archive

The HTTP Archive tracks how the web is built. We periodically crawl the top sites on the web and record detailed information about fetched resources, used web platform APIs and features, and execution traces of each page.

2.9K viewsIvan Begtin, 04:24

Ivan Begtin

В рубрике интересных наборов данных, небольшой, но полезный датасет проекта Caniuse [1] посвящённый тому какие веб-технологии поддерживают современные браузеры. Всего 530+ технологий и 19 браузеров из которых 6 настольных и 13 мобильных. Кроме того что информацию можно наглядно посмотреть на сайте или скачать в JSON формате.

Вообще это большая работа и один человек делает то что обычно делают исследовательские лаборатории в крупных компаниях или университетах.

Ссылки։
[1] https://caniuse.com/
[2] https://github.com/Fyrd/caniuse

#opendata #datasets #browsers #web

2.3K viewsIvan Begtin, 11:06

Ivan Begtin

Большая статья-исследование на сайте Mozilla о том как компании обучающие ИИ используют Common Crawl "Training Data for the Price of a Sandwich"[1], статья подробная, авторы провели большую работу анализируя то как наборы данных на базе Common Crawl создавались и как они используются. Краткие выводы в том что Common Crawl сильно неполный и не вполне доверительный датасет из-за отсутствия одного контента и отсутствия фильтров на разного рода некачественный контент. Выводом там много, вплоть до идей о том что надо создавать альтернативу Common Crawl с этическими мыслями в голове.

Я с такими выводами соглашаться не готов, но они не отменяют полезности этого обзора. Напомню что Common Crawl - это некоммерческий проект по индексации интернета по аналогии с поисковым индексом Google, но доступного как базы данных, файлы и всё под свободными лицензиями. Проект был создан в 2007 году и в последние годы он почти весь хранится и обновляется на ресурсах Amazon.

Ссылки:
[1] https://foundation.mozilla.org/en/research/library/generative-ai-training-data/common-crawl/

#opendata #data #web #commoncrawl #ai #mozilla

Mozilla Foundation

Training Data for the Price of a Sandwich: Common Crawl’s Impact on Generative AI

Mozilla research finds that Common Crawl's outsized role in the generative AI boom has improved transparency and competition, but is also contributing to biased and opaque generative AI models.

1.6K viewsIvan Begtin, 13:24

Ivan Begtin

В рубрике очень больших датасетов (хотя с чем сравнивать😏) проект The Web Data Commons [1] я о нём писал несколько раз, но всегда можно и повториться. Это проект по сбору и извлечению смысловых данных из поискового индекса Common Crawl. Common Crawl - это бесплатная и открытая альтернатива поисковому индексу Гугла и на его основе делают много чего, датасетов, исследований, продуктов.

В данном случае делают датасеты. Из интересного мне:
- датасеты разметки Schema.org [2]
- датасеты и анализ корпуса таблиц [2]

И там же ещё много датасетов на гигабайты и терабайты данных. Областей применения много, коммерческих и не очень.

Ссылки:
[1] https://webdatacommons.org
[2] https://webdatacommons.org/structureddata/schemaorg/
[3] http://webdatacommons.org/structureddata/schemaorgtables/2023/index.html

#opendata #datasets #web #entityrecognition

1.7K viewsIvan Begtin, edited 08:38

About

Blog

Apps

Platform