Ivan Begtin

Для тех кто ищет очень большие открытые данные и кому очень хочется работать с действительно большими объемами информации - есть примеры подобных данных (и созданные не на государственных данных).

Проект N-gram counts and language models from the CommonCrawl [1] создает базу N-gram на базе веб-страниц собранных в рамках проекта Common Crawl [2]. Объемы данных там составляют терабайты в сжатом виде - от 4 до 15 терабайт в совокупности, а может быть и больше. Скачивать все не обязательно, можно ограничиться любимыми языками. Самое удивительное что о проекте мало кто знает, хотя ему уже более 3 лет.

Сравнимые по объемы данные о n-gram публикует только Google в проекте Ngram Viewer созданные на базе Google Books [3] раскрывая большие объемы данных по множеству языков, но несравнимые с данными из Common Crawl.

Для тех кто задается вопросом что такое N-грамма [4] - это последовательность из нескольких элементов, в случая языка, предполагается что это последовательность из нескольких слов.

Для русского языка и в рунете также есть открытый проект Open Corpora [5] основанный на текстах публикуемых сообществами, меньший по объему, но выверенный вручную.

Извлечение N-gram - это лишь один из способов работы с Common Crawl. Есть и другие, существуют примеры скриптов помогающих быстро и легко извлекать из веб-страниц номера телефонов или же другую полуструктурированную информацию. Наборы данных Common Crawl хорошо подходят когда есть алгоритмы и задачи которые нужно опробовать на миллионах доменов и миллиардах веб-страниц.

Ссылки:
[1] http://statmt.org/ngrams/
[2] http://commoncrawl.org/
[3] http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
[4] https://ru.wikipedia.org/wiki/N-%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0
[5] http://opencorpora.org/?page=downloads

#opendata #bigdata #commoncrawl

Wikipedia

N-грамма

N-грамма — последовательность из n элементов . С семантической точки зрения это может быть последовательность звуков, слогов, слов или букв. На практике чаще встречается N-грамма как ряд слов, устойчивые словосочетания называют коллокацией. Последовательность…

1.1K views11:06

Ivan Begtin

Большая статья-исследование на сайте Mozilla о том как компании обучающие ИИ используют Common Crawl "Training Data for the Price of a Sandwich"[1], статья подробная, авторы провели большую работу анализируя то как наборы данных на базе Common Crawl создавались и как они используются. Краткие выводы в том что Common Crawl сильно неполный и не вполне доверительный датасет из-за отсутствия одного контента и отсутствия фильтров на разного рода некачественный контент. Выводом там много, вплоть до идей о том что надо создавать альтернативу Common Crawl с этическими мыслями в голове.

Я с такими выводами соглашаться не готов, но они не отменяют полезности этого обзора. Напомню что Common Crawl - это некоммерческий проект по индексации интернета по аналогии с поисковым индексом Google, но доступного как базы данных, файлы и всё под свободными лицензиями. Проект был создан в 2007 году и в последние годы он почти весь хранится и обновляется на ресурсах Amazon.

Ссылки:
[1] https://foundation.mozilla.org/en/research/library/generative-ai-training-data/common-crawl/

#opendata #data #web #commoncrawl #ai #mozilla

Mozilla Foundation

Training Data for the Price of a Sandwich: Common Crawl’s Impact on Generative AI

Mozilla research finds that Common Crawl's outsized role in the generative AI boom has improved transparency and competition, but is also contributing to biased and opaque generative AI models.

1.6K viewsIvan Begtin, 13:24

About

Blog

Apps

Platform