Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Reddit выпилился из всех поисковых систем кроме Google [1], а в гугле он до сих пор только из-за AI сделки которую они заключили. Правда мне не удалось воспроизвести это с Bing, но получилось с Яндексом. Такое ощущение что в индексе Яндекса остались только ссылки на сообщества и без описаний.

Это всё про будущее контентных проектов наглядно. Крупные контентные проекты будут банить не только AI краулеры, а все поисковые краулеры которые им не платят. В какой-то момент рекламная модель существования поисковиков может начать ломаться (а может уже ломается?)

Ссылки:
[1] https://9to5google.com/2024/07/24/reddit-search-engine-block-google-deal/

#search #ai #reddit
А вот и появился настоящий, а не выдуманный "убийца Google", а заодно и других поисковых систем и, возможно, Perplexity - это SearchGPT [1], продукт который OpenAI тестирует пока на 10 тысячах пользователей.

Поломает это, правда, не только бизнес модель поиска Гугла, но и Яндекса, и потенциально столкнётся с сильным раздражением владельцев контента.

Впрочем застать при этой жизни падение монополии Google на поиск - это было бы любопытно.

Ссылки:
[1] https://www.theverge.com/2024/7/25/24205701/openai-searchgpt-ai-search-engine-google-perplexity-rival

#ai #openai #searchgpt #google #search
На HuggingFace смешное приложение по генерации "бесконечных датасетов" [1]. Нет, сами датасеты оно не создаёт, пока что, только описания и разметку как будто они созданы.

Ссылки:
[1] https://huggingface.co/spaces/infinite-dataset-hub/infinite-dataset-hub

#ai #funny #humor #datasets
Ещё одна история которую бы отнести к теме юмора, но тут одновременно смешно и не смешно.

Deaddit [1] аналог Reddit'а для ИИ. Вопросы задают, на вопросы отвечают и комментируют ответы боты симулирующие людей разного социального профиля.

Для полноты эффекта нехватает только токсичности в коммуникациях которой так много в некоторых культурных средах, но и без неё разговоры выглядят достоверными. Слишком достоверными. Сколько уже таких ботов заполонило классические соцсети и насколько их станет больше в самое ближайшее время?

Ссылки:
[1] https://www.deaddit.xyz

#ai #reddit #humour
Свежий симпатичный поисковик по смыслам слов semantic grep [1] использует Word2Vec для выборки связанных по смыслу слов и уже их ищет по тексту.

Выглядит просто, симпатично, удобно для простого использования и под лицензией MIT. Опубликовано совсем недавно и аналогов такого я нигде не видел.

Если подумать то такую штуку можно было бы сделать с языковой моделью внутри или более сложными алгоритмами чем просто модель Word2Vec.

Лично я большой любитель командной строки и инструментов работы в ней, хороших поисковиков по текстовым файлам всегда нехватает (и всегда много!)

Ссылки:
[1] https://github.com/arunsupe/semantic-grep

#opensource #ai #commandline #tools #data
Свежий полезный ресурс про открытые данные о том как открытые данные пересекаются с генеративным ИИ, Observatory of Examples of How Open Data and Generative AI Intersect [1]

Много примеров применения ИИ в разных сферах, обученных на общедоступных и открытых данных. Например, меня заинтересовали исследования по применению ИИ в работе с судебными данными и текстами законов. Таких проектов 5 штук только в этой базе, а реально даже больше.

Большая тема, давно нехватает хорошего ассистента который бы вместо юриста мог бы дать простое и понятное объяснение той или иной нормы закона. Задача это, возможно, простая в некоторых кейса и сложная в
большинстве случаев. Например, обсуждается законопроект и хочется иметь чёткое структурированное описание его последствий.

По другим темам тоже немало примеров. Есть на что сослаться и о чём почитать.

Ссылки:
[1] https://repository.opendatapolicylab.org/genai

#opendata #generativeai #genai #ai
Полезное чтение про данные технологии и не только:
- DuckDB Spatial: Supercharged Geospatial SQL (GeoPython 2024) [1] не для чтения, а для просмотра. Супер лекция про то как работать с геоданными с помощью DuckDB. Очень хочется применить к следующему геопроекту.
- Europe PMC [2] европейский поисковик по статьям в области наук о жизни. Помимо ссылок на статьи, собирают их тексты, анализируют, выдают в результатах много дополнительной извлечённой информации о финансировании, данных на которые есть ссылки в статьях, цитировании и так далее.
- Why CSV is still king [3] автор нахваливает CSV формат за простоту и переносимость, и утверждает что он ещё долгое время будет популярен. Лично я считаю что он ошибается, скорее поддержка parquet или arrow появится в стандартных инструментах. Например, в сохранении из Excel или Google Spreadsheets или OpenOffice. В командной строке и так далее.
- A.I. May Save Us or May Construct Viruses to Kill Us [4] уже не столько про технологии сколько про видение будущего. ИИ может как спасать от пандемии, так и конструировать новые вирусы.
- BENEFICIAL OWNERSHIP TRANSPARENCY ACT, 2023 [5] 31 июля 2024 года, несколько дней назад вступил в силу закон об обязательном раскрытии конечных бенефициаров компаний на Каймановых островах. Видимо стоит вскоре ожидать что эти данные будут открыты и новых расследований?
- Inside Crowdstrike's Deployment Process [6] о том как был устроен процесс деплоймента обновлений у Crowdstrike. Очень поучительно и познавательно, особенно узнать о том что это было не обновление кода, а обновление конфигурации ПО и поэтому не проходило правильный и отработанный процесс тестирования. В общем, в компании забыли что configuration = code.

Ссылки:
[1] https://www.youtube.com/watch?v=hoyQnP8CiXE
[2] https://europepmc.org/
[3] https://konbert.com/blog/why-csv-is-still-king
[4] https://www.nytimes.com/2024/07/27/opinion/ai-advances-risks.html
[5] https://legislation.gov.ky/cms/images/LEGISLATION/PRINCIPAL/2023/2023-0013/BeneficialOwnershipTransparencyAct2023_Act%2013%20of%202023.pdf
[6] https://overmind.tech/blog/inside-crowdstrikes-deployment-process

#opendata #opensource #ai #tech #readings
Честно говоря не знаю по какому критерию они будут проверять что участники из одной из стран Кавказа или Средней Азии, по наличию гражданства или, может быть, сойдёт и ВНЖ. Во втором случае в хакатоне смогут принять многие приехавшие в эти страны из РФ.

В любом случае больше хакатонов интересных и разных.

#opendata #data #google #centralasia #caucasus #ai
This media is not supported in your browser
VIEW IN TELEGRAM
Наглядная визуализация с открытым кодом того что происходит внутри LLM моделей [1]. Исходный код доступен [2] как и научная статья от авторов Transformer Explainer: Interactive Learning of Text-Generative Models [3]

Ссылки:
[1] https://poloclub.github.io/transformer-explainer/
[2] https://github.com/poloclub/transformer-explainer
[3] https://arxiv.org/abs/2408.04619

#opensource #llm #ai #datatools
Полезные ссылки про технологии, данные и не только:
- Top Programming Languages 2024 [1] от IEEE Spectrum, для интриги не назову языки лидеры. Но всё очевидно:)
- GCSE results 2024: The main trends in grades and entries [2] лонгрид про данные результатов британского экзамена GCSE от Education Datalab.
- New Washington Post AI tool sifts massive data sets [3] в Axios о том что у Washington Post новый ИИ инструмент для просеивания данных, через него уже прогнали базу видеороликов кандидатов в президенты [4].
- Using Perplexity to prepare to job interview [5] автор описывает инструкции и шаблон промпт по подготовке к интервью компании на основании описания вакансии. Эта идея имеет больше глубины чем кажется на первый взгляд. Применимо не только к подготовке к интервью, но и в принятии решения откликаться ли на вакансию.
- Benchmarking energy usage and performance of Polars and pandas [6] сравнение энергопотребления при использовании Polars и Pandas. Интересен сам факт сравнения, но объекты сравнения подобраны плохо. Сравнивать надо с теми же движками что применялись в 1 billion rows challenge, а не вот так. Pandas уже какое-то время рассматривается как референсный продукт, хуже которого быть нельзя в части скорости работы с данными.
- No, 80% of data isn’t spatial (and why that is a good thing) [7] автор опровергает, вернее, пытается опровергнуть тот факт что 80% датасетов это геоданные. Нууу, вот тут то можно и поспорить. Количественно точно не 80%. А вот качественно, вернее объёмно по хранению... До того как объёмы геномных данных не начали накапливаться десятками петабайтов, а это где-то лет 5 назад началось, геоданные, с учётом данных наук о Земле, могли по объёму быть и более 80%. Сейчас я думаю что геномные данные составляют не менее 50%: данных.

Ссылки:
[1] https://spectrum.ieee.org/top-programming-languages-2024
[2] https://ffteducationdatalab.org.uk/2024/08/gcse-results-2024-the-main-trends-in-grades-and-entries/
[3] https://www.axios.com/2024/08/20/washington-post-ai-tool-data
[4] https://www.washingtonpost.com/elections/interactive/2024/republican-campaign-ads-immigration-border-security/
[5] https://www.linkedin.com/posts/patleomi_i-just-unlocked-a-really-cool-new-use-case-activity-7232456130281549825-onDm
[6] https://pola.rs/posts/benchmark-energy-performance/
[7] https://www.spatialstack.ai/blog/no-80-of-data-isn-t-spatial-and-why-that-is-a-good-thing

#data #ai #geodata #readings