Код в мешке
248 subscribers
8.94K photos
1.58K videos
2.11K files
42.1K links
Код в мешке - про кодинг, и не только...
Это личная записная книжка

https://t.me/joinchat/AAAAAEIy6oGlr8oxqTMS5w
Download Telegram
Forwarded from CodeCamp
Принёс вам на выходные посмотреть — 10 полезных YouTube-каналов для самообучения по нейросетям и прочим LLM.

Andrej Karpathy — понятные лекции, которые легко погрузят вас в глубокое обучение, языковые модели и нейронные сети даже с нуля.

3Blue1Brown — завораживающие анимации, которые превращают сложные математические идеи в простые и ясные образы.

Lex Fridman — вдумчивые беседы с топовыми экспертами по ИИ, раскрывающие глобальную картину развития отрасли.

Machine Learning Street Talk — глубокие и честные технические дискуссии с ведущими исследователями в мире ИИ.

StatQuest с Джошуа Стармером — легко и с юмором объясняет машинное обучение и статистику, даже если вы совсем новичок.

Serrano Academy (Luis Serrano) — дружелюбно и понятно про сложное: машинное и глубокое обучение, а также последние прорывы в ИИ.

Jeremy Howard — максимально прикладные курсы по глубокому обучению и созданию полезных ИИ-приложений без лишних сложностей.

Hamel Husain — практичные уроки по языковым моделям, RAG (генерации с извлечением), тонкой настройке и объективной оценке ИИ-моделей.

Jason Liu — ценные советы от экспертов по технологиям RAG и тому, как успешно заниматься фрилансом в сфере машинного обучения.

Dave Ebbelaar — практические гайды по созданию ИИ-решений, которые реально работают и приносят пользу на практике.
Forwarded from BotShare
@ChatGptWB_bot - все нейросети в одном GPT-Telegram боте

Теперь у Вас нейросети всегда под рукой и без VPN!
- Бот сделает за вас любую работу
- Безлимитные запросы в день!
- Бот отвечает на голосовые сообщения и генерирует любые картинки.

Скажите "Пока" работе и учебе.


Попробовать бесплатно:

👉 https://t.me/chatgptWB_bot

По всем вопросам писать@chatgptWB_support

#рефссылка
Инструменты CDN: шесть способов остановить накрутку трафика на сайт

Когда компании используют CDN (Content Delivery Network) для ускорения сайтов и приложений, они нередко сталкиваются с резким ростом трафика, который не связан с реальными пользователями.
Такая проблема увеличивает загрузку контента и задержку в сети, в худшем случае — приводит к огромному счёту за услугу CDN.
Для компаний это может стать серьёзной финансовой нагрузкой.

Часто причиной увеличения трафика становятся конкуренты, которые используют ботов и скрипты для отправки тысяч запросов на ресурс.
В результате вместо стандартного 1 ТБ в месяц клиент может потребить 500 ТБ за три дня, а его чек вырастет в 1000 раз.

Разберём, как определить накрутку трафика и какие меры предпринять для защиты.
↘️ https://habr.com/ru/companies/selectel/articles/898318/
..
Forwarded from BotShare
ChatGPT с доступом в интернет 🌐 и без цензуры в новом боте — @gptchatabot.

Тут нейронка реально ходит в интернет и выдает самую актуальную инфу — новости, советы, спорт, котики, коды на скидку, всё что хочешь.

Поддерживает:
💬🖼🔊📹📎🌐

Бот может работать в группах:
/ask [вопрос] или /ask (ответом ⤶ на сообщение) — для групп

Техподдержка: @gptlina

Задайте любой вопрос и получите мгновенный ответ от ChatGPT, Claude или DeepSeek.

Перейти к боту:
👉 https://t.me/GPTchataBot

#рефссылка
Рубрика "Циничная закрытость"
В Минэке сообщили, что Портал открытых данных РФ успешно прошел аттестацию на соответствие требованиям защиты информации, но не будет открыт для публичного доступа в связи с его перепрофилированием.
"Нами принято решение о перепрофилировании назначения и переименовании Портала открытых данных РФ - с сегодняшнего дня он называется Порталом закрытых данных РФ (Портал ЗД РФ). Теперь на нем собираются данные, которые раньше по разным причинам (чаще всего - по недосмотру или халатности ответственных лиц) были открытыми, но теперь переведены в наиболее целесообразное для государственных данных состояние - закрытое .
Мы проводим сейчас интенсивную работу по переводу в закрытое состояние всех датасетов, размещенных на прежнем Портале открытых данных. С этой целью мы направили во все ведомства-владельцы датасетов запросы на предоставление официальных объяснений с их стороны - на каких основаниях те или иные данные были объявлены ими открытыми и кто несет персональную ответственность за подобные решения.
Мы будем регулярно информировать о текущем статусе этой важной и ответственной работы - соответствующие доклады с соответствующими ограничительными пометками будут направляться нами в уполномоченные органы.
Доменное имя бывшего Портала открытых данных РФ -
data.gov.ru - будет оставлено в доступном состоянии в интернете, но теперь каждый заход по этому адресу будет фиксироваться Роскомнадзором с последующим расследованием, кто именно и с какими намерениями заходил на Портал закрытых данных РФ. Совместно с Росокомнадзором мы рассматриваем возможность введения административной ответственности за неоднократные попытки захода на Портал ЗД РФ. Соответствующие поправки в Федеральный закон 149-ФЗ нами уже готовятся и скоро будут внесены в Госдуму" -

сообщили в ответственном ведомстве
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике больших интересных наборов данных Global Ensemble Digital Terrain Model 30m (GEDTM30) [1] глобальная цифровая модель рельефа (DTM) в виде двух GeoTIFF файлов оптимизированных для облачной работы (cloud GeoTIFF) общим объёмом чуть менее 39 гигабайт.

Этот набор данных охватывает весь мир и может использоваться для таких приложений, как анализ топографии, гидрологии и геоморфометрии.

Создание набора данных профинансировано Европейским союзом в рамках проекта киберинфраструктуры Open-Earth-Monitor [2].

А также доступен код проекта [3] и пример визуализации в QGIS.

Доступно под лицензией CC-BY 4.0

Ссылки:
[1] https://zenodo.org/records/14900181
[2] https://cordis.europa.eu/project/id/101059548

#opendata #geodata #datasets
Forwarded from Ivan Begtin (Ivan Begtin)
Тем временем в рубрике новых свежих открытых данных из России, но не о России, датасеты Сведений о динамике рыночных котировок цифровых валют и Сведения об иностранных организаторах торгов цифровых валют на веб странице на сайте ФНС России посвящённой Майнингу цифровой валюты [1]. Данные представлены в виде таблиц на странице, с возможностью экспорта в Excel и получению в формате JSON из недокументированного API.

Данные любопытные хотя и у коммерческих провайдеров их, несомненно, побольше будет и по разнообразнее.

Условия использования не указаны, исходим из того что это Public Domain.

Мы обязательно добавим их в каталог CryptoData Hub [2] вскоре.

Ссылки:
[1] https://www.nalog.gov.ru/mining/
[2] https://cryptodata.center

#opendata #russia #cryptocurrencies #crypto #datasets
Forwarded from Ivan Begtin (Ivan Begtin)
Обнаружил ещё один инструмент по проверке данных validator [1], умеет делать кросс табличные проверки данных и использует схему из спецификации Frictionless Data [2]. Пока малоизвестный, но кто знает. Он выглядит неплохо по способу реализации, но есть проблема с самой спецификацией и о ней отдельно.

Я неоднократно писал про Frictionless Data, это спецификация и набор инструментов созданных в Open Knowledge Foundation для описания и публикации наборов данных. Спецификация много лет развивалась, вокруг неё появился пул инструментов, например, свежий Open Data Editor [3] помогающий готовить датасеты для публикации на дата платформах на базе ПО CKAN.

С этой спецификацией есть лишь одна, но серьёзная проблема. Она полноценно охватывает только плоские табличные файлы. Так чтобы работать со схемой данных, использовать их SDK, тот же Open Data Editor и тд. Это даёт ей применение для некоторых видов данных с которыми работают аналитики и куда хуже с задачами дата инженерными.

Существенная часть рабочих данных с которыми я сталкивался - это не табличные данные. К примеру, в плоские таблицы плохо ложатся данные о госконтрактах или юридических лицах или объектах музейных коллекций. Там естественнее применения JSON и, соответственно, построчного NDJSON.

Для таких данных куда лучше подходят пакеты валидации данных вроде Cerberus [4]. Я использовал её в случае с реестром дата каталогов [5] в Dateno и пока не видел решений лучше.

Ссылки:
[1] https://github.com/ezwelty/validator/
[2] https://specs.frictionlessdata.io
[3] https://opendataeditor.okfn.org
[4] https://docs.python-cerberus.org/
[5] https://github.com/commondataio/dataportals-registry/

#opensource #data #datatools #dataquality
Forwarded from Ivan Begtin (Ivan Begtin)
В задачах качества данных есть такое явление как Data quality reports. Не так часто встречается как хотелось бы и, в основном, для тех проектов где данные существуют как продукт (data-as-a-product) потому что клиенты интересуются.

Публичных таких отчётов немного, но вот любопытный и открытый - Global LEI Data Quality Reports [1] от создателей глобальной базы идентификаторов компаний LEI. Полезно было бы такое для многих крупных открытых датасетов, но редко встречается.

Ссылки:
[1] https://www.gleif.org/en/lei-data/gleif-data-quality-management/quality-reports

#opendata #datasets #dataquality
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике как это устроено у них о том как управляют публикацией открытых данных во Франции. Частью французского национального портала открытых данных является schema.data.gouv.fr [1] на котором представлено 73 схемы с описанием структурированных данных. Эти схемы охватывают самые разные области и тематики:
- схема данных о государственных закупках
- схема данных о грантах
- схема данных архивных реестров записей
и ещё много других.

Всего по этим схемам на портале data.gouv.fr опубликовано 3246 наборов данных, чуть более 5% от всего что там размещено.

Особенность портала со схемами в том что все они опубликованы как отдельные репозитории на Github созданными из одного шаблона. А сами схемы представлены, либо по стандарту Frictionless Data - тот самый формат про таблицы о котором я писал и он тут называется TableSchema, либо в формате JSONSchema когда данные не табличные. В общем-то звучит как правильное сочетания применения этих подходов.

А для простоты публикации данных по этим схемам у был создан сервис Validata [2] в котором загружаемые данные можно проверить на соответствие этой схеме.

Ссылки:
[1] https://schema.data.gouv.fr
[2] https://validata.fr/

#opendata #datasets #data #datatools #france
Forwarded from Ivan Begtin (Ivan Begtin)
Я лично не пишу научных статей, потому что или работа с данными, или писать тексты. Но немало статей я читаю, почти всегда по очень узким темам и пользуюсь для этого, в основном, Semantic Scholar и подобными инструментами. Смотрю сейчас Ai2 Paper Finder [1] от института Аллена и они в недавнем его анонсе [2] пообещали что он умеет находить очень релевантные ответы по по очень узким темам. Собственно вот пример запроса по узкой интересной мне теме и он нашёл по ней 49 работ.

Вот это очень интересный результат, в списке интересных мне инструментов прибавилось однозначно.

Там же в анонсе у них есть ссылки на схожие продукты в этой области и на бенчмарки LitSearch [3] и Pasa [4] для измерения качества поиска по научным работам работам.

Ссылки:
[1] https://paperfinder.allen.ai/
[2] https://allenai.org/blog/paper-finder
[3] https://github.com/princeton-nlp/LitSearch
[4] https://github.com/bytedance/pasa

#ai #openaccess #opensource #science
Forwarded from Ivan Begtin (Ivan Begtin)
Очень любопытный подход к созданию каталогов данных для распространения тяжёлых датасетов бесплатно 0$ Data Distribution [1]. Если вкратце то автор воспользовался сервисом Clouflare R2 в опции Egress и используя DuckDB и таблицы Iceberg, распространяя файлы в формате Parquet.

DuckDB там можно заменить на PyIceberg или Snowflake, главное возможность бесплатно подключить и захостить данные. У автора хорошее демо [2] с тем как это работает, ограничения только в том что надо вначале, достаточно быстро и автоматически получить ключ доступа к каталогу, но это как раз не проблема.

Это, с одной стороны, выглядит как чистый лайфхак ибо Cloudflare может изменить ценовую политику, а с другой очень даже полезная модель применения.

И сама работа с таблицами используя Apache Iceberg [3]. Если вы ещё не читали об этом подходе и инструменте, то стоит уделить время. Это тот случай когда каталог данных существует в дата инженерном контексте, а то есть по автоматизации работы с данными, но без СУБД. Однако поверх Iceberg можно построить свои системы управления данными, как открытые так и не очень. Это одна из фундаментальных технологий в том смысле что из неё и других как конструктор можно собрать свой дата продукт.

Ссылки:
[1] https://juhache.substack.com/p/0-data-distribution
[2] https://catalog.boringdata.io/dashboard/
[3] https://iceberg.apache.org/

#opensource #datacatalogs #dataengineering #analytics
Forwarded from Ivan Begtin (Ivan Begtin)
Docker теперь умеет запускать ИИ модели [1], похоже что пока только на Mac с Apple Silicon, но обещают скоро и на Windows с GPU ускорением.

Пора обновлять ноутбуки и десктопы.😜

Ссылки:
[1] https://www.docker.com/blog/introducing-docker-model-runner/

#ai #docker #llm