Код в мешке
249 subscribers
9.08K photos
1.6K videos
2.11K files
42.7K links
Код в мешке - про кодинг, и не только...
Это личная записная книжка

https://t.me/joinchat/AAAAAEIy6oGlr8oxqTMS5w
Download Telegram
Forwarded from TrendWatching
This media is not supported in your browser
VIEW IN TELEGRAM
Курсы Гарварда, Стэнфорда, MIT и более 1300 топовых мировых ВУЗов собрали на одном сайте. Главное — это всё БЕСПЛАТНО.

Проходим быструю регистрацию и приступаем к обучению на АБСОЛЮТНО любую специальность.

Забираем сайт, чтобы потом хвастаться своим иностранным образованием 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Киллер-фича
Получаем шпаргалки по ЛЮБОЙ теме бесплатно: алгебре, истории, физике, химии, программированию и многим другим.

• На сайте собрано свыше 6000 чит-материалов, которые постоянно обновляются и дополняются.

• Шпаргалки доступны на 25 языках, в том числе и на русском.

• Есть удобный поиск и навигация по темам.


Ссылка для друга.

@killerfeat
Forwarded from TrendWatching
This media is not supported in your browser
VIEW IN TELEGRAM
Получаем ответы сразу от ВСЕХ топовых нейросетей в ОДНОМ месте — больше не нужно спрашивать у ChatGPT, DeepSeek, Claude и Gemini по отдельности.

Заходим на Promptcannon и вбиваем свой запрос как в обычный чат-бот. Он выдаст вам сразу несколько вариантов ответов и выбираем для себя наиболее подходящий. Главное — это БЕСПЛАТНО.

Пользуемся тут.
Forwarded from concertzaal
Еврокомиссия опубликовала список пиратских сайтов на 54 страницы — тут и библиотеки книг, и бесплатные кинотеатры, и каталоги игр, и много чего еще.

внимание: НЕ сохранять и ни в коем случае НЕ пересылайте близким 😄

@concertzaal
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки про данные, технологии и не только:
- Why Parquet Is the Go-To Format for Data Engineers про формат Parquet, его особенности и трюки/оптимизации при работе с этими файлами. Полезно для тех кто про формат уже слышал, но почти не использовал.
- Data.gouv.fr High-value datasets свежая страница на французском национальном портале открытых данных с наборами данных высокой ценности (в терминах регулирования Евросоюза).
- Data Paper Index (China) - каталог статей на данных (data papers) из более чем 2,2 тысяч статей в 100 научных журналах и связанные с 11 научными репозиториями. Основные темы: окружающая среда, науки о земле. напомню что data papers - это вид научных статей опубликованных вокруг одного или нескольких наборов данных.

#opendata #datasets #dataengineering
Forwarded from Ivan Begtin (Ivan Begtin)
Не буду давать ссылки на конкретные издания которые пишут пред-анонсы того что в РФ 15 июля планируется перезапуск data.gov.ru. Во первый сами публикации довольно, скажем так, неумелые, а во вторых говорить про то что сделано будет на data.gov.ru лично я буду только после того как увижу его в обновлённой форме 15 июля, если, это, конечно, произойдёт.

А пока в качестве напоминаний:
1. Портал data.gov.ru был недоступен более 2-х лет будучи "закрытым на обновление"
2. В предыдущей версии было доступно более 20+ тысяч наборов данных, большая часть которых, конечно, были мусорными, но тем не менее.
3. Полный слепок архива прошлой версии data.gov.ru у нас есть в ruarxive.org, если он Вам понадобится, напомните, я продублирую ссылку на дамп и вебархив

Честно говоря у меня лично нет вообще никаких позитивных ожиданий от того что российский портал data.gov.ru перезапускают. Есть много стран таких как Зимбабве или Чад где тоже нет порталов открытых данных. И ничего, живут же как-то;)

#opendata #russia
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве регулярных напоминаний.

Я пишу в этом телеграм канале @begtin о технологиях, преимущественно, связанных с работой с данными, открытых данных, цифровой архивации и близких к этому темам почти все из которых являются, либо моей работой, либо моими хобби.

Также о том что я делаю и делают команды проектов которые я веду или с которыми я связан:
- @ruarxive - новости по цифровой и веб-архивации в контексте России и русскоязычных ресурсов
- @opendataam - открытые данные в Армении, новости о данных связанных с Арменией
- @infoculture - новости Информационной культуры, НКО ведущей ряд проектов в по открытости РФ
- @datenosearch - новости проекта поисковика по датасетам Dateno, на английском языке
- begtin.substack.com - блог/рассылка где я время от времени пишу лонгриды на русском языке
- medium.com/@ibegtin - англоязычный блог для лонгридов на английском языке. Пишу туда не очень часто, а надо бы чаще
- linkedin.com/in/ivbeg - регулярные публикации на английском языке в LinkedIn, по большей части про работу с данными.

#writings #opendata #digitalpreservation #data
Forwarded from Ivan Begtin (Ivan Begtin)
Как многие уже знают Минэкономразвития РФ открыли вновь портал открытых данных РФ data.gov.ru после более чем 2-х летнего отключения. Мне много что есть сказать про то как он сделан, что на нём опубликовано и что со всем этим далее делать.

Однако, прежде чем обо всём этом писать, давайте я помогу тем кто хочет провести собственный анализ и поругать/похвалить портал.

Поэтому для всех желающих публикую данные о данных, дампы метаданных о датасетах, организациях и нормативной базе опубликованных на портале. Они присоединены в формате Parquet к этому посту. Проще всего воспользоваться инструментами вроде DuckDB, Polars, Pandas чтобы их прочитать.

А также дампы всех датасетов и всех документов "нормативной базы" опубликованных на портале на 15 июля 2025 г.

Они доступны по ссылкам:
- datagovru_datasets_files.zip - файлы наборов данных, 102MB в сжатом виде, 1GB в распакованном, всего 5696 файлов в формате CSV
- datagovru_acts_files.zip - файлы нормативной базы, 77MB в сжатом виде, 97MB в распакованном виде, всего 80 файлов в формате PDF

Всё вместе, включая Parquet файлы, доступно для выгрузки по ссылке и в посте в телеграм.

На случай если сотрудники/подрядчики Минэка РФ захотят замести следы, внезапно что-то удалить внести исправления к опубликованному.

Объёмы небольшие, каждый может скачать эти данные локально, сделать собственную аналитику и рассказать о интересных находках.

Пока, для оперативности публикую всё это здесь, позже уже оформлю как полноценный датасет с автоматически созданной документацией.

#opendata #russia #datasets
Forwarded from Ivan Begtin (Ivan Begtin)
Я написал таки лонгрид про новую версию data.gov.ru https://begtin.substack.com/p/datagovru
Выводы спойлерить не буду, но они, да, очевидны.

#opendata #russia #datacatalogs
Forwarded from Ivan Begtin (Ivan Begtin)
В за полтора дня со свежеоткрытого портала открытых данных data.gov.ru исчезло более 300 наборов данных
Когда открывали было более 5000, сейчас 4 686. Очень быстро удаляют, скоро ничего не останется😜Такими темпами дней за 20 все удалят🌚

А что я всё рекламирую да рекламирую госпортал, во первых интересные датасеты по России есть в каталоге данных Инфокультуры https://hubofdata.ru/dataset/, а во вторых в Датено https://dateno.io.

В Датено данные о России/по России есть ещё и из разных источников, включая международные каталоги статистики и датасетов, то чего в на российский госпорталах вообще не встретишь.

#opendata #datacatalogs
Forwarded from Ivan Begtin (Ivan Begtin)
Я как мог сдерживался, но такое сдерживать сложно, да и обязательно придут те кто скажут не подсказывай им, но... а я подскажу😉 Вредные советы для делателей порталов открытых данных, ну может не в России, а в стране Вредносоветии.

Итак, сделать очень-очень много наборов данных и думаете где бы их раздобыть? И неважно нужные данные или нет, полезные или нет, большие или нет, главное чтобы формально были машиночитаемые в CSV или JSON или XML ? А я скажу вам как!

1. Берете базу официальную законодательства, в РФ это база ФСО или база Минюста. Документов там много, по моим самым скромным подсчётам не менее 1.5 миллиона документов - это всё приказы, законы, постановления, указы, распоряжения и тд. Ловким движением руки, загружаете каждый документ на портал открытых данных и у вас там сразу 1.5 миллиона наборов данных. Готов поспорить что полезных, востребованных и даже машиночитаемых потому что все будут в формате XML. Сложно это сделать? Очень просто! Даже разрешения ФСО или Минюста не потребуется.
2. Открываем госкаталог музейного фонда, а там, вы не поверите, но 52 миллиона записей. Фотографии, картины, изображения антиквариата, чего только нет. И хоть и куцое, но хоть такое есть описание к каждому доступное в виде JSON документа. Тут задача чуть посложнее, его скачать сложнее, займёт это не один, а целых два дня, зато загружаете их на портал открытых данных и там сразу +52 миллиона наборов данных и это в добавок к ранее опубликованным 1.5 миллионам машиночитаемых нормативных документов.
3. Открываете официальную статистику Росстата. Там в ЕМИСС более 6 тысяч показателей, выглядит так что немного. Но ведь у показателей есть разные размерности (dimensions). Если даже взять только регионы, которые есть у большинства показателей и даже если предположить что не по всем регионам есть статистика, то минимум этот будет 80*6000 = 480 тысяч свежесварганеных наборов данных. Что-то мало получается. Можно ещё разрезать по размерностям, к примеру, по полу, там где он указан или по виду продукции если он есть да и много других размерностей большого объёма. Путем нехитрых манипуляций можно получить от 1 до 100 миллионов наборов данных.

Итого минимум 53.5 миллиона, максимум 153.5 миллиона наборов данных можно создать в кратчайшие сроки.

Куда там европейцам с их 1.9 миллионами наборами данных на data.europa.eu.

Главное не стесняться своего успеха. Чаще меня читать и прислушиваться к моим вредным советам!

#irony #datacatalogs #opendata
Forwarded from Ivan Begtin (Ivan Begtin)
Про всяческие инструменты для повседневной работы, то что можно назвать личным стеком приложений на десктопе. Ну а поскольку я уже много лет как мигрировал на связку W10 + WSL(Ubuntu) на десктопе, то и подборка приложений соответствующая.

Безопасное хранение
- Veracrypt - пожалуй лучший продукт с открытым кодом для использования зашифрованных томов. Плюсы - аудированность, хорошая наследование кода от предыдущего проекта Truecrypt. Минусы - томы фиксированного объёма, тяжелы в синхронизации с облаками.
- Cryptomator - для тех кто хранит защищённые файлы в "незащищённых местах", а то есть в облаках. Не так продвинут как Veracrypt, но позволяет сильно упростить синхронизацию с облачными сервисами
- KeePass - консервативный инструмент с открытым кодом для хранения паролей. Не самый удобный, но с открытым кодом

кстати относительно продуктов для личной паранойи лично я много лет придерживаюсь правила что хорошая безопасность такова что даже если ты перечислишь основные инструменты, то риски не возникают, потому что инструменты позволяют обеспечить необходимую защиту

Написание текстов и управление размышлениями
- Obsidian - пожалуй, лучший инструмент для ведения локальных заметок в Markdown с опциональной синхронизацией (за деньги) и возможностью публикации
- Quarto - инструмент подготовки научной документации. Оказался очень полезным для работы и описания некоторых данных
- Xmind инструмент для карт мыслей (mind mapping). Простой, универсальный, бесплатный для большей части всего или недорогой для расширенных функций

Управление кодом и разработкой
- VSCodium - IDE для программирования на базе VSCode, но без слежки от Microsoft
- Postman - приложение и сервис для проектирования и тестирования API
- APIDog - ещё одно приложение и сервис для проектирования и тестирования API

Для наглядности
- Beautiful AI - сервис и оффлайн плеер для презентаций. Когда надо сделать быстрые красивые презентации без Powerpoint'а
- Plottr - ПО для писателей по планированию книг. Пользуюсь не так часто потому что пишу синопсисы теперь в Obsidian

Работа с данными
- OpenRefine - для многочисленных задач очистки данных относительно небольшого объёма
- DuckDB - для задач анализа и преобразования данных условно любого объёма
- Excel, LibreOffice - для визуального просмотра данных, очень редко редактирования

Разное
- picoTorrent - ИМХО лучший инструмент выгрузки torrent'ов ещё и с открытым кодом. После того как uTorrent окончательно испортился
- Far Manager - чувствую себя реально старым, но продолжаю пользоваться аналогами Norton Commander'а 😂😜

Список неполный, ещё большая коллекция инструментов для локальных LLM

Почему я всё это вспомнил? Потому что второй день восстанавливаю ноутбук после переустановки W10 и этот эротический акт отнимает немало времени в восстановлении привычной среды. А это из тех задач которые сложно делегировать или ускорить.

#personal #software #recovery
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки про данные, технологии и не только:
- Software engineering with LLMs in 2025: reality check про применение LLM в программной инженерии. Неплохой обзор текущего состояния, понятным языком и про ключевые тренды.
- 9 Trends Shaping the Future of Data Management in 2025 обзор трендов в управлении данными в 2025 году. Надо тут оговорится что речь про рынок США, что сам обзор от коммерческой компании продающей SaaS сервис по контролю качества данных, а в остальном полезный обзор. Всё вполне очевидно: AI, real time data, self-service BI и тд.
- Iceberg, The Right Idea - The Wrong Spec - Part 1 of 2: History обзор истории спецификации Apache Iceberg. Полезно почитать перед тем как использовать
- DuckLake 0.2 обновление стандарта/спецификации озера данных на базе DuckDB. Слежу за этим внимательно, выглядит даже перспективнее чем Iceberg
- Why AI hardware needs to be open почему бы оборудованию для ИИ не быть открытым? Идеологически мне нравится, но нужен какой-то другой глобус чтобы это стало правдой
- Introducing pay per crawl: enabling content owners to charge AI crawlers for access владельцы сайтов теперь могут требовать оплату за краулинг их ресурсов.

#dataengineering #dataanalytics #ai #duckdb