Код в мешке
249 subscribers
9.08K photos
1.6K videos
2.11K files
42.7K links
Код в мешке - про кодинг, и не только...
Это личная записная книжка

https://t.me/joinchat/AAAAAEIy6oGlr8oxqTMS5w
Download Telegram
Forwarded from TrendWatching
This media is not supported in your browser
VIEW IN TELEGRAM
Курсы Гарварда, Стэнфорда, MIT и более 1300 топовых мировых ВУЗов собрали на одном сайте. Главное — это всё БЕСПЛАТНО.

Проходим быструю регистрацию и приступаем к обучению на АБСОЛЮТНО любую специальность.

Забираем сайт, чтобы потом хвастаться своим иностранным образованием 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Киллер-фича
Получаем шпаргалки по ЛЮБОЙ теме бесплатно: алгебре, истории, физике, химии, программированию и многим другим.

• На сайте собрано свыше 6000 чит-материалов, которые постоянно обновляются и дополняются.

• Шпаргалки доступны на 25 языках, в том числе и на русском.

• Есть удобный поиск и навигация по темам.


Ссылка для друга.

@killerfeat
Forwarded from TrendWatching
This media is not supported in your browser
VIEW IN TELEGRAM
Получаем ответы сразу от ВСЕХ топовых нейросетей в ОДНОМ месте — больше не нужно спрашивать у ChatGPT, DeepSeek, Claude и Gemini по отдельности.

Заходим на Promptcannon и вбиваем свой запрос как в обычный чат-бот. Он выдаст вам сразу несколько вариантов ответов и выбираем для себя наиболее подходящий. Главное — это БЕСПЛАТНО.

Пользуемся тут.
Forwarded from concertzaal
Еврокомиссия опубликовала список пиратских сайтов на 54 страницы — тут и библиотеки книг, и бесплатные кинотеатры, и каталоги игр, и много чего еще.

внимание: НЕ сохранять и ни в коем случае НЕ пересылайте близким 😄

@concertzaal
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки про данные, технологии и не только:
- Why Parquet Is the Go-To Format for Data Engineers про формат Parquet, его особенности и трюки/оптимизации при работе с этими файлами. Полезно для тех кто про формат уже слышал, но почти не использовал.
- Data.gouv.fr High-value datasets свежая страница на французском национальном портале открытых данных с наборами данных высокой ценности (в терминах регулирования Евросоюза).
- Data Paper Index (China) - каталог статей на данных (data papers) из более чем 2,2 тысяч статей в 100 научных журналах и связанные с 11 научными репозиториями. Основные темы: окружающая среда, науки о земле. напомню что data papers - это вид научных статей опубликованных вокруг одного или нескольких наборов данных.

#opendata #datasets #dataengineering
Forwarded from Ivan Begtin (Ivan Begtin)
Не буду давать ссылки на конкретные издания которые пишут пред-анонсы того что в РФ 15 июля планируется перезапуск data.gov.ru. Во первый сами публикации довольно, скажем так, неумелые, а во вторых говорить про то что сделано будет на data.gov.ru лично я буду только после того как увижу его в обновлённой форме 15 июля, если, это, конечно, произойдёт.

А пока в качестве напоминаний:
1. Портал data.gov.ru был недоступен более 2-х лет будучи "закрытым на обновление"
2. В предыдущей версии было доступно более 20+ тысяч наборов данных, большая часть которых, конечно, были мусорными, но тем не менее.
3. Полный слепок архива прошлой версии data.gov.ru у нас есть в ruarxive.org, если он Вам понадобится, напомните, я продублирую ссылку на дамп и вебархив

Честно говоря у меня лично нет вообще никаких позитивных ожиданий от того что российский портал data.gov.ru перезапускают. Есть много стран таких как Зимбабве или Чад где тоже нет порталов открытых данных. И ничего, живут же как-то;)

#opendata #russia
Forwarded from Ivan Begtin (Ivan Begtin)
В качестве регулярных напоминаний.

Я пишу в этом телеграм канале @begtin о технологиях, преимущественно, связанных с работой с данными, открытых данных, цифровой архивации и близких к этому темам почти все из которых являются, либо моей работой, либо моими хобби.

Также о том что я делаю и делают команды проектов которые я веду или с которыми я связан:
- @ruarxive - новости по цифровой и веб-архивации в контексте России и русскоязычных ресурсов
- @opendataam - открытые данные в Армении, новости о данных связанных с Арменией
- @infoculture - новости Информационной культуры, НКО ведущей ряд проектов в по открытости РФ
- @datenosearch - новости проекта поисковика по датасетам Dateno, на английском языке
- begtin.substack.com - блог/рассылка где я время от времени пишу лонгриды на русском языке
- medium.com/@ibegtin - англоязычный блог для лонгридов на английском языке. Пишу туда не очень часто, а надо бы чаще
- linkedin.com/in/ivbeg - регулярные публикации на английском языке в LinkedIn, по большей части про работу с данными.

#writings #opendata #digitalpreservation #data
Forwarded from Ivan Begtin (Ivan Begtin)
Как многие уже знают Минэкономразвития РФ открыли вновь портал открытых данных РФ data.gov.ru после более чем 2-х летнего отключения. Мне много что есть сказать про то как он сделан, что на нём опубликовано и что со всем этим далее делать.

Однако, прежде чем обо всём этом писать, давайте я помогу тем кто хочет провести собственный анализ и поругать/похвалить портал.

Поэтому для всех желающих публикую данные о данных, дампы метаданных о датасетах, организациях и нормативной базе опубликованных на портале. Они присоединены в формате Parquet к этому посту. Проще всего воспользоваться инструментами вроде DuckDB, Polars, Pandas чтобы их прочитать.

А также дампы всех датасетов и всех документов "нормативной базы" опубликованных на портале на 15 июля 2025 г.

Они доступны по ссылкам:
- datagovru_datasets_files.zip - файлы наборов данных, 102MB в сжатом виде, 1GB в распакованном, всего 5696 файлов в формате CSV
- datagovru_acts_files.zip - файлы нормативной базы, 77MB в сжатом виде, 97MB в распакованном виде, всего 80 файлов в формате PDF

Всё вместе, включая Parquet файлы, доступно для выгрузки по ссылке и в посте в телеграм.

На случай если сотрудники/подрядчики Минэка РФ захотят замести следы, внезапно что-то удалить внести исправления к опубликованному.

Объёмы небольшие, каждый может скачать эти данные локально, сделать собственную аналитику и рассказать о интересных находках.

Пока, для оперативности публикую всё это здесь, позже уже оформлю как полноценный датасет с автоматически созданной документацией.

#opendata #russia #datasets
Forwarded from Ivan Begtin (Ivan Begtin)
Я написал таки лонгрид про новую версию data.gov.ru https://begtin.substack.com/p/datagovru
Выводы спойлерить не буду, но они, да, очевидны.

#opendata #russia #datacatalogs
Forwarded from Ivan Begtin (Ivan Begtin)
В за полтора дня со свежеоткрытого портала открытых данных data.gov.ru исчезло более 300 наборов данных
Когда открывали было более 5000, сейчас 4 686. Очень быстро удаляют, скоро ничего не останется😜Такими темпами дней за 20 все удалят🌚

А что я всё рекламирую да рекламирую госпортал, во первых интересные датасеты по России есть в каталоге данных Инфокультуры https://hubofdata.ru/dataset/, а во вторых в Датено https://dateno.io.

В Датено данные о России/по России есть ещё и из разных источников, включая международные каталоги статистики и датасетов, то чего в на российский госпорталах вообще не встретишь.

#opendata #datacatalogs
Forwarded from Ivan Begtin (Ivan Begtin)
Я как мог сдерживался, но такое сдерживать сложно, да и обязательно придут те кто скажут не подсказывай им, но... а я подскажу😉 Вредные советы для делателей порталов открытых данных, ну может не в России, а в стране Вредносоветии.

Итак, сделать очень-очень много наборов данных и думаете где бы их раздобыть? И неважно нужные данные или нет, полезные или нет, большие или нет, главное чтобы формально были машиночитаемые в CSV или JSON или XML ? А я скажу вам как!

1. Берете базу официальную законодательства, в РФ это база ФСО или база Минюста. Документов там много, по моим самым скромным подсчётам не менее 1.5 миллиона документов - это всё приказы, законы, постановления, указы, распоряжения и тд. Ловким движением руки, загружаете каждый документ на портал открытых данных и у вас там сразу 1.5 миллиона наборов данных. Готов поспорить что полезных, востребованных и даже машиночитаемых потому что все будут в формате XML. Сложно это сделать? Очень просто! Даже разрешения ФСО или Минюста не потребуется.
2. Открываем госкаталог музейного фонда, а там, вы не поверите, но 52 миллиона записей. Фотографии, картины, изображения антиквариата, чего только нет. И хоть и куцое, но хоть такое есть описание к каждому доступное в виде JSON документа. Тут задача чуть посложнее, его скачать сложнее, займёт это не один, а целых два дня, зато загружаете их на портал открытых данных и там сразу +52 миллиона наборов данных и это в добавок к ранее опубликованным 1.5 миллионам машиночитаемых нормативных документов.
3. Открываете официальную статистику Росстата. Там в ЕМИСС более 6 тысяч показателей, выглядит так что немного. Но ведь у показателей есть разные размерности (dimensions). Если даже взять только регионы, которые есть у большинства показателей и даже если предположить что не по всем регионам есть статистика, то минимум этот будет 80*6000 = 480 тысяч свежесварганеных наборов данных. Что-то мало получается. Можно ещё разрезать по размерностям, к примеру, по полу, там где он указан или по виду продукции если он есть да и много других размерностей большого объёма. Путем нехитрых манипуляций можно получить от 1 до 100 миллионов наборов данных.

Итого минимум 53.5 миллиона, максимум 153.5 миллиона наборов данных можно создать в кратчайшие сроки.

Куда там европейцам с их 1.9 миллионами наборами данных на data.europa.eu.

Главное не стесняться своего успеха. Чаще меня читать и прислушиваться к моим вредным советам!

#irony #datacatalogs #opendata
Forwarded from Ivan Begtin (Ivan Begtin)
Про всяческие инструменты для повседневной работы, то что можно назвать личным стеком приложений на десктопе. Ну а поскольку я уже много лет как мигрировал на связку W10 + WSL(Ubuntu) на десктопе, то и подборка приложений соответствующая.

Безопасное хранение
- Veracrypt - пожалуй лучший продукт с открытым кодом для использования зашифрованных томов. Плюсы - аудированность, хорошая наследование кода от предыдущего проекта Truecrypt. Минусы - томы фиксированного объёма, тяжелы в синхронизации с облаками.
- Cryptomator - для тех кто хранит защищённые файлы в "незащищённых местах", а то есть в облаках. Не так продвинут как Veracrypt, но позволяет сильно упростить синхронизацию с облачными сервисами
- KeePass - консервативный инструмент с открытым кодом для хранения паролей. Не самый удобный, но с открытым кодом

кстати относительно продуктов для личной паранойи лично я много лет придерживаюсь правила что хорошая безопасность такова что даже если ты перечислишь основные инструменты, то риски не возникают, потому что инструменты позволяют обеспечить необходимую защиту

Написание текстов и управление размышлениями
- Obsidian - пожалуй, лучший инструмент для ведения локальных заметок в Markdown с опциональной синхронизацией (за деньги) и возможностью публикации
- Quarto - инструмент подготовки научной документации. Оказался очень полезным для работы и описания некоторых данных
- Xmind инструмент для карт мыслей (mind mapping). Простой, универсальный, бесплатный для большей части всего или недорогой для расширенных функций

Управление кодом и разработкой
- VSCodium - IDE для программирования на базе VSCode, но без слежки от Microsoft
- Postman - приложение и сервис для проектирования и тестирования API
- APIDog - ещё одно приложение и сервис для проектирования и тестирования API

Для наглядности
- Beautiful AI - сервис и оффлайн плеер для презентаций. Когда надо сделать быстрые красивые презентации без Powerpoint'а
- Plottr - ПО для писателей по планированию книг. Пользуюсь не так часто потому что пишу синопсисы теперь в Obsidian

Работа с данными
- OpenRefine - для многочисленных задач очистки данных относительно небольшого объёма
- DuckDB - для задач анализа и преобразования данных условно любого объёма
- Excel, LibreOffice - для визуального просмотра данных, очень редко редактирования

Разное
- picoTorrent - ИМХО лучший инструмент выгрузки torrent'ов ещё и с открытым кодом. После того как uTorrent окончательно испортился
- Far Manager - чувствую себя реально старым, но продолжаю пользоваться аналогами Norton Commander'а 😂😜

Список неполный, ещё большая коллекция инструментов для локальных LLM

Почему я всё это вспомнил? Потому что второй день восстанавливаю ноутбук после переустановки W10 и этот эротический акт отнимает немало времени в восстановлении привычной среды. А это из тех задач которые сложно делегировать или ускорить.

#personal #software #recovery
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки про данные, технологии и не только:
- Software engineering with LLMs in 2025: reality check про применение LLM в программной инженерии. Неплохой обзор текущего состояния, понятным языком и про ключевые тренды.
- 9 Trends Shaping the Future of Data Management in 2025 обзор трендов в управлении данными в 2025 году. Надо тут оговорится что речь про рынок США, что сам обзор от коммерческой компании продающей SaaS сервис по контролю качества данных, а в остальном полезный обзор. Всё вполне очевидно: AI, real time data, self-service BI и тд.
- Iceberg, The Right Idea - The Wrong Spec - Part 1 of 2: History обзор истории спецификации Apache Iceberg. Полезно почитать перед тем как использовать
- DuckLake 0.2 обновление стандарта/спецификации озера данных на базе DuckDB. Слежу за этим внимательно, выглядит даже перспективнее чем Iceberg
- Why AI hardware needs to be open почему бы оборудованию для ИИ не быть открытым? Идеологически мне нравится, но нужен какой-то другой глобус чтобы это стало правдой
- Introducing pay per crawl: enabling content owners to charge AI crawlers for access владельцы сайтов теперь могут требовать оплату за краулинг их ресурсов.

#dataengineering #dataanalytics #ai #duckdb
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки для работы с данными, технологиями и не только:
- DocsGPT и LocalGPT два похожих продукта для извлечения знаний и чата с локальными документами. Первый под лицензией MIT, второй под Apache 2.0. Поддерживают множество форматов документов, работают с облачными и локальными моделями ИИ. Какой лучше не знаю, надо пробовать оба продукта.
- Markitdown утилита от Microsoft по преобразованию чего угодно в формат markdown. Поддерживает документы MS Office, PDF, HTML, аудио и изображения и многое другое.
- AI Dataset generator генератор синтетических наборов данных с помощью ИИ. Умеет подключаться к разным LLM и интегрировано с инструментом визуализации Metabase. Открытый код, лицензия MIT
- gt-extras расширение для пакета great-tables для Python позволяющее рисовать красивые таблицы в Python в средах научных тетрадок Jupyter или в Quatro из фреймов данных Pandas и Polars. Удобное для всех кто занимается аналитикой на данных
- OpenAIRE changelog хороший пример версионирования и журнала большого открытого дата-продукта.

#opensource #data #datatools
Forwarded from Типичный программист
60+ плюс бесплатных IT-курсов бережно разбитых по языкам и технологиям 🤌

Python и смежные темы:
Python для абсолютных новичков
Python-туториалы
Веб-фреймворки:
Django
Flask
FastAPI
Нейро-либы + бонус:
NumPy
Pandas
Scikit-Learn
Обзорный урок по Data Science


Учебные ресурсы по JS-стеку
:
JavaScript
JavaScript
Серверный JavaScript
Node.js
Express
Языки и инструменты:
TypeScript
Фронтенд-фреймворки и библиотеки:
React (интенсив)
React (плейлист)
React Native
Веб-фреймворки нового поколения:
Next.js 15
Next.js 15 & React 19 проектов


Учебные ресурсы по Java и Spring
:
Java для начинающих
Фреймворки и серверная разработка:
Spring и Spring Boot
Java + Spring + Microservices (интенсив)
Алгоритмы и структуры данных:
Структура данных & Алгоритмы


Учебные ресурсы по C:

Программирование на C
Отладка и работа с памятью
Отладка программ на C
Проблемы с памятью в C
Специализированные области:
Сетевое программирование
Многопоточное программирование на C
Встраиваемые системы
Алгоритмы и структуры данных:
Алгоритмы и структуры данных на C


Учебные ресурсы по C++
:
Плейлист по C++
Полный курс по C++
Графика и разработка игр:
OpenGL (основы работы с графикой)
Создание игр на C++


Учебные ресурсы по C# и .NET
:
Курс C# для начинающих
Фреймворки и платформы
.NET
.NET MAUI (кроссплатформенная разработка)
Blazor (веб-фреймворк)
Серверная разработка
Бэкенд на .NET


Учебные ресурсы по Rust
:
Интенсив по Rust
Краткие уроки по Rust


Учебные ресурсы по SQL
:
Полный курс SQL
SQL: c нуля до продвинутого уровня
Практика и челленджи:
30 дней SQL — Челлендж по SQL-запросам


Другие языки, которые заслуживают места здесь, но, к сожалению, не уместились:

Курс по Go
Курс по PHP
Курс по Swift
Курс по Kotlin
Курс по Dart
Курс по Ruby
Курс по Scala
Курс по Julia
Please open Telegram to view this post
VIEW IN TELEGRAM
MAX получил статус «национального мессенджера» — теперь ОФИЦИАЛЬНО

Минцифры выпустило официальное постановление: теперь MAX от VK — это национальный мессенджер внутри России. Аналог Telegram, но с Госуслугами.

Что уже доступно:

- чаты и звонки;
- файлы до 4 ГБ;
- переводы в чатах;
- встроенный GigaChat 2.0;
- мини-приложения;
- работа даже в подземной парковке.

В планах: цифровой ID, документы и вход в Госуслуги прямо из чата.

Текст не редактировать, опубликовать как есть

@your_tech
Forwarded from Типичный программист
Айтишники контролируют свои программы 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Типичный программист
Забудьте про выделенный сервер под управляющую платформу!

ISPsystem VMmanager теперь запускается как мастер-VM прямо в кластере — её CPU, RAM и диски выделяются динамически наравне с любыми виртуальными машинами.

Узлы Compute, Storage и Controller объединяются в единую среду, включая SAN-хранилища, что упрощает добавление новых узлов и расширение инфраструктуры. Микросервисная архитектура платформы и встроенное резервное копирование обеспечивают надёжность на каждом уровне.

Параметры мастер-VM можно менять «на лету» без перезагрузок, а vm-agent вместе с HA-кластером автоматически перенесут и восстановят платформу при сбое. Миграция виртуальных машин между узлами без даунтайма решается на уровне кластера.

Для изолированных сред без доступа к интернету теперь доступен обновлённый установщик, поставляющий всё необходимое в едином пакете.

Пора масштабироваться? Присмотритесь к VMmanager от ISPsystem.

Реклама. АО «Экзософт», ИНН 9731012897.