Код в мешке
249 subscribers
9.08K photos
1.6K videos
2.11K files
42.7K links
Код в мешке - про кодинг, и не только...
Это личная записная книжка

https://t.me/joinchat/AAAAAEIy6oGlr8oxqTMS5w
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
Я написал таки лонгрид про новую версию data.gov.ru https://begtin.substack.com/p/datagovru
Выводы спойлерить не буду, но они, да, очевидны.

#opendata #russia #datacatalogs
Forwarded from Ivan Begtin (Ivan Begtin)
В за полтора дня со свежеоткрытого портала открытых данных data.gov.ru исчезло более 300 наборов данных
Когда открывали было более 5000, сейчас 4 686. Очень быстро удаляют, скоро ничего не останется😜Такими темпами дней за 20 все удалят🌚

А что я всё рекламирую да рекламирую госпортал, во первых интересные датасеты по России есть в каталоге данных Инфокультуры https://hubofdata.ru/dataset/, а во вторых в Датено https://dateno.io.

В Датено данные о России/по России есть ещё и из разных источников, включая международные каталоги статистики и датасетов, то чего в на российский госпорталах вообще не встретишь.

#opendata #datacatalogs
Forwarded from Ivan Begtin (Ivan Begtin)
Я как мог сдерживался, но такое сдерживать сложно, да и обязательно придут те кто скажут не подсказывай им, но... а я подскажу😉 Вредные советы для делателей порталов открытых данных, ну может не в России, а в стране Вредносоветии.

Итак, сделать очень-очень много наборов данных и думаете где бы их раздобыть? И неважно нужные данные или нет, полезные или нет, большие или нет, главное чтобы формально были машиночитаемые в CSV или JSON или XML ? А я скажу вам как!

1. Берете базу официальную законодательства, в РФ это база ФСО или база Минюста. Документов там много, по моим самым скромным подсчётам не менее 1.5 миллиона документов - это всё приказы, законы, постановления, указы, распоряжения и тд. Ловким движением руки, загружаете каждый документ на портал открытых данных и у вас там сразу 1.5 миллиона наборов данных. Готов поспорить что полезных, востребованных и даже машиночитаемых потому что все будут в формате XML. Сложно это сделать? Очень просто! Даже разрешения ФСО или Минюста не потребуется.
2. Открываем госкаталог музейного фонда, а там, вы не поверите, но 52 миллиона записей. Фотографии, картины, изображения антиквариата, чего только нет. И хоть и куцое, но хоть такое есть описание к каждому доступное в виде JSON документа. Тут задача чуть посложнее, его скачать сложнее, займёт это не один, а целых два дня, зато загружаете их на портал открытых данных и там сразу +52 миллиона наборов данных и это в добавок к ранее опубликованным 1.5 миллионам машиночитаемых нормативных документов.
3. Открываете официальную статистику Росстата. Там в ЕМИСС более 6 тысяч показателей, выглядит так что немного. Но ведь у показателей есть разные размерности (dimensions). Если даже взять только регионы, которые есть у большинства показателей и даже если предположить что не по всем регионам есть статистика, то минимум этот будет 80*6000 = 480 тысяч свежесварганеных наборов данных. Что-то мало получается. Можно ещё разрезать по размерностям, к примеру, по полу, там где он указан или по виду продукции если он есть да и много других размерностей большого объёма. Путем нехитрых манипуляций можно получить от 1 до 100 миллионов наборов данных.

Итого минимум 53.5 миллиона, максимум 153.5 миллиона наборов данных можно создать в кратчайшие сроки.

Куда там европейцам с их 1.9 миллионами наборами данных на data.europa.eu.

Главное не стесняться своего успеха. Чаще меня читать и прислушиваться к моим вредным советам!

#irony #datacatalogs #opendata
Forwarded from Ivan Begtin (Ivan Begtin)
Про всяческие инструменты для повседневной работы, то что можно назвать личным стеком приложений на десктопе. Ну а поскольку я уже много лет как мигрировал на связку W10 + WSL(Ubuntu) на десктопе, то и подборка приложений соответствующая.

Безопасное хранение
- Veracrypt - пожалуй лучший продукт с открытым кодом для использования зашифрованных томов. Плюсы - аудированность, хорошая наследование кода от предыдущего проекта Truecrypt. Минусы - томы фиксированного объёма, тяжелы в синхронизации с облаками.
- Cryptomator - для тех кто хранит защищённые файлы в "незащищённых местах", а то есть в облаках. Не так продвинут как Veracrypt, но позволяет сильно упростить синхронизацию с облачными сервисами
- KeePass - консервативный инструмент с открытым кодом для хранения паролей. Не самый удобный, но с открытым кодом

кстати относительно продуктов для личной паранойи лично я много лет придерживаюсь правила что хорошая безопасность такова что даже если ты перечислишь основные инструменты, то риски не возникают, потому что инструменты позволяют обеспечить необходимую защиту

Написание текстов и управление размышлениями
- Obsidian - пожалуй, лучший инструмент для ведения локальных заметок в Markdown с опциональной синхронизацией (за деньги) и возможностью публикации
- Quarto - инструмент подготовки научной документации. Оказался очень полезным для работы и описания некоторых данных
- Xmind инструмент для карт мыслей (mind mapping). Простой, универсальный, бесплатный для большей части всего или недорогой для расширенных функций

Управление кодом и разработкой
- VSCodium - IDE для программирования на базе VSCode, но без слежки от Microsoft
- Postman - приложение и сервис для проектирования и тестирования API
- APIDog - ещё одно приложение и сервис для проектирования и тестирования API

Для наглядности
- Beautiful AI - сервис и оффлайн плеер для презентаций. Когда надо сделать быстрые красивые презентации без Powerpoint'а
- Plottr - ПО для писателей по планированию книг. Пользуюсь не так часто потому что пишу синопсисы теперь в Obsidian

Работа с данными
- OpenRefine - для многочисленных задач очистки данных относительно небольшого объёма
- DuckDB - для задач анализа и преобразования данных условно любого объёма
- Excel, LibreOffice - для визуального просмотра данных, очень редко редактирования

Разное
- picoTorrent - ИМХО лучший инструмент выгрузки torrent'ов ещё и с открытым кодом. После того как uTorrent окончательно испортился
- Far Manager - чувствую себя реально старым, но продолжаю пользоваться аналогами Norton Commander'а 😂😜

Список неполный, ещё большая коллекция инструментов для локальных LLM

Почему я всё это вспомнил? Потому что второй день восстанавливаю ноутбук после переустановки W10 и этот эротический акт отнимает немало времени в восстановлении привычной среды. А это из тех задач которые сложно делегировать или ускорить.

#personal #software #recovery
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки про данные, технологии и не только:
- Software engineering with LLMs in 2025: reality check про применение LLM в программной инженерии. Неплохой обзор текущего состояния, понятным языком и про ключевые тренды.
- 9 Trends Shaping the Future of Data Management in 2025 обзор трендов в управлении данными в 2025 году. Надо тут оговорится что речь про рынок США, что сам обзор от коммерческой компании продающей SaaS сервис по контролю качества данных, а в остальном полезный обзор. Всё вполне очевидно: AI, real time data, self-service BI и тд.
- Iceberg, The Right Idea - The Wrong Spec - Part 1 of 2: History обзор истории спецификации Apache Iceberg. Полезно почитать перед тем как использовать
- DuckLake 0.2 обновление стандарта/спецификации озера данных на базе DuckDB. Слежу за этим внимательно, выглядит даже перспективнее чем Iceberg
- Why AI hardware needs to be open почему бы оборудованию для ИИ не быть открытым? Идеологически мне нравится, но нужен какой-то другой глобус чтобы это стало правдой
- Introducing pay per crawl: enabling content owners to charge AI crawlers for access владельцы сайтов теперь могут требовать оплату за краулинг их ресурсов.

#dataengineering #dataanalytics #ai #duckdb
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки для работы с данными, технологиями и не только:
- DocsGPT и LocalGPT два похожих продукта для извлечения знаний и чата с локальными документами. Первый под лицензией MIT, второй под Apache 2.0. Поддерживают множество форматов документов, работают с облачными и локальными моделями ИИ. Какой лучше не знаю, надо пробовать оба продукта.
- Markitdown утилита от Microsoft по преобразованию чего угодно в формат markdown. Поддерживает документы MS Office, PDF, HTML, аудио и изображения и многое другое.
- AI Dataset generator генератор синтетических наборов данных с помощью ИИ. Умеет подключаться к разным LLM и интегрировано с инструментом визуализации Metabase. Открытый код, лицензия MIT
- gt-extras расширение для пакета great-tables для Python позволяющее рисовать красивые таблицы в Python в средах научных тетрадок Jupyter или в Quatro из фреймов данных Pandas и Polars. Удобное для всех кто занимается аналитикой на данных
- OpenAIRE changelog хороший пример версионирования и журнала большого открытого дата-продукта.

#opensource #data #datatools
Forwarded from Типичный программист
60+ плюс бесплатных IT-курсов бережно разбитых по языкам и технологиям 🤌

Python и смежные темы:
Python для абсолютных новичков
Python-туториалы
Веб-фреймворки:
Django
Flask
FastAPI
Нейро-либы + бонус:
NumPy
Pandas
Scikit-Learn
Обзорный урок по Data Science


Учебные ресурсы по JS-стеку
:
JavaScript
JavaScript
Серверный JavaScript
Node.js
Express
Языки и инструменты:
TypeScript
Фронтенд-фреймворки и библиотеки:
React (интенсив)
React (плейлист)
React Native
Веб-фреймворки нового поколения:
Next.js 15
Next.js 15 & React 19 проектов


Учебные ресурсы по Java и Spring
:
Java для начинающих
Фреймворки и серверная разработка:
Spring и Spring Boot
Java + Spring + Microservices (интенсив)
Алгоритмы и структуры данных:
Структура данных & Алгоритмы


Учебные ресурсы по C:

Программирование на C
Отладка и работа с памятью
Отладка программ на C
Проблемы с памятью в C
Специализированные области:
Сетевое программирование
Многопоточное программирование на C
Встраиваемые системы
Алгоритмы и структуры данных:
Алгоритмы и структуры данных на C


Учебные ресурсы по C++
:
Плейлист по C++
Полный курс по C++
Графика и разработка игр:
OpenGL (основы работы с графикой)
Создание игр на C++


Учебные ресурсы по C# и .NET
:
Курс C# для начинающих
Фреймворки и платформы
.NET
.NET MAUI (кроссплатформенная разработка)
Blazor (веб-фреймворк)
Серверная разработка
Бэкенд на .NET


Учебные ресурсы по Rust
:
Интенсив по Rust
Краткие уроки по Rust


Учебные ресурсы по SQL
:
Полный курс SQL
SQL: c нуля до продвинутого уровня
Практика и челленджи:
30 дней SQL — Челлендж по SQL-запросам


Другие языки, которые заслуживают места здесь, но, к сожалению, не уместились:

Курс по Go
Курс по PHP
Курс по Swift
Курс по Kotlin
Курс по Dart
Курс по Ruby
Курс по Scala
Курс по Julia
Please open Telegram to view this post
VIEW IN TELEGRAM
MAX получил статус «национального мессенджера» — теперь ОФИЦИАЛЬНО

Минцифры выпустило официальное постановление: теперь MAX от VK — это национальный мессенджер внутри России. Аналог Telegram, но с Госуслугами.

Что уже доступно:

- чаты и звонки;
- файлы до 4 ГБ;
- переводы в чатах;
- встроенный GigaChat 2.0;
- мини-приложения;
- работа даже в подземной парковке.

В планах: цифровой ID, документы и вход в Госуслуги прямо из чата.

Текст не редактировать, опубликовать как есть

@your_tech
Forwarded from Типичный программист
Айтишники контролируют свои программы 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Типичный программист
Забудьте про выделенный сервер под управляющую платформу!

ISPsystem VMmanager теперь запускается как мастер-VM прямо в кластере — её CPU, RAM и диски выделяются динамически наравне с любыми виртуальными машинами.

Узлы Compute, Storage и Controller объединяются в единую среду, включая SAN-хранилища, что упрощает добавление новых узлов и расширение инфраструктуры. Микросервисная архитектура платформы и встроенное резервное копирование обеспечивают надёжность на каждом уровне.

Параметры мастер-VM можно менять «на лету» без перезагрузок, а vm-agent вместе с HA-кластером автоматически перенесут и восстановят платформу при сбое. Миграция виртуальных машин между узлами без даунтайма решается на уровне кластера.

Для изолированных сред без доступа к интернету теперь доступен обновлённый установщик, поставляющий всё необходимое в едином пакете.

Пора масштабироваться? Присмотритесь к VMmanager от ISPsystem.

Реклама. АО «Экзософт», ИНН 9731012897.
Forwarded from Типичный программист
This media is not supported in your browser
VIEW IN TELEGRAM
Data Formulator: нейро-тулза для визуализации и анализа данных с открытым исходным кодом

Всё просто: загружаете датасет, выбираете тип визуализации — и получаете красивый график. А вся магия предобработки и трансформаций делается по drag-and-drop или по инструкции на обычном языке: где нейронка сама сгенерирует SQL или Python-код, чистит данные, объединяет — и завершает всё эффектной диаграммой.

Инструмент полностью опенсорсный, но для работы с AI-мозгом потребуется свой API-ключ
Forwarded from NN
В ManusAI появился агент для визуализации данных — строит графики и готовит целые презентации.

Можно загрузить любой файл с данными и выбрать типы визуализаций. Бот проанализирует все цифры и за пару минут сделает подробный отчет. Его можно опубликовать в виде сайта или скачать в PDF.

Пробуем тут.
Forwarded from Исходный код
This media is not supported in your browser
VIEW IN TELEGRAM
Определяем локации из фильмов по скриншоту — появился удобный сервис Cineguesser, который за считанные секунды находит, где именно снимали сцену.

Пользоваться просто: загружаете кадр из фильма, а в ответ получаете описание места и его точные координаты.

Отличный инструмент для путешественников и киноманов. Вот ссылка
Forwarded from Библиотека программиста
🗺 Индексы — это как GPS для базы данных

Они помогут быстро найти нужную информацию, не теряя времени. B-деревья и B+-деревья — это как дороги с развязками, хеш-индексы — как точный адрес, а битовые индексы — как ярлыки для быстрого поиска. Если не хочешь потеряться, просто следуй их указаниям!

🐸 Библиотека программиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from IT Portal
This media is not supported in your browser
VIEW IN TELEGRAM
Джаваскриптеры, это вам — принес годный инструмент, позволяющий наглядно видеть порядок выполнения JS кода

Можно выбрать готовые примеры или вбить свой код (думаю, часто встречали такие задачи - "в каком порядке выполнится код?" — вот это оно)

Очень полезно для понимания JavaScript в целом 🍯

Пробуем здесь, код на GitHub

@IT_Portal
Forwarded from IT Portal
C++ разработчик и бывший старший инженер FAANG с более чем 30-летним опытом не мог решить баг в течение ~200 часов за 4 года

Новая Claude Opus 4 решила его. И это была единственная моделька, которая смогла.

Суть:
Баг возник после масштабного рефакторинга (60k+ строк) — один edge-case с шейдером начал ломаться. Проблема не в логике, а в том, что новая архитектура не учитывала редкое, но валидное поведение. GPT-4.1, Gemini 2.5, Claude 3.7 — не помогли.
Opus 4 — 30 промптов, один рестарт, и модель вывела точную причину.


P.S. Автор с Reddit — не фейк, профиль на 200k+ кармы и 7 лет постов, подтверждающих его бэкграунд

@IT_Portal
Forwarded from IT Portal
30 полезных ресурсов для практики программирования — нашёл для вас простую, местами очевидную, но интересную подборку:

🔘C Puzzles - Головоломки на языке С.
🔘Code Abbey - Множество задач по программированию и форум.
🔘CodeChef - Ресурс для регулярных соревнований по программированию.
🔘CodeCombat - Ресурс для начинающих, где обучение построено как игра с возрастающей сложностью. Изучающим Python, JavaScript или HTML&CSS с нуля.
🔘Codeforces - Можно участвовать в состязаниях или просто тренироваться на задачах в режиме дорешивания.
🔘Codewars - Платформа с разными заданиями — от алгоритмов до шаблонов проектирования — ждет разработчиков, программирующих на Java, JavaScript, PHP, Go, Ruby и других языках. Предварительно надо пройти тестирование.
🔘Coding Bat - Ресурс, посвященный Java и Python.
🔘CodinGame - Увлекательная практика в формате видеоигр. Поддерживаются 25 языков: Java, JavaScript, PHP, Python, Swift, C#, C++, Ruby и другие.
🔘Empire of Code - Русскоязычный ресурс с задачами по Python и JavaScript в формате игры.
🔘Exercism - Сайт предлагает задачи на 48 языках программирования.
🔘HackerRank - Платформа для опытных кодеров.
🔘InterviewBit - Сайт помогает подготовиться к интервью в Google, Facebook, Microsoft и других корпорациях и получить оффер.
🔘LeetCode - Ресурс с заданиями для подготовки к техническим интервью в крупных компаниях.
🔘MAXimal - Русскоязычный ресурс для освоения алгоритмов.
🔘Programming Praxis - Блог, в котором еженедельно размещают новые интересные задачи, чтобы программисты тренировали навыки и мозги.
🔘Programming Skills - Сайт с онлайн-тестами и вопросами для технического интервью. Подойдет тем, кто работает с HTML, JavaScript, C#, Java, PHP, C# и другими ЯП.
🔘Programmr - Платформа, на которой собраны задачки по Java, PHP, Python, C# и Ruby.
🔘Project Euler - Сайт с непростыми заданиями для математиков и программистов.
🔘Prolog Problems - На сайте программиста Вернера Хетта вы найдете краткий курс по языку Prolog и сборник упражнений для тренировки.
🔘PythonChallange - Сайт для тех, кто хочет освоить Python.
🔘Rosalind - Ресурс по изучению биоинформатики. Есть обучающий курс по Python.
🔘Ruby Quiz - Еженедельная викторина по Ruby, которая приходит в рассылке.
🔘SQL-EX.RU - Кладезь знаний для тех, кто изучает SQL.
🔘Timus Online Judge - Архив задач по программированию с авто проверкой.
🔘Topcoder - Платформа, на которой проводятся соревнования по программированию.
🔘W3Resource - Портал предлагает огромное количество обучающих материалов по веб-разработке, базам данных, Linux и даже программам Excel или шаблонам Google Forms. Есть упражнения и квизы по базам данных, PHP, JavaScript, Java, Swift и др..
🔘Питонтьютор - Русскоязычный ресурс для новичков в Python.
🔘Школа программиста - Ресурс предлагает множество задач и разбирает их для начинающих программистов.
🔘Хекслет - Вам дается реальная удаленная машина настроенная под конкретное задание, ide и ssh, в некоторых задачах даже с настоящим web сервером.
🔘Codebra - Онлайн курсы и уроки с практикой по различным ЯП и технологиям.


Сохраняйте себе и делитесь с друзьями ☕️

@IT_Portal
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from IT Portal
This media is not supported in your browser
VIEW IN TELEGRAM
Запоминаем ещё один трюк: меняем "hub" на "summarize" в URL любого репозитория на GitHub — и получаем почти мгновенную выжимку по проекту

Пользуемся ✌️

@IT_Portal
Please open Telegram to view this post
VIEW IN TELEGRAM