Код в мешке – Telegram

Код в мешке

249 subscribers

9.08K photos

1.6K videos

2.11K files

42.7K links

Код в мешке - про кодинг, и не только...
Это личная записная книжка

https://t.me/joinchat/AAAAAEIy6oGlr8oxqTMS5w

Download Telegram

About

Blog

Apps

Platform

Код в мешке

249 subscribers

Код в мешке

Forwarded from TrendWatching

This media is not supported in your browser

VIEW IN TELEGRAM

Получаем ответы сразу от ВСЕХ топовых нейросетей в ОДНОМ месте — больше не нужно спрашивать у ChatGPT, DeepSeek, Claude и Gemini по отдельности.

Заходим на Promptcannon и вбиваем свой запрос как в обычный чат-бот. Он выдаст вам сразу несколько вариантов ответов и выбираем для себя наиболее подходящий. Главное — это БЕСПЛАТНО.

Пользуемся тут.

9 views22:01

Код в мешке

Forwarded from concertzaal

Еврокомиссия опубликовала список пиратских сайтов на 54 страницы — тут и библиотеки книг, и бесплатные кинотеатры, и каталоги игр, и много чего еще.

внимание: НЕ сохранять и ни в коем случае НЕ пересылайте близким 😄

@concertzaal

Please open Telegram to view this post

VIEW IN TELEGRAM

11 views10:37

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

Полезные ссылки про данные, технологии и не только:
- Why Parquet Is the Go-To Format for Data Engineers про формат Parquet, его особенности и трюки/оптимизации при работе с этими файлами. Полезно для тех кто про формат уже слышал, но почти не использовал.
- Data.gouv.fr High-value datasets свежая страница на французском национальном портале открытых данных с наборами данных высокой ценности (в терминах регулирования Евросоюза).
- Data Paper Index (China) - каталог статей на данных (data papers) из более чем 2,2 тысяч статей в 100 научных журналах и связанные с 11 научными репозиториями. Основные темы: окружающая среда, науки о земле. напомню что data papers - это вид научных статей опубликованных вокруг одного или нескольких наборов данных.

#opendata #datasets #dataengineering

Why Parquet Is the Go-To Format for Data Engineers

With more practical lessons to help you with the data engineering journey

11 views21:01

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

Не буду давать ссылки на конкретные издания которые пишут пред-анонсы того что в РФ 15 июля планируется перезапуск data.gov.ru. Во первый сами публикации довольно, скажем так, неумелые, а во вторых говорить про то что сделано будет на data.gov.ru лично я буду только после того как увижу его в обновлённой форме 15 июля, если, это, конечно, произойдёт.

А пока в качестве напоминаний:
1. Портал data.gov.ru был недоступен более 2-х лет будучи "закрытым на обновление"
2. В предыдущей версии было доступно более 20+ тысяч наборов данных, большая часть которых, конечно, были мусорными, но тем не менее.
3. Полный слепок архива прошлой версии data.gov.ru у нас есть в ruarxive.org, если он Вам понадобится, напомните, я продублирую ссылку на дамп и вебархив

Честно говоря у меня лично нет вообще никаких позитивных ожиданий от того что российский портал data.gov.ru перезапускают. Есть много стран таких как Зимбабве или Чад где тоже нет порталов открытых данных. И ничего, живут же как-то;)

#opendata #russia

6 views21:01

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

В качестве регулярных напоминаний.

Я пишу в этом телеграм канале @begtin о технологиях, преимущественно, связанных с работой с данными, открытых данных, цифровой архивации и близких к этому темам почти все из которых являются, либо моей работой, либо моими хобби.

Также о том что я делаю и делают команды проектов которые я веду или с которыми я связан:
- @ruarxive - новости по цифровой и веб-архивации в контексте России и русскоязычных ресурсов
- @opendataam - открытые данные в Армении, новости о данных связанных с Арменией
- @infoculture - новости Информационной культуры, НКО ведущей ряд проектов в по открытости РФ
- @datenosearch - новости проекта поисковика по датасетам Dateno, на английском языке
- begtin.substack.com - блог/рассылка где я время от времени пишу лонгриды на русском языке
- medium.com/@ibegtin - англоязычный блог для лонгридов на английском языке. Пишу туда не очень часто, а надо бы чаще
- linkedin.com/in/ivbeg - регулярные публикации на английском языке в LinkedIn, по большей части про работу с данными.

#writings #opendata #digitalpreservation #data

Ivan’s Begtin Newsletter on digital, open and preserved government | Substack

Digital government can't be without openness, preservation, plain language and data, for sure. Click to read Ivan’s Begtin Newsletter on digital, open and preserved government, by Ivan Begtin, a Substack publication with hundreds of subscribers.

7 views21:01

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

Как многие уже знают Минэкономразвития РФ открыли вновь портал открытых данных РФ data.gov.ru после более чем 2-х летнего отключения. Мне много что есть сказать про то как он сделан, что на нём опубликовано и что со всем этим далее делать.

Однако, прежде чем обо всём этом писать, давайте я помогу тем кто хочет провести собственный анализ и поругать/похвалить портал.

Поэтому для всех желающих публикую данные о данных, дампы метаданных о датасетах, организациях и нормативной базе опубликованных на портале. Они присоединены в формате Parquet к этому посту. Проще всего воспользоваться инструментами вроде DuckDB, Polars, Pandas чтобы их прочитать.

А также дампы всех датасетов и всех документов "нормативной базы" опубликованных на портале на 15 июля 2025 г.

Они доступны по ссылкам:
- datagovru_datasets_files.zip - файлы наборов данных, 102MB в сжатом виде, 1GB в распакованном, всего 5696 файлов в формате CSV
- datagovru_acts_files.zip - файлы нормативной базы, 77MB в сжатом виде, 97MB в распакованном виде, всего 80 файлов в формате PDF

Всё вместе, включая Parquet файлы, доступно для выгрузки по ссылке и в посте в телеграм.

На случай если сотрудники/подрядчики Минэка РФ захотят ~~замести следы~~, ~~внезапно что-то удалить~~ внести исправления к опубликованному.

Объёмы небольшие, каждый может скачать эти данные локально, сделать собственную аналитику и рассказать о интересных находках.

Пока, для оперативности публикую всё это здесь, позже уже оформлю как полноценный датасет с автоматически созданной документацией.

#opendata #russia #datasets

6 views21:01

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

Я написал таки лонгрид про новую версию data.gov.ru https://begtin.substack.com/p/datagovru
Выводы спойлерить не буду, но они, да, очевидны.

#opendata #russia #datacatalogs

7 views21:01

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

В за полтора дня со свежеоткрытого портала открытых данных data.gov.ru исчезло более 300 наборов данных
Когда открывали было более 5000, сейчас 4 686. Очень быстро удаляют, скоро ничего не останется😜Такими темпами дней за 20 все удалят🌚

А что я всё рекламирую да рекламирую госпортал, во первых интересные датасеты по России есть в каталоге данных Инфокультуры https://hubofdata.ru/dataset/, а во вторых в Датено https://dateno.io.

В Датено данные о России/по России есть ещё и из разных источников, включая международные каталоги статистики и датасетов, то чего в на российский госпорталах вообще не встретишь.

#opendata #datacatalogs

Dateno - datasets search engine

A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.

7 views21:01

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

Я как мог сдерживался, но такое сдерживать сложно, да и обязательно придут те кто скажут не подсказывай им, но... а я подскажу😉 Вредные советы для делателей порталов открытых данных, ну может не в России, а в стране Вредносоветии.

Итак, сделать очень-очень много наборов данных и думаете где бы их раздобыть? И неважно нужные данные или нет, полезные или нет, большие или нет, главное чтобы формально были машиночитаемые в CSV или JSON или XML ? А я скажу вам как!

1. Берете базу официальную законодательства, в РФ это база ФСО или база Минюста. Документов там много, по моим самым скромным подсчётам не менее 1.5 миллиона документов - это всё приказы, законы, постановления, указы, распоряжения и тд. Ловким движением руки, загружаете каждый документ на портал открытых данных и у вас там сразу 1.5 миллиона наборов данных. Готов поспорить что полезных, востребованных и даже машиночитаемых потому что все будут в формате XML. Сложно это сделать? Очень просто! Даже разрешения ФСО или Минюста не потребуется.
2. Открываем госкаталог музейного фонда, а там, вы не поверите, но 52 миллиона записей. Фотографии, картины, изображения антиквариата, чего только нет. И хоть и куцое, но хоть такое есть описание к каждому доступное в виде JSON документа. Тут задача чуть посложнее, его скачать сложнее, займёт это не один, а целых два дня, зато загружаете их на портал открытых данных и там сразу +52 миллиона наборов данных и это в добавок к ранее опубликованным 1.5 миллионам машиночитаемых нормативных документов.
3. Открываете официальную статистику Росстата. Там в ЕМИСС более 6 тысяч показателей, выглядит так что немного. Но ведь у показателей есть разные размерности (dimensions). Если даже взять только регионы, которые есть у большинства показателей и даже если предположить что не по всем регионам есть статистика, то минимум этот будет 80*6000 = 480 тысяч свежесварганеных наборов данных. Что-то мало получается. Можно ещё разрезать по размерностям, к примеру, по полу, там где он указан или по виду продукции если он есть да и много других размерностей большого объёма. Путем нехитрых манипуляций можно получить от 1 до 100 миллионов наборов данных.

Итого минимум 53.5 миллиона, максимум 153.5 миллиона наборов данных можно создать в кратчайшие сроки.

Куда там европейцам с их 1.9 миллионами наборами данных на data.europa.eu.

Главное не стесняться своего успеха. Чаще меня читать и прислушиваться к моим вредным советам!

#irony #datacatalogs #opendata

7 views21:01

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

Про всяческие инструменты для повседневной работы, то что можно назвать личным стеком приложений на десктопе. Ну а поскольку я уже много лет как мигрировал на связку W10 + WSL(Ubuntu) на десктопе, то и подборка приложений соответствующая.

Безопасное хранение
- Veracrypt - пожалуй лучший продукт с открытым кодом для использования зашифрованных томов. Плюсы - аудированность, хорошая наследование кода от предыдущего проекта Truecrypt. Минусы - томы фиксированного объёма, тяжелы в синхронизации с облаками.
- Cryptomator - для тех кто хранит защищённые файлы в "незащищённых местах", а то есть в облаках. Не так продвинут как Veracrypt, но позволяет сильно упростить синхронизацию с облачными сервисами
- KeePass - консервативный инструмент с открытым кодом для хранения паролей. Не самый удобный, но с открытым кодом

кстати относительно продуктов для личной паранойи лично я много лет придерживаюсь правила что хорошая безопасность такова что даже если ты перечислишь основные инструменты, то риски не возникают, потому что инструменты позволяют обеспечить необходимую защиту

Написание текстов и управление размышлениями
- Obsidian - пожалуй, лучший инструмент для ведения локальных заметок в Markdown с опциональной синхронизацией (за деньги) и возможностью публикации
- Quarto - инструмент подготовки научной документации. Оказался очень полезным для работы и описания некоторых данных
- Xmind инструмент для карт мыслей (mind mapping). Простой, универсальный, бесплатный для большей части всего или недорогой для расширенных функций

Управление кодом и разработкой
- VSCodium - IDE для программирования на базе VSCode, но без слежки от Microsoft
- Postman - приложение и сервис для проектирования и тестирования API
- APIDog - ещё одно приложение и сервис для проектирования и тестирования API

Для наглядности
- Beautiful AI - сервис и оффлайн плеер для презентаций. Когда надо сделать быстрые красивые презентации без Powerpoint'а
- Plottr - ПО для писателей по планированию книг. Пользуюсь не так часто потому что пишу синопсисы теперь в Obsidian

Работа с данными
- OpenRefine - для многочисленных задач очистки данных относительно небольшого объёма
- DuckDB - для задач анализа и преобразования данных условно любого объёма
- Excel, LibreOffice - для визуального просмотра данных, очень редко редактирования

Разное
- picoTorrent - ИМХО лучший инструмент выгрузки torrent'ов ещё и с открытым кодом. После того как uTorrent окончательно испортился
- Far Manager - чувствую себя реально старым, но продолжаю пользоваться аналогами Norton Commander'а 😂😜

Список неполный, ещё большая коллекция инструментов для локальных LLM

Почему я всё это вспомнил? Потому что второй день восстанавливаю ноутбук после переустановки W10 и этот эротический акт отнимает немало времени в восстановлении привычной среды. А это из тех задач которые сложно делегировать или ускорить.

#personal #software #recovery

15 views21:03

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

Полезные ссылки про данные, технологии и не только:
- Software engineering with LLMs in 2025: reality check про применение LLM в программной инженерии. Неплохой обзор текущего состояния, понятным языком и про ключевые тренды.
- 9 Trends Shaping the Future of Data Management in 2025 обзор трендов в управлении данными в 2025 году. Надо тут оговорится что речь про рынок США, что сам обзор от коммерческой компании продающей SaaS сервис по контролю качества данных, а в остальном полезный обзор. Всё вполне очевидно: AI, real time data, self-service BI и тд.
- Iceberg, The Right Idea - The Wrong Spec - Part 1 of 2: History обзор истории спецификации Apache Iceberg. Полезно почитать перед тем как использовать
- DuckLake 0.2 обновление стандарта/спецификации озера данных на базе DuckDB. Слежу за этим внимательно, выглядит даже перспективнее чем Iceberg
- Why AI hardware needs to be open почему бы оборудованию для ИИ не быть открытым? Идеологически мне нравится, но нужен какой-то другой глобус чтобы это стало правдой
- Introducing pay per crawl: enabling content owners to charge AI crawlers for access владельцы сайтов теперь могут требовать оплату за краулинг их ресурсов.

#dataengineering #dataanalytics #ai #duckdb

13 views21:03

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

Полезные ссылки для работы с данными, технологиями и не только:
- DocsGPT и LocalGPT два похожих продукта для извлечения знаний и чата с локальными документами. Первый под лицензией MIT, второй под Apache 2.0. Поддерживают множество форматов документов, работают с облачными и локальными моделями ИИ. Какой лучше не знаю, надо пробовать оба продукта.
- Markitdown утилита от Microsoft по преобразованию чего угодно в формат markdown. Поддерживает документы MS Office, PDF, HTML, аудио и изображения и многое другое.
- AI Dataset generator генератор синтетических наборов данных с помощью ИИ. Умеет подключаться к разным LLM и интегрировано с инструментом визуализации Metabase. Открытый код, лицензия MIT
- gt-extras расширение для пакета great-tables для Python позволяющее рисовать красивые таблицы в Python в средах научных тетрадок Jupyter или в Quatro из фреймов данных Pandas и Polars. Удобное для всех кто занимается аналитикой на данных
- OpenAIRE changelog хороший пример версионирования и журнала большого открытого дата-продукта.

#opensource #data #datatools

GitHub - arc53/DocsGPT: Private AI platform for agents, assistants and enterprise search. Built-in Agent Builder, Deep research…

Private AI platform for agents, assistants and enterprise search. Built-in Agent Builder, Deep research, Document analysis, Multi-model support, and API connectivity for agents. - arc53/DocsGPT

23 views21:03

Код в мешке

Forwarded from Типичный программист

60+ плюс бесплатных IT-курсов бережно разбитых по языкам и технологиям 🤌

Python и смежные темы:

— Python для абсолютных новичков
— Python-туториалы
Веб-фреймворки:
— Django
— Flask
— FastAPI
Нейро-либы + бонус:
— NumPy
— Pandas
— Scikit-Learn
— Обзорный урок по Data Science

Учебные ресурсы по JS-стеку:

— JavaScript
— JavaScript
Серверный JavaScript
— Node.js
— Express
Языки и инструменты:
— TypeScript
Фронтенд-фреймворки и библиотеки:
— React (интенсив)
— React (плейлист)
— React Native
Веб-фреймворки нового поколения:
Next.js 15
Next.js 15 & React 19 проектов

Учебные ресурсы по Java и Spring:

— Java для начинающих
Фреймворки и серверная разработка:
— Spring и Spring Boot
— Java + Spring + Microservices (интенсив)
Алгоритмы и структуры данных:
— Структура данных & Алгоритмы

Учебные ресурсы по C:

— Программирование на C
Отладка и работа с памятью
— Отладка программ на C
— Проблемы с памятью в C
Специализированные области:
— Сетевое программирование
— Многопоточное программирование на C
— Встраиваемые системы
Алгоритмы и структуры данных:
— Алгоритмы и структуры данных на C

Учебные ресурсы по C++:

— Плейлист по C++
— Полный курс по C++
Графика и разработка игр:
— OpenGL (основы работы с графикой)
— Создание игр на C++

Учебные ресурсы по C# и .NET:

— Курс C# для начинающих
Фреймворки и платформы
— .NET
— .NET MAUI (кроссплатформенная разработка)
— Blazor (веб-фреймворк)
Серверная разработка
— Бэкенд на .NET

Учебные ресурсы по Rust:

— Интенсив по Rust
— Краткие уроки по Rust

Учебные ресурсы по SQL:

— Полный курс SQL
— SQL: c нуля до продвинутого уровня
Практика и челленджи:
— 30 дней SQL — Челлендж по SQL-запросам

Другие языки, которые заслуживают места здесь, но, к сожалению, не уместились:

— Курс по Go
— Курс по PHP
— Курс по Swift
— Курс по Kotlin
— Курс по Dart
— Курс по Ruby
— Курс по Scala
— Курс по Julia

Please open Telegram to view this post

VIEW IN TELEGRAM

17 views00:10

Код в мешке

Forwarded from Типичный программист

Уверенная база в нейронках: подборка бесплатных курсов Стэнфорда по AI & ML

CS221 — Искусственный интеллект

CS229 — Машинное обучение (Эндрю Ын)

CS230 — Глубокое обучение (Эндрю Ын)

CS229M - Теория машинного обучения

CS234 — Обучение с подкреплением

CS224U — Понимание естественного языка

CS224N — НЛП с глубоким обучением

Сохраняйте 👍

Please open Telegram to view this post

VIEW IN TELEGRAM

17 views00:10

Код в мешке

Forwarded from Представляешь,

MAX получил статус «национального мессенджера» — теперь ОФИЦИАЛЬНО

Минцифры выпустило официальное постановление: теперь MAX от VK — это национальный мессенджер внутри России. Аналог Telegram, но с Госуслугами.

Что уже доступно:

- чаты и звонки;
- файлы до 4 ГБ;
- переводы в чатах;
- встроенный GigaChat 2.0;
- мини-приложения;
- работа даже в подземной парковке.

В планах: цифровой ID, документы и вход в Госуслуги прямо из чата.

Текст не редактировать, опубликовать как есть

15 views00:10

Код в мешке

Forwarded from Типичный программист

Айтишники контролируют свои программы 😁

Please open Telegram to view this post

VIEW IN TELEGRAM

12 views00:10

Код в мешке

Forwarded from Типичный программист

Забудьте про выделенный сервер под управляющую платформу!

ISPsystem VMmanager теперь запускается как мастер-VM прямо в кластере — её CPU, RAM и диски выделяются динамически наравне с любыми виртуальными машинами.

Узлы Compute, Storage и Controller объединяются в единую среду, включая SAN-хранилища, что упрощает добавление новых узлов и расширение инфраструктуры. Микросервисная архитектура платформы и встроенное резервное копирование обеспечивают надёжность на каждом уровне.

Параметры мастер-VM можно менять «на лету» без перезагрузок, а vm-agent вместе с HA-кластером автоматически перенесут и восстановят платформу при сбое. Миграция виртуальных машин между узлами без даунтайма решается на уровне кластера.

Для изолированных сред без доступа к интернету теперь доступен обновлённый установщик, поставляющий всё необходимое в едином пакете.

Пора масштабироваться? Присмотритесь к VMmanager от ISPsystem.

Реклама. АО «Экзософт», ИНН 9731012897.

15 views00:10

Код в мешке

Forwarded from Типичный программист

This media is not supported in your browser

VIEW IN TELEGRAM

Data Formulator: нейро-тулза для визуализации и анализа данных с открытым исходным кодом

Всё просто: загружаете датасет, выбираете тип визуализации — и получаете красивый график. А вся магия предобработки и трансформаций делается по drag-and-drop или по инструкции на обычном языке: где нейронка сама сгенерирует SQL или Python-код, чистит данные, объединяет — и завершает всё эффектной диаграммой.

Инструмент полностью опенсорсный, но для работы с AI-мозгом потребуется свой API-ключ

21 views00:10

Код в мешке

Forwarded from NN

This media is not supported in your browser

VIEW IN TELEGRAM

В ManusAI появился агент для визуализации данных — строит графики и готовит целые презентации.

Можно загрузить любой файл с данными и выбрать типы визуализаций. Бот проанализирует все цифры и за пару минут сделает подробный отчет. Его можно опубликовать в виде сайта или скачать в PDF.

Пробуем тут.

21 views14:30