Код в мешке
249 subscribers
8.94K photos
1.58K videos
2.11K files
42.1K links
Код в мешке - про кодинг, и не только...
Это личная записная книжка

https://t.me/joinchat/AAAAAEIy6oGlr8oxqTMS5w
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные ссылки про данные, технологии и не только:
- Kreuzberg [1] библиотека для Python по извлечению текста из документов, поддерживает множество форматов, внутри использует Pandoc и Tesseract OCR. Создано как раз для использования в задачах RAG (Retrieval Augmented Generation) с прицелом на локальную обработку данных и минимумом зависимостей. Лицензия MIT
- Validoopsie [2] другая библиотека для Python для валидации данных. Использует библиотеку Narwhals благодаря которой подключается к почти любым видами дата-фреймов. Выглядит полезной альтернативой Great Expectations, лично для меня в валидации данных глобальный нерешённый вопрос в том что тут правильнее, код или декларативное программирования. Иначе говоря, правила проверки должны ли быть отчуждаемыми от языка разработки. Здесь валидация встроена в код, но поверх можно сделать и декларативный движок. Лицензия MIT
- Scripton [3] коммерческое IDE для Python с необычной фичей визуализации данных в реальном времени. Есть только скриншоты, записи экрана и коммерческая версия для macOS. Для тех кто занимается алгоритмической визуализацией может быть удобно, для остальных задач пока нет такой уверенности.
- New horizons for Julia [4] по сути статья о том что язык программирования Julia ещё жив и развивается. Правда медленно, на мой взгляд, но вроде как есть позитивное движение за пределами научных областей. Лично я почти не сталкивался с Julia кроме как на уровне примеров кода, но хорошо если он кому-то нравится и полезен.
- Data-Driven Scrollytelling with Quarto [5] визуализация дата-историй с помощью движка Quarto, итоги конкурса таких визуализаций с большим числом примеров и победителей. Примеры все от команды компании Posit которая этот open-source движок Quarto и разрабатывает. Скажу отдельно что это очень правильно. Если ты делаешь любой движок по визуализации, то просто обязательно надо проводить такие конкурсы.
- The Best Way to Use Text Embeddings Portably is With Parquet and Polars [6] ещё один обзор о том насколько эффективен Parquet в связке с Polars для работы с данными, в данном случае данными карт Magic of the Gathering. Автор тоже задаётся вопросом о том почему Parquet не поддерживается в MS Excel.
- How to Make Superbabies [7] особенно длинный лонгрид о том как генетическими изменениями можно улучшать человека, создавать супер детей или "оптимизированных детей", как ещё пишет автор. Читать и думать об этом надо потому что всё идёт к тому что скоро это станет ещё одной острой социальной и геополитической темой.

Ссылки:
[1] https://github.com/Goldziher/kreuzberg
[2] https://github.com/akmalsoliev/Validoopsie
[3] https://scripton.dev/
[4] https://lwn.net/Articles/1006117/
[5] https://posit.co/blog/closeread-prize-winners/
[6] https://minimaxir.com/2025/02/embeddings-parquet/
[7] https://www.lesswrong.com/posts/DfrSZaf3JC8vJdbZL/how-to-make-superbabies

#opensource #data #datatools #dataviz #genetics #python
Forwarded from Ivan Begtin (Ivan Begtin)
Я не пропустил совсем новость о том что Пр-во России анонсировало национальный проект "Экономика данных и цифровая трансформация государства" на который предполагается что потратят более 1 триллиона рублей до 2030 года [1], но долго думал как прокомментировать.

Меня в этом проекте всегда смущало слово экономика, оно как бы неявно, завуалировано, так сказать, создавало ощущение что где-то здесь, вот тут вот, совсем рядом, надо только вчитаться, но есть экономический эффект, оценка оборота данных, снижение регуляторных барьеров и так далее. Иначе говоря моделирование регуляторного и деятельностного пространства. И, конечно, введение в оборот большего числа/объёма данных находящихся в введении органов власти или напрямую ими регулируемых.

Я долго это искал в нацпроекте Цифровая экономика, но не мог найти. И сейчас не могу найти в новом нац проекте. А вот цифровая трансформация государства представлена в полной мере, здесь вопросов нет, здесь всё понятно.

И, конечно, как всегда, не могу не отметить отсутствие тематики открытых данных в официальной государственной повестке. Это не значит что их нет, это значит что их приоритет улетел куда-то, далеко улетел, но не совсем.

Но давайте я немного отвлекусь. Не все знают, а я напомню, что большая часть Bigtech'ов (Google/Amazon/Microsoft/Facebook) - это дата корпорации. Многие из них легко делятся технологиями и выкладывают их в открытый код потому что для всех из них (кроме разве что Microsoft) данные - это основной актив, важнейший актив. Большая часть из них живут по принципу DINDO (Data-in-no-data-out), по-русски это звучит как "Данные входят, данные не выходят".

Особенность российского регулирования данных и основных инициатив, на текущем этапе, в том что российское государство трансформируется в data корпорацию, в первую очередь на федеральном уровне. Медленнее чем можно было бы подумать, тяжелее чем можно было представить, но последовательнее чем можно было бы ожидать.

Это приводит всех нас в ситуацию когда, к примеру, запрос от бизнеса на государственные данные приводит к контр-вопросу "А Вы нам что?". Государство из распределителя общественного блага превращается в супер-дата-корпорацию не заинтересованную делиться данными потому что, вспоминаем, это ценный актив.

Это уникальное для мира явление и лично мне не нравится эта тенденция. В каждой новой инициативе я пытаюсь разглядеть отход от движения в эту сторону и пока не вижу.

Ссылки:
[1] https://tinyurl.com/data-economy-2025

#data #russia #regulation
Forwarded from Ivan Begtin (Ivan Begtin)
Мою презентация с сегодняшнего Дня открытых данных в России можно посмотреть онлайн https://www.beautiful.ai/player/-OKHlQrIzuA3Bba4k-Uz

Она была полностью посвящена Dateno и практике поиска датасетов. Это не первая и не последняя моя презентация по этой теме, но как водораздел обновления Dateno до 22 миллионов датасетов.

#opendata #dateno
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто интересуется тема приватность и AI с точки зрения управления, юридических нюансов в первую очередь, курс AI Governance 2.0 про Регулирование и комплаенс ИИ-систем стартует завтра: в составе 9 преподавателей, 3 менторов, 1 куратора и 16 слушателей.

Я там тоже преподаю и рекомендую курс для всех кто интересуется темой.

#privacy #ai #education #studies
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике как это устроено у них Суверенное Технологическое Агентство Германии ( Sovereign Tech Agency) [1] специализированное агентство при The Federal Agency for Disruptive Innovation при Правительстве страны со специализацией на поддержке проектов с открытым кодом. Причём поддерживают они не просто раздачей грантовых средств, а то что можно назвать системной поддержкой сообщества.

У агентства действует четыре программы:
- Sovereign Tech Fund - фонд распределяющий грантовые программы на продукты с открытым кодом
- Sovereign Tech Resilience - целевая программа повышения надёжности открытого кода (финансирование исправления ошибок, общей инфраструктуры и тд.)
- Sovereign Tech Fellowship - на русский язык сложно правильно перевести слово fellowship, так что это программа фэллоушипа для разработчиков открытого кода когда их, по сути, берут на работу для того чтобы они 100% занимались только открытым кодом по своим проектам
- Sovereign Tech Challenge - программа целевых конкурсов для разработчиков открытого ПО

Почему это важно? Потому что кроме просто открытого кода общего назначения агентство финансировало и финансирует проекты связанные с данными. Например, curl получил поддержку в 195 тысяч евро в 2022 и 2023 года [2] потому что curl - это инструменты выгрузки данных;) Это более всего похоже на то что пара человек работала над проектом фуллтайм 2 года. А в 2025 и 2026 году агентство будет финансировать команду OpenStreetMap на сумму в 384 тысячи евро [3].

Ограничение агентства в том что они финансирует только заявки от организаций и разработчиков находящихся в Германии, зато это именно финансирование общественного блага именно в той форме которая не вызывает вопросов.

Ссылки:
[1] https://www.sovereign.tech
[2] https://www.sovereign.tech/tech/curl
[3] https://www.sovereign.tech/tech/openstreetmap

#opensource #data #germany
Нейросеть скоро будет писать втрое больше кода за разработчиков
Но результаты работы ИИ нужно проверять, и программист превратится из «кодера» в «архитектора решений»


К 2030 году более 90% разработчиков начнут использовать ИИ для написания и проверки кода — прогноз от первого вице-президента по технологиям МТС Павла Воронина.

Сейчас в компании ~8% кодов создается с помощью искуственного интеллекта. Через два года эта доля вырастет еще в три раза, до 25%.

Тенденция вполне логичная — нейросетям можно делегировать рутину, чтобы заниматься более сложными и креативными задачами.

Полностью заменить айтишников ИИ вряд ли сможет в ближайшее время.
↘️ https://www.vedomosti.ru/technology/articles/2025/03/11/1097183-neiroset-skoro-budet-pisat-vtroe-bolshe-koda-za-razrabotchikov
...
🖥 Репозиторий: IP-Tracer — средство для отслеживания любого IP-адреса

IP-Tracer — это бесплатный инструмент с открытым исходным кодом, который можно найти на GitHub. Он был создан для дистрибутивов Linux, таких как Kali Linux, Parrot и Termux.

— Этот инструмент работает, отправляя запросы на сервер, связанный с IP-адресом, и собирает информацию, включая географическое местоположение, интернет-провайдера и иногда имя хоста сети.

Ссылка на GitHub (https://github.com/rajkumardusad/IP-Tracer)

#Tool #IP #Linux #GPS
@hackernews_lib
🖥 Репозиторий: AIL framework — это фреймворк для анализа утечек информации

AIL Project представляет собой фреймворк с открытым исходным кодом, который включает различные модули для сбора, сканирования, исследования и анализа неструктурированных данных.

— Этот фреймворк предоставляет расширяемую среду на основе Python для анализа собранной неструктурированной информации с помощью продвинутого менеджера Crawler или из различных источников (таких как Twitter, Discord, провайдеры Telegram Stream) или пользовательских источников.

Ссылка на GitHub (https://github.com/CIRCL/AIL-framework)

#Framework #Analysis #Leak #Scanning
@hackernews_lib
🖥 Репозиторий: Ghost Framework — удаленное управление устройствами Android

Ghost Framework — это фреймворк для постэксплуатации Android, который использует Android Debug Bridge для удаленного доступа и управления устройствами Android.

— Этот фреймворк предоставляет удобные возможности для удаленного администрирования устройств Android.

Ссылка на GitHub (https://github.com/EntySec/Ghost)

#Framework #Android
@hackernews_lib
Forwarded from Типичный программист
Читерский софт для собеса, который помогает решать задачки в стиле Leetcode

Инструмент позволяет списывать на технических интервью, оставаясь незамеченным. С его помощью парень даже прошёл собеседование в Amazon.

Но помните: это морально предосудительно. Не делайте этого. Я оставлю ссылку здесь, чтобы вы знали, что его не следует использовать: https://github.com/ibttf/interview-coder

#инструменты
🖥 Репозиторий: Шаблон плана реагирования на инциденты — реагирование на инциденты

Шаблон плана реагирования на инциденты представляет собой полный контрольный список ролей и обязанностей команды, занимающейся реагированием на инциденты в случае возникновения инцидента, связанного с безопасностью.

— Этот репозиторий также описывает шаги и действия, необходимые для выявления инцидента безопасности, осознания его последствий и управления ущербом.

Ссылка на GitHub (https://github.com/counteractive/incident-response-plan-template)

#Incident #Cybersecurity #Infosec
@hackernews_lib
🖥 Репозиторий: Замечательное Обнаружение Угроз и Охота — библиотека по выявлению угроз и охоте

Замечательное Обнаружение Угроз и Охота — это курируемый список ресурсов для выявления угроз и охоты.

— Этот инструмент предоставляет полную коллекцию инструментов, методов и методологий для специалистов в области кибербезопасности, чтобы расширить их возможности по обнаружению угроз.

Ссылка на GitHub (https://github.com/0x4D31/awesome-threat-detection)

#Замечательное #GitHub #Кибербезопасность #Охота
@hackernews_lib
🖥 Репозиторий: OWASP Amass — инструмент для визуализации сети

OWASP Amass — это инструмент с открытым исходным кодом, который помогает создавать карту сети и выявлять активы.

— Этот инструмент собирает данные из общедоступных источников, таких как логи прозрачности сертификатов и поисковые системы, чтобы определить внешнюю поверхность атаки организации.

Ссылка на GitHub (https://github.com/owasp-amass/amass?ysclid=m875wghfl9620894777)

#OWASP #Network
@hackernews_lib
⚡️⚡️⚡️ ВСЕМ ВЛАДЕЛЬЦАМ iOS

Apple вновь исполнила требования РКН и удалила из App Store огромное количество VPN приложений.

Если у вас iOS, настоятельно рекомендуем установить следующие приложения, чтобы они были на вашем устройстве на случай удаления из магазина:

👉 V2RayTun

👉 Streisand

👉 Outline

👉 Shadowrocket (по желанию, платное)

-------------
💡 Всегда ваш YouFast VPN 🛡