Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

В продолжение инструментов работы с данными, я на днях обновил утилиту undatum которую создавал для разных манипуляций с данными в командной строке. Главная была особенность в том что она кроме CSV файлов поддерживает всяческие структурированные не плоские форматы данных вроде JSONL, BSON, Parquet и тд.

А также умеет автодокументировать датасеты.

Собственно свежее изменение в том что теперь автодокументирование расширилось поддержкой любых LLM'ом через Ollama, LM Studio, Perplexity, OpenAI и OpenRouter и в поддержке множества языков, можно получать описание буквально на любом языке поддерживаемом выбранной LLM.

Автодокументирование работает не быстро, но зависит только от скорости работы LLM, а не от размера набора данных. Оно полезно для многих задач, у меня лично много задач с тем чтобы приводить описания наборов данных в порядок и один из способов для этого в использовании вот этого инструмента

У меня в отложенных задачах есть интеграция его с утилитой metacrafter, но это уже как-то позже.

#opensource #datatools #ai

10 views01:27

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

Google обновили Magika инструмент для идентификации типов файлов в зависимости от содержимого. Пишут что теперь он поддерживает более 200 форматов файлов (ранее было 100), полностью переписан на Rust и работает существенно быстрее. Можно обратить внимание что многие из упомянутых новыз форматов файлов это файлы с данными npz, pytorch, parquet, h5 и файлы кода zig, dart, kotlin и тд. Фактически Magika это альтернатива идентификации типа файла по расширению и альтернатива magic (утилита идентификации файлов в Unix-подобных операционных системах) и утилитам Siegfried и DROID используемых цифровыми архивистами.

Выглядит полезно, надо пробовать. Прошлая версия, как я помню, давала какое-то количество ложнопозитивных результатов, возможно в этом направлении тоже есть прогресс.

Как минимум области применения тут в задачах цифровой архивации, работы с разного рода унаследованными материалами, в цифровой форенсике и еще много в чем.

Что характерно Magika занимается команда Security research в Google, а то есть можно предполагать что основное применение это, все же, цифровая форенсика.

Из интересного, разработчики пишут что чтобы обучить Magika они использовали 3-х террабайтный несжатый датасет.

В целом видно что над проектом работает группа ИИ инженеров, но не методистов и это сопутствующий продукт их работы потому что иначе они бы начали с реестра типов mime и расширений в который собрали бы метаданные из PRONOM и пары других крупных реестров форматов файлов.

#opensource #google #datatools #forensics

18 views01:27

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

Для тех кто задумывается об архивации личных и не самых личных файлов утилита ydiskarc для архивации парок и файлов размещённых на Яндекс.Диск. Я создал её довольно давно и недавно актуализировал до удобного вида. Она использует открытое API Яндекс.Диск для получения метаданных о файлах и выгрузки их локально без использования ПО Яндекса или получения ключа доступа. Можно использовать на собственных папках или на каких-либо общедоступных, не требующих авторизации.

Поддерживает две команды:
- full - делает дамп всего содержимого в виде ZIP файла
- sync - сохраняет файлы с сохранением структуры папок

В процессе работы сохраняет все полученные метаданные в файлах _metadata.json в папках.

Может применяться, например, при архивации российских сайтов где какие-то материалы опубликованы на Яндекс.Диск и не поддаются индексированию классическими инструментами такими как веб-краулеры.

Ошибки, предложения и идеи можно оставлять в issues к репозиторию.

#opensource #tools #digitalpreservation

16 views01:27

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

Mattermost изначально продукт с открытым кодом активно использовавшийся по всему миру как альтернатива Slack которую можно было бы установить локально для своей команды перешли в режим open core и начиная с 11 версии ввели ограничение в максимум 10 000 сообщений, а все что до определенной даты уходят в архив без воможности просмотра. Пользователи у которых это произошло после обновления справедливо негодуют.

Лично я бы сказал что после такого шага пользоваться Mattermost'ом уже нельзя, потому что монетизация - это нормально, а вот монетизация через подобное принуждение и острый дискомфорт пользователей это очень плохой трек.

Как и всегда проблема в дефиците качественных альтернатив.

#opensource #opencore

10 views01:27

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

По итогам могу сказать что если Google сменит ценовую политику для корпоративного применения Antigravity (сейчас она 183.6 евро за месяц) или если его конкуренты прокачают свои решения для ещё большей эффективности, то работу над кодом это ускорят не а 2-3 раза, а в 10-30 раз.

Разработка любого внутреннего инструмента или конечного приложения теперь должна быть устроена иначе. На начальной стадии обязательно нужно писать текст видения результата который должен включать:
1. Описание того что создается
2. Описание результатов включая критерии качества:
- измеряемые индикаторы качества (в данном случае FAR/FRR)
- сравнение результатов с существующими аналогами если они есть
3. Гипотезы
4. Правила управления зависимостями
5. Правила организации кода, репозитория и автоматического покрытия тестами и документирования

Частично это вписывается в логику руководства ИИ агента в AGENTS.md или GEMINI.md, но лишь частично, скорее всего всё это необходимо оформлять во внутренние руководства по организации разработки с использованием ИИ агентов.

#opensource #ai #aiagents #coding #thoughts #devnotes

13 views01:27

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

Полезные ссылки про данные, технологии и не только:
- NERD Language свежий язык программирования заточенный под LLM. Сделан читаемым для людей, но с предположением что пишут на нём ИИ агенты. Идея не кажется странной, но адаптация одного или нескольких существующих языков программирования кажется мне более логичной
- 2025 letter интересные рассуждения автора о сходстве Кремниевой долины и Коммунистической партии Китая в виде отсутствия юмора и исполненности самомнения. Текст реально длинный лонгрид, интересный и тем что автор рассуждений является автором книги Breakneck: China's Quest to Engineer the Future о изменениях в Китае и его инженерной культуре
- UK accounting body to halt remote exams amid AI cheating в Великобритании регулятор экзаменов для бухгалтеров запретил онлайн экзамены кроме как в редких исключительных случаях. Причина очевидна - обман с помощью ИИ агентов. Хотите бесплатную идею для edutech ближайшего будущего? Сеть экзаменационных центров с подавлением сотовых, абсолютно тотальным видеомониторингом с автоматизированным определением использования шпаргалок и устройств, обязательные обыски на входе, ~~охранниками с дубинками~~ и прочими "ноу-хау"
- on the software job climate автор сжато повторяет то о чем многие пишут, денег в ИТ (особенно венчурных) стало глобально меньше, бюджетов на найм в ИТ тоже меньше, а рабочей силы больше. Выводы делайте сами (уже и так все сделали)
- 2025: The year in LLMs автор делает обзор года программирования с помощью разных LLM. Много полезного. Автор - это Саймон Уиллисон, создатель довольно популярного инструмента Datasette для публикации данных онлайн, хорошо известный в кругах открытого кода и открытых данных

#readings #ai #opensource

www.nerd-lang.org

Story - NERD

Why NERD exists. The story of an LLM-native language.

20 views01:27

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

В качестве регулярных напоминаний, большое количество открытого кода который я лично создавал и поддерживаю:
- iterabledata библиотека для Python по работе с любыми файлами с записями с помощью прямого их перебора и возвращением каждой записи как словаря (dict). Фактически реализация интерфейсов csv.DictReader и csv.DictWriter для десятков форматов файлов таких как JSON, JSON lines, XML, Parquet, ORC и множества более специфических и отраслевых таких как PCAP, WARC и др.
- internacia-db референсная база данных с базовыми данными по странам и по страновым блокам. Распространяется в форматах JSONL, Parquet, DuckDB, YAML. Полезно для задач обогащения данных, поиска и фильтрации результатов в территориальной привязке, сравнении стран и территориальных блоков.
- undatum это инструмент командной строки для работы с файлами со сложной иерархией так как работают с CSV файлами. Он умеет считать статистику, преобразовывать файлы, анализировать их, разрезать на части и тд. Внутри используется библиотека iterabledata и большое число форматов файлов поддерживаются
- metacrafter библиотека для Python и инструмент командной строки для работы с семантическими типами данных, используется для выявления персональных идентификаторов и иных объектов (кодов организаций, кадастровых и почтовых кодов и так далее)

А также много другого открытого кода о котором я регулярно тут пишу.

#opensource #data #dataengineering #datatools

GitHub

GitHub - datenoio/iterabledata: Python library to read, write and convert data files with formats BSON, JSON, NDJSON, Parquet,…

Python library to read, write and convert data files with formats BSON, JSON, NDJSON, Parquet, ORC, XLS, XLSX, XML and many others - datenoio/iterabledata

35 views20:27

Код в мешке

Forwarded from Ivan Begtin (Ivan Begtin)

Mozilla Thunderbolt корпоративный ИИ ассистент с открытым кодом от Mozilla. Судя по анонсу доступен в виде открытого кода прямо сейчас и можно записаться в лист ожидания. В основе продукта лежит Haystack от deepset.

Во всех анонсах и материалах явно видны акценты на европейский рынок, суверенный ИИ (в контексте ЕС) и решении на принципах local-first, а то есть можно выбрать какой LLM сервис использовать, облачный или локальный и с чем интегрироваться.

Не первый и не последний продукт такого рода, здесь интересно что происходит он изнутри Mozilla.

Чтобы развернуть его нужно сейчас много усилий, тем кто не хочет возиться со сложными конфигурациями проще будет дождаться готовых сборок.

Ещё удивительно что нет никаких демо, ни онлайн, ни в видео. Ну, можно и подождать

#opensource #ai #mozilla

15 views07:36

Код в мешке

Forwarded from Заметки Хакер

🖥 Репозиторий: Honggfuzz — Инструмент для фаззинга (поиска уязвимостей) от Google

Honggfuzz — это инструмент для фаззинга, предназначенный для автоматического поиска уязвимостей в программном обеспечении путём подачи случайных или мутированных данных и отслеживания сбоев.

— Поддерживает три режима работы: фаззинг на основе файлов, сетевых протоколов и инструментированных сборок (ASan, UBSan, CFI). Работает на Linux, macOS, Windows и Android. Имеет персистентный режим и поддерживает параллельный фаззинг на нескольких ядрах.

⏺ Ссылка на GitHub (https://github.com/google/honggfuzz)

#Fuzzing #Security #Vulnerability #Research #Google #OpenSource | Лаборатория хакера (https://max.ru/lab_hack)

@hackernews_lib

13 views10:40

Код в мешке

Forwarded from Заметки Хакер

🖥 Репозиторий: GnuPG — инструмент для шифрования и дешифрования данных

GnuPG (GNU Privacy Guard) — это свободное программное обеспечение для шифрования и дешифрования данных, а также для создания цифровых подписей.

— Он позволяет пользователям шифровать как текстовые файлы, так и целые сообщения, а также выполнять дешифрование данных с использованием асимметричной криптографии.

GnuPG поддерживает интеграцию с различными приложениями и системами, что делает его эффективным инструментом для обеспечения безопасности данных в повседневной практике.

⏺ Ссылка на GitHub (https://github.com/gpg/gnupg?ysclid=mg0ubkhlij349264707)

#Decryption #Encryption #Cryptography #OpenSource #GnuPG

@hackernews_lib

9 views22:24

About

Blog

Apps

Platform