Код в мешке
249 subscribers
9.08K photos
1.6K videos
2.11K files
42.7K links
Код в мешке - про кодинг, и не только...
Это личная записная книжка

https://t.me/joinchat/AAAAAEIy6oGlr8oxqTMS5w
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
Мне много что есть сказать по поводу отзыва компанией GlobalSign сертификатов у российских доменов и недавнего изменения политики Let's Encrypt в части соблюдения санкций США (теперь соблюдают, если вкратце и не будут больше выдавать их санкционным компаниям).

Последствия этого будут для российских пользователей неприятными и пойдут эти действия скорее в копилку доводов тех кто говорит про суверенный интернет в РФ и как бы все не обернулось попытками усиления внедрения отечественных браузеров, сертификатов НУЦ и так далее. В чем, разумеется, ничего хорошего нет и быть не может, российский цифровой рынок не настолько большой чтобы усиливать собственную изоляцию, и множество продуктов поломается из-за невозможности проверки сертификатов так же как и риски взломов усилятся.

Но тема эта не про данные, а не про данные мне говорить скучно😉 так что я, всё таки, предложу посмотреть на эту проблему через данные.

Сертификаты для сайтов и других целей в мире выдаются не кем попало, а так называемыми Certificate Authority и крупнейшие вендоры браузеров, операционных систем и устройств проводят их верификацию/аттестацию и включают в списки признаваемых ими. Вот тут можно посмотреть примеры таких списков. Наиболее значимые - это списки Apple, Microsoft, Google для их операционных систем, но, в принципе, все они важны.

Наиболее крупный список Common CA Database ведет Linux Foundation в партнерстве с Microsoft, Mozilla, Cisco и Google. Он включает 10122 сертификата, выпущенных 186 корневыми CA из примерно 60 стран. Эти страны включают, практически все страны ЕС, многие азиатские и даже некоторые африканские страны.

А каких стран там нет? Из значимых там нет России, Беларуси и всех стран Центральной Азии и многих других.

Почему же так, спросите Вы? Может быть потому что они не могли бы пройти по требованиям для их аттестации? Может быть потому что не было и нет целенаправленной госполитики по их созданию? Или в том что зарубежные вендоры изначально не доверяют компаниям в области безопасности из ряда стран? Есть ли тут политические решения или только экономические?

У меня есть предположения и подозрения на этот счет, а пока для тех кто хочет изучить как устроен рынок CA в мире вот тут можно скачать напрямую этот файл для анализа в CSV формате. Он вполне поддается анализу и визуализации.

#opendata #certificates #russia #datasets #data
Forwarded from Ivan Begtin (Ivan Begtin)
Подборка ссылок про данные, технологии и не только:
- Running local models is good now - автор пишет что, внезапно, но разработка ПО с помощью локальных моделей стала реалистичной. Она приводит в пример новую LLM Gemma-4-12b-qat достаточно компактную чтобы работать на ноутбуке с 64GB памяти и достаточно эффективную чтобы решать задачи работы с кодом.
- SpaceX to acquire Cursor for $60B in stock если кратко то компания AnySphere создателей среды разработки Cursor теперь куплена SpaceX. Я бы сказал что если Grok не начнут навязывать через Cursor, то это хорошая новость. Думаю что не будут и думаю что это не последнее приобретение SpaceX
- GenSpark - стартап/сервис-ИИ агента сравнимый с Manus. В моих тестах неожиданно хорошо показал себя на Deep Research задачах. Сервисов таких до сих пор не так уж много и можно разориться уже если тестировать их все.
- Bigset агент с открытым кодом по созданию датасетов из веб-поиска. Вбиваешь что-то вроде "AI infrastructure startups hiring backend engineers" и получаешь CSV файл на выходе. Концептуально напоминает сервис Webhound, там открытого кода нет, только SaaS. Правда и Bigset хоть и с открытым кодом, но зависит от коммерческого сервиса Tinyfish через который он делает веб поиск.

#opensource #ai #tools
Forwarded from Ivan Begtin (Ivan Begtin)
Forwarded from Ivan Begtin (Ivan Begtin)
Я тут регулярно рассказываю о реестре каталогов данных Dateno который доступен в виде открытого репозитория и на сайте Dateno и время от времени сетую как же так такая хорошая штука и мало кем используется. И вот нашлись живые пользователи. Поисковая система/ИИ агент по базам знаний и каталогам данных Climate Data Catalogue используют наш реестр в своем реестре каталогов данных по климатическим данным. Их там немного, но они синхронизованы с метаданными из реестра Dateno. Что тут скажешь, молодцы 😁 и для таких применений этот реестр и создавался как открытый дата-продукт. С подробными метаданными и всеми точками подключения API которые у каждого каталога данных есть.

Сам их продукт ответов на вопросы тоже интересный, правда для работы просит ключ для Mistral, но обещает что он используется только локально.

В отличии от Dateno они ищут по Wiki, SPARQL эндпоинтам и каталогам данных и заглядывают в метаданные Wikidata при поиске ответов на вопросы.

Бизнес модель их не понимаю, впрочем это академический проект WU Vienna с акцентом на связанные данные, можно сказать что монетизация через получение исследовательских грантов (это не монетизация, конечно).

#opendata #datasets #climate #datacatalogs
Forwarded from Ivan Begtin (Ivan Begtin)
NVIDIA выложили в открытый доступ BioNeMo Agent Toolkit инструментарий для работы специалистов-биоинформатиков с ИИ агентами. Это не LLM модель, не программный продукт, а коллекция большого числа файлов навыков (SKILL.md), документации и примеров кода оптимизированное под Claude, Codex и Nemotron и инфраструктуру сервисов NVIDIA. Все под лицензиями Apache 2.0 и CC-BY-4.0


По сути это не то чтобы радикально новый, но всё же новый подход к документированию API и сервисов. Каждый файл SKILL.md сопровождается документацией к эндпоинтам API и примерами использования с дополнительными описаниями как с ними работать.

Общаясь со спецами по биоинформатике я уже не первый раз слышу что они используют специализированные ИИ инструменты, но ощущают что от всех них откажутся в сторону general LLM, учитывая как те развиваются. Пример с NVIDIA тоже показателен. Не разработка отдельного закрытого продукта, многие из которых есть на рынке, а встраивание в собственную экосистему и экосистему Anthropic и OpenAI

#opensource #ai #biotech
Forwarded from Ivan Begtin (Ivan Begtin)
По поводу того что Apple убрали из апп стора приложения VK, и того что разработчики Telega (альтернативный телеграм клиент) самоудаляются с 1 июля мне много что есть сказать, но сдерживаюсь чтобы больше писать и думать про интересное (данные, ИИ и тд.), а не про злободневное. И вообще не всегда получается писать нейтрально и достаточно сухо, но я стараюсь.

Тем не менее я хочу обратить внимание на то о чем уже писал, с 30 сентября 2026 года Google постепенно начнет внедрять требование по верификации всех разработчиков приложений для андроида. Не только в рамках Google Play, а вообще всех. Это поломает многие, может быть даже все, опенсорсные сторы приложений и поставит под контроль альтернативные сторы. Это охватит не все устройства, а только сертифицированных партнеров где есть, к примеру, Samsung, но нет Huawei.

Последствием этого может быть то что Google как и Apple сможет блокировать приложения конкретных разработчиков под санкциями и альтернативами окажется, или использование несертифицированных устройств или установка приложений разными нестандартными способами с понижением безопасности устройств. В андроиде, в отличие от устройств Apple, это возможно.

В любом случае если завтра российские регуляторы публично признаются что на Apple никак повлиять не могут и начнут говорить что мол "переходите на Андроид" может оказаться что переход на андроид не поможет. Потому что Google тоже должны соблюдать санкции (отдельный вопрос почему не соблюдают сейчас, но это политика, а не технологии).

В любом случае я бы не питал иллюзий что с Apple или Google можно будет договориться через ФАС или квадрилионные судебные иски или блокировками их сервисов. Блокировать их сервисы - это как стрелять себе в колени. Понятно что не впервой, но не надо уже приводить самострел в привычку.

#russia #thoughts
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто любит работать с данными, я недавно залил обновления в два репозитория:
- iterabledata библиотека для Python для чтения условно любых файлов и баз данных в итеративном режиме в том числе в потоковом режиме с экономией памяти
- undatum утилита для командной строки для манипуляции условно любыми дата файлами, их конверсии, чтении данных, анализу и документированию. Внутри используется как раз библиотека iterabledata

В чем особенность этих релизов.

В iterabledata исправлена возможность записи в форматы Avro, Orc и Lance. Не самые большие изменения, но повышающие удобство работы с библиотекой.

А утилита undatum была радикально обновлена с переводом большей части функций на работу через iterabledata и отказа от части внутреннего кода. Теперь работает преобразование файлов всех форматов которые поддерживает iterabledata - это более 100 форматов.

Сами инструменты были вдохновлены утилитами xsv и qsv и были написаны для того чтобы можно было удобным образом работать с изначально с JSONl/NDJSON файлами сжатыми любым способом, а далее с форматами вроде Parquet, ORC и остальные.

Вообще у меня не так много времени остается на программирование в последнее время, это скорее как хобби, но хобби полезное.

#opensource #datatools #dataengineering
Forwarded from Ivan Begtin (Ivan Begtin)
Свежий текст от The GovLab о том как меняется политика доступа к данным в эпоху ИИ. Текст, как я понимаю, по итогам нескольких сессий прогнозирования развития открытости данных, открытого доступа и обмена данными с ведущими экспертами и про то куда все двигается на основе этих разговоров.

Там все те же темы о которых я регулярно пишу, то что парадигма открытых данных
испытывает трудности, то что государства хотят больше контроля над данными, то тема данных стала синонимична ИИ и еще много всего.

#opendata #readings
Forwarded from Библиотека программиста
Forwarded from Библиотека программиста
This media is not supported in your browser
VIEW IN TELEGRAM
Если до сих пор открываете всё через поиск Windows — попробуйте Command Palette

Это один из самых полезных инструментов в PowerToys: запускает приложения, команды, файлы и многое другое прямо с клавиатуры.

А ещё поддерживает расширения, которые добавляют новые возможности буквально в пару кликов 🔗

🐸 Библиотека программиста
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Типичный программист
Инструмент для бесконечного доступа к Cursor Pro через обход триала

Ужасный и морально сомнительный тул, который позволяет бесконечно активировать пробные аккаунты Cursor Pro за счёт автоматической регистрации учёток с рандомными мейлами и отката данных. Также поддерживает вход через Google и GitHub.

Работает на Windows, macOS и Linux. Сам завершает процессы Cursor, чистит кэш, сбрасывает данные и маскирует железо. Для стабильной работы — запуск от администратора, чистка куки браузера и VPN.

GitHub оставил тут — исключительно чтобы вы знали, что не стоит использовать🙂

#cursor
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Нейроканал
Стандартный ИИ-агент помнит только текущий разговор. Закрыл терминал и всё: твои предпочтения, прошлые решения, контекст проекта испарились. Следующий запуск начинается с нуля. Это как если бы программист каждое утро забывал, в какой он команде и на каком языке пишет.

Есть, конечно, системы запоминаний, по сути просто записывание в файл, когда модель считает, что эту инфу важно не потерять. Но это всё полумеры, тем более что есть прям целые отдельные системы памяти. Расскажу про основные.

iai-mcp — локальный сервер памяти для Claude Code. Работает на локальной машине, шифрует данные, не лезет в облако. Память устроена как граф. Свежий проект, буквально пару дней от релиза, но автор заявляет, что по бенчмаркам обгоняет топовый mempalace.

MemPalace — память по принципу античной техники локусов. Иерархия: крылья (проекты), комнаты (темы), залы (типы связей), ящики (дословные записи). Сохраняет текст целиком, не перефразирует. Гибридный поиск: BM25 + косинус + граф знаний. 96,6% на LongMemEval.

Mem0 — проект, который показался мне самым зрелым, куча звёзд и разработчиков и даже $24M инвестиций. Векторный поиск + граф знаний + key-value. Dual-deployment: open-source (Apache 2.0, Docker) или облако. Но графовая память за paywall. Эксклюзивный провайдер памяти для AWS Agent SDK.

Supermemory — лидер по бенчмаркам. Впрочем, каждый проект про себя так заявляет, а единой методики нет, все чуть под себя подстривают. 81,6–85,2% на LongMemEval. Гибридный RAG: память + документы в одном запросе. Есть коннекторы к Google Drive, Gmail, Notion, GitHub. Но ядро закрытое, self-hosting только по enterprise-контракту.

Zep — временные графы знаний. Каждый факт хранит 4 временные метки: когда узнали, когда стало актуально, когда перестало. Можно спросить «а где Алиса работала в марте 2025?» и получить правильный ответ, даже если она уже уволилась. Ядро Graphiti open-source.

Hindsight — память, построенная как человеческая. Четыре сети: факты о мире, собственный опыт, синтезированные наблюдения, развивающиеся убеждения. Четыре параллельные стратегии поиска + reranking. Рекорд на LongMemEval — 91,4%. MIT, нет paywall, всё открыто.

Mastra — фреймворк для агентов, где память встроена изначально. Для тех, кто строит агентов с нуля и не хочет склеивать десяток библиотек. Open-source.

Что-то одно посоветовать не могу, сам не планирую сравнивать, но думаю начать с iai-mcp, по описанию понравился.

@neuro_channel (теперь ещё в VK и Max)
Forwarded from Типичный программист
Нашёл на GitHub проект, который позволяет запускать локального исследовательского агента — полностью бесплатно и локально

На бенчмарках SimpleQA даёт ~95% точности при использовании Qwen3.6-27B на RTX 3090. Поддерживает все локальные и облачные LLM (llama.cpp, Ollama, Google), 10+ поисковых движков — arXiv, PubMed, личные документы. Всё шифруется локально. Можно интегрировать глубокое исследование прямо в свои проекты без подписок на API.

GitHub: github.com/LearningCircuit/local-deep-research

Автор на Reddit пишет, что за ~2 недели проект набрал 3.5K звёзд и 200 форков.

#ии

@tproger
Читайте также в VK, Max и Дзен
Forwarded from Типичный программист
OpenClaw требует свой DevOps. 5 фреймворков, которые — нет

У OpenClaw одна задача: уметь всё. Мультиагентность, локальный запуск, кастомные каналы. Но за это приходится платить: самостоятельно крутить инфру, поднимать брокеры, следить за контейнерами.

Если не хотите стать своим DevOps для агента, то у нас на сайте найдёте пять альтернатив, которые делают разные ставки:

— NanoClaw — агент в контейнере, WhatsApp, долговременная память.
— PicoClaw — лёгкий рантайм для edge. Меньше компонентов, меньше точек отказа.
— TrustClaw — управляемая платформа, не требует self-host.
— NanoBot — Python-каркас.
— IronClaw — модульная база: сбор данных → проверка → отчёт.

Все пятеро работают с OpenAI-compatible API, то есть подключаются без платформенных костылей. Можете выбрать тот вариант, который подходит вам лучше всего.

@tproger
Читайте также в VK, Max и Дзен
Forwarded from Типичный программист
В большинстве компаний 1С и облачная инфраструктура живут в параллельных мирах: DevOps смотрит в Grafana, финдиректор — в 1С, а когда падает оплата, все смотрят друг на друга. На самом деле подружить 1С с современными инструментами мониторинга вполне реально всего за один спринт. В блоге Centicore рассказали, как это сделать.

В статье разбирается, как вытащить метрики из 1С через OData без единой строчки кода, написать Prometheus Exporter на Python и собрать бизнес- и технические метрики на одном дашборде. А заодно — где интеграция обычно ломается и как это пережить.
Forwarded from Типичный программист
Каким может быть роадмап для QA в 2026 году? Пять лет назад тестирование начиналось с ручного: чек-листы, клики, результат. Сегодня в тех же вакансиях — Kafka, Kubernetes и автотесты на Java. «Вкатиться через мануальное» больше не работает, но что же делать? Собирать базу, с которой можно будет работать и двигаться дальше!

Что по-настоящему пригодится:
— Архитектура микросервисов;
— HTTP/REST, SQL и брокеры сообщений;
— Чтение логов;
— Язык программирования для автоматизации;
— Инженерное мышление вместо «кнопка не работает».

Подробнее обо всём в блоге Альфа-Банка.
Forwarded from Типичный программист
Как выбрать системного интегратора в 2026 году?

Выбор подрядчика — решение на несколько лет. Цена ошибки — суды или переписывание проекта с нуля. Не ошибиться всё-таки можно, если воспользоваться небольшим чек-листом для выбора подрядчика.

Например, не стоит сразу начинать долгосрочное сотрудничество, а проверить нового партнёра на небольшой задаче. Внимательно смотрите на сметы, обращайте внимание на прозрачность и качество коммуникаций, и не забудьте свериться с репутацией интегратора на рынке.

Всего критериев 12, обо всех подробно читайте в новом материале.
Где держать Telegram-бота или API, чтобы они не падали под нагрузкой и не съедали бюджет?

Tproger собрал подборку из шести VPS-провайдеров под этот сценарий: от тарифов за пару сотен рублей в месяц до конфигураций с DDR5 и портом 10 Гбит/с. У каждого свой акцент — где-то посуточная оплата и запуск за минуту, где-то API для CI/CD, бэкапы и приватные сети, где-то зарубежные локации.

Внутри по каждому провайдеру: реальные конфигурации, цены, на какой нагрузке тестировали и под какой сценарий брать.

https://tproger.ru/articles/gde-razvernut-bota-ili-api---podborka-vps--kotorye-ne-tormozyat

@prog_stuff
Forwarded from Нейроканал
Коллеги из Tproger собрали подборку облачных GPU-провайдеров для ML на 2026 год. Внутри — какие карты реально доступны у разных провайдеров (от Tesla T4 до H200 и B300), под какие сценарии берут конкретные конфигурации и сколько это стоит за час аренды.

Рекомендую, пишут про решения, которыми я лично пользуюсь.

@neuro_channel (теперь ещё в VK и Max)