Код в мешке
249 subscribers
9.08K photos
1.6K videos
2.11K files
42.7K links
Код в мешке - про кодинг, и не только...
Это личная записная книжка

https://t.me/joinchat/AAAAAEIy6oGlr8oxqTMS5w
Download Telegram
[Перевод] Бюрократия под микроскопом: как она рождается, живёт и мешает бизнесу развиваться #habr
https://habr.com/ru/articles/910544/
Tags: управление людьми, управление проектами, управление командой, управление проектом, бизнес, стартап, бюрократия, команды, изменения, развитие бизнеса
Author: YourDestiny
[Перевод] OpenAI представила Codex — агента по разработке программного обеспечения внутри ChatGPT #habr
https://habr.com/ru/articles/910582/
Tags: chatgpt, codex, программирование, ии, ai, ии-ассистент
Author: NeyroEntuziast
5 сценариев, когда канбан может упростить процессы в отделах #habr
https://habr.com/ru/companies/1forma/articles/909990/
Tags: канбан-метод, канбан доска, управление проектами, управление процессами, bpms, автоматизация, low-code, автоматизация процессов, управление продажами, контент-маркетинг
Author: skydr (Первая Форма)
Читерство в законе. Как пройти собеседование и устроиться на работу в дивном новом мире #habr
https://habr.com/ru/companies/ruvds/articles/908884/
Tags: ruvds_статьи, собеседования, собесы, интервью, читерство, обман, 10х программист, замена лица, face swap, Deep-Live-Cam, дипфейки, асинхронное интервью, Phazr, LoopCV, Whisper AI, Ecoute AI, Kickresume, Zapier, Teal, ChatGPT, синдром самозванца
Author: alizar (RUVDS.com)
Forwarded from Ivan Begtin (Ivan Begtin)
Model Context Protocol (MCP) был разработан компанией Anthropic для интеграции существующих сервисов и данных в LLM Claude. Это весьма простой и неплохо стандартизированный протокол с вариантами референсной реализации на Python, Java, Typescript, Swift, Kotlin, C# и с большим числом реализаций на других языках.

Тысячи серверов MCP уже доступны и вот основные ресурсы где можно их искать:
- Model Context Protocol servers - большой каталог на Github
- Awesome MCP Servers - ещё один большой каталог с переводом на несколько языков
- Pipedream MCP - интеграция с 12.5 тысяч API и инструментов через сервис Pipedream
- Zapier MCP - интеграция с 8 тысячами приложений через сервис Zapier
- Smithery - каталог MCP серверов, 6200+ записей по множеству категорий
- MCP.so - каталог в 13100+ MCP серверов

Похоже мода на MCP пришла надолго и пора добавлять его к своим продуктам повсеместно.

#ai #opensource #aitools
Forwarded from Ivan Begtin (Ivan Begtin)
Полезные свежие научные статьи про работу с данными:
- Large Language Models for Data Discovery and Integration: Challenges and Opportunities - обзор подходов по обнаружению и интеграции данных с помощью LLM
- Unveiling Challenges for LLMs in Enterprise Data Engineering - оценка областей применения LLM в корпоративной дата инженерии
- Magneto: Combining Small and Large Language Models for Schema Matching - про одно из решений сопоставления схем через использование LLM и SLM
- Interactive Data Harmonization with LLM Agents - интерактивная гармонизация данных с помощью LLM агентов
- Towards Efficient Data Wrangling with LLMs using Code Generation - про автоматизацию обработки данных с помощью кодогенерирующих LLM

#readings #data
Forwarded from Ivan Begtin (Ivan Begtin)
Как читать отчёты Счетной палаты в РФ ? Не надо читать финальные выводы и довольно бесполезно читать вступление. Всё самое главное посередине там где изложение фактов. Какие-то факты могут отсутствовать, может не быть иногда глубины, но те что приведены, как правило, достаточно точны.

История с ГАС Правосудие и потерей огромного объёма данных судебных решений именно тот случай [1]. Спасибо ребятам из Если быть точным за подробное изложение и анализ этой истории [2]. Единственно с чем я несогласен, а это не надо сотням людей использовать один парсер. Нужна была бы открытая база судебных решений которая когда-то была в Росправосудии. Парсер - это плохой путь, приводящий к массовому применении каптчи. Но создать ресурс с данными тоже непросто, его могут быстро заблокировать.

Однако в этой истории про ГАС Правосудие я хочу сделать акцент на 60+ миллиардах потраченных на эту систему денег, и даже не на то что их взломали, и это всячески скрывали. А на том у что у системы не было резервных копий.

И скажу я вам не тая, подозреваю что это не единственная российская государственная информационная система резервных копий к которых нет. И не появится если за это не будет последствий, а их похоже что нет.

И, конечно, данные по судебным делам - это самое что ни на есть общественное достояние, общественно значимые данные которые безусловно и безальтернативно должны были бы быть открытыми. Вместо того чтобы отреагировать на парсеры данных выкладкой датасетов для массовой выгрузки, сотрудники Суддепа много лет развлекались встраиванием каптчи на страницах сайта. А то есть на "вредительство" у них время и ресурсы были, а на создание архивных копий нет?

Ссылки:
[1] https://t.me/expertgd/12660
[2] https://t.me/tochno_st/518

#opendata #closeddata #theyfailed #russia
Forwarded from Ivan Begtin (Ivan Begtin)
Я давно не писал про наш поисковик по данным Dateno, а там накопилось множество обновлений, надеюсь что вот-вот уже скоро смогу об этом написать. А пока приведу ещё пример в копилку задач как ИИ заменяет человека. Я много рассказывал про реестр дата каталогов который Dateno Registry dateno.io/registry, полезный для всех кто ищет не только данные, но и их источник. Этот реестр - это основа Dateno, в нём более 10 тысяч дата каталогов размеченных по разным характеристикам и с большими пробелами в описаниях. Откуда пробелы? потому что автоматизировать поиск источников удалось, а вот описание требует (требовало) много ручной работы.

Когда мы запускали Dateno на текущем реестре я оценивал трудоёмкость по его улучшению и повышении качества в полгода работы для пары человек вручную. Совсем немало скажу я вам, учитывая что этих людей ещё и надо обучить и
ещё надо контролировать качество работы и ещё и нужны инструменты чтобы всё это редактировать без ошибок.

В общем, чтобы долго не ходить, ИИ почти полностью справляется с этой задачей. Достаточно предоставить url сайта с каталогом данных и из него хорошо извлекаются все необходимые метаданные.

Для стартапа на данных - это очень заметное изменение. И это маленькая и теперь недорогая задача. После всех проверок можно будет значительно обновить реестр.

Кстати, о том зачем он нужен. Реестр каталогов данных точно нужен Dateno для индексации датасетов, но он же нужен и всем тем кто строит национальные порталы данных потому что позволяет агрегировать в него данные из всех национальных источников.

#opendata #dateno #datasets #dataengineering #llm #ai #dataunderstanding
Forwarded from Ivan Begtin (Ivan Begtin)
Про MCP ещё полезное чтение

A Critical Look at MCP [1] автор задаётся вопросом о том как же так получилось что протокол MCP (Model Context Protocol) используемый для интеграции сервисов, инструментов и данных с LLM спроектирован так посредственно и описан довольно плохо. О том же пишет другой автор в заметке MCP: Untrusted Servers and Confused Clients, Plus a Sneaky Exploit [2].

Думаю что дальше будет больше критики, но популярности MCP это пока никак не отменяет

Ссылки:
[1] https://raz.sh/blog/2025-05-02_a_critical_look_at_mcp
[2] https://embracethered.com/blog/posts/2025/model-context-protocol-security-risks-and-exploits/

#ai #llm #readings
Forwarded from Ivan Begtin (Ivan Begtin)
Для тех кто любит не только читать, но и слушать книжки. Audiblez [1] генератор аудиокниг по текстам, с открытым кодом, командной строкой и UI интерфейсом. Поддерживает английский, испанский, французский, хинди, итальянский, японский, португальский и китайский. Русский не поддерживает и даже армянского языка нет - это минус, в основном из-за того что внутри используется Kokoro-82M [2] модель где только эти языки. Можно выбрать книгу в epub формате и голос и создать аудиокнигу.

Сама генерация аудиокниги весьма ресурсоёмкая, но реалистичная.

Лицензия MIT.

Ссылки:
[1] https://github.com/santinic/audiblez
[2] https://huggingface.co/hexgrad/Kokoro-82M

#opensource #ai #books #readings