Код в мешке
249 subscribers
9.11K photos
1.6K videos
2.11K files
42.8K links
Код в мешке - про кодинг, и не только...
Это личная записная книжка

https://t.me/joinchat/AAAAAEIy6oGlr8oxqTMS5w
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
LongCat-2.0 свежая LLM на 1.6 триллионов параметров, контекстом в 1М и открытым кодом (пока не открыт, только обещан). Особенность в том что она под другим названием Owl Alpha уже входит в топ 5 рейтинга OpenRouter и активно в этом рейтинге растет. Иначе говоря разработчикам даже не надо доказывать ее востребованность, она и так де-факто уже проверена востребованностью.

Другая особенность в том что модель обучена полностью на китайских чипах и создана в компании Meituan - это такая китайская компания разработчик приложения доставки. Они и раньше делали LLM под названием LongCat, но кажется именно эта является прорывом.

#ai
Forwarded from Ivan Begtin (Ivan Begtin)
Ещё немного про утилиту с открытым кодом для работы с данными undatum которую я когда-то разработал и потихоньку развиваю. Это не коммерческий продукт, а скорее вспомогательный инструмент когда надо что-то поделать с данными в командной строке и эти данные не просто плоские CSV файлы, а что-то посложнее.

Я приводил в пример ее использование для преобразования файлов, а вот дополнительные примеры того как ее можно применять.

Быстрое API на основе файла с данными

Предположим есть файл CSV, JSONl, Parquet или еще какой-то и его содержанию надо быстро дать доступ кому-то внешнему, но передавать файл/файлы целиком нельзя по какой-либо причине.

Очень простая и быстрая команда
undatum api run data.jsonl

Автоматически проанализирует файл и запустит веб-сервер с доступом к данным через REST API и возможностью фильтрации по его полям. Из плюсов - минимум усилий. Из минусов - в нем нет сейчас какой-то сложной программной логике поиска по полям и тд., только полный или частичный мэтчинг.

В итоге получается неидеальное, зато очень быстро развертываемое API которое можно выставлять внешним пользователям.

Быстрое документирование дата файлов

Когда есть некий файл с данными к нему нет дополнительной информации, а очень надо быстро в нем разобраться, то генератор Markdown документации

В самом простом виде выглядит как
undatum ai doc data.csv

выводит на экран итоговый Markdown текст

Более продвинутый
undatum ai doc —blocks general,schema,quality,examples,codebook —format json —language Russian data.csv

Создает документацию в формате JSON с Markdown блоками перечисленными списком и на русском языке.

Загрузка данных в NoSQL/SQL базы данных

Команда ingest изначально делалась для продвинутого импорта данных в MongoDB и Elasticsearch и идея в том чтобы на вход получить файл и строку подключения в базе данных после чего загрузить содержимое в выбранную таблицу/коллекцию/индекс

Пример команды
undatum ingest data.jsonl https://elasticsearch:9200 myindex myindex --dbtype elasticsearch --api-key YOUR_API_KEY --doc-id id

В чем важная особенность undatum от специализированных инструментов которые умеют это же? В поддержке любых сжатых файлов .xz, .gz, .zst, .lz4, .bz2 и так далее. Потому что хранить данные в чистом NDJSON или CSV - это прямо таки очень неэффективно. Особенно когда это много слепков коллекции из MongoDB или индекса Elasticsearch.

#opensource #datatools #data
Forwarded from Ivan Begtin (Ivan Begtin)
Еще один взгляд на открытые данные в виде доклада The Value of Open Data on Global Entities от Linux Foundation и компании BrightQuery с упором на доступность данных о компаниях, людях и локациях (связанных с компаниями). BrightQuery делают продукт графа по адресу OpenData.org где можно скачать большой датасет на 24GB со всеми этими данными, это одних только организаций более 86 миллионов 690 тысяч.

Доклад связывает эти данные еще и с Overture Maps.

В любом случае доклад полезный для понимания рынка проверки контрагентов и доступности данных на нем.

#opendata #datasets #readings
Forwarded from Ivan Begtin (Ivan Begtin)
OmniRoute локальный маршрутизатор запросов к ИИ провайдерам умеющий работать с большим их количеством, сейчас это 231 провайдер в том числе с теми которые дают бесплатные квоты. Позиционируется как инструмент сильной оптимизации потребления токенов, позволяет сократить их благодаря сжатию RTK + Caveman.

Что характерно даже поддерживают одного из российских провайдеров - gigachat (можно увидеть в общем списке), но собственно и только. Того же Яндекс'а к примеру тут нет почему-то.

Плюс обещают прозрачную интеграцию с 1proxy и возможность обхода блокировок из стран которым некоторые AI провайдеры не дают доступа (Россия, Иран, Куба, Китай и тд.).

На чем зарабатывают непонятно, думаю что монетизацию включат позже и привяжут как раз к сервисам прокси или экономии токенов.

Выглядит как очень полезный инструмент еще и из-за встроенной аналитики потребления, так что надо пробовать на практике. Если все работает как обещано - ценное дополнение к техническому стеку.

#opensource #ai #tools
Forwarded from Ivan Begtin (Ivan Begtin)
Хороший обзор проектов с экспериментальной статистикой в США, с примерами компаний которые создают публичные дата продукты и их начинают использовать официально.

Все это про мир alternative data, актуальный для биржевого и корпоративного мира и все еще медленно проникающий в официальную статистику.

В обзоре из интересных примеров - это оценка масштабов строительства через анализ спутниковых снимков.

#opendata #statistics
Forwarded from Ivan Begtin (Ivan Begtin)
Я тут задумался не вернуться ли к чтению новостей через RSS читалки, потому что читать многое в компактном виде становится всё сложнее. Да, есть хорошие тематические рассылки, но их не так много и они портятся тем что постепенно рекламного контента там становится больше. Но с RSS читалками есть одна беда, они все [не] немного устарели и не учитывают реальных сложностей потребления новостей.

Какой могла бы быть идеальная RSS читалка?
1. Уметь фильтровать новости. Как простыми способами - ключевые слова, так и через простую интеграцию с LLM, тут подойдут и легкие недорогие или даже бесплатные модели. Уметь фильтровать по принципу - выбрал новость и отметил "хочу меньше видеть подобных новостей" и наоборот "Это важно, делай это приоритетнее". Технически это можно делать множеством способов. Сюда же идет автопростановка тегов и простая навигация по ним.

2. Уметь делать дайджесты для часто обновляемых источников. Есть источники новостей генерирующие до сотни сообщений в день. Их, тоже, надо фильтровать, но даже если их останется десяток их надо уметь объединять в дайджесты. Благо это несложно.

3. Давать возможность подписываться на сайты без RSS/ATOM. Для этого я когда-то и создавал библиотеку newsworker и она вполне интегрируема куда угодно и позволяет это делать без особых сложностей.

4. Интерфейсно уметь отображать новости по разделам "Важно", "Обычно", "Менее важно" по критериям заданным пользователем и по его действиям, см. пункт 1

5. Минимализировать HTML рендеринг, потребление памяти и CPU. Преобразовывать полученный контент в Markdown и отображать его максимально облегченным образом и настраиваемым конечно.

6. Кроме интерфейса чтения отдельных новостей уметь отображать все единым ежесуточным дайджестом, на время просмотра конечно, обновляя его по необходимости.

7. Не пытаться построить новостной агрегатор а ля канал в Slack или Discord или телеграм канал или любой другой режим мессенжера. Для уведомлений это еще более-менее, а для чтения новостей очень неудобно.

8. Уметь извлекать полный текст новости из первоисточника без перехода. Не всегда может работать, но если такое возможно, то нужно. Готовые инструменты для этого давно существуют.

Лично мне не попадались до сих RSS читалки способные делать хотя бы половину из перечисленного. Но может я что-то пропустил?

#thoughts
Forwarded from Типичный программист
Коллеги из Нейроканала собрали, чем жила индустрия ИИ на этой неделе.

Главное: вышел Sonnet 5 — по возможностям близка к Opus 4.8, но заметно дешевле, контекст на 1 миллион токенов. Google открыла разработчикам Nano Banana 2 Lite и Gemini Omni Flash — самую быструю генерацию картинок в линейке и видеомодель с разговорным редактированием. Meituan выложила в открытый доступ LongCat-2.0 — MoE на 1,6 триллиона параметров, обученную целиком на китайских ASIC. Появился и Claude Desktop под Linux — пока только Ubuntu и Debian, без управления компьютером.

Сага с Fable 5: после снятия ограничений Anthropic вернула модель с лимитом 50% недельной квоты до 7 июля, потом подняла лимиты Claude Code на 50% до 13 июля, а под конец недели напомнила, что полноценная безлимитная подписка вернётся «когда позволят мощности» — не раньше 7 июля.

Открытые и дешёвые альтернативы: Zhipu раздаёт по 3 млн бесплатных токенов GLM-5.2 в день через агент ZCode, а китайская версия GLM Coding Plan оказалась в разы дешевле международной. Poolside обновили компактную модель для агентного кодинга Laguna XS 2.1 с приростом на SWE-bench.

Для рынка РФ: Cloud.ru открыли доступ к Claude, GPT, Gemini и DeepSeek через один аккаунт — по сути замена OpenRouter, который этим летом начал блокировать российские аккаунты.

И традиционный топ-20 трендов Hugging Face за неделю: новые Qwythos-9B, Ornith-1.0, Qwen-AgentWorld, Krea 2 и Unlimited-OCR, а в топе по-прежнему держится GLM-5.2.

Подробности, цифры и обсуждение — в постах канала.

@tproger
Лучшие нейросети 2026 — бесплатный ИИ онлайн на русском: полный обзор

Какой ИИ выбрать в апреле 2026 года, где получить нейросеть бесплатно, как работать с ИИ из России без VPN — всё в одном материале.

Разобрали четыре категории: видео, изображения, текст и музыка.
Интерес к бесплатным нейросетям и онлайн-ИИ стремительно растёт, потому что в 2026 году нейросети прочно вошли в повседневную жизнь миллионов людей.

Однако «бесплатно» чаще всего означает ограниченный freemium-доступ, а часть популярных сервисов недоступна без VPN или зарубежной карты.

В этом материале мы собрали лучшие нейросети апреля 2026 года, сравнили их возможности, лимиты и условия использования без рекламных преувеличений.

ℹ️ Также отметим тенденцию роста агрегаторов-нейросетей в России, таких как StudyAI, где десятки нейросетей собраны в одном месте.
Там много абсолютно бесплатных версий нейросетей на русском языке, например: Gemini, ChatGPT, Grok, DeepSeek, Qwen 3 — они бесплатны и доступны без VPN.


Читать далее:
↘️ https://habr.com/ru/companies/studyai/articles/1022356/
...
Бесплатный вайбкодинг с Qwen Code — установка, возможности

Alibaba выпустила Qwen Code в 2026 году на базе исходников Google Gemini CLI.
Собственно, форкнули, адаптировали под собственные модели Qwen-Coder и открыли под Apache-2.0.

По умолчанию работает на Qwen3.6-Plus - самая свежая модель, т.к. вышла 2 апреля 2026. Актуальная версия агента на момент этого текста - 0.14.3.Агент запускается в терминале.
Умеет читать, создавать и изменять файлы, запускать команды в терминале и вести многошаговую работу над задачей.
Сам все планирует и реализует.
Через MCP-протокол может подключать внешние инструменты.

Читать далее:
↘️ https://habr.com/ru/companies/studyai/articles/1022332/
...
Как я превратила Obsidian в структурированную память для ИИ‑агентов
↘️ https://habr.com/ru/articles/1033746/
Author: Masha_Belkina_Log

Я больше не объясняю нейросети контекст. Вот что я сделал вместо этого…
↘️ https://habr.com/ru/companies/raft/articles/1054050/
Author: AllahverdievRamil (Raft)

Конвертация экспорта Telegram в Obsidian: руководство по созданию личной базы знаний
↘️ https://habr.com/ru/articles/1017772/
Author: dilmah949
...
Конвертация экспорта Telegram в Obsidian: руководство по созданию личной базы знаний
↘️ https://habr.com/ru/articles/1017772/
Author: dilmah949

Как заставить LLM проанализировать хранилище из тысяч заметок, которое не влезает в контекст
↘️ https://habr.com/ru/articles/1053366/
Author: Ziverpup

Obsidian Hybrid Search (OHS). MCP и CLI, которые выводят поиск по заметкам с AI-агентами на новый уровень
↘️ https://habr.com/ru/articles/1040948/
Author: flowing_abyss
...
Forwarded from Хабр
LLM на вашем ПК: как запустить нейросеть локально

Многие думают, что мощные языковые модели — это прерогатива облачных сервисов, требующих подписки и постоянного подключения к сети. Но это уже не так.

Современные Open Source LLM можно скачать и запустить на обычном домашнем ПК, получив полный контроль над своими данными и возможность работать офлайн. За последнее время такие «дистиллированные» модели стали заметно быстрее, стабильнее и качественнее.

Рассмотрим самые популярные локальные нейросети, протестируем их на разных задачах и выберем лучшую для ваших проектов.