Silicon Ore: Интересные ссылки про AI, LLM, self-hosting и homelabs
31 subscribers
5 photos
1 video
459 links
Ссылки из различных источников об AI, LLM, веб-разработке, селф-хостинге и всяческих хоумлабах. Контакт: @a8h333
Download Telegram
OpenAI приобретает Astral, Codex набирает 2 млн пользователей. OpenAI согласилась приобрести Astral, компанию, создающую современные инструменты на Python для разработчиков, чтобы интегрировать её команду в Codex. База Codex достигла 2 млн пользователей, увеличившись в три раза с января, однако разработчики всё чаще предпочитают Claude Code, и разрыв между этими продуктами субъективно растёт. Статья Bloomberg.
CEO Nothing о будущем мобильных приложений. Генеральный директор Nothing заявил, что мобильные приложения не исчезнут полностью, несмотря на развитие AI-агентов. Это заявление касается текущих трендов автоматизации и трансформации пользовательских интерфейсов в будущем. Заявление CEO Nothing о будущем приложений
Nemotron 3 Super Uncensored для Mac. Новая модель Nemotron 3 Super Uncensored весом 43-46 ГБ демонстрирует результат 92-95.7% по тесту MMLU. Модель оптимизирована исключительно для работы на устройствах Apple Silicon с использованием MLX, что делает её возможной для запуска на потребительских MacBook без серверного оборудования. Базовая версия набрала 86%, но после удаления фильтров безопасности результат вырос до 96% с включённым reasoning. Это одна из немногих версий такого класса, доступных для локального использования. Подробнее на Reddit
Nemotron Cascade 2 30B-A3B: результаты тестов на локальных устройствах. Модель Nemotron Cascade 2 30B-A3B демонстрирует высокие результаты на локальных устройствах, используя архитектуру Nemotron вместо Qwen. При квантовании mradermacher's IQ4_XS модель достигает 97.6% в HumanEval и 88% в ClassEval, опережая некоторые модели Qwen3.5 при эффективном балансе точности и доступности. Тесты доступны на странице модели в HuggingFace, а подробный разбор в теме на Reddit.
Запуск двух видеокарт AMD Instinct MI50. Опубликована инструкция по использованию двух 32 ГБ AMD Instinct MI50 с llama.cpp и ROCm на Ubuntu 22.04, так как официальная документация отсутствует из-за прекращения поддержки архитектуры gfx906 после версии 5.7. Гайд на Reddit
Менш призывает платить за контент: позиция MistralAI в Financial Times. Генеральный директор MistralAI Артур Менш опубликовал статью в Financial Times с призывом к компаниям ИИ платить за контент в Европе. По его мнению, американские и китайские разработчики используют европейские данные для обучения моделей без соблюдения местных правил авторского права. Это создает риски для европейского интеллектуального наследия и экономики, особенно на фоне перmissive правил в других регионах. Менш подчеркивает необходимость защиты творчества и культурного разнообразия при глобальном развитии ИИ. Читать на Reddit
Qwen3.5-35B на iPhone с 56 токенами в секунду. Пользователь портировал Metal inference engine на iOS, внедрив оптимизацию для запуска 379B MoE моделей полностью на устройстве в 4bit с использованием SSD streaming для передачи экспертов на GPU. Это позволяет достигать скорости генерации 56 токенов в секунду на iPhone, иллюстрируя эффективность архитектуры SSD для оптимизации работы с экспертами в MoE моделях. Подробнее на Reddit
Qwen3.5-9B с расширенным контекстным окном для слабых GPU. На HuggingFace появился мердж модели Qwen3.5-9B-Claude-4.6-Opus-Uncensored-v2, оптимизированный для работы на оборудовании без мощных GPU и с поддержкой большого контекстного окна. Готовая конфигурация основана на доработках Jackrong и включает рекомендации по настройке LM Studio 0.4.7 для максимальной производительности. Модель на HuggingFace
Запуск Qwen3.5 на десктопе за $2100 с методом FOMOE. Показана возможность запуска флагманской модели Qwen3.5 с 397 миллиардами параметров на десктопе за $2100 с двумя GPU и скоростью 5–9 токенов в секунду. Использован метод FOMOE (Fast Opportunistic Mixture Of Experts) для хранения наиболее частых экспертов в VRAM и снижения нагрузки на NVMe. Архитектура с двойным GPU-пинг-понгом перекрывает загрузку весов и вычисления, делая инференс практически осуществимым на потребительском оборудовании. Смотрите результаты тестов здесь
Ресурс awesome-autoresearch для автоматизированных исследований. Новый GitHub-репозиторий агрегирует инструменты и ссылки, полезные для локальных ИИ-разработчиков, фокусируясь на автоматизированных исследованиях и автономных агентах. Актуальность коллекции растёт на фоне интереса к автономным агентам в сообществе. Репозиторий на GitHub
Сбер обновил GigaChat с полным переходом на MoE-архитектуру: Ultra и Lightning версии. Компания представила модели GigaChat-3.1-Ultra-702B (36B активных параметров) и Lightning-10B (1,8B активных), обученные с нуля без использования зарубежных весов под лицензией MIT на Hugging Face. Инженерное решение проблемы зацикливания при генерации потребовало внедрения собственной метрики детекции циклов, а переход DPO-этапа в нативный FP8 обеспечил качество выше bf16 при вдвое меньшем потреблении памяти. Ultra превосходит DeepSeek-V3-0324 и Qwen3-235B, тогда как Lightning оптимизирована для локального инференса. Скачать на Hugging Face и детальный разбор на Хабре.
Claude Code запускает функцию Auto Dream для консолидации памяти агентов. Новая система имитирует фазу быстрого сна, анализируя до 900+ сессий для выявления актуальной информации и удаления противоречивых записей, заменяя неопределённые ссылки на конкретные даты. Процесс запускается в фоне каждые 24 часа или после 5 сессий, не прерывая работу пользователя, и работает в режиме только для чтения к коду проекта с записью в файлы памяти через lock file. О деталях реализации можно прочитать в обсуждении в статье.
Прогноз Мустафы Сулеймана об автономности ИИ. Глава Microsoft AI Мустафа Сулейман предсказал приход систем, управляющих компаниями, раньше рыночных ожиданий; это подчёркивает тренд на увеличение автономности ИИ-систем в бизнес-процессах. Эксперт считает, что этап выполнения функций топ-менеджмента наступает быстрее, что затрагивает вопросы управления и доверия к автоматизированным системам. Интервью на Youtube.
Google TurboQuant: сжатие KV-кэша в 6 раз без потери точности. Google Research представила алгоритм TurboQuant на ICLR 2026, обеспечивающий ускорение работы LLM до 8 раз и сжатие KV-кэша в шесть раз. Технология позиционируется как значимое улучшение эффективности AI-систем, однако пока внедрена преимущественно в бенчмарках статьи, хотя сообщество активно обсуждает портирование в MLX для Apple Silicon. Блог Google Research.
Google Lyria 3 Pro для генерации аудиодорожек. Google запустил Lyria 3 Pro, генерирующий аудиодорожки длительностью до 3 минут вместо 30 секунд у предыдущей версии. Доступен по подписке, через AI Studio и API по цене $0.08 за трек, что позволяет создавать полноценные треки end-to-end без дополнительных инструментов. Блог Google
Intel Arc Pro B70 — 32 ГБ GDDR6 за $949. Intel анонсировала видеокарту Arc Pro B70 с 32 ГБ памяти GDDR6 и пропускной способностью 608 ГБ/с, позиционируя её для профессиональных задач и локального запуска LLM. Высокий объем VRAM делает карту актуальным решением для работы с большими моделями в 4-битной квантовке, предлагая конкурентоспособную альтернативу на рынке. Обзор на VideoCardz
Виральный навык для Claude Code: агрегация трендов за 30 дней. На GitHub завирусился скилл, который «шерстит» интернет за пользователя. Команда /last30days [тема] запускает параллельный поиск по Reddit, X, YouTube, Hacker News, TikTok, Instagram, Bluesky, Polymarket и веб-страницам, собирая обсуждение за последние 30 дней со сводкой и цитатами. Работает в два прохода: сначала широкий поиск по всем источникам, затем из результатов извлекаются конкретные хэндлы и делаются глубокие проходы по ним. Сильные сигналы помечаются, если тема всплывает в нескольких местах. Данные сохраняются в SQLite для последующих запросов, при этом можно настроить API-ключи, но есть фолбэки на бесплатные альтернативы. Репозиторий на GitHub.