AI для каждого | AISferaic
189 subscribers
91 photos
31 videos
165 links
Откройте для себя возможности нейронных сетей.
Узнайте, как вы можете использовать эти технологии для улучшения своей жизни и работы. От теории до практики.

https://aisferaic.ru
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic запустили Claude Code Channels

Это официальный способ управлять активной сессией Claude Code через MCP для Telegram и Discord.

Запускаете Claude Code на своём ПК с флагом --channels и можете отправлять команды прямо из мессенджера с телефона, получая ответы обратно в чат.

То есть не нужно сидеть у терминала: Claude продолжает работать на вашей машине, а вы общаетесь с ним через Telegram-бота.

Ограничения: сессия должна оставаться запущенной на ПК, произвольные MCP-серверы пока не поддерживаются, только плагины из официального репозитория Anthropic, и нужен аккаунт claude.ai (API-ключ не подойдёт).
Holotron-12B – агент, использующий компьютер с высокой пропускной способностью. Обучен на 126 440 демонстрациях использования компьютера, сгенерированных людьми, и способен следовать инструкциям благодаря архитектуре трансформатора.

Модель выполняет широкий спектр задач, включая навигацию по интерфейсам, ввод текста и выполнение действий. Holotron-12B можно использовать для автоматизации задач, таких как заполнение форм, написание электронных писем и поиск информации.

Набор данных для обучения и сама модель с кодом доступны по ссылке
Ошибки основателей ai стартапов

Советники стартапов в сфере ИИ отмечают, что основатели часто упускают важность данных для обучения моделей. Ошибка в том, что внимание сосредотачивается на самой модели, а не на качестве и количестве данных, необходимых для её успешной работы. Сбор, разметка и проверка данных требуют значительных ресурсов и времени.

Также основатели недооценивают необходимость постоянного обучения и мониторинга ИИ-моделей, чья производительность со временем ухудшается без обновления. Важно учитывать влияние ИИ на бизнес-процессы, готовясь к изменениям в организации и переобучению персонала.

Часто наблюдается фокус на создании продвинутой модели без учёта потребностей рынка и спроса на решение. Рекомендуется начинать с простых решений и постепенно усложнять их, ориентируясь на пользователей.
Google представила MusicFX DJ – инструмент для создания музыки с помощью искусственного интеллекта.

Пользователи могут генерировать музыкальные отрывки, вводя текстовые подсказки, например, "джаз с пианино и саксофоном".

MusicFX DJ использует технологию векторов звука, разработанную Google, и создает короткие отрывки, подходящие для использования в качестве основы композиций или звуковых эффектов. Инструмент доступен бесплатно через веб-интерфейс с ограничениями: до 30 секунд музыки за раз и лимит генераций в день.

В будущем планируется премиум-подписка, снимающая ограничения и предлагающая экспорт в высоком качестве и возможность коммерческого использования сгенерированной музыки.
Наша группа в VK, чтобы не потеряться.

👉 VK
5 инструментов для локального запуска llm в 2026 году

В 2026 году специалисты по данным смогут использовать пять вариантов самостоятельного хостинга: Ollama, LocalAI, PrivateGPT, OpenOrca и LM Studio. Эти инструменты позволяют запускать большие языковые модели локально, обеспечивая конфиденциальность и контроль над данными.

ollama предлагает простой интерфейс командной строки для запуска, управления и развертывания LLM, поддерживая различные модели. localai предоставляет платформу для развертывания LLM в локальной инфраструктуре с поддержкой графических процессоров. privategpt предназначен для работы с документами и создания чат-ботов на основе локальных данных.

openorca является фреймворком для обучения и тонкой настройки LLM, а lm studio позволяет искать, загружать и запускать LLM с удобным графическим интерфейсом.
👍3
Gemma 2b и Gemma 7b: новые открытые модели

Модели Gemma 2B и Gemma 7B уже доступны на платформе Hugging Face, а также через другие платформы и облачные сервисы. Предоставлен полный набор инструментов для оценки производительности моделей в различных задачах, включая тесты, метрики и бенчмарки.

Также опубликована документация и рекомендации по использованию моделей Gemma. Это важный шаг к развитию открытых и доступных технологий искусственного интеллекта.

Gemma на Hugging Face
👍1
На сайте выложили продолжение курса по LangChain.
Для тех, кто знает Python и основы LangChain (цепочки), и хочет разобраться в агентах.

LangChain и сквозной проект агент-аналитик.
Каждый урок это теория, рабочий код, частые ошибки и практическое задание.

Содержание:
0 - Настройка окружения

1 - create_agent и цикл агента
2 - LangGraph и состояние агента
3 - MCP: инструменты через внешние серверы
4 - Context engineering
5 - Встроенный middleware
6 - Краткосрочная память
7 - Долгосрочная память
8 - Human-in-the-loop
9 - Guardrails
10 - Паттерны мультиагентных систем
11 - Субагенты и Handoffs


👉 Ссылка на курс

#langchain #ииагенты #курс
👍4
OpenAI frontier: угроза для saas-компаний?

OpenAI представила платформу "Frontier", которая может повлиять на рынок программного обеспечения как услуги (SaaS). Платформа позволяет создавать "агенты" – программы, способные самостоятельно выполнять задачи и интегрироваться с различными сервисами.

"Frontier" дает клиентам возможность создавать собственные решения, снижая необходимость во множестве SaaS-инструментов. Это может привести к консолидации рынка, где выживут только компании, предлагающие уникальную ценность и интеграцию с новой моделью.

Аналитики считают, что это фундаментальный сдвиг, требующий от SaaS-компаний адаптации и инноваций, а также может привести к снижению цен на решения.
🤔3
OpenAI разработала правила безопасности для подростков в виде промптов для модели gpt-oss-safeguard, которые разработчики используют для модерации возрастных рисков в системах искусственного интеллекта.


В ChatGPT представлен улучшенный визуальный шоппинг на базе протокола Agentic Commerce, позволяющего находить товары и сравнивать их, при этом интеграция с торговыми площадками зависит от участия конкретных мерчантов.
OpenAI приостановила публичный доступ к модели генерации видео Sora из-за опасений злоупотребления, включая создание дезинформации и дипфейков. Компания планирует тщательное тестирование и оценку системы перед повторным запуском, а также разработку мер по снижению рисков.

Решение принято после появления в сети примеров видео, созданных Sora, которые вызвали обеспокоенность. Видео демонстрировали способность модели создавать реалистичные сцены и лица, поднимая вопросы об использовании для создания поддельных новостей и манипулирования общественным мнением.
😱2
Tencent AI открыла исходный код Covo-Audio 7B параметровой end-to-end аудиоязыковой модели и конвейера вывода для разговоров и рассуждений в реальном времени.

В отличие от классических систем, которые последовательно пропускают аудио через три отдельных компонента (распознавание → языковая модель → синтез речи), Covo-Audio обрабатывает непрерывный аудиовход и генерирует аудиовыход в единой архитектуре за один проход. Это снижает накопление ошибок и задержку.

Модель прошла двухэтапное предобучение на 2 триллионах токенов, охватывающих речевые и текстовые данные на нескольких языках. На бенчмарках MMAU и MMSU Covo-Audio показала лучшие результаты среди моделей своего масштаба, сравнявшись с некоторыми 32B-системами.

Отдельно выпущен вариант Covo-Audio-Chat-FD с поддержкой full-duplex, то есть модель может одновременно слушать и говорить с низкой задержкой, что важно для голосовых помощников реального времени.

Веса модели и код для инференса опубликованы на GitHub и HuggingFace под лицензией CC BY 4.0.
🔥1
Google выпустила Gemini 3.1 Flash Live для AI-агентов

Google выпустила Gemini 3.1 Flash Live, audio-to-audio модель для работы с голосом, аудио и видео в реальном времени.

Она создана для использования в голосовых AI-агентах, где требуется низкая задержка и распознавание акустических нюансов.

Модель предназначена для обработки данных в реальном времени и доступна разработчикам через Gemini Live API в Google AI Studio и Vertex AI.
👍1
Теперь в Suno AI можно генерировать треки собственным голосом

Вышла новая модель 5.5.
Что улучшилось: вокал стал более живым и эмоциональным, звук чище, а треки более целостными и похожими на реальный продакшн.
👍1
Mistral AI представила Voxtral TTS

Voxtral TTS это модель потокового синтеза речи с открытыми весами, предназначенную для генерации голоса на нескольких языках с низкой задержкой.

Размер модели 4 миллиарда параметров. Voxtral TTS генерирует речь в потоковом режиме, поддерживая 9 языков: английский, французский, немецкий, испанский, голландский, португальский, итальянский, хинди и арабский.

Разработчики утверждают, что модель обеспечивает высокое качество генерации голоса и подходит для голосовых помощников, систем преобразования текста в речь и мультимедийных приложений.

Задержка составляет 70 мс для 10-секундного примера и 500 символов ввода, коэффициент RTF около 9.7x, при этом time-to-first-audio составляет ~100 мс.

Лицензия CC BY-NC 4.0 ограничивает коммерческое использование без отдельного соглашения.
👍2
Представлена система A-Evolve, автоматизирующая настройку агентов искусственного интеллекта посредством мутации файлов в Agent Workspace и оценки результатов через внешний Mutation Engine.

Фреймворк упрощает создание и развертывание, сводя ручную оптимизацию к минимуму после начальной настройки.

A-Evolve автоматически изменяет конфигурацию агента, оценивает результаты и повторяет цикл из пяти этапов (Solve, Observe, Evolve, Gate, Reload) для достижения оптимального состояния, при этом механизм валидации откатывает регрессивные изменения через Git.

Разработчики из A-EVO-Lab, связанного с Amazon, утверждают, что A-Evolve может стать для агентических систем тем же, чем PyTorch является для нейронных сетей — модульной инфраструктурой для создания инновационных приложений, поддерживающей подходы BYOA, BYOE и BYO-Algo.
🤯2
Команда agent-infra, связанная с ByteDance, выпустила AIO Sandbox

AIO Sandbox универсальная среда выполнения для AI-агентов, объединяющую браузер, терминал, файловую систему, MCP и VSCode Server в одном Docker контейнере.

Платформа позволяет создавать агентов для веб-скрапинга, автоматизации и анализа данных, обеспечивая безопасное изолированное выполнение кода на Python и Node.js.

Общая файловая система позволяет агентам обмениваться данными, а интеграция через Model Context Protocol стандартизирует доступ к инструментам.

Проект открыт под лицензией Apache 2.0. Предоставляет SDK для Python, TypeScript и Go.
OpenAI привлекла 122 миллиарда долларов при оценке в 852 миллиарда долларов, работая над "супераппликацией". Amazon, Nvidia и SoftBank предоставили финансирование, а доход компании достиг 2 миллиардов долларов в месяц, в 4 раза превысив темпы роста Alphabet на аналогичной стадии. Enterprise-сегмент составляет более 40% доходов и прогнозируется к концу года сравняется с потребительским.

Anthropic случайно обнародовала исходный код Claude Code, включая 1900 файлов и 500 000+ строк кода, выявив невыпущенные функции и внутренние кодовые имена. Утечка получила широкое распространение в сети.

Исследование Университета Квиннипак показало рост использования AI на 14%, но снижение доверия и увеличение обеспокоенности по поводу рабочих мест до 70%. Настроения различаются в зависимости от дохода, а 74% респондентов считают, что правительство недостаточно регулирует AI.
Gemma 4: новая мультимодальная модель от Google

Представлена Gemma 4 - новая мультимодальная модель от Google для понимания текста, изображений и видео. Малые версии (E2B, E4B) также работают с аудио. Модель демонстрирует улучшенное понимание сложных запросов, рассуждения и следование инструкциям по сравнению с предыдущими версиями Gemma.

Модель доступна в четырёх размерах: Effective 2B, Effective 4B, 31B Dense и 26B MoE с 3,8 млрд активных параметров (A4B). Это позволяет разработчикам выбирать оптимальный вариант под задачу.

Gemma 4 работает с transformers, llama.cpp, MLX, WebGPU, а также через Candle для Rust. Развёртывание доступно на Google Cloud, Kaggle и Hugging Face.

Google предоставляет полные веса модели и документацию под лицензией Apache 2.0.

Важное уточнение, Gemma 4 генерирует только текст, но может анализировать изображения, видео и аудио. Контекстное окно 128K токенов для малых моделей и до 256K для больших. Релиз состоялся 31 марта 2026 года.
👍4