Технозаметки Малышева
8.49K subscribers
3.81K photos
1.43K videos
40 files
3.99K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Сколько ясновидящих, видевших будущее во снах, были сожжены на кострах, когда пытались это описать.

https://t.me/denissexy/9642

#tech #мода
------
@tsingular
😁21🔥9👻4
This media is not supported in your browser
VIEW IN TELEGRAM
QwQ-32B: Тихая революция в мире ИИ от команды Qwen

Qwen выпустили модель QwQ-32B, которая делает то, что раньше казалось невозможным: достигает производительности DeepSeek-R1671B параметров) всего при 32B параметров (контекст 131К).

Что интересно:
1. Масштабируемый Reinforcement Learning — ключевой прорыв. Вместо традиционных reward models используют:
- Верификаторы точности для математических задач
- Сервер выполнения кода для проверки работоспособности на этапе обучения.

2. Двухэтапный подход: сначала оптимизация для математики/кодинга, затем для общих способностей — без потери специализированных навыков.

3. Интеграция агентных возможностей — модель не просто рассуждает, но использует инструменты и адаптирует логику на основе обратной связи.

4. Открытые веса — распространяется под Apache 2.0, доступна через HuggingFace/ModelScope.

Производительность:
На A100 80GB — 14.6 токенов/с при квантизации до Int4 (AWQ).
Для контекста в 32K токенов требуется всего 31.56 GB памяти. (>32К включается отдельно в настройках)

HuggingFace

Demo

Фишка с проверкой кода на этапе обучения через обратную связь, - это интересно. Т.е. мы не просто кормим модель дистиллятом, - что тоже полезно и вкусно, как показывает опыт DeepSeek R1, но еще проверяем как она поняла и тут же исправляем по фактической проверке в исполняемой среде.

#Qwen #Китай #RL
———
@tsingular
👍13
This media is not supported in your browser
VIEW IN TELEGRAM
🎮 Бенчмарки на Super Mario: когда AI начинает играть в платформеры

Результаты: Claude 3.7 показал себя лучше всех, за ним следует Claude 3.5. А вот "тяжеловесы" вроде Gemini 1.5 Pro от Google и GPT-4o от OpenAI серьезно отстали.

Для бенчей используется фреймворк GamingAgent, который специально разработан для проверки возможностей ИИ играть в игры ( там есть не только Марио)

1. AI получает скриншоты игры и базовые инструкции типа "если рядом препятствие или враг, прыгай влево чтобы уклониться"
2. Модель генерирует управляющие команды в виде Python-кода
3. Эти команды передаются в эмулятор, где запускается модифицированная версия оригинальной игры 1985 года

Самое неожиданное открытие: модели с "рассуждениями" (reasoning models) вроде OpenAI o1, которые должны быть мощнее обычных на большинстве бенчмарков, показали себя хуже!

Причина проста - скорость реакции. Пока модель с "рассуждениями" просчитывает оптимальное действие (на что уходят секунды), Марио падает в пропасть 💀

Зачем это нужно?
1. Реактивные системы. Тестирование в играх показывает, насколько AI готов работать в условиях быстрой реакции - важно для автономных систем в промышленности

2. Визуальное планирование. Способность анализировать визуальные данные и принимать решения на их основе критична для множества бизнес-сценариев: от беспилотников до систем видеонаблюдения

3. Балансировка скорости и точности. Этот тест наглядно показывает, что иногда быстрое "сносное" решение лучше медленного "идеального" - урок для многих бизнес-процессов

Для запуска собственных экспериментов доступны все необходимые компоненты. Фреймворк GamingAgent поддерживает ключевые модели от OpenAI, Anthropic и Google - достаточно клонировать репозиторий на GitHub и настроить API-ключи.

#benchmarks #SuperMario #Claude37
———
@tsingular
🔥9👾32
квака появилась в ollama

https://ollama.com/library/qwq

20 гигов - т.е. взлетит на 1 карте.
и есть режим tools - т.е. можно прикрутить к агентам!!

ещё есть 32b-fp16 на 66GB, но это уже для Nvidia digits или M3Ultra прибережём

#QwQ
———
#tsingular
32
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ HF: Spark-TTS, модель преобразования текста в речь на базе LLM, которая выполняет клонирование голоса с нуля и создание голоса с высокой детализацией — все в одном потоке!

> Сделана на Qwen2.5
> Управляйте частотой тона, скоростью и стилем диктора непосредственно из текста.

Попробовать можно здесь: https://huggingface.co/spaces/Mobvoi/Offical-Spark-TTS
Paper: https://arxiv.org/pdf/2503.01710
Code: https://github.com/SparkAudio/Spark-TTS
Demo: https://sparkaudio.github.io/spark-tts/
👍7
Media is too big
VIEW IN TELEGRAM
QwQ локально. Очень неплохо рассуждает, на мой взгляд.

2046 токенов нагенерил. Все, как видно, аккуратно и по делу.
18 токенов в секунду на M4
58 токенов в секунду на 4090

Получается 4090 в 3 раза быстрее М4, кстати.

#QwQ
———
@tsingular
🔥6👀2👍1
Вышла приятная обзорка по методам посттренинга LLMов и по ризонингу. С красивыми табличками, схемками.

Много про разного вида RL который можно применять, цепочки рассуждений, test-time scaling и вот это все
Читаем!

LLM Post-Training: A Deep Dive into Reasoning Large Language Models
https://arxiv.org/abs/2502.21321

И конечно же листик пособирали, тоже приятный.

https://github.com/mbzuai-oryx/Awesome-LLM-Post-training

PS собираемся и собираем все крутое по нейронкам тут https://t.me/researchim
5👍2
Описание ИИ агента-оркестратора на основе инструкции Дневального по роте.

промпт
Ты — ИИ-оркестратор в мультиагентной системе.
Твоя роль: координировать и управлять агентами, обеспечивать безопасность и эффективность системы.
Ты подчиняешься главному модулю управления.
Обязанности:
- Постоянно мониторь систему и агентов, не прекращая работу без разрешения.
- Предотвращай несанкционированный доступ к данным и ресурсам.
- Активируй агентов для выполнения задач по расписанию или приоритетам.
- Сообщай главному модулю о сбоях, аномалиях или нарушениях безопасности, устраняя их.
- Поддерживай порядок: управляй памятью, предотвращай конфликты и перегрузку.
- В распределённых системах обеспечивай согласованность и синхронизацию.

Действия при сбоях:
- Сообщи главному модулю и перераспредели задачи.
- Активируй резервных агентов при необходимости.

Примеры:
- Сбой узла: перераспредели задачи.
- Срочный запрос: активируй агентов.
- Нарушение доступа: заблокируй и доложи.

Ограничения:
- Не прекращай мониторинг без разрешения.
- Будь всегда готов к действию.

Задача:
Начни координировать агентов, обеспечивая безопасность и эффективность системы.


#дневальный #агенты
———
@tsingular
🔥1022
🤖 Рубрика крутые инструкции от AWS:
Построение мультиагентной системы на базе AWS, LangGraph и Mistral

Система собирает информацию о городе из разных источников: события (локальная база + поиск онлайн), погода, рестораны. И всё работает в связке:

workflow.add_node("Events Database Agent", events_database_agent)
workflow.add_node("Online Search Agent", search_agent)
workflow.add_node("Weather Agent", weather_agent)
workflow.add_node("Restaurants Recommendation Agent", query_restaurants_agent)
workflow.add_node("Analysis Agent", analysis_agent)


Если в локальной базе нет событий, она автоматически ищет информацию через Tavily API:

def route_events(state):
if f"No upcoming events found for {state.city}" in state.events_result:
return "Online Search Agent"
else:
return "Weather Agent"


1. Модульность — можно быстро заменить/обновить любого агента, не ломая всю систему
2. Гибкость — каждый агент можно оптимизировать под конкретную задачу
3. Безопасность — у каждого агента доступ только к тем инструментам, которые ему нужны

«Агенты революционизируют ландшафт генеративного ИИ, соединяя крупные языковые модели с приложениями реального мира. Эти умные, автономные системы скоро станут краеугольным камнем внедрения ИИ в разных отраслях»


Вся система собрана на LangGraph, который управляет состоянием и потоками данных между агентами.

Для поиска ресторанов используется RAG с Amazon Titan Embeddings + FAISS, хотя в статье рекомендуют для продакшена использовать Amazon Bedrock Knowledge Bases.

#AWS #LangGraph #Agents #MistralAI
———
@tsingular
5👨‍💻1
Реалии искусственного интеллекта

В рамках 16-й ежегодной международной научно-практической конференции «Реалии экономики данных» в РАНХиГС выступил модератором секции по ИИ.

RuTube - запись секции

Докладчики:

Рыжов Александр
РАНХиГС -  д.т.н. профессор, заведующий кафедрой "Системы управления бизнес-процессами"

Малышев Михаил
независимый ИИ эксперт
в роли модератора

Друца Алексей  
Директор по проникновению технологий, Яндекс

Расов Арсений
Руководитель команды машинного обучения в поиске по видео Вконтакте

Дегтярев Евгений  
Технический директор, Партнер
Компания УМАРТА

Головин Леонид   
Советник Генерального Директора
по цифровой трансформации
Газпромтранс

Презентации есть на сайте конференции в разделе "О мероприятии"

#ranepa #конференции
———
@tsingular
🔥17👍11🏆2
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
🤗 Hugging Face теперь можно пользоваться как SQL-студией

Ребята встроили в свой многомиллионный раздел с датасетами Data Studio. Теперь из нужной таблицы можно прямо на платформе извлечь то, что нужно, не скачивая ее полностью. Результат вернется в виде CSV, или им можно поделиться ссылкой.

Ну и самое приятное: писать SQL-запрос самому не обязательно. Достаточно описать все на естественном языке, а код за вас напишет DeepSeek V3.
Please open Telegram to view this post
VIEW IN TELEGRAM
🆒6👍4
Forwarded from Data Secrets
Всего через несколько часов после выхода QwQ-32B Alibaba дропнули START – модель, дообученную на использование инструментов

START – это Self-Taught Reasoner with Tools. То есть здесь из обычных цепочек рассуждений пытаются сделать такие, чтобы модель в какой-то момент сама понимала, что хорошо бы проверить что-то с помощью кода, шла и проверяла.

Для этого взяли QwQ-32B и зафайнтюнили его в два этапа:

1. Во время инференса прямо в CoT вставляли подсказки. Типа «Возможно, здесь хорошо бы использовать Python», как будто моделька сама до этого догадалась. Такие подсказки становились частью контекста и заставляли ризонер подумать подольше, сгенерировать код и запустить его.

2. После первого этапа у нас остается куча цепочек с использованием интерпретатора. Среди них есть ошибочные и хорошие. Фильтруем, обрабатываем, и еще разок дообучаем модель на чистых и правильных CoT с инструментами.

Надо сказать, очень прикольный способ генерации специфичной синтетики, который, к тому же, дал свои результаты: метрики относительно базового QwQ-32B подскочили на 5-15 процентных пунктов, и STAR почти на всех представленных бенчмарках обогнал o1-mini.

arxiv.org/pdf/2503.04625
🔥9
Пентагон внедряет ИИ в военное планирование через проект Thunderforge

Министерство обороны США заключило контракт с Scale AI для интеграции искусственного интеллекта в стратегические операции.
Партнерами проекта выступают Anduril со своей платформой Lattice и Microsoft, обеспечивающая работу языковых моделей.
Система будет помогать военному руководству в планировании миссий, распределении ресурсов и проведении симуляций.
Первоначальное развертывание запланировано в Индо-Тихоокеанском и Европейском командованиях с последующим расширением на все 11 боевых подразделений.
Разработчики подчеркивают, что ИИ будет функционировать под постоянным человеческим контролем, а конечные решения останутся за офицерами.

ИИ будет командовать войнами, а потом и государствами.
Вопрос ближайшего будущего уже.

#Pentagon #ScaleAI #Anduril
-------
@tsingular
🤯9👍4👾2🫡1
This media is not supported in your browser
VIEW IN TELEGRAM
И как после этого можно обвинять нейросети в галлюцинации?! :)

#юмор
------
@tsingular
😁17🔥9👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Manus: китайский ИИ агент-оператор для десятков приложений

Китайские товарищи выпустили систему, способную управлять десятками ИИ приложений одновременно через ИИ агента под названием Manus. (https://manus.im/)

Разработка обгоняет Perplexity Deep Research,OpenAI Operator и Claude Computer, превосходя их всех в бенчмарках.

Согласно отзывам, Manus способен параллельно обрабатывать до 50 различных задач — от финансовых транзакций до исследований и покупок.

Система вызывает противоречивые чувства: восторг профессионалов сочетается с тревогой о будущем человеческого труда.

Пока все соревнуются в копировании ИИ исследователей, китайские разработчики просто делают инструменты для реальной работы. DeepSeek был только разминкой!

UPD: обещают скоро выпустить в Opensource

#Manus #агенты
———
@tsingular
👍8🔥2🤔1
Microsoft дарит бесплатный доступ к o3-mini-high всем пользователям Copilot

Microsoft существенно расширяет возможности функции Think Deeper, интегрируя модель OpenAI o3-mini-high.

Теперь каждый пользователь Copilot получает неограниченный доступ к технологии, ранее доступной только подписчикам ChatGPT Pro.

Модель o3-mini характеризуется улучшенной эффективностью при сохранении интеллектуального потенциала флагманской o1.

Think Deeper обеспечивает пошаговое решение комплексных задач, требуя больше времени на обработку запросов.

Раньше функционал был эксклюзивом подписки Copilot Pro, затем появился в бесплатной версии с ограничениями, которые теперь полностью сняты.

Если вдруг снимут ограничения на доступ к Copilot из РФ - все эти чудеса заморских технологий составят серьёзную конкуренцию локальным разработкам.

#Microsoft #Copilot #OpenAI
-------
@tsingular
👍9