Технозаметки Малышева

Ещё из презентации NVidia на GTC2025

Как вам такой вариант домашнего ассистента?

Плоская голова,- удобно, считаю. Можно кофе поставить... :)

#Nvidia #robots #gtc2025
------
@tsingular

👍9❤‍🔥3😁2🆒2🔥1👾1

1.01K views08:56

Forwarded from Эксплойт

NVIDIA показала RTX PRO 6000 — это буквально монстры в мире видеокарт с 96 Гб видеопамяти (!), которые предназначены для ИИ, 3D и научных исследований.

Характеристики разрывают:
— 24 064 CUDA-ядра.
— 96 ГБ GDDR7.
— 600 ВТ. Здесь придется запастись собственной электростанцией.

Всего будет три версии:
— Workstation Edition: для домашних ПК, дизайн как у RTX 5090.
— Server Edition: для дата-центров с пассивным охлаждением.
— Max-Q Edition: для сетапов с большим количеством карт. Здесь на охлаждении настоящая ТУРБИНА.

Дата выхода: апрель-май, ценник пока неизвестен. Если хотите чтобы FPS не проседали, то откладывайте почки (сразу две) и приготовьте огнетушитель.

@exploitex

⚡7🤣5

1.17K views14:17

BigQuery: Как облачные сервисы могут незаметно опустошить ваш счёт

История, - огонь! Чел получил счёт на $10,000 за три запроса с LIMIT. А проблема оказалась в том, что BigQuery считает стоимость по объёму данных в таблице запроса, а не по реально обработанным данным в отличие от AWS Redshift, Athena, Snowflake и др.

🚨 Это важно и для работы с ИИ-агентами

Надо понимать: современные ИИ-агенты могут делать сотни запросов к данным, причем совершенно незаметно для пользователя. Представьте, что вы попросили агента "проанализировать данные за прошлый год" — и внезапно получили счет на миллионы $.

При работе с агентами критически важно:
1. Устанавливать жёсткие лимиты по расходам ($)
2. Проверять архитектуру запросов (например, в BigQuery использовать предварительную агрегацию)
3. Тестировать на маленьких наборах данных
4. Контролировать количество запросов через промежуточный сервис

Если используете BigQuery:
- Применяйте материализованные представления
- Используйте предварительную фильтрацию в отдельных таблицах
- Рассмотрите Apache Iceberg для более гибкой работы
- Настройте бюджетные оповещения на низких порогах

⚠️ Особенность всех облачных сервисов
Они всегда делают ставку на то, что вы не будете читать мелкий шрифт. Да, технически BigQuery не обманывает — информация есть в документации. Которую вы, скорее всего, не прочитаете никогда.

В итоге: с большими данными нужно быть осторожнее, а с ИИ-агентами — в десять раз осторожнее. Лимиты, мониторинг, тесты — вот ваша защита от "внезапных" счетов.

#BigQuery #price #limit
———
@tsingular

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9👍1

1.03K viewsedited 15:25

0:59

Вот кого давно не было слышно!

Atlas от Boston Dynamics тоже готовится к Олимпиаде! В том числе танцевальной, судя по всему.

Голосуем, - настоящее (🔥 ) или рендер (😈) ?

#BostonDynamics #robots
———
@tsingular

🔥30😈8

1.1K viewsedited 16:02

0:18

Unitree тоже сохраним для истории на текущую дату.

Голосуем, - настоящее (🔥 ) или рендер (😈) ?

#Unitree #robots
———
@tsingular

🔥21😈19👏1

961 views16:35

0:41

Визуализация выходных сигналов трансформера (архитектура, на которой работают почти все современные LLM: ChatGPT, Claude, Llama и иже с ними)

Отсюда

Сайт:
https://moebio.com/mind/

#LLMvisual #обучение
------
@tsingular

🔥13👍1

1.15K viewsedited 18:42

Forwarded from e/acc

Один из самых недооцененных трендов, который понимает Дарио или Сэм, но не понимает большая часть индустрии. С выхода GPT-4 прошло два года, при этом только за последний год стоимость использования моделей упала от 9 до 900 раз (см. график). При этом, одновременно, скорость инференса выросла от 4 до 8 раз в зависимости от модели благодаря кастомным чипам, оптимизациями инфраструктуры и компиляторов. Да, в этой гонке есть предел, но до него еще довольно много лет.

Метрика, на которую стоит смотреть это не токены в секунду и не MMLU, ибо в практических терминах все сегодняшние модели уже лучше человека. Смотреть стоит на реальное использование, то есть прокси решения насущных проблем сегодняшних бизнесов и академии. А измерять это стоит в perf/watt (производительность на ватт энергии) или, что я услышал на закрытой конфе в выходные и мне очень понравилось, — в $ / ELO of Int. То есть стоимость в долларах за каждое дополнительное очко в рейтинге системы Elo в интеллектуальных задачах. За последний год падение составило около 2 порядков, а в ближайшие годы это произойдет с видео, голосом и другими модальностями.

🔥8❤‍🔥1

906 views09:42

Forwarded from Machinelearning

🌟

KBLaM: новая архитектура интеграции знаний для языковых моделей от Microsoft Research.

Microsoft Research представила KBLaM - архитектуру, которая решает ключевую проблему LLM — добавление новых внешних знаний. В отличие от традиционных методов файнтюна и RAG, KBLaM кодирует новые для LLM структурированные данные в виде векторных пар «ключ-значение», встраивая их напрямую в слои внимания модели. Это позволяет избежать дорогостоящего дообучения и построение дополнительных модулей, сохраняя линейную масштабируемость даже для баз знаний в 10 000 триплетов.

В KBLaM триплет — это структурированный элемент знания, состоящий из трех компонентов: сущности, свойства и значения. Например, в утверждении «Москва — столица России» сущностью выступает «Москва», свойством — «столица», а значением — «Россия».

В основе KBLaM - «прямоугольный механизм внимания»: языковые токены взаимодействуют с токенами знаний, но не наоборот. Такая структура сокращает вычислительные затраты до линейных, позволяя обрабатывать эквивалент 200 тыс. токенов на одном GPU. При этом модель динамически обновляет знания без пересчёта всей базы — достаточно изменить один триплет.

Эксперименты с KBLaM показали, что он не только эффективен, но и прозрачен: веса внимания визуализируют, какие факты использует модель. Например, при запросе о медицинском диагнозе высокие оценки внимания к соответствующим триплетам снижают риск «галлюцинаций», при этом, если ответ на запрос лежит вне базы знаний, модель отказывается на него отвечать.

Как заявляют авторы, KBLaM — не просто шаг к умным LLM, а мост между обученными на базовых знаниях моделями и реальным миром, где знания постоянно обновляются.

В опубликованном на Github коде для применения KBLaM поддерживаются модели с HF:

🟢

Llama-3-8B-Instruct;

🟢

Llama-3.2-1B-Instruct;

🟢

Phi-3-mini-4k-instruct.

и эмбединги для генерации базы знаний:

🟠

text-embedding-ada-002;

🟠

all-MiniLM-L6-v2.

⚠️ Чтобы добавить поддержку других моделей, необходимо отредактировать скрипты обработки моделей и включить в них адаптер, подобный llama_model.py в src/kblam/models.

📌Лицензирование: MIT License.

🟡

Статья

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #MicrosoftResearch #KBLaM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥13✍7❤‍🔥1

839 views12:23

Forwarded from Machinelearning

🔥 YandexART 2.5 и YandexART 2.5 Pro — релиз от Яндекса: новое поколение визуальной генеративной модели

Разработчики уменьшили количество дефектов и улучшили генерацию текста на изображениях. Модели стали чётче следовать инструкциям в промтах. Впервые применили VLM для оценки качества работы нейросети. Визуально-лингвистическая модель проверяла множество изображений на соответствие заданным промтам. Например, действительно ли на картинке присутствовали все заданные пользователем элементы.

🌟 Архитектурные улучшения и технические инновации в YandexART 2.5 Pro:

▶️ Уникальный подход к файнтьюну: разработчики внедрили технологию "супирования" — метод, позволяющий комбинировать различные техники обучения в единый процесс.

▶️ Повышение разрешающей способности: автокодировщик VAE заменили с 4-канального на 16-канальный, увеличив в 4 раза размер латентного пространства, в котором работает диффузионная модель.

▶️ Масштабирование обучающего датасета: почти 1 млрд пар изображений и детализированных описаний.

▶️ Двухэтапная система оценки: специальная визуально-лингвистическая модель не только создаёт описания изображений, но и верифицирует соответствие сгенерированных артефактов исходному запросу.

▶️ Существенное улучшение текстовых возможностей: генерация надписей на латинице улучшена на 68%.

▶️ Контекстно-зависимая адаптация стиля: автоматический подбор визуальной эстетики в зависимости от задачи.

Тесты показывают превосходство YandexART 2.5 над Midjourney 6.1 и паритет с другими SOTA-моделями.

Доступ к базовой версии — бесплатно в Шедевруме. Для Pro-версии есть подписка за 100₽/месяц.

🟡Релиз: https://habr.com/ru/companies/yandex/news/892532/

@ai_machinelearning_big_data

#ai #ml #release

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍4

920 views12:56

Forwarded from Анализ данных (Data analysis)

💬

OPEN AI добавили API 3 новых SOTA аудио-модели.

🗣️ Две модели преобразования речи в текст, которые, как заявляют разработчики, превосходят Whisper.

💬 1 Новая модель TTS - которой можно указать *как* ей говорить.
Поддерживает функцию задания интонации, тона, тембра голоса и еще множества других параметров с помощью промпта.

🤖 Еще OpenAi выпустили Agents SDK, который для создания голосовых агентов.

Через час состоится стрим, где покажут примера создания голосовых агентов с новыми аудиомоделями.

📌 Потестить можно здесь: https://www.openai.fm/

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6❤‍🔥1👍1

921 views18:23

🔍 Claimify: повышение точности проверки фактов в текстах

Microsoft Research представила новый подход к извлечению утверждений из текстов, сгенерированных большими языковыми моделями (LLM).

Инструмент Claimify решает ключевую проблему: языковые модели часто выдают неточную или необоснованную информацию.

В чём суть проблемы?
Представьте: вы получили аналитическую справку от ИИ по развивающимся рынкам. Как проверить её достоверность? Разбить на отдельные утверждения и проверить каждое. Но тут-то и скрывается подвох – обычные методы извлечения утверждений часто ошибаются!

Исследователи выделили 4 ключевые проблемы:
1. Обработка мнений как фактов – когда субъективные суждения вроде "решение проблем требует комплексного подхода" выдаются за проверяемые факты
2. Неполнота – часть важной информации просто теряется
3. Неточности – например, фраза "ООН обнаружила связь между загрязнённой водой и болезнями" превращается в "ООН обнаружила загрязнённую воду" - происходит упрощение в котором теряется смысл.
4. Потеря контекста – утверждения вроде "Афганистан столкнулся с похожими проблемами" бесполезны без указания, с какими именно.

Как работает Claimify?
Система обрабатывает исходный текст в четыре этапа:

1. Разбивка на предложения с сохранением контекста – учитывается структура текста и окружающие предложения
2. Отбор фактов – ИИ отделяет предложения с проверяемыми фактами от субъективных мнений
3. Устранение неоднозначности – система определяет, можно ли однозначно интерпретировать предложение, и если нет – помечает его как неоднозначное
4. Декомпозиция – из предложений создаются отдельные проверяемые утверждения

Важнейшая особенность Claimify – она не пытается интерпретировать неоднозначности, когда контекст недостаточен. Система просто помечает такие случаи, вместо того чтобы гадать.

Что в итоге?
Проверка показала, что 99% утверждений, извлечённых Claimify, точно отражают исходный текст. Система также лучше балансирует между включением проверяемой информации и исключением субъективной, сохраняя критический контекст.

Разработчики уже успешно используют Claimify для оценки ответов GraphRAG.

По сути, Microsoft создаёт технологический фундамент для систем проверки достоверности ИИ-контента, что особенно важно для отраслей, где цена ошибки высока: финансы, медицина, юриспруденция.

Paper

Полезный метод. Пока в разработке - можно по документации свой создать.

#Microsoft #RAG
———
@tsingular

🔥9👍3

948 viewsedited 06:15

0:19

🔍 В Claude добавили web поиск

Anthropic наконец-то выпустил функцию веб-поиска для Claude – возможность, которуая в других моделях присутствует уже около года.

Claude теперь может искать актуальную информацию в интернете и цитировать источники

Доступно пока только платным пользователям в США.

Работает только с флагманской моделью Claude 3.7 Sonnet

Интересно на сколько он покажет себя лучше, чем OpenAI pro, как исследователь.

#Anthropic #Claude
———
@tsingular

👍3❤1

1.26K views06:22

o1-pro появился в API и цены абсолютно прокляты!

Как вам $600 за 1 млн токенов?
По сравнению с $1.1 за млн в o3-mini или $2.19 у DeepSeek R1
Или даже $22 у GigaChat2 Max

Т.е. конечно, понятно, что с точки зрения OpenAI - это уже не игрушка, а вроде как Доктор Наук в предметной области вопроса изволит отвечать вам 24/7, но для начала страшновато.

Скорее всего на его ответах сейчас насамогонят R2 и будет у нас O1pro за 2 бакса на китайском.

#OpenAI #prices
———
@tsingular

😁10🔥1

926 views06:28

🔥 EXAONE Deep: LG врывается в гонку рассуждающих ИИ

На арене появился неожиданный игрок из Кореи — LG, как оказалось, умеет не только в холодильники и телевизоры, но и в ИИ.

EXAONE Deep от LG AI Research — новая линейка моделей (32B, 7.8B и 2.4B параметров), заточенных под математику, научное мышление и программирование. И, судя по бенчмаркам, получается вполне сносно.

• 32B версия работает наравне с такими лидерами, как Qwen 32B, QwQ 32B и даже DeepSeek-R1 671B в CSAT Math.

• Уже доступна на Hugging Face — можно пощупать прямо сейчас.

По бенчмаркам:

• AIME 2024/2025 (американские математические олимпиады) — 32B версия набирает 90 баллов, 7.8B — 83.3.

• Китайский экзамен CSAT 2025 по математике — 94.5 балла у 32B версии.

• GPQA Diamond (PhD-уровень задач по физике, химии, биологии) — 66.1 у 32B.

• LiveCodeBench (кодинг) — стабильно высокие результаты у всех версий.

Оптимизирована под корейский язык.
Требует специальную команду для запуска режима рассуждений в промпте: нужно добавлять <thought>\n.

#reasoning #LG #EXAONE
———
@tsingular

🤔4🔥1

843 viewsedited 06:49

🦉 OWL: Открытый AI-агент, обгоняющий Manus AI

Наконец-то! Достойная бесплатная альтернатива закрытым AI-агентам вроде Manus AI, о котором все говорят, но попасть куда можно только по инвайту.

OWL (Optimized Workforce Learning) — мультиагентный фреймворк с открытым кодом, набравший более 6000 звёзд на GitHub всего за 2 дня и занявший 1-е место среди опенсорсных систем в бенчмарке GAIA со средним баллом 58.18.

В чём фишка OWL?
Система состоит из трёх типов агентов:
- User Agents — разбивают сложные задачи на простые шаги
- Assistant Agents — создают стратегии выполнения и работают с инструментами
- Tool Agents — соединяются с API, поисковиками и другими сервисами

Это позволяет OWL делать всё — от автономных исследований и веб-серфинга до программирования. И главное — всё работает локально, ваши данные в безопасности.

Технические особенности:
1. Поддержка популярных LLM-моделей: GPT-4, Claude, Gemini, Mistral, DeepSeek, Qwen и Groq

2. Встроенные инструменты:
- Поиск через Google, DuckDuckGo, Wiki, Bocha, Baidu
- Браузерная автоматизация через Playwright
- Парсинг документов (Word, Excel, PDF, PowerPoint)
- Обработка изображений, видео и аудио
- Выполнение Python-кода
- Работа с GitHub, Reddit, арXiv и даже Notion!

3. Простое развёртывание через conda, uv или Docker

Интересно, что последние коммиты от 19-20 марта связаны с обновлением max_token в примерах и добавлением поддержки Azure и Groq в веб-приложение. Команда явно работает над совместимостью с разными провайдерами.

Для бизнеса:
В отличие от закрытых систем за $20-200/месяц, OWL абсолютно бесплатен. Если у вас уже есть ключи API к моделям вроде GPT-4, вы можете автоматизировать исследования, анализ данных и веб-взаимодействия без дополнительных затрат.

Плюс открытая архитектура позволяет настроить OWL под конкретные бизнес-задачи — например, интегрировать с внутренними базами данных или API.

Команда сейчас собирает примеры использования (дедлайн 31 марта), так что можно не только попробовать, но и получить признание сообщества за интересный кейс.

#OpenSource #Agents #Automation
———
@tsingular

🔥9👍5

1.52K views06:59