Технозаметки Малышева
8.49K subscribers
3.79K photos
1.41K videos
40 files
3.97K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Визуализация выходных сигналов трансформера (архитектура, на которой работают почти все современные LLM: ChatGPT, Claude, Llama и иже с ними)
Отсюда

Сайт:
https://moebio.com/mind/

#LLMvisual #обучение
------
@tsingular
🔥13👍1
Forwarded from e/acc
Один из самых недооцененных трендов, который понимает Дарио или Сэм, но не понимает большая часть индустрии. С выхода GPT-4 прошло два года, при этом только за последний год стоимость использования моделей упала от 9 до 900 раз (см. график). При этом, одновременно, скорость инференса выросла от 4 до 8 раз в зависимости от модели благодаря кастомным чипам, оптимизациями инфраструктуры и компиляторов. Да, в этой гонке есть предел, но до него еще довольно много лет.

Метрика, на которую стоит смотреть это не токены в секунду и не MMLU, ибо в практических терминах все сегодняшние модели уже лучше человека. Смотреть стоит на реальное использование, то есть прокси решения насущных проблем сегодняшних бизнесов и академии. А измерять это стоит в perf/watt (производительность на ватт энергии) или, что я услышал на закрытой конфе в выходные и мне очень понравилось, — в $ / ELO of Int. То есть стоимость в долларах за каждое дополнительное очко в рейтинге системы Elo в интеллектуальных задачах. За последний год падение составило около 2 порядков, а в ближайшие годы это произойдет с видео, голосом и другими модальностями.
🔥8❤‍🔥1
Forwarded from Machinelearning
🌟 KBLaM: новая архитектура интеграции знаний для языковых моделей от Microsoft Research.

Microsoft Research представила KBLaM - архитектуру, которая решает ключевую проблему LLM — добавление новых внешних знаний. В отличие от традиционных методов файнтюна и RAG, KBLaM кодирует новые для LLM структурированные данные в виде векторных пар «ключ-значение», встраивая их напрямую в слои внимания модели. Это позволяет избежать дорогостоящего дообучения и построение дополнительных модулей, сохраняя линейную масштабируемость даже для баз знаний в 10 000 триплетов.

В KBLaM триплет — это структурированный элемент знания, состоящий из трех компонентов: сущности, свойства и значения. Например, в утверждении «Москва — столица России» сущностью выступает «Москва», свойством — «столица», а значением — «Россия».


В основе KBLaM - «прямоугольный механизм внимания»: языковые токены взаимодействуют с токенами знаний, но не наоборот. Такая структура сокращает вычислительные затраты до линейных, позволяя обрабатывать эквивалент 200 тыс. токенов на одном GPU. При этом модель динамически обновляет знания без пересчёта всей базы — достаточно изменить один триплет.

Эксперименты с KBLaM показали, что он не только эффективен, но и прозрачен: веса внимания визуализируют, какие факты использует модель. Например, при запросе о медицинском диагнозе высокие оценки внимания к соответствующим триплетам снижают риск «галлюцинаций», при этом, если ответ на запрос лежит вне базы знаний, модель отказывается на него отвечать.

Как заявляют авторы, KBLaM — не просто шаг к умным LLM, а мост между обученными на базовых знаниях моделями и реальным миром, где знания постоянно обновляются.

В опубликованном на Github коде для применения KBLaM поддерживаются модели с HF:

🟢Llama-3-8B-Instruct;
🟢Llama-3.2-1B-Instruct;
🟢Phi-3-mini-4k-instruct.

и эмбединги для генерации базы знаний:

🟠text-embedding-ada-002;
🟠all-MiniLM-L6-v2.

⚠️ Чтобы добавить поддержку других моделей, необходимо отредактировать скрипты обработки моделей и включить в них адаптер, подобный llama_model.py в src/kblam/models.


📌Лицензирование: MIT License.


🟡Статья
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #MicrosoftResearch #KBLaM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥137❤‍🔥1
Forwarded from Machinelearning
🔥 YandexART 2.5 и YandexART 2.5 Pro — релиз от Яндекса: новое поколение визуальной генеративной модели

Разработчики уменьшили количество дефектов и улучшили генерацию текста на изображениях. Модели стали чётче следовать инструкциям в промтах. Впервые применили VLM для оценки качества работы нейросети. Визуально-лингвистическая модель проверяла множество изображений на соответствие заданным промтам. Например, действительно ли на картинке присутствовали все заданные пользователем элементы.

🌟 Архитектурные улучшения и технические инновации в YandexART 2.5 Pro:

▶️ Уникальный подход к файнтьюну: разработчики внедрили технологию "супирования" — метод, позволяющий комбинировать различные техники обучения в единый процесс.

▶️ Повышение разрешающей способности: автокодировщик VAE заменили с 4-канального на 16-канальный, увеличив в 4 раза размер латентного пространства, в котором работает диффузионная модель.

▶️ Масштабирование обучающего датасета: почти 1 млрд пар изображений и детализированных описаний.

▶️ Двухэтапная система оценки: специальная визуально-лингвистическая модель не только создаёт описания изображений, но и верифицирует соответствие сгенерированных артефактов исходному запросу.

▶️ Существенное улучшение текстовых возможностей: генерация надписей на латинице улучшена на 68%.

▶️ Контекстно-зависимая адаптация стиля: автоматический подбор визуальной эстетики в зависимости от задачи.

Тесты показывают превосходство YandexART 2.5 над Midjourney 6.1 и паритет с другими SOTA-моделями.

Доступ к базовой версии — бесплатно в Шедевруме. Для Pro-версии есть подписка за 100₽/месяц.

🟡Релиз: https://habr.com/ru/companies/yandex/news/892532/

@ai_machinelearning_big_data

#ai #ml #release
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍4
💬 OPEN AI добавили API 3 новых SOTA аудио-модели.

🗣️ Две модели преобразования речи в текст, которые, как заявляют разработчики, превосходят Whisper.

💬 1 Новая модель TTS - которой можно указать *как* ей говорить.
Поддерживает функцию задания интонации, тона, тембра голоса и еще множества других параметров с помощью промпта.

🤖 Еще OpenAi выпустили Agents SDK, который для создания голосовых агентов.

Через час состоится стрим, где покажут примера создания голосовых агентов с новыми аудиомоделями.

📌 Потестить можно здесь: https://www.openai.fm/

@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤‍🔥1👍1
🔍 Claimify: повышение точности проверки фактов в текстах

Microsoft Research представила новый подход к извлечению утверждений из текстов, сгенерированных большими языковыми моделями (LLM).

Инструмент Claimify решает ключевую проблему: языковые модели часто выдают неточную или необоснованную информацию.

В чём суть проблемы?
Представьте: вы получили аналитическую справку от ИИ по развивающимся рынкам. Как проверить её достоверность? Разбить на отдельные утверждения и проверить каждое. Но тут-то и скрывается подвох – обычные методы извлечения утверждений часто ошибаются!

Исследователи выделили 4 ключевые проблемы:
1. Обработка мнений как фактов
– когда субъективные суждения вроде "решение проблем требует комплексного подхода" выдаются за проверяемые факты
2. Неполнота – часть важной информации просто теряется
3. Неточности – например, фраза "ООН обнаружила связь между загрязнённой водой и болезнями" превращается в "ООН обнаружила загрязнённую воду" - происходит упрощение в котором теряется смысл.
4. Потеря контекста – утверждения вроде "Афганистан столкнулся с похожими проблемами" бесполезны без указания, с какими именно.

Как работает Claimify?
Система обрабатывает исходный текст в четыре этапа:

1. Разбивка на предложения с сохранением контекста – учитывается структура текста и окружающие предложения
2. Отбор фактов – ИИ отделяет предложения с проверяемыми фактами от субъективных мнений
3. Устранение неоднозначности – система определяет, можно ли однозначно интерпретировать предложение, и если нет – помечает его как неоднозначное
4. Декомпозиция – из предложений создаются отдельные проверяемые утверждения

Важнейшая особенность Claimify – она не пытается интерпретировать неоднозначности, когда контекст недостаточен. Система просто помечает такие случаи, вместо того чтобы гадать.

Что в итоге?
Проверка показала, что 99% утверждений, извлечённых Claimify, точно отражают исходный текст. Система также лучше балансирует между включением проверяемой информации и исключением субъективной, сохраняя критический контекст.

Разработчики уже успешно используют Claimify для оценки ответов GraphRAG.

По сути, Microsoft создаёт технологический фундамент для систем проверки достоверности ИИ-контента, что особенно важно для отраслей, где цена ошибки высока: финансы, медицина, юриспруденция.

Paper

Полезный метод. Пока в разработке - можно по документации свой создать.

#Microsoft #RAG
———
@tsingular
🔥9👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🔍 В Claude добавили web поиск

Anthropic наконец-то выпустил функцию веб-поиска для Claude – возможность, которуая в других моделях присутствует уже около года.

Claude теперь может искать актуальную информацию в интернете и цитировать источники

Доступно пока только платным пользователям в США.

Работает только с флагманской моделью Claude 3.7 Sonnet

Интересно на сколько он покажет себя лучше, чем OpenAI pro, как исследователь.

#Anthropic #Claude
———
@tsingular
👍31
o1-pro появился в API и цены абсолютно прокляты!

Как вам $600 за 1 млн токенов?
По сравнению с $1.1 за млн в o3-mini или $2.19 у DeepSeek R1
Или даже $22 у GigaChat2 Max

Т.е. конечно, понятно, что с точки зрения OpenAI - это уже не игрушка, а вроде как Доктор Наук в предметной области вопроса изволит отвечать вам 24/7, но для начала страшновато.

Скорее всего на его ответах сейчас насамогонят R2 и будет у нас O1pro за 2 бакса на китайском.

#OpenAI #prices
———
@tsingular
😁10🔥1
🔥 EXAONE Deep: LG врывается в гонку рассуждающих ИИ

На арене появился неожиданный игрок из Кореи — LG, как оказалось, умеет не только в холодильники и телевизоры, но и в ИИ.

EXAONE Deep от LG AI Research — новая линейка моделей (32B, 7.8B и 2.4B параметров), заточенных под математику, научное мышление и программирование. И, судя по бенчмаркам, получается вполне сносно.

• 32B версия работает наравне с такими лидерами, как Qwen 32B, QwQ 32B и даже DeepSeek-R1 671B в CSAT Math.

• Уже доступна на Hugging Face — можно пощупать прямо сейчас.

По бенчмаркам:

• AIME 2024/2025 (американские математические олимпиады) — 32B версия набирает 90 баллов, 7.8B — 83.3.

• Китайский экзамен CSAT 2025 по математике — 94.5 балла у 32B версии.

• GPQA Diamond (PhD-уровень задач по физике, химии, биологии) — 66.1 у 32B.

• LiveCodeBench (кодинг) — стабильно высокие результаты у всех версий.

Оптимизирована под корейский язык.
Требует специальную команду для запуска режима рассуждений в промпте: нужно добавлять <thought>\n.

#reasoning #LG #EXAONE
———
@tsingular
🤔4🔥1
🦉 OWL: Открытый AI-агент, обгоняющий Manus AI

Наконец-то! Достойная бесплатная альтернатива закрытым AI-агентам вроде Manus AI, о котором все говорят, но попасть куда можно только по инвайту.

OWL (Optimized Workforce Learning) — мультиагентный фреймворк с открытым кодом, набравший более 6000 звёзд на GitHub всего за 2 дня и занявший 1-е место среди опенсорсных систем в бенчмарке GAIA со средним баллом 58.18.

В чём фишка OWL?
Система состоит из трёх типов агентов:
- User Agents — разбивают сложные задачи на простые шаги
- Assistant Agents — создают стратегии выполнения и работают с инструментами
- Tool Agents — соединяются с API, поисковиками и другими сервисами

Это позволяет OWL делать всё — от автономных исследований и веб-серфинга до программирования. И главное — всё работает локально, ваши данные в безопасности.

Технические особенности:
1. Поддержка популярных LLM-моделей: GPT-4, Claude, Gemini, Mistral, DeepSeek, Qwen и Groq

2. Встроенные инструменты:
- Поиск через Google, DuckDuckGo, Wiki, Bocha, Baidu
- Браузерная автоматизация через Playwright
- Парсинг документов (Word, Excel, PDF, PowerPoint)
- Обработка изображений, видео и аудио
- Выполнение Python-кода
- Работа с GitHub, Reddit, арXiv и даже Notion!

3. Простое развёртывание через conda, uv или Docker

Интересно, что последние коммиты от 19-20 марта связаны с обновлением max_token в примерах и добавлением поддержки Azure и Groq в веб-приложение. Команда явно работает над совместимостью с разными провайдерами.

Для бизнеса:
В отличие от закрытых систем за $20-200/месяц, OWL абсолютно бесплатен. Если у вас уже есть ключи API к моделям вроде GPT-4, вы можете автоматизировать исследования, анализ данных и веб-взаимодействия без дополнительных затрат.

Плюс открытая архитектура позволяет настроить OWL под конкретные бизнес-задачи — например, интегрировать с внутренними базами данных или API.

Команда сейчас собирает примеры использования (дедлайн 31 марта), так что можно не только попробовать, но и получить признание сообщества за интересный кейс.

#OpenSource #Agents #Automation
———
@tsingular
🔥9👍5
Исследование METR: Время решения задач AI-моделями удваивается каждые 7 месяцев

Исследователи из Model Evaluation & Threat Research (METR) выпустили 19 марта интересную работу, показывающую, что временной горизонт задач, которые могут решать AI-агенты, растёт экспоненциально.

Что измеряли и как
Команда из 24 исследователей разработала метрику "50% time horizon" — это продолжительность задач (в человеко-часах), которые AI может решить с 50% вероятностью успеха. Простыми словами: "Насколько долгую человеческую работу может заменить AI?"

Они провели 800+ базовых измерений с реальными людьми-экспертами для калибровки сложности 170 задач (от простых как "какой файл содержит пароль?" до сложных вроде "оптимизируй CUDA-ядро для бэктестинга") и протестировали на них 13 моделей от GPT-2 (2019) до Claude 3.7 Sonnet (2025).

Основные результаты
1. Claude 3.7 Sonnet сейчас может решать задачи, занимающие у опытного человека около 59 минут.
2. Скорость роста: временной горизонт стабильно удваивается каждые ~7 месяцев последние 6 лет.
3. Разница между 50% и 80% надёжностью: Для Claude 3.7 Sonnet горизонт падает с 59 минут до 15 минут при требовании более высокой надёжности.
4. Основные улучшения моделей: более надёжное выполнение, адаптация к ошибкам, улучшенное логическое мышление и использование инструментов.

Прогнозы на будущее
Если тренд сохранится, то к концу 2029 года мы получим модели, способные самостоятельно выполнять месячные проекты. Это потенциально может автоматизировать значительную часть работы программистов и исследователей.

Практические соображения
1. Стоимость: Успешный запуск AI-агента стоит <10% от зарплаты человека-эксперта для той же задачи — экономически очень выгодно.
2. Контекст важен: Разработчики репозитория решают те же задачи в 5-18 раз быстрее контрактников (наёмные аутсорсеры) без контекста. AI пока ближе к контрактникам по эффективности.
3. "Грязные" задачи: AI хуже справляется с неструктурированными задачами, где нет чёткой обратной связи или требуется проактивный поиск информации.

Интересное сравнение в плане выбора - кого нанять - субподрядчика контрактника человека или ИИ.
И те и те должны "въезжать" в чужеродную для них задачу без контекста.
И умнее "контрактники" не становятся, а вот ИИ умнеет быстрее закона Мура. х2 каждые 7 месяцев

Исследование

#metr #research #futurology
———
@tsingular
🔥74
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Урок по GraphRAG на Google Spanner и LangChain

Интересный урок про Google Spanner Graph для создания GraphRAG-приложений. Полезно, когда нужно извлекать не только контент, но и понимать связи между данными!

В примере классический RAG находит по запросу "нужен дрон для начинающих" только основную информацию о дроне SkyHawk Zephyr:
- Цена $129.99
- Что подходит для начинающих
- Основные характеристики


А вот GraphRAG выдаёт намного больше полезного:
- Те же данные о базовой модели
- Текущую акцию ($109.99 вместо $129.99)
- Доступные бандлы (Starter Package за $129.99 и Explorer Package за $179.99)
- Совместимые аксессуары (Extended Battery, Propeller Guards)
- Возможность апгрейда до модели Zephyr 2.0


Техническая начинка:
Проект строится на трёх блоках:
1. Spanner Graph — база данных от Google с поддержкой графов
2. LangChain — для построения RAG-пайплайнов
3. LLMGraphTransformer — автоматически превращает документы в графовые структуры

Техпроцесс:
Документы → LLMGraphTransformer → Граф с узлами и связями → Поиск по графу → Ответ LLM


Полезные библиотеки:
- langchain-google-spanner — интеграция с Spanner
- langchain-experimental для графовых трансформеров
- spanner-graph-notebook — визуализация

Примеры для бизнеса:
- Интернет-магазины: покупатель видит не только товар, но и совместимые аксессуары, бандлы, акции
- CRM: можно анализировать не только клиента, но и его связи с другими людьми/компаниями
- Рекомендательные системы: понимание контекста на более глубоком уровне

Классический RAG хорош, но GraphRAG круче, когда важны взаимосвязи между сущностями. Правда, технология ещё сыровата — приходится вручную фильтровать некорректные связи, которые создаёт LLM при преобразовании документов.

Не факт, что вы будете строить решение именно на Гугле, но урок очень наглядный. С примерами и визуальным рядом. Поможет разобраться.

GitHub

#GraphRAG #GoogleSpanner #LangChain #обучение #RAG
———
@tsingular
👍10421
Media is too big
VIEW IN TELEGRAM
StarVector: модель для генерации SVG-кода из изображений и текста

StarVector — мультимодальная модель, обрабатывающая как изображения, так и текстовые запросы.

В отличие от стандартных векторизаторов, StarVector создает SVG-код и точно использует примитивы вроде эллипсов, полигонов и текста.

Доступны версии на 1B и 8B параметров, оптимизированные для иконок, логотипов, диаграмм и графиков.

Авторы представили также SVG-Bench — комплексный бенчмарк для оценки качества векторизации.

HuggingFace

#SVG #Multimodal #Vector
-----
@tsingular
8🔥6🆒2
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Перед вами недавно снятое видео с "испытательных полигонов" Unitree, демонстрирует головокружительную скорость развития человекоподобных-роботов.

Unitree постоянно совершенствуют алгоритмы управления, позволяя роботу обучаться и осваивать всё более сложные и точные движения.

Модель G1 обладает 23 степенями свободы, это гарантирует исключительную устойчивость и координацию.

Робот оснащён 3D-лидаром, камерой глубины и комплектом микрофонов с функцией шумоподавления для надёжного распознавания голосовых команд.

Его «сердцем» является 8-ядерный процессор, обеспечивающий такую высокую манёвренность ❤️

G1 оборудован легко заменяемой батареей ёмкостью 9000 мА·ч, что позволяет ему работать до двух часов, с возможностью оперативной замены источника питания. Максимальная скорость робота достигает 7,2 км/ч.

При росте 1,32 метра и весе 35 кг, гуманоидный робот может компактно складываться, занимая пространство в контейнере размером всего 69 × 44 × 30 см.

На этапе первичного обучения G1 использует симулятор Isaac от Nvidia, который с помощью методов обучения с подкреплением помогает осваивать сложнейшие алгоритмы поведения в контролируемой цифровой среде.

Затем отработанные действия плавно переносятся в физическую модель с использованием процесса Sim2Real, что обеспечивает высокую точность выполнения движений в реальном мире.

Unitree выпустила открытый датаяет, предназначенный для повышения эффективности управления и координации движений человекоподобных роботов.

Набор данных, созданный с применением технологии захвата движения LAFAN1, полностью совместим с гуманоидными системами Unitree.

Он включает усовершенствованный алгоритм перенаправления, который оптимизирует планирование движений через интерактивную обработку и обратную кинематику с учётом ограничений позы, сочленений суставов и параметров скорости.

Кстати, цена такого робота начинается от 16к$

https://www.unitree.com/g1

@ai_machinelearning_big_data


#ai #robots #news #unitree #ArtificialIntelligence #HumanoidRobot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9🤯6👏31
This media is not supported in your browser
VIEW IN TELEGRAM
ComfyUI теперь поддерживает Hunyuan3D 2.0 из коробки

Обновите ComfyUI до последней версии и генерируйте высококачественные 3D-модели прямо из интерфейса. Поддерживаются и Hunyuan3D 2.0, и версия Multiview. Модель легкая (1.1B параметров), работает даже на Mac и создаёт геометрически точные модели с реалистичными текстурами. Просто откройте шаблоны "Hunyuan3D", скачайте модель по подсказке и начните генерацию. Готовые модели появятся в папке output/mesh.

#Hunyuan #ComfyUI
------
@tsingular
🔥6311
This media is not supported in your browser
VIEW IN TELEGRAM
По Гроку новости 2:
1. Маск спойлерит редактор картинок. Делают по следам последнего функционала Gemini. См ролик. У меня в Вебе пока не доступно, но видимо появится в ближайшее время.

2. В телеге обнаружили @GrokAI работает на движке 2 грока - слабоват, без поиска пока и без фактов - пишет что сегодня 23 ноября 2023 года, но судя по тому, что у аккаунта нет приставки bot в имени - его сделал сам телеграм и возможно скоро мы увидим больше настоящих ИИ интерфейсов от разработчиков.

#Grok #GrokAI
———
@tsingular
3🤔1
Tencent выпустил Hunyuan T1

Tencent выпустил свою передовую языковую модель с рассуждениями:
Hunyuan T1

Пишут, что лучше чем OpenAI GPT 4.5 и DeepSeek R1.

87.2 баллов в MMLU Pro против 84 у DeepSeek-R1, но меньше, чем 89.3 у OpenAI’s o1.

78.2 в AIME

Цены: US$0.14 за 1 млн. токенов

Web:
https://llm.hunyuan.tencent.com/#/chat/hy-t1
HF:
https://huggingface.co/spaces/tencent/Hunyuan-T1

#Tencent #Hunyuan #T1 #Китай
------
@tsingular
👍6
Forwarded from Machinelearning
⚡️ Цены на профессиональную линейку Nvidia RTX Pro Blackwell.

Американский ритейлер Connections опубликовал цены на серию RTX Pro Blackwell от Nvidia.

Флагманская модель RTX Pro 6000 стоит 8565 долларов, это на 26% дороже предыдущего поколения RTX 6000 Ada. В прайсе также перечислены еще невыпущенные модели RTX Pro 4000/4500/5000:

🟢RTX Pro 5000 — 4569 долларов;
🟢RTX Pro 4500 — 2623 доллара;
🟢RTX Pro 4000 — 1546 долларов.

Цены, традиционно для американского ритейла, указаны до налогов, которые в каждом штате разные.

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯5
Cloudflare запустил ловушку для ИИ ботов-скрейперов

Cloudflare создал новый инструмент "AI Labyrinth". Вместо блокировки ботов, которые игнорируют robots.txt и воруют контент для обучения ИИ, система заманивает их в лабиринт бесполезных AI-сгенерированных страниц.

Боты попадают в ловушки с правдоподобным, но бессмысленным контентом, тратя ресурсы и выдавая себя.
Ежедневно Cloudflare фиксирует более 50 млрд запросов от веб-скрейперов.

Включить защиту можно в настройках Bot Management на панели Cloudflare.

ИИ против ИИ.

#Cloudflare #security
———
@tsingular
👍9😈4😁3