Технозаметки Малышева
8.25K subscribers
3.66K photos
1.37K videos
40 files
3.85K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Microsoft только что выпустила впечатляющий инструмент - OmniParser V2, который может превратить любого LLM в агента, способного использовать компьютер.

Он решает две ключевые проблемы GUI-автоматизации:

- Обнаружение интерактивных элементов.
Традиционно LLM испытывают трудности с определением мелких иконок и других элементов пользовательского интерфейса. OmniParser V2 «токенизирует» скриншоты – переводит изображение экрана из пиксельного пространства в структурированные данные, представляющие интерактивные объекты.

Понимание семантики интерфейса.
Инструмент структурирует информацию так, чтобы LLM могли проводить поиск по элементам и предсказывать следующее действие на основе полученной информации.

Плюсы OmniParser V2
- Повышенная точность:
Благодаря обучению на большем объеме данных для обнаружения интерактивных элементов и функциональных описаний иконок, OmniParser V2 существенно улучшает точность даже для очень маленьких элементов по сравнению с предыдущей версией .

Сокращение задержки:
- Оптимизация размера изображения в модели описания иконок позволила снизить задержку на 60% по сравнению с предыдущей версией, что делает его более оперативным в реальном времени.

Гибкость и интеграция:
- OmniParser V2 легко интегрируется с современными LLM, такими как GPT-4o, DeepSeek, Qwen и Anthropic Sonnet. Это позволяет комбинировать распознавание интерфейса, планирование действий и их исполнение в одном конвейере.

Поддержка тестов через OmniTool:
- Для быстрого тестирования различных настроек агентов разработана платформа OmniTool – docker-решение на базе Windows, содержащее все необходимые инструменты для экспериментов.

Минусы и ограничения
- Требования к техническим навыкам:
Для развертывания и интеграции OmniParser V2 требуется определённый уровень технической подготовки, особенно если вы планируете экспериментировать с настройками через OmniTool.

Ограничения в безопасности:
- Из соображений ответственного использования (Responsible AI), рекомендуется применять OmniParser V2 только к скриншотам, не содержащим чувствительной или личной информации. Это помогает минимизировать риски утечки данных , .

Исследовательская стадия:
На данный момент инструмент ориентирован на исследовательские и экспериментальные задачи, и его коммерческое использование может требовать доработок или адаптации под конкретные задачи.

Как пользоваться OmniParser V2:

Развертывание через OmniTool:
Для упрощения экспериментов Microsoft разработала OmniTool – dockerизированную систему на базе Windows. Запустив OmniTool, вы получите преднастроенную среду, в которой OmniParser V2 может работать с различными LLM.

Подготовка скриншотов:
Сделайте скриншоты пользовательского интерфейса, которые хотите автоматизировать. OmniParser V2 обработает изображение, преобразовав его в структурированные данные, где каждому интерактивному элементу будет присвоен уникальный токен.

Интеграция с LLM:
Передайте полученные данные выбранной языковой модели. LLM, получив «токенизированный» интерфейс, сможет проводить retrieval-based next action prediction, то есть предсказывать следующее действие пользователя на основе распознанных элементов.

Исполнение действий:
После того как LLM определит, какое действие следует выполнить (например, нажатие на кнопку или выбор меню), система может автоматизированно выполнить это действие в графическом интерфейсе.

OmniParser V2 существенно расширяет возможности LLM, превращая их в эффективных агентов для работы с графическими интерфейсами.

GitHubhttps://github.com/microsoft/OmniParser/tree/master

Official blog post https://microsoft.com/en-us/research/articles/omniparser-v2-turning-any-llm-into-a-computer-use-agent/

Hugging Facehttps://huggingface.co/microsoft/OmniParser-v2.0

@data_analysis_ml
🔥8👍1
Интервью с создателями Gemini: как будет развиваться ИИ

Подкаст с Джеффом Дином (Chief Scientist Google) и Ноамом Шазиром (изобретатель Transformer) — ключевыми архитекторами Gemini.

💡 Ключевые цифры и факты:
- TPU v1 начинали с 8-битной квантизации для inference
- Сейчас уже используют FP4 и даже 2-битную квантизацию
- 25% кода в Google сейчас генерируется ИИ (с human oversight)
- Один токен стоит примерно 1/10^18 долларов на inference
- Обработка миллиона токенов стоит $1 (в 100 раз дешевле чем чтение бумажной книги!)

🔋 Про масштабирование inference:
- Главный инсайт: можно тратить гораздо больше вычислений на inference
- Сейчас даже при триллионе операций на токен, это всё ещё очень дешево
- Планируют сделать "dial" — регулятор качества/стоимости ответа
- От x1 до x10000 разница в вычислениях между простыми и сложными запросами

⚡️ Новая архитектура будущего (Pathways):
- Органическая модульная структура вместо привычной монолитной
- Разные модули могут развиваться независимо
- Автоматическое масштабирование связей между частями
- Возможность специализации под конкретные задачи
- Постоянная дистилляция знаний между модулями!!!

💼 Практическое применение:
- Можно будет создавать персональные модули под каждую компанию
- Разные уровни доступа к разным частям модели
- Специализированные модули под конкретные продукты
- Возможность обучения на приватных данных в отдельных модулях

Google делает серьезную ставку на модульную архитектуру и масштабирование inference. Это может полностью изменить подход к развертыванию ИИ-систем в производстве.

Youtube

Каждый модуль, как отдельная мысль, будет жить и обновляться в "подсознании ИИ" независимо, участвуя в общем процессе мышления, когда необходимо.

А мы, тем временем, не имея ресурсов Гугла, можем сделать это через каскад агентов с независимой памятью.

#Google #Gemini #TechNews #интервью
———
@tsingular
👍6🆒3
🎓 Microsoft выпустили курсы по AI агентам

"AI Agents for Beginners":
- 10 бесплатных уроков по созданию AI-агентов
- Есть переводы на 9 языков (русский ожидается в марте 2025)
- Все примеры на GitHub
- Видео-уроки обещают в марте 2025 👀

🛠 Технические особенности:
- Работа с Azure AI Foundry (нужен аккаунт Azure)
- Интеграция с Github Models (есть бесплатный доступ)
- Практические уроки с фреймворками: Semantic Kernel, AutoGen
- Реальные примеры на Python в каждом уроке

💡 Что особенно полезно:
- Паттерны проектирования агентов
- RAG-подходы
- Мультиагентные системы
- Метакогнитивные паттерны
- Production-ready практики

Бонусом Microsoft также предлагает связанные курсы:
Generative AI for Beginners
Generative AI for Beginners - .NET
ML for Beginners
Data Science for Beginners
AI for Beginners

Есть сервер сообщества в Discord - Azure AI Discord для обсуждений и помощи.

Учитывая как быстро развивается тема AI-агентов, этот курс может стать отличным фундаментом для старта.
Особенно если вы планируете интегрировать агентов в бизнес-процессы или разрабатывать enterprise-решения на базе Azure.

#Microsoft #агенты #обучение #Azure
———
@tsingular
🔥8🆒2
Коллекция курсов по созданию всего от CodeCrafters

Репозиторий build-your-own-x предлагает пошаговые руководства для разработки всего, что только можно представить.

Основная идея основана на принципе Ричарда Фейнмана: 'Чего я не могу создать, того я не понимаю'.

Проект, запущенный Даниэлем Стефановичем, развивается силами сообщества под эгидой CodeCrafters, Inc.

Материалы распространяются без ограничений авторских прав.
Каждое руководство содержит детальные инструкции для самостоятельного воспроизведения.

Курсы тут

#CodeCrafters #OpenSource #dev #обучение
------
@tsingular
🔥75🆒2👍1
Bessemer Venture Partners опубликовал интересный фреймворк оценки AI-стартапов

Авторитетная венчурная фирма представила четырехкомпонентную модель анализа перспективности проектов:
Функциональная польза: реальное решение проблем клиентов
Экономический потенциал: измеримый ROI и монетизация
Конкурентоспособность: уникальность на фоне существующих решений
Защищенность: устойчивость модели к копированию и конкуренции
Успешные кейсы демонстрируют EvenUp, Abridge и Fieldguide
Ключевые факторы: глубокая интеграция в бизнес-процессы и способность к быстрой адаптации

Может быть полезно для самооценки,- а в ту ли сторону мы копаем?!

#Bessemer #Venture #Startups
-------
@tsingular
4
Собственно ответ на вопрос зачем нужны локальные модели на своих видеокартах.

Чтобы глаза оставались внутри орбит.

£700 на 1 пользователя в месяц.

#Microsoft #Copilot #цены
------
@tsingular
🤯18👀6🆒3
Media is too big
VIEW IN TELEGRAM
Любовь. Смерть и Роботы - 4й сезон скоро. :)
Недалёкое будущее человечества.

#LDR #love #death #robots
———
@tsingular
😁19👾2
Вышел Grok-3

https://x.com/i/broadcasts/1gqGvjeBljOGB
Умнее чем o3-mini. Лучший по всем тестам.
Сегодня должны открыть доступ.

#Grok
———
@tsingular
🤔8🔥3
🦙 Как приручить Llama: Используем LLM для поиска критичных данных в коде

Интересный разбор на ХАКЕРе о том, как заставить open-source LLM следить за утечкой чувствительных данных в микросервисах.

Суть проблемы: в больших проектах сложно уследить, где и какие критичные данные (паспорта, СНИЛС, финансы) обрабатываются. А знать надо — чтобы сфокусировать защиту на важных сервисах.

Что придумали:
1. Научились извлекать структуры данных из Swagger, Protobuf и SQL-схем
2. Сначала пытались искать по ключевым словам — но это "в лоб" и можно пропустить новые типы данных
3. Попробовали ChatGPT — отлично справился, но дорого и небезопасно отправлять схемы "наружу"
4. Нашли решение: локальная Llama 2 (3B или 8B параметров)

Технические детали:
- 3B-модель отрабатывает за 10 секунд, но иногда тупит
- 8B думает 30 секунд, но точнее определяет критичные поля
- На CPU без GPU модели работают медленно, но жить можно
- Для продакшена рекомендуют GPU + кэширование моделей в памяти

Практическое применение:
- Можно встроить в CI/CD для автоматического обнаружения новых критичных данных
- Выгружать результаты в DefectDojo и отслеживать как уязвимости
- Использовать для аудита legacy-кодовой базы

Интересно, что опенсорсная Llama на обычном железе справляется с задачей почти как ChatGPT. Конечно, думает подольше, но зато бесплатно, локально и безопасно 😎

Пришло время обновить подписку на ксакеп. :) (у них там сейчас скидка 60%, кстати)
Снова годные статьи в выпусках.

#Security #Llama #xakep
———
@tsingular
👍8🤝31
Карпати потестил Grok 3 в раннем доступе.

🎯 Ключевые выводы:

Сильные стороны:
- Уровень мышления ("Think" button) на уровне топовых моделей OpenAI
- Отлично справляется со сложными математическими задачами и рассуждениями
- Успешно работает с документами (тест на GPT-2 paper)
- Качественный Deep Search (аналог Deep Research от OpenAI/Perplexity)

Технические тесты:
- Успешно генерирует hex-сетку для Settlers of Catan (что не могут DeepSeek-R1, Gemini 2.0 и Claude)
- Правильно решает сложные задачи на подсчет FLOPS для тренировки моделей
- Хорошо справляется с простыми логическими головоломками

Слабые места:
- Проблемы с декодированием Unicode variation selectors
- Генерация некорректных tic-tac-toe досок
- Иногда галлюцинирует несуществующие URL
- Слабый уровень юмора (типичная проблема LLM)
- Излишняя "этическая чувствительность"

💡 Практический вывод:
1. Модель находится на уровне o1-pro от OpenAI ($200/месяц)
2. Превосходит DeepSeek-R1 и Gemini 2.0 Flash Thinking
3. Особенно впечатляет скорость развития: команда достигла state-of-the-art за ~1 год

🔮 Бизнес-применение:
- Сильная аналитическая составляющая делает модель полезной для исследовательских задач
- Deep Search функционал может заменить дорогие инструменты поиска решений
- Качественное решение математических и логических задач делает возможным технический анализа

🎯 Важный момент:
xAI показывает невероятную скорость развития — от нуля до уровня топовых моделей за год. Это может существенно повлиять на расстановку сил на рынке AI в ближайшем будущем.
(для всех, у кого есть 200 тыс видеокарт :) )

#grok3 #karpathy
———
@tsingular
👍8🔥4
🤖 Google Meet встроил AI-помощника для встреч.

Gemini теперь умеет не просто записывать встречи в Google Meet, но и автоматически выделять следующие шаги и назначать ответственных.

- Работает пока только на английском языке
- Нужен компьютер/ноутбук (для звонков с мобильников пока не поддерживается)
- Длительность встреч: от 15 минут до 8 часов
- Создает Google Doc с заметками, который автоматически прикрепляется к календарному событию
- Поддерживает цитирование с таймкодами из транскрипции
- Умеет делать "Summary so far" для опоздавших

Доступность:
- Google Workspace Business Standard/Plus
- Enterprise Standard/Plus
- Образовательные учреждения через Gemini Education Premium
- Старые подписчики Gemini Enterprise и AI Meetings

Как работает:
1. Находите кнопку "Take notes with Gemini" в верхнем правом углу Meet
2. Включаете - участники видят значок карандаша
3. После встречи организатор и включивший заметки получают email со ссылкой
4. Документ автоматически расшаривается на внутренних участников встречи

За последний год появилось много стартапов типа tldv, Fathom и других, предлагающих AI-заметки для встреч. Google фактически "убил" их рынок, встроив эту функцию прямо в Meet.

И судя по rollout'у (медленный, с тщательным мониторингом качества) - Google серьезно настроен сделать это базовой функцией для всех корпоративных клиентов.

А следом, скорее всего, и для обычных.

Так что если вы планировали делать стартап в этой нише - возможно, стоит пересмотреть планы.
Google показывает, что базовые AI-функции будут встроены во все популярные инструменты. Нужно искать более специализированные ниши или создавать решения поверх существующих платформ. 🤔
Мультиплатформенные ассистенты.

#GoogleMeet #tldv #транскрибация
———
@tsingular
31👨‍💻1
BigQuery ML теперь работает с open-source LLM!

Google Cloud порадовал крутейшим анонсом - теперь BigQuery ML может использовать любые open-source языковые модели из Vertex AI Model Garden, включая всю библиотеку Hugging Face (170K+ моделей)!

Что это значит на практике:
- Можно использовать свои fine-tuned модели
- Доступны все 170K+ моделей с Hugging Face
- Работает через привычный SQL-синтаксис
- Интеграция с Vertex AI для деплоя моделей

В посте они показали пример с Llama 3.3 70B:
Модель анализирует медицинские транскрипты и извлекает структурированные данные (возраст, пол, заболевания) прямо через SQL-запросы.

Процесс запуска:
1. Деплоим модель в Vertex AI
2. Создаем remote model в BigQuery
3. Делаем инференс через ML.GENERATE_TEXT

Теперь работа с большими объемами данных резко упростилась.
Особенно круто для компаний, у которых уже есть данные в BigQuery - можно добавить ИИ без сложной интеграции.

Кто не в курсе, BigQuery это такая безразмерная база данных, куда поместится вообще все что можно себе представить и при этом ещё место останется. Логи, сделки, CRM, что хотите.
И при этом цена не будет конской. Что редко вообще встречается :)

P.S. И да, дают $300 кредитов новым пользователям для тестирования.

#BigQuery #Google #HuggingFace
———
@tsingular
👍5🔥3
Интересный вариант карты российского ИИ ландшафта.

- Рынок ИИ-агентов и автоматизации поддержки достаточно насыщен. Тут не только гиганты, но и специализированные игроки, которые делают кастомные решения.

- В инфраструктурной части есть и NVIDIA A100 и иногда даже H100

- Есть локальные бенчмарки для русскоязычных LLM - теперь можно объективно сравнивать модели
- Кроме YandexGPT и GigaChat, есть опенсорсные Saiga LLM и Вихрь LLM - адаптированные под русский язык

- Рынок LLM оценивается в 35 млрд руб
- Прогноз роста - 25% ежегодно до 2028
- Основной барьер - сложности с железом для обучения

В целом карта показывает, что рынок живее, чем кажется. Особенно если нужны решения для автоматизации поддержки или кастомные ИИ-агенты.

Карта тут

Не хватает, конечно, еще достойных игроков, вроде aitunnel.ru например или immers.cloud. Ну и разработчиков и интеграторов ИИ решений не хватает многих.

Запилить что-ли свою карту ? :)
Что скажете?

#Россия #карта
———
@tsingular
👍13🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
Интерактивный учебник по Линейной Алгебре

Просто огонь! Бесплатный и по-настоящему интерактивный!
Можно, конечно в PDF скачать, но не так наглядно будет.

Следующий уровень - учебники с ИИ.

#учебники #обучение
———
@tsingular
🔥176👍1
Forwarded from Data Secrets
OpenAI релизнули новый бенчмарк SWE-Lancer, который привязывает способности LLM к реальному экономическому эффекту

А сделали они это очень просто и изящно: взяли 1 488 заданий с фриланс-платформы Upwork общей стоимостью $1 миллион USD и проверили, сколько из них сможет решить модель. При этом не все задачи одинаковые. Они варьируются от мелких исправлений багов за $50 до сложных тасок по реализации новых фич за $32 000.

В этом как раз и фишка: задания оцениваются по реальным рыночным ставкам, а не гипотетическим оценкам сложности. В среднем, если что, такие задачи требуют изменения 2 файлов и 69 строк кода и решаются людьми за 26 дней.

Лучше всего себя показала Claude 3.5 Sonnet (да, не o1). Модель заработала $403 000. o1 high compute при этом заслужила $380 000, а GPT-4o всего $304 000.

Интересно было посмотреть на сравнение с затратами на API, но такого анализа пока не провели

arxiv.org/abs/2502.12115
👍7🔥2🏆2
Появилась утечка, что Антропик готовит следующую модель с размышлениями и поиском.

Обнаружили по иконкам в приложении под iOS.

Опус 3.5 уже так долго маринуют, что можно его под 4м номером выпускать, раз уж такой способный.

#anthropic
———
@tsingular
🔥5
🚀 InfiniteHiP: 3 миллиона токенов на одном GPU!

Интересный подход для обработки сверхдлинных текстов, который решает классическую проблему LLM - ограничение контекстного окна.

- Систему научили обрабатывать контекст в 3 млн токенов на одном GPU (это примерно 2000 страниц текста!)
- Скорость работы в 18.95 раз выше традиционных методов
- Не требует дополнительного обучения модели!!!

🔍 Как это работает:
Система использует "модульное иерархическое сокращение" - представьте, что вы читаете книгу: сначала смотрите на заголовки глав, потом на важные абзацы, затем на ключевые предложения. Похожим образом работает и InfiniteHiP.

💡Менее важная информация хранится в обычной RAM, а не в памяти GPU. При необходимости данные подгружаются обратно. По сути RAG.

Практическое применение:
- Анализ больших документов (контракты, техническая документация)
- Обработка научных статей с сохранением полного контекста
- Работа с большими кодовыми базами

💼 Для бизнеса:
Техники эффективного управления памятью и внимания, разработанные в этом проекте, могут быть полезны для оптимизации других AI-приложений, где критична производительность.

📝 Paper: https://huggingface.co/papers/2502.08910
💻 Исходники: https://github.com/DeepAuto-AI/hip-attention/
▶️ Demo на DeepSeek 14B: https://chat.deepauto.ai/

Вот что мне это напомнило.
В детских книгах раньше как писали:
ГЛАВА ВОСЬМАЯ, в которой Кристофер Робин организует "искпедицию" к Северному Полюсу

В заголовке была краткая аннотация. Очень близко по сути.

#pruning #InfiniteHiP #huggingface
———
@tsingular
🔥531