Технозаметки Малышева
8.52K subscribers
3.81K photos
1.43K videos
40 files
3.99K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Утечка характеристик NVIDIA GeForce RTX 5090 и 5080

Инсайдеры раскрыли предварительные спецификации грядущих флагманов NVIDIA:
RTX 5090: 24576 CUDA-ядер, TDP 600 Вт.
RTX 5080: 16384 CUDA-ядер, TDP 400 Вт.

Обе модели базируются на архитектуре Blackwell и используют память GDDR7.

Ожидаемый прирост производительности - 60-70% по сравнению с RTX 4090.

Анонс в 2024, выпуск - 2025.

Ну, такое... 600W по-умолчанию, - слишком, ИМХО.
И очень хочется версию на 64Gb.

#NVIDIA #GeForce #RTX5090
———
@tsingular
Forwarded from Machinelearning
⚡️ Molmo: семейство state-of-art MMLM.

Molmo (Multimodal Open Language Model) - это семейство VLM, разработанных в Институте искусственного интеллекта Аллена, для решения задач обработки изображений и текста - создание подробных описаний изображений и выполнение комплексных визуальных операций, например:

🟢ответы на вопросы;
🟢обнаружение и сегментация по текстовому запросу;
🟢подсчет объектов или элементов;
🟢использование в сфере робототехники для изображений или видео;
🟢расширение возможностей VR.

▶️Molmo 72B - флагманская модель на базе Qwen2-72B в роли LLM и ViT-L/14 336px CLIP в роли visial-энкодера. Molmo-72B достигает наивысшего балла в бенчмарках и занимает второе место по человеческой оценке, лишь немного уступая GPT-4o.

▶️Molmo 7B-D и Molmo 7B-O - более утилитарные модели с разницей в исходных LLM (Qwen2-7B и OLMo-7B-1124 соответственно) и все тем же ViT-L/14 336px в качестве энкодера.

▶️ MolmoE 1B - компактная модель на архитектуре Mixture-of-Experts, основанная на OLMoE-1B-7B с 1.5B активных и 7.2B общих параметров, с производительностью, сравнимой с GPT-4V.

Обучение семейства выполнялось в 2 этапа: предварительное обучение на наборе данных PixMo-Cap для генерации аннотаций к изображениям и этап SFT с использованием комбинации академических наборов данных и наборов данных PixMo (PixMo-AskModelAnything, PixMo-Points, PixMo-CapQA, PixMo-Docs, PixMo-Clocks).

Тестирование модели проводилось на 11 бенчмарках: AI2D, ChartQA, VQA v2, DocVQA, InfographicVQA, TextVQA, RealWorldQA, MMMU, Math-Vista, CountBenchQA и Flickr Count.

Результаты показали, что Molmo, особенно модель Molmo-72B, демонстрирует производительность на уровне GPT-4o, превосходя Gemini 1.5 Pro, Flash и Claude 3.5 Sonnet.

⚠️ Модели Molmo могут испытывать трудности с прозрачными изображениями. В качестве решения, разработчики рекомендуют добавлять белый или темный фон к изображениям перед передачей их в модель, например, с помощью библиотеки PIL.


📌Лицензирование : Apache 2.0


🟡Страница проекта
🟡Коллекция моделей на HF
🟡Arxiv
🟡Demo


@ai_machinelearning_big_data

#AI #ML #Molmo #MoE #MMLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
ИИ-аналитики в SOC: роли LLM в кибербезопасности

Стремительное внедрение злоумышленниками ИИ инструментов для создания новых типов атак стимулирует ответные меры.

LLM и агентные фреймворки позволяют теперь создавать ИИ-помощников для SOC.
По прогнозам, вскоре практически каждый SOC будет использовать ИИ-аналитиков, которые, например, способны проводить расследования за секунды вместо 30-60 минут.

Как эффект, -автоматизация рутины Tier 1 аналитиков может не только повысить эффективность, но и снизить выгорание и текучесть кадров.

ИИ агенты - новый стандарт.
Вопрос лишь, - какой % бизнес-процесса вы готовы им доверить.
По опыту скажу, - что быстро входишь во вкус.
Как только начинает работать, - сразу ждёшь бОльшего, но многое ещё нужно доработать и дообучить. :)

#SOC #LLM #Cybersecurity
-------
@tsingular
👍2
Эмоциональный интеллект в ИИ.

Пример, как OpenaAI 4o даёт оценку эмоджи по шкале от "-1" до "1"
Т.е., в принципе, получается, можно использовать на уровне промптов.
Эмоцию распознает и среагирует вполне соответствующе.

Посмотрите, вы бы так же распределили шкалу?

#emoji #эмоциональныйИИ
———
@tsingular
👍3💯2
OpenAI повышает стоимость подписки вдвое

По отчётам OpenAI, на сегодняшний день около 10 миллионов пользователей ChatGPT платят ежемесячную подписку в $20.

OpenAI намерена повысить стоимость на $2 до конца года, а в течение следующих пяти лет постепенно увеличить её до $44.

Более миллиона сторонних разработчиков уже используют технологии OpenAI для создания собственных сервисов и потребление по API для среднего стартапа ближе по расходам как раз к $50-$100 в месяц, так что $20, - это, конечно, аттракцион невиданной щедрости был.

Компания вышла на уверенный рост и монетизацию, хотя все еще и в убытке (правильнее наверное сказать, - период агрессивных инвестиций в развитие).

#OpenAI #ChatGPT #subscription #price
———
@tsingular
Google потратил 2.7 миллиарда чтобы вернуть одного AI-разработчика

Недавно Google заплатил стартапу CharacterAI 2.7 миллиарда долларов, за лицензирование технологий. WSJ выяснил, что цель сделки была не в получении доступа к технологиям, а в том, чтобы вернуть в компанию основателя CharacterAI Ноама Шазира.

Шазир работал в Google c 2000 года и покинул компанию в 2021, из-за того что технологический гигант отказался запускать генеративную нейросеть, созданную им. После этого, Шазир основал стартап CharacterAI, который в 2023 году оценили в 1 миллиард долларов.

Теперь Ноам Шазир вернулся в Google на позицию вице-президента и главы разработки Gemini AI. С собой он привел часть команды из CharacterAI.

https://www.wsj.com/tech/ai/noam-shazeer-google-ai-deal-d3605697


GPT o1-preview и o1-mini уже доступны в c.aiacademy.me
This media is not supported in your browser
VIEW IN TELEGRAM
Робопёс покоряет вертикальные лестницы

Создан метод обучения четвероногого робота лазанию по лестницам.

Комбинация крючковых захватов и RL-алгоритмов позволила достичь 90% успеха на уклонах 70-90°.

Скорость подъема увеличена в 232 раза по сравнению с предыдущими разработками.

Робот адаптируется к разным параметрам лестниц и устойчив к внешним воздействиям.

Система не требует дополнительной настройки при переносе из симуляции на реального робота.

Походка при лазании схожа с человеческой, задние конечности генерируют подъемную силу, передние обеспечивают стабильность.

Плюсы,- не надо выгуливать.
Минусы,- не спрятаться, не скрыться.

#robotics #climbingrobots
------
@tsingular
🤔23👍15🤯14👀1
из рубрики "знаете ли вы".

Оказывается использование OpenAI для модерации - БЕСПЛАТНО

А там, между прочим, Омни модель [ omni-moderation-latest ]- т.е. и картинки тоже.

https://platform.openai.com/docs/guides/moderation/moderation

#OpenAI #freeware #tools
———
@tsingular
👍6
Популярность ChatGPT снижает обмен знаниями на форумах между людьми

Активность на Stack Overflow упала на 25% за полгода после дебюта ChatGPT.

Для получения ответов пользователи предпочитают ИИ-ассистентов публичным форумам.

Это сокращает базу данных для обучения будущих ИИ-моделей!!!

Наблюдается миграция знаний из публичного домена в частный.
Спад затронул контент всех уровней качества и пользователей разного опыта.
Особенно сократилась активность по Python и Javascript.

Какая-то саморегуляция всемирного знания.
Чем больше знает ИИ, - тем меньше базы, чтобы обучать его в будущем.
Тем больше частных островков знаний в специализациях, куда ИИ не дотянется 🤔

#StackOverflow #KnowledgeSharing #LLM
-------
@tsingular
👍8🤔6
This media is not supported in your browser
VIEW IN TELEGRAM
GR-2: новый прямоходящий робот

Fourier Intelligence представила усовершенствованного робота GR-2.
Высотой 175 см и весом 63 кг, он обладает 53 степенями свободы.

Ключевые особенности:
Ловкие руки с 12 степенями свободы и 6 тактильными сенсорами
Приводы FSA 2.0 с крутящим моментом более 380 Н·м
Грузоподъемность одной руки - 3 кг
Двойная система энкодеров для точного управления
Обновленный SDK поддерживает фреймворки NVIDIA Isaac Lab, ROS и Mujoco.

Открытый opensource! Любой школьник может перепрошить делать домашку и выгуливать робо-собаку.
Конечно это все не для военных целей. 🤖👋

#FourierIntelligence #GR2 #Robotics
-------
@tsingular
👍4🤣21
Forwarded from Data Secrets
⚡️ Google DeepMind выпустили работу про самоисправление моделей с помощью RL (в стиле o1)

Они разработали систему под названием SCoRe (Self-Correction via Reinforcement Learning). SCoRe работает как бы в два этапа:

1. Учится генерировать first try, исправления и second try. При этом используется специальный лосс, учитывающий и качество самих ответов, и качество критики. Получается своеобразный претрейн.
2. На втором этапе подключается multi-stage reinforcement learning. Тут лосс (с помощью регуляризации) больше поощряет существенные улучшения между first try и second try.

При этом учится SCoRe только на сгенерированных данных: это сделано специально, чтобы избежать проблемы разницы распределений в генерациях и трейне. Это, кстати, одна из причин того, что обычный файнтюнинг перформит не так хорошо, как хотелось бы.

Итог: SCoRe существенно улучшил self-correction гугловских моделей на бенчмарках. Например, на HumanEval случился скачок на 9,1 пп, а на MATH – на целых 16.

Статья полностью лежит тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍2
This media is not supported in your browser
VIEW IN TELEGRAM
EA показали новую концепцию по генерации миров в реальном времени с помощью ИИ.

В примере, на ходу, по запросам в чате, создается и интерактивно меняется игровой мир и его механики.

Тип дуэли, оружия, урон и масштаб мира ИИ генерит на лету.

Добавить еще слой нейрорендера поверх процедурных моделей и Матрицу можно выпускать в релиз, в принципе.

#games #worldgeneration
———
@tsingular
👍11
Forwarded from эйай ньюз
Ну всё. OpenAI теперь официально можно переименовать в Closed.
Они теперь официально for-profit.

Нравится какие серьезные лица стоят в пиджаках за Альтманом. Далеко не сайнтисты.

Компанию оценили в $150 млрд.

@ai_newz
5👀3😢1
Media is too big
VIEW IN TELEGRAM
OpenAI запускает Realtime API: революция в мультимодальных приложениях

OpenAI представила публичную бета-версию Realtime API, обеспечивающего создание мультимодальных приложений с низкой задержкой.

Ключевые особенности включают WebSocket-соединения, потоковую передачу аудио, обработку прерываний и вызов функций.

API работает на модели GPT-4o, позволяя распознавать речь, обрабатывать текст и синтезировать речь в едином интерфейсе.

Тарифы:
текст - $5/1М входных и $20/1М выходных токенов;
аудио - $100/1М входных и $200/1М выходных токенов. ($0.06 за минуту входа и $0.24 за минуту генерации)

Доступен в OpenAI Playground.
Планируется добавление поддержки изображений, видео и дальнейшее расширение возможностей SDK.

Готовимся переписывать агентов - с async на websocket.
Интерактивное общение - новый стандарт.

#OpenAI #RealtimeAPI #GPT4o
———
@tsingular
👍5
Altera: создание цифровых людей

Компания Altera разрабатывает цифровых людей с человеческими качествами:

• Автономия, связность, эмоции, эпизодическая память
• Быстрые рекации и взаимодействие с реальностью

Ключевые аспекты:
• Фокус на целостном интеллекте, а не только на выполнении задач
• Создание эмпатичных агентов для осмысленного взаимодействия
• Тестирование технологии начнется с игр
• Долгосрочное применение в различных секторах

Цель: улучшить понимание человечности и расширить возможности людей

https://altera.al/

ИИ агенты от Альтеры для Майнкрафта:
https://playlabs.altera.al/discover

#Altera #DigitalHumans #Gaming
-------
@tsingular
❤‍🔥3
🚀 OpenAI Dev Day: что нового? 🚀

Вчера на конференции OpenAI представили революционные фичи, и вот что нас особенно впечатлило:

1️⃣ o1 — полная версия: ИИ, который *с нуля* написал код для управления дроном! На сцене ведущий запустил дрон в полет прямо по этому коду. Все заработало с первой попытки. Ощущение, что будущее уже здесь.

2️⃣ Голосовой режим: представьте, ИИ позвонил в магазин и заказал 400 клубник в шоколаде! Пусть видео и постановочное, но возможность впечатляет. Знакомый, но крутой уровень взаимодействия, который когда-то показывал Google, теперь доступен и здесь.

3️⃣ Voice Mod через Realtime API: теперь любое приложение может заговорить с вами *человеческим* голосом. Голосовые интерфейсы выходят на новый уровень — готовьтесь к более естественному взаимодействию с технологиями.

4️⃣ Разработчики о полной версии o1: обещают, что итоговая версия будет еще лучше, чем превью! Интеграции с инструментами для кодинга уже начались — ждем релиза в ближайшие недели. Эта модель станет новым стандартом для разработчиков.

5️⃣ Sora, новая версия: на экранах в холле крутили видео с обновленной версией. Выглядит впечатляюще — с нетерпением ждем, что нас ждет дальше.

OpenAI в очередной раз демонстрируют, как технологии могут выйти на новый уровень взаимодействия. Мы начинаем испытания уже сегодня!

Какие из этих возможностей вам интереснее всего?

😎 Фабрика контента.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84