Технозаметки Малышева

Все больше примеров нового голоса OpenaAI.

Детализация поражает, конечно.
Там не только эмоции, но и звуки вообще любые и все в тему.

Это как много каналов качественных признаков, которые обрабатываются параллельно и пересобираются как многослойный пирог в итоговый звук.

Сказка про животных, Шекспир в лицах, мяу-алфавит, ну и конечно же гвоздь программы - пьяная нейронка

Сотни тысяч лет эволюции, миллиарды в разработку, десятки лет кропотливого труда тысяч учёных, но мы не летим в космос, а спаиваем нейроку. Ну, победа, конечно :).

#OpenAI #voice
———
@tsingular

🔥5👏2😁2🤔2

1.27K views13:40

Технозаметки Малышева

Forwarded from эйай ньюз

🔥

LLaMa 3.2 - Multimodal в опенсорсе!

Теперь в LLama официально завезли поддержку изображений! До этого мы имели в open-source только сторонние поделки вроде LLaVa и InternVL (они брали Llama3 за основу и тюнили).

Теперь модель понимает графики и диаграммы, описывает изображения и может находить на них объекты по описаниям.

Например, пользователь может спросить, в каком месяце его компания имела лучшие продажи, и модель даст ответ на основе доступных графиков.

Есть несколько размеров:
- Маленькая модель - 11B параметров
- Средняя - 90B. Обходит GPT-4o-mini по Vision бенчам.
- Более легковесные text-only модели: 1B и 3B параметров. Как раз, чтобы бегать локально на девайсах. 3B обходит Gemma 2 и Phi-3.5 - Mini.
- Контекст 128,000 токенов, как и в LLama 3.1

С легковесными моделями можно создавать персонализированые приложения с агентами в закрытой среде - например, резюмировать ваши сообщения, емейлы или отправлять приглашения в календарь.

И теперь с Llama 3.2 ждём очередной большой скачок качества Multimodal LLM в опенсорсе!

Блогпост
Веса на HF

@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👾2

2.21K views18:16

Технозаметки Малышева

Forwarded from Data Secrets

Возможно Llama 3.2 была не самым интересным вчерашним мультимодальным релизом: вышла Molmo, которая круче показывает себя на бенчмарках

Это семейство опенсорсных моделей от лаборатории Ai2. Есть варианты на 7В MoE (1B активных), 7В (таких две) и 72В. Самая крупная на бенчмарках обгоняет Llama 3.2 90B, и достает до полноразмерной GPT-4o, Gemini 1.5 Pro и Claude Sonnet 3.5.

В основе крупной модели Qwen2-72B + OpenAI CLIP в качестве vision-основы. А еще исследователи обещают скоро выкатить датасеты и код (включая vision encoder).

Все модели доступны под лицензией Apache 2.0 на HF (и в ЕС тоже!). Статью можно прочитать здесь, а вот тут доступно демо.

2.58K views13:03

Технозаметки Малышева

AlphaChip: ИИ проектирует дизайн компьютерных чипов

AlphaChip - ИИ модель, использующая обучение с подкреплением для проектирования микросхем, разработанная Google DeepMind.

Генерирует компоновки чипов за часы, тогда как ручной процесс занимал недели.

Подход рассматривает компоновку как игру, размещая компоненты на пустой сетке и использует графовую нейронную сеть для анализа взаимосвязей между элементами.

AlphaChip самосовершенствуется с каждым новым проектом, обобщая свой опыт в разработке различных чипов и схем, что в итоге приводит к бОльшей эффективности, чем экспертиза людей.

Применяется в разработке тензорных процессоров Google, Axion Processors и MediaTek Dimensity.

Ну вот, а вы переживали, - "когда ИИ будет создавать и улучшать сам себя?".
Вот уже почти оно. :)

#AlphaChip #GoogleDeepMind #ChipDesign
-------
@tsingular

🔥33🤯10✍3👍1🍓1👾1

3.92K viewsedited 06:19

Технозаметки Малышева

ChatGPT для macOS под угрозой: обнаружена серьезная уязвимость

Исследователи выявили критический баг в приложении ChatGPT для macOS.
Эксплойт, названный SpAIware, позволяет внедрять вредоносный код в долговременную память бота.

Атакующие могут похищать данные пользователей, включая все будущие диалоги.

OpenAI выпустила частичное исправление, запретив боту отправлять информацию на удаленные серверы.

Пользователям рекомендуется регулярно проверять и очищать память ChatGPT от подозрительных записей.
Уязвимость не затрагивает веб-версию сервиса.

Когда дедлайны важнее SDLC. Никогда такого не было и вот, - опять. 🤖🛡

#ChatGPT #Vulnerability #MacOS
-------
@tsingular

🤔4

2.77K viewsedited 11:44

Технозаметки Малышева

Утечка характеристик NVIDIA GeForce RTX 5090 и 5080

Инсайдеры раскрыли предварительные спецификации грядущих флагманов NVIDIA:
RTX 5090: 24576 CUDA-ядер, TDP 600 Вт.
RTX 5080: 16384 CUDA-ядер, TDP 400 Вт.

Обе модели базируются на архитектуре Blackwell и используют память GDDR7.

Ожидаемый прирост производительности - 60-70% по сравнению с RTX 4090.

Анонс в 2024, выпуск - 2025.

Ну, такое... 600W по-умолчанию, - слишком, ИМХО.
И очень хочется версию на 64Gb.

#NVIDIA #GeForce #RTX5090
———
@tsingular

1.95K views12:20

Технозаметки Малышева

Forwarded from Machinelearning

⚡️ Molmo: семейство state-of-art MMLM.

Molmo (Multimodal Open Language Model) - это семейство VLM, разработанных в Институте искусственного интеллекта Аллена, для решения задач обработки изображений и текста - создание подробных описаний изображений и выполнение комплексных визуальных операций, например:

🟢

ответы на вопросы;

🟢

обнаружение и сегментация по текстовому запросу;

🟢

подсчет объектов или элементов;
🟢использование в сфере робототехники для изображений или видео;

🟢

расширение возможностей VR.

▶️

Molmo 72B - флагманская модель на базе Qwen2-72B в роли LLM и ViT-L/14 336px CLIP в роли visial-энкодера. Molmo-72B достигает наивысшего балла в бенчмарках и занимает второе место по человеческой оценке, лишь немного уступая GPT-4o.

▶️

Molmo 7B-D и Molmo 7B-O - более утилитарные модели с разницей в исходных LLM (Qwen2-7B и OLMo-7B-1124 соответственно) и все тем же ViT-L/14 336px в качестве энкодера.

▶️

MolmoE 1B - компактная модель на архитектуре Mixture-of-Experts, основанная на OLMoE-1B-7B с 1.5B активных и 7.2B общих параметров, с производительностью, сравнимой с GPT-4V.

Обучение семейства выполнялось в 2 этапа: предварительное обучение на наборе данных PixMo-Cap для генерации аннотаций к изображениям и этап SFT с использованием комбинации академических наборов данных и наборов данных PixMo (PixMo-AskModelAnything, PixMo-Points, PixMo-CapQA, PixMo-Docs, PixMo-Clocks).

Тестирование модели проводилось на 11 бенчмарках: AI2D, ChartQA, VQA v2, DocVQA, InfographicVQA, TextVQA, RealWorldQA, MMMU, Math-Vista, CountBenchQA и Flickr Count.

Результаты показали, что Molmo, особенно модель Molmo-72B, демонстрирует производительность на уровне GPT-4o, превосходя Gemini 1.5 Pro, Flash и Claude 3.5 Sonnet.

⚠️ Модели Molmo могут испытывать трудности с прозрачными изображениями. В качестве решения, разработчики рекомендуют добавлять белый или темный фон к изображениям перед передачей их в модель, например, с помощью библиотеки PIL.

📌Лицензирование : Apache 2.0

🟡

Страница проекта

🟡

Коллекция моделей на HF

🟡

Arxiv

🟡

Demo

@ai_machinelearning_big_data

#AI #ML #Molmo #MoE #MMLM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4

2.04K views15:01

Технозаметки Малышева

ИИ-аналитики в SOC: роли LLM в кибербезопасности

Стремительное внедрение злоумышленниками ИИ инструментов для создания новых типов атак стимулирует ответные меры.

LLM и агентные фреймворки позволяют теперь создавать ИИ-помощников для SOC.
По прогнозам, вскоре практически каждый SOC будет использовать ИИ-аналитиков, которые, например, способны проводить расследования за секунды вместо 30-60 минут.

Как эффект, -автоматизация рутины Tier 1 аналитиков может не только повысить эффективность, но и снизить выгорание и текучесть кадров.

ИИ агенты - новый стандарт.
Вопрос лишь, - какой % бизнес-процесса вы готовы им доверить.
По опыту скажу, - что быстро входишь во вкус.
Как только начинает работать, - сразу ждёшь бОльшего, но многое ещё нужно доработать и дообучить. :)

#SOC #LLM #Cybersecurity
-------
@tsingular

👍2

1.11K views07:04

Технозаметки Малышева

Эмоциональный интеллект в ИИ.

Пример, как OpenaAI 4o даёт оценку эмоджи по шкале от "-1" до "1"
Т.е., в принципе, получается, можно использовать на уровне промптов.
Эмоцию распознает и среагирует вполне соответствующе.

Посмотрите, вы бы так же распределили шкалу?

#emoji #эмоциональныйИИ
———
@tsingular

👍3💯2

1.64K viewsedited 12:12

Технозаметки Малышева

OpenAI повышает стоимость подписки вдвое

По отчётам OpenAI, на сегодняшний день около 10 миллионов пользователей ChatGPT платят ежемесячную подписку в $20.

OpenAI намерена повысить стоимость на $2 до конца года, а в течение следующих пяти лет постепенно увеличить её до $44.

Более миллиона сторонних разработчиков уже используют технологии OpenAI для создания собственных сервисов и потребление по API для среднего стартапа ближе по расходам как раз к $50-$100 в месяц, так что $20, - это, конечно, аттракцион невиданной щедрости был.

Компания вышла на уверенный рост и монетизацию, хотя все еще и в убытке (правильнее наверное сказать, - период агрессивных инвестиций в развитие).

#OpenAI #ChatGPT #subscription #price
———
@tsingular

2.08K views12:53

Технозаметки Малышева

Forwarded from GPT/ChatGPT/AI Central Александра Горного

Google потратил 2.7 миллиарда чтобы вернуть одного AI-разработчика

Недавно Google заплатил стартапу CharacterAI 2.7 миллиарда долларов, за лицензирование технологий. WSJ выяснил, что цель сделки была не в получении доступа к технологиям, а в том, чтобы вернуть в компанию основателя CharacterAI Ноама Шазира.

Шазир работал в Google c 2000 года и покинул компанию в 2021, из-за того что технологический гигант отказался запускать генеративную нейросеть, созданную им. После этого, Шазир основал стартап CharacterAI, который в 2023 году оценили в 1 миллиард долларов.

Теперь Ноам Шазир вернулся в Google на позицию вице-президента и главы разработки Gemini AI. С собой он привел часть команды из CharacterAI.

https://www.wsj.com/tech/ai/noam-shazeer-google-ai-deal-d3605697

—
GPT o1-preview и o1-mini уже доступны в c.aiacademy.me

2.4K views12:56

Технозаметки Малышева

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Робопёс покоряет вертикальные лестницы

Создан метод обучения четвероногого робота лазанию по лестницам.

Комбинация крючковых захватов и RL-алгоритмов позволила достичь 90% успеха на уклонах 70-90°.

Скорость подъема увеличена в 232 раза по сравнению с предыдущими разработками.

Робот адаптируется к разным параметрам лестниц и устойчив к внешним воздействиям.

Система не требует дополнительной настройки при переносе из симуляции на реального робота.

Походка при лазании схожа с человеческой, задние конечности генерируют подъемную силу, передние обеспечивают стабильность.

Плюсы,- не надо выгуливать.
Минусы,- не спрятаться, не скрыться.

#robotics #climbingrobots
------
@tsingular

🤔23👍15🤯14👀1

4.02K viewsedited 16:48

Технозаметки Малышева

из рубрики "знаете ли вы".

Оказывается использование OpenAI для модерации - БЕСПЛАТНО

А там, между прочим, Омни модель [ omni-moderation-latest ]- т.е. и картинки тоже.

https://platform.openai.com/docs/guides/moderation/moderation

#OpenAI #freeware #tools
———
@tsingular

👍6

1.16K viewsedited 08:04

Технозаметки Малышева

Популярность ChatGPT снижает обмен знаниями на форумах между людьми

Активность на Stack Overflow упала на 25% за полгода после дебюта ChatGPT.

Для получения ответов пользователи предпочитают ИИ-ассистентов публичным форумам.

Это сокращает базу данных для обучения будущих ИИ-моделей!!!

Наблюдается миграция знаний из публичного домена в частный.
Спад затронул контент всех уровней качества и пользователей разного опыта.
Особенно сократилась активность по Python и Javascript.

Какая-то саморегуляция всемирного знания.
Чем больше знает ИИ, - тем меньше базы, чтобы обучать его в будущем.
Тем больше частных островков знаний в специализациях, куда ИИ не дотянется 🤔

#StackOverflow #KnowledgeSharing #LLM
-------
@tsingular

👍8🤔6

1.18K views12:59

Технозаметки Малышева

1:25

This media is not supported in your browser

VIEW IN TELEGRAM

GR-2: новый прямоходящий робот

Fourier Intelligence представила усовершенствованного робота GR-2.
Высотой 175 см и весом 63 кг, он обладает 53 степенями свободы.

Ключевые особенности:
• Ловкие руки с 12 степенями свободы и 6 тактильными сенсорами
• Приводы FSA 2.0 с крутящим моментом более 380 Н·м
• Грузоподъемность одной руки - 3 кг
• Двойная система энкодеров для точного управления
Обновленный SDK поддерживает фреймворки NVIDIA Isaac Lab, ROS и Mujoco.

Открытый opensource! Любой школьник может перепрошить делать домашку и выгуливать робо-собаку.
Конечно это все не для военных целей. 🤖👋

#FourierIntelligence #GR2 #Robotics
-------
@tsingular

👍4🤣2⚡1

1.05K viewsedited 13:50

About

Blog

Apps

Platform