Forwarded from эйай ньюз
Теперь в LLama официально завезли поддержку изображений! До этого мы имели в open-source только сторонние поделки вроде LLaVa и InternVL (они брали Llama3 за основу и тюнили).
Теперь модель понимает графики и диаграммы, описывает изображения и может находить на них объекты по описаниям.
Например, пользователь может спросить, в каком месяце его компания имела лучшие продажи, и модель даст ответ на основе доступных графиков.
Есть несколько размеров:
- Маленькая модель - 11B параметров
- Средняя - 90B. Обходит GPT-4o-mini по Vision бенчам.
- Более легковесные text-only модели: 1B и 3B параметров. Как раз, чтобы бегать локально на девайсах. 3B обходит Gemma 2 и Phi-3.5 - Mini.
- Контекст 128,000 токенов, как и в LLama 3.1
С легковесными моделями можно создавать персонализированые приложения с агентами в закрытой среде - например, резюмировать ваши сообщения, емейлы или отправлять приглашения в календарь.
И теперь с Llama 3.2 ждём очередной большой скачок качества Multimodal LLM в опенсорсе!
Блогпост
Веса на HF
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👾2
Forwarded from Data Secrets
Возможно Llama 3.2 была не самым интересным вчерашним мультимодальным релизом: вышла Molmo, которая круче показывает себя на бенчмарках
Это семейство опенсорсных моделей от лаборатории Ai2. Есть варианты на 7В MoE (1B активных), 7В (таких две) и 72В. Самая крупная на бенчмарках обгоняет Llama 3.2 90B, и достает до полноразмерной GPT-4o, Gemini 1.5 Pro и Claude Sonnet 3.5.
В основе крупной модели Qwen2-72B + OpenAI CLIP в качестве vision-основы. А еще исследователи обещают скоро выкатить датасеты и код (включая vision encoder).
Все модели доступны под лицензией Apache 2.0 на HF (и в ЕС тоже!). Статью можно прочитать здесь, а вот тут доступно демо.
Это семейство опенсорсных моделей от лаборатории Ai2. Есть варианты на 7В MoE (1B активных), 7В (таких две) и 72В. Самая крупная на бенчмарках обгоняет Llama 3.2 90B, и достает до полноразмерной GPT-4o, Gemini 1.5 Pro и Claude Sonnet 3.5.
В основе крупной модели Qwen2-72B + OpenAI CLIP в качестве vision-основы. А еще исследователи обещают скоро выкатить датасеты и код (включая vision encoder).
Все модели доступны под лицензией Apache 2.0 на HF (и в ЕС тоже!). Статью можно прочитать здесь, а вот тут доступно демо.
AlphaChip: ИИ проектирует дизайн компьютерных чипов
AlphaChip - ИИ модель, использующая обучение с подкреплением для проектирования микросхем, разработанная Google DeepMind.
Генерирует компоновки чипов за часы, тогда как ручной процесс занимал недели.
Подход рассматривает компоновку как игру, размещая компоненты на пустой сетке и использует графовую нейронную сеть для анализа взаимосвязей между элементами.
AlphaChip самосовершенствуется с каждым новым проектом, обобщая свой опыт в разработке различных чипов и схем, что в итоге приводит к бОльшей эффективности, чем экспертиза людей.
Применяется в разработке тензорных процессоров Google, Axion Processors и MediaTek Dimensity.
Ну вот, а вы переживали, - "когда ИИ будет создавать и улучшать сам себя?".
Вот уже почти оно. :)
#AlphaChip #GoogleDeepMind #ChipDesign
-------
@tsingular
AlphaChip - ИИ модель, использующая обучение с подкреплением для проектирования микросхем, разработанная Google DeepMind.
Генерирует компоновки чипов за часы, тогда как ручной процесс занимал недели.
Подход рассматривает компоновку как игру, размещая компоненты на пустой сетке и использует графовую нейронную сеть для анализа взаимосвязей между элементами.
AlphaChip самосовершенствуется с каждым новым проектом, обобщая свой опыт в разработке различных чипов и схем, что в итоге приводит к бОльшей эффективности, чем экспертиза людей.
Применяется в разработке тензорных процессоров Google, Axion Processors и MediaTek Dimensity.
Ну вот, а вы переживали, - "когда ИИ будет создавать и улучшать сам себя?".
Вот уже почти оно. :)
#AlphaChip #GoogleDeepMind #ChipDesign
-------
@tsingular
🔥33🤯10✍3👍1🍓1👾1
ChatGPT для macOS под угрозой: обнаружена серьезная уязвимость
Исследователи выявили критический баг в приложении ChatGPT для macOS.
Эксплойт, названный SpAIware, позволяет внедрять вредоносный код в долговременную память бота.
Атакующие могут похищать данные пользователей, включая все будущие диалоги.
OpenAI выпустила частичное исправление, запретив боту отправлять информацию на удаленные серверы.
Пользователям рекомендуется регулярно проверять и очищать память ChatGPT от подозрительных записей.
Уязвимость не затрагивает веб-версию сервиса.
Когда дедлайны важнее SDLC. Никогда такого не было и вот, - опять. 🤖🛡
#ChatGPT #Vulnerability #MacOS
-------
@tsingular
Исследователи выявили критический баг в приложении ChatGPT для macOS.
Эксплойт, названный SpAIware, позволяет внедрять вредоносный код в долговременную память бота.
Атакующие могут похищать данные пользователей, включая все будущие диалоги.
OpenAI выпустила частичное исправление, запретив боту отправлять информацию на удаленные серверы.
Пользователям рекомендуется регулярно проверять и очищать память ChatGPT от подозрительных записей.
Уязвимость не затрагивает веб-версию сервиса.
Когда дедлайны важнее SDLC. Никогда такого не было и вот, - опять. 🤖🛡
#ChatGPT #Vulnerability #MacOS
-------
@tsingular
🤔4
Утечка характеристик NVIDIA GeForce RTX 5090 и 5080
Инсайдеры раскрыли предварительные спецификации грядущих флагманов NVIDIA:
RTX 5090: 24576 CUDA-ядер, TDP 600 Вт.
RTX 5080: 16384 CUDA-ядер, TDP 400 Вт.
Обе модели базируются на архитектуре Blackwell и используют память GDDR7.
Ожидаемый прирост производительности - 60-70% по сравнению с RTX 4090.
Анонс в 2024, выпуск - 2025.
Ну, такое... 600W по-умолчанию, - слишком, ИМХО.
И очень хочется версию на 64Gb.
#NVIDIA #GeForce #RTX5090
———
@tsingular
Инсайдеры раскрыли предварительные спецификации грядущих флагманов NVIDIA:
RTX 5090: 24576 CUDA-ядер, TDP 600 Вт.
RTX 5080: 16384 CUDA-ядер, TDP 400 Вт.
Обе модели базируются на архитектуре Blackwell и используют память GDDR7.
Ожидаемый прирост производительности - 60-70% по сравнению с RTX 4090.
Анонс в 2024, выпуск - 2025.
Ну, такое... 600W по-умолчанию, - слишком, ИМХО.
И очень хочется версию на 64Gb.
#NVIDIA #GeForce #RTX5090
———
@tsingular
Forwarded from Machinelearning
Molmo (Multimodal Open Language Model) - это семейство VLM, разработанных в Институте искусственного интеллекта Аллена, для решения задач обработки изображений и текста - создание подробных описаний изображений и выполнение комплексных визуальных операций, например:
Обучение семейства выполнялось в 2 этапа: предварительное обучение на наборе данных PixMo-Cap для генерации аннотаций к изображениям и этап SFT с использованием комбинации академических наборов данных и наборов данных PixMo (PixMo-AskModelAnything, PixMo-Points, PixMo-CapQA, PixMo-Docs, PixMo-Clocks).
Тестирование модели проводилось на 11 бенчмарках: AI2D, ChartQA, VQA v2, DocVQA, InfographicVQA, TextVQA, RealWorldQA, MMMU, Math-Vista, CountBenchQA и Flickr Count.
Результаты показали, что Molmo, особенно модель Molmo-72B, демонстрирует производительность на уровне GPT-4o, превосходя Gemini 1.5 Pro, Flash и Claude 3.5 Sonnet.
⚠️ Модели Molmo могут испытывать трудности с прозрачными изображениями. В качестве решения, разработчики рекомендуют добавлять белый или темный фон к изображениям перед передачей их в модель, например, с помощью библиотеки PIL.
@ai_machinelearning_big_data
#AI #ML #Molmo #MoE #MMLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
ИИ-аналитики в SOC: роли LLM в кибербезопасности
Стремительное внедрение злоумышленниками ИИ инструментов для создания новых типов атак стимулирует ответные меры.
LLM и агентные фреймворки позволяют теперь создавать ИИ-помощников для SOC.
По прогнозам, вскоре практически каждый SOC будет использовать ИИ-аналитиков, которые, например, способны проводить расследования за секунды вместо 30-60 минут.
Как эффект, -автоматизация рутины Tier 1 аналитиков может не только повысить эффективность, но и снизить выгорание и текучесть кадров.
ИИ агенты - новый стандарт.
Вопрос лишь, - какой % бизнес-процесса вы готовы им доверить.
По опыту скажу, - что быстро входишь во вкус.
Как только начинает работать, - сразу ждёшь бОльшего, но многое ещё нужно доработать и дообучить. :)
#SOC #LLM #Cybersecurity
-------
@tsingular
Стремительное внедрение злоумышленниками ИИ инструментов для создания новых типов атак стимулирует ответные меры.
LLM и агентные фреймворки позволяют теперь создавать ИИ-помощников для SOC.
По прогнозам, вскоре практически каждый SOC будет использовать ИИ-аналитиков, которые, например, способны проводить расследования за секунды вместо 30-60 минут.
Как эффект, -автоматизация рутины Tier 1 аналитиков может не только повысить эффективность, но и снизить выгорание и текучесть кадров.
ИИ агенты - новый стандарт.
Вопрос лишь, - какой % бизнес-процесса вы готовы им доверить.
По опыту скажу, - что быстро входишь во вкус.
Как только начинает работать, - сразу ждёшь бОльшего, но многое ещё нужно доработать и дообучить. :)
#SOC #LLM #Cybersecurity
-------
@tsingular
👍2
Эмоциональный интеллект в ИИ.
Пример, как OpenaAI 4o даёт оценку эмоджи по шкале от "-1" до "1"
Т.е., в принципе, получается, можно использовать на уровне промптов.
Эмоцию распознает и среагирует вполне соответствующе.
Посмотрите, вы бы так же распределили шкалу?
#emoji #эмоциональныйИИ
———
@tsingular
Пример, как OpenaAI 4o даёт оценку эмоджи по шкале от "-1" до "1"
Т.е., в принципе, получается, можно использовать на уровне промптов.
Эмоцию распознает и среагирует вполне соответствующе.
Посмотрите, вы бы так же распределили шкалу?
#emoji #эмоциональныйИИ
———
@tsingular
👍3💯2
OpenAI повышает стоимость подписки вдвое
По отчётам OpenAI, на сегодняшний день около 10 миллионов пользователей ChatGPT платят ежемесячную подписку в $20.
OpenAI намерена повысить стоимость на $2 до конца года, а в течение следующих пяти лет постепенно увеличить её до $44.
Более миллиона сторонних разработчиков уже используют технологии OpenAI для создания собственных сервисов и потребление по API для среднего стартапа ближе по расходам как раз к $50-$100 в месяц, так что $20, - это, конечно, аттракцион невиданной щедрости был.
Компания вышла на уверенный рост и монетизацию, хотя все еще и в убытке (правильнее наверное сказать, - период агрессивных инвестиций в развитие).
#OpenAI #ChatGPT #subscription #price
———
@tsingular
По отчётам OpenAI, на сегодняшний день около 10 миллионов пользователей ChatGPT платят ежемесячную подписку в $20.
OpenAI намерена повысить стоимость на $2 до конца года, а в течение следующих пяти лет постепенно увеличить её до $44.
Более миллиона сторонних разработчиков уже используют технологии OpenAI для создания собственных сервисов и потребление по API для среднего стартапа ближе по расходам как раз к $50-$100 в месяц, так что $20, - это, конечно, аттракцион невиданной щедрости был.
Компания вышла на уверенный рост и монетизацию, хотя все еще и в убытке (правильнее наверное сказать, - период агрессивных инвестиций в развитие).
#OpenAI #ChatGPT #subscription #price
———
@tsingular
Forwarded from GPT/ChatGPT/AI Central Александра Горного
Google потратил 2.7 миллиарда чтобы вернуть одного AI-разработчика
Недавно Google заплатил стартапу CharacterAI 2.7 миллиарда долларов, за лицензирование технологий. WSJ выяснил, что цель сделки была не в получении доступа к технологиям, а в том, чтобы вернуть в компанию основателя CharacterAI Ноама Шазира.
Шазир работал в Google c 2000 года и покинул компанию в 2021, из-за того что технологический гигант отказался запускать генеративную нейросеть, созданную им. После этого, Шазир основал стартап CharacterAI, который в 2023 году оценили в 1 миллиард долларов.
Теперь Ноам Шазир вернулся в Google на позицию вице-президента и главы разработки Gemini AI. С собой он привел часть команды из CharacterAI.
https://www.wsj.com/tech/ai/noam-shazeer-google-ai-deal-d3605697
—
GPT o1-preview и o1-mini уже доступны в c.aiacademy.me
Недавно Google заплатил стартапу CharacterAI 2.7 миллиарда долларов, за лицензирование технологий. WSJ выяснил, что цель сделки была не в получении доступа к технологиям, а в том, чтобы вернуть в компанию основателя CharacterAI Ноама Шазира.
Шазир работал в Google c 2000 года и покинул компанию в 2021, из-за того что технологический гигант отказался запускать генеративную нейросеть, созданную им. После этого, Шазир основал стартап CharacterAI, который в 2023 году оценили в 1 миллиард долларов.
Теперь Ноам Шазир вернулся в Google на позицию вице-президента и главы разработки Gemini AI. С собой он привел часть команды из CharacterAI.
https://www.wsj.com/tech/ai/noam-shazeer-google-ai-deal-d3605697
—
GPT o1-preview и o1-mini уже доступны в c.aiacademy.me
This media is not supported in your browser
VIEW IN TELEGRAM
Робопёс покоряет вертикальные лестницы
Создан метод обучения четвероногого робота лазанию по лестницам.
Комбинация крючковых захватов и RL-алгоритмов позволила достичь 90% успеха на уклонах 70-90°.
Скорость подъема увеличена в 232 раза по сравнению с предыдущими разработками.
Робот адаптируется к разным параметрам лестниц и устойчив к внешним воздействиям.
Система не требует дополнительной настройки при переносе из симуляции на реального робота.
Походка при лазании схожа с человеческой, задние конечности генерируют подъемную силу, передние обеспечивают стабильность.
Плюсы,- не надо выгуливать.
Минусы,- не спрятаться, не скрыться.
#robotics #climbingrobots
------
@tsingular
Создан метод обучения четвероногого робота лазанию по лестницам.
Комбинация крючковых захватов и RL-алгоритмов позволила достичь 90% успеха на уклонах 70-90°.
Скорость подъема увеличена в 232 раза по сравнению с предыдущими разработками.
Робот адаптируется к разным параметрам лестниц и устойчив к внешним воздействиям.
Система не требует дополнительной настройки при переносе из симуляции на реального робота.
Походка при лазании схожа с человеческой, задние конечности генерируют подъемную силу, передние обеспечивают стабильность.
Плюсы,- не надо выгуливать.
Минусы,- не спрятаться, не скрыться.
#robotics #climbingrobots
------
@tsingular
🤔23👍15🤯14👀1
из рубрики "знаете ли вы".
Оказывается использование OpenAI для модерации - БЕСПЛАТНО
А там, между прочим, Омни модель [ omni-moderation-latest ]- т.е. и картинки тоже.
https://platform.openai.com/docs/guides/moderation/moderation
#OpenAI #freeware #tools
———
@tsingular
Оказывается использование OpenAI для модерации - БЕСПЛАТНО
А там, между прочим, Омни модель [ omni-moderation-latest ]- т.е. и картинки тоже.
https://platform.openai.com/docs/guides/moderation/moderation
#OpenAI #freeware #tools
———
@tsingular
👍6
Популярность ChatGPT снижает обмен знаниями на форумах между людьми
Активность на Stack Overflow упала на 25% за полгода после дебюта ChatGPT.
Для получения ответов пользователи предпочитают ИИ-ассистентов публичным форумам.
Это сокращает базу данных для обучения будущих ИИ-моделей!!!
Наблюдается миграция знаний из публичного домена в частный.
Спад затронул контент всех уровней качества и пользователей разного опыта.
Особенно сократилась активность по Python и Javascript.
Какая-то саморегуляция всемирного знания.
Чем больше знает ИИ, - тем меньше базы, чтобы обучать его в будущем.
Тем больше частных островков знаний в специализациях, куда ИИ не дотянется 🤔
#StackOverflow #KnowledgeSharing #LLM
-------
@tsingular
Активность на Stack Overflow упала на 25% за полгода после дебюта ChatGPT.
Для получения ответов пользователи предпочитают ИИ-ассистентов публичным форумам.
Это сокращает базу данных для обучения будущих ИИ-моделей!!!
Наблюдается миграция знаний из публичного домена в частный.
Спад затронул контент всех уровней качества и пользователей разного опыта.
Особенно сократилась активность по Python и Javascript.
Какая-то саморегуляция всемирного знания.
Чем больше знает ИИ, - тем меньше базы, чтобы обучать его в будущем.
Тем больше частных островков знаний в специализациях, куда ИИ не дотянется 🤔
#StackOverflow #KnowledgeSharing #LLM
-------
@tsingular
👍8🤔6
This media is not supported in your browser
VIEW IN TELEGRAM
GR-2: новый прямоходящий робот
Fourier Intelligence представила усовершенствованного робота GR-2.
Высотой 175 см и весом 63 кг, он обладает 53 степенями свободы.
Ключевые особенности:
• Ловкие руки с 12 степенями свободы и 6 тактильными сенсорами
• Приводы FSA 2.0 с крутящим моментом более 380 Н·м
• Грузоподъемность одной руки - 3 кг
• Двойная система энкодеров для точного управления
Обновленный SDK поддерживает фреймворки NVIDIA Isaac Lab, ROS и Mujoco.
Открытый opensource! Любой школьник может перепрошить делать домашку и выгуливать робо-собаку.
Конечно это все не для военных целей. 🤖👋
#FourierIntelligence #GR2 #Robotics
-------
@tsingular
Fourier Intelligence представила усовершенствованного робота GR-2.
Высотой 175 см и весом 63 кг, он обладает 53 степенями свободы.
Ключевые особенности:
• Ловкие руки с 12 степенями свободы и 6 тактильными сенсорами
• Приводы FSA 2.0 с крутящим моментом более 380 Н·м
• Грузоподъемность одной руки - 3 кг
• Двойная система энкодеров для точного управления
Обновленный SDK поддерживает фреймворки NVIDIA Isaac Lab, ROS и Mujoco.
Открытый opensource! Любой школьник может перепрошить делать домашку и выгуливать робо-собаку.
Конечно это все не для военных целей. 🤖👋
#FourierIntelligence #GR2 #Robotics
-------
@tsingular
👍4🤣2⚡1
Forwarded from Data Secrets
Они разработали систему под названием SCoRe (Self-Correction via Reinforcement Learning). SCoRe работает как бы в два этапа:
1. Учится генерировать first try, исправления и second try. При этом используется специальный лосс, учитывающий и качество самих ответов, и качество критики. Получается своеобразный претрейн.
2. На втором этапе подключается multi-stage reinforcement learning. Тут лосс (с помощью регуляризации) больше поощряет существенные улучшения между first try и second try.
При этом учится SCoRe только на сгенерированных данных: это сделано специально, чтобы избежать проблемы разницы распределений в генерациях и трейне. Это, кстати, одна из причин того, что обычный файнтюнинг перформит не так хорошо, как хотелось бы.
Итог: SCoRe существенно улучшил self-correction гугловских моделей на бенчмарках. Например, на HumanEval случился скачок на 9,1 пп, а на MATH – на целых 16.
Статья полностью лежит тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2
This media is not supported in your browser
VIEW IN TELEGRAM
EA показали новую концепцию по генерации миров в реальном времени с помощью ИИ.
В примере, на ходу, по запросам в чате, создается и интерактивно меняется игровой мир и его механики.
Тип дуэли, оружия, урон и масштаб мира ИИ генерит на лету.
Добавить еще слой нейрорендера поверх процедурных моделей и Матрицу можно выпускать в релиз, в принципе.
#games #worldgeneration
———
@tsingular
В примере, на ходу, по запросам в чате, создается и интерактивно меняется игровой мир и его механики.
Тип дуэли, оружия, урон и масштаб мира ИИ генерит на лету.
Добавить еще слой нейрорендера поверх процедурных моделей и Матрицу можно выпускать в релиз, в принципе.
#games #worldgeneration
———
@tsingular
👍11
Media is too big
VIEW IN TELEGRAM
OpenAI запускает Realtime API: революция в мультимодальных приложениях
OpenAI представила публичную бета-версию Realtime API, обеспечивающего создание мультимодальных приложений с низкой задержкой.
Ключевые особенности включают WebSocket-соединения, потоковую передачу аудио, обработку прерываний и вызов функций.
API работает на модели GPT-4o, позволяя распознавать речь, обрабатывать текст и синтезировать речь в едином интерфейсе.
Тарифы:
текст - $5/1М входных и $20/1М выходных токенов;
аудио - $100/1М входных и $200/1М выходных токенов. ($0.06 за минуту входа и $0.24 за минуту генерации)
Доступен в OpenAI Playground.
Планируется добавление поддержки изображений, видео и дальнейшее расширение возможностей SDK.
Готовимся переписывать агентов - с async на websocket.
Интерактивное общение - новый стандарт.
#OpenAI #RealtimeAPI #GPT4o
———
@tsingular
OpenAI представила публичную бета-версию Realtime API, обеспечивающего создание мультимодальных приложений с низкой задержкой.
Ключевые особенности включают WebSocket-соединения, потоковую передачу аудио, обработку прерываний и вызов функций.
API работает на модели GPT-4o, позволяя распознавать речь, обрабатывать текст и синтезировать речь в едином интерфейсе.
Тарифы:
текст - $5/1М входных и $20/1М выходных токенов;
аудио - $100/1М входных и $200/1М выходных токенов. ($0.06 за минуту входа и $0.24 за минуту генерации)
Доступен в OpenAI Playground.
Планируется добавление поддержки изображений, видео и дальнейшее расширение возможностей SDK.
Готовимся переписывать агентов - с async на websocket.
Интерактивное общение - новый стандарт.
#OpenAI #RealtimeAPI #GPT4o
———
@tsingular
👍5