Forwarded from Machinelearning
⚡️ You Only Cache Once: Decoder-Decoder Architectures for Large Language Models
Microsoft только что представили инструмент You Only Cache Once: Decoder-Decoder : архитектура Decoder-Decoder для больших языковых моделей
YOCO существенно снижает потребление памяти GPU и состоит из двух компонентов - cross decoder'а, объединенного с
значений ключей (KV), которые повторно используются cross decoder'ом с механизмом cross-attention.
Результаты экспериментов показывают, что YOCO достигает более высокой производительности по сравнению с архитектурой Трансформеров при различных настройках масштабирования размера модели и количества обучающих токенов, подробнее тут.
▪Github: https://github.com/microsoft/unilm/tree/master/YOCO
▪ABS: https://arxiv.org/abs/2405.05254
#microsoft
@ai_machinelearning_big_data
Microsoft только что представили инструмент You Only Cache Once: Decoder-Decoder : архитектура Decoder-Decoder для больших языковых моделей
YOCO существенно снижает потребление памяти GPU и состоит из двух компонентов - cross decoder'а, объединенного с
self-decoder'ом. Self-decoder кодирует глобальные кэшизначений ключей (KV), которые повторно используются cross decoder'ом с механизмом cross-attention.
Результаты экспериментов показывают, что YOCO достигает более высокой производительности по сравнению с архитектурой Трансформеров при различных настройках масштабирования размера модели и количества обучающих токенов, подробнее тут.
▪Github: https://github.com/microsoft/unilm/tree/master/YOCO
▪ABS: https://arxiv.org/abs/2405.05254
#microsoft
@ai_machinelearning_big_data
Forwarded from Machinelearning
Google представила новое решение в сфере кибербезопасности Threat Intelligence, которое позволит клиентам «получать ценную информацию и защищать корпоративную IT-инфраструктуру от угроз быстрее, чем когда-либо прежде», используя аналитические данные подразделения кибербезопасности Mandiant, службы анализа угроз VirusTotal в сочетании с возможностями ИИ-модели Gemini AI.
«Бесспорно, что сегодня Google обеспечивает два наиболее важных столпа анализа угроз в отрасли — VirusTotal и Mandiant. Интеграция обоих в единое предложение, дополненное ИИ и анализом угроз Google, предлагает командам безопасности новые средства для использования актуальных сведений об угрозах для лучшей защиты своих организаций», — отметил Дэйв Грубер (Dave Gruber), главный аналитик Enterprise Strategy Group.
Google отметила, что основным преимуществом Threat Intelligence является предоставление специалистам по безопасности ускоренной аналитики за счёт использования генеративного ИИ. Задействованная в решении большая языковая модель Gemini 1.5 Pro, по словам Google, сокращает время, необходимое для анализа вредоносного ПО и раскрытия его исходного кода.
Компания отметила, что вышедшей в феврале версии Gemini 1.5 Pro потребовалось всего 34 секунды, чтобы проанализировать код вируса WannaCry, программы-вымогателя, с помощью которой хакеры в 2017 году атаковали множество компаний по всему миру.
Также Gemini позволяет ускорить сбор информации о хакерской группе, её целях, тактике взлома и связанных с ней деталях. Кроме того, Gemini обеспечивает обобщение отчётов об угрозах на естественном языке в Threat Intelligence, что позволяет компаниям оценить, как потенциальные атаки могут на них повлиять, и расставить приоритеты, на чём следует сосредоточиться.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔦 IC-Light: Imposing Consistent Light 💡
IC-Light - это новый интересный проект для реалистичного управления освещением.
Внутри два типа моделей: модель изменения освещения с из тектовых промптов и модель изменения подсветки фона изображений.
▪Github: https://github.com/lllyasviel/IC-Light
▪Jupyter: https://github.com/camenduru/IC-Light-jupyter
▪Demo: https://huggingface.co/spaces/lllyasviel/IC-Light
@ai_machinelearning_big_data
IC-Light - это новый интересный проект для реалистичного управления освещением.
Внутри два типа моделей: модель изменения освещения с из тектовых промптов и модель изменения подсветки фона изображений.
▪Github: https://github.com/lllyasviel/IC-Light
▪Jupyter: https://github.com/camenduru/IC-Light-jupyter
▪Demo: https://huggingface.co/spaces/lllyasviel/IC-Light
@ai_machinelearning_big_data
Forwarded from Machinelearning
🔥Gemma 2B with recurrent local attention with context length of up to 10M
Огненная модель Gemma 2B с длиной контекста 10M, которая анализирует до 7 млн слов.
В нее можно закидывать огромные документы и модель всё проанализирует.
Производительность выше Gemini в 10 раз, а памяти нужно всего 32 ГБ.
▪Github: https://github.com/mustafaaljadery/gemma-2B-10M
▪HF: https://huggingface.co/mustafaaljadery/gemma-2B-10M
▪Technical Overview: https://medium.com/@akshgarg_36829/gemma-10m-technical-overview-900adc4fbeeb
#llm #gemma
@ai_machinelearning_big_data
Огненная модель Gemma 2B с длиной контекста 10M, которая анализирует до 7 млн слов.
В нее можно закидывать огромные документы и модель всё проанализирует.
Производительность выше Gemini в 10 раз, а памяти нужно всего 32 ГБ.
▪Github: https://github.com/mustafaaljadery/gemma-2B-10M
▪HF: https://huggingface.co/mustafaaljadery/gemma-2B-10M
▪Technical Overview: https://medium.com/@akshgarg_36829/gemma-10m-technical-overview-900adc4fbeeb
#llm #gemma
@ai_machinelearning_big_data
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
KAN + NeRF = 🔥
KAN (Kolmogorov-Arnold Networks) — многообещающий конкурент традиционных MLP.
Почему бы не внедрить его в NeRF?
Оптимизация NeRF занимает от нескольких часов до одного-двух дней (в зависимости от разрешения) и требует GPU.
Рендеринг изображения из оптимизированного NeRF с KAN занимает от секунды до ~30 секунд в зависимости от разрешения.
🖥 GitHub
#neuralnets
@ai_machinelearning_big_data
KAN (Kolmogorov-Arnold Networks) — многообещающий конкурент традиционных MLP.
Почему бы не внедрить его в NeRF?
Оптимизация NeRF занимает от нескольких часов до одного-двух дней (в зависимости от разрешения) и требует GPU.
Рендеринг изображения из оптимизированного NeRF с KAN занимает от секунды до ~30 секунд в зависимости от разрешения.
#neuralnets
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ LLaVA-NeXT: A Strong Zero-shot Video Understanding Model
LLaVA-NeXT - одна из самых мощных на сегодняшний день моделей для понимания видео, превосходящая все существующие VLM, с открытым исходным кодом.
Новая SoTA!
LLaVA-Next демонстрирует высокую скорость передачи данных и демонстрирует отличные результаты при zero-shot обучении.
▪Github: https://github.com/LLaVA-VL/LLaVA-NeXT
▪Blog: https://llava-vl.github.io/blog/2024-04-30-llava-next-video/
▪HF: https://huggingface.co/shi-labs/CuMo-mistral-7b
▪Dataset: https://huggingface.co/datasets/shi-labs/CuMo_dataset
#llm #vlm
@ai_machinelearning_big_data
LLaVA-NeXT - одна из самых мощных на сегодняшний день моделей для понимания видео, превосходящая все существующие VLM, с открытым исходным кодом.
Новая SoTA!
LLaVA-Next демонстрирует высокую скорость передачи данных и демонстрирует отличные результаты при zero-shot обучении.
git clone https://github.com/LLaVA-VL/LLaVA-NeXT
▪Github: https://github.com/LLaVA-VL/LLaVA-NeXT
▪Blog: https://llava-vl.github.io/blog/2024-04-30-llava-next-video/
▪HF: https://huggingface.co/shi-labs/CuMo-mistral-7b
▪Dataset: https://huggingface.co/datasets/shi-labs/CuMo_dataset
#llm #vlm
@ai_machinelearning_big_data
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
DocsGPT — это функциональное решение на базе LLM и GPT с открытым исходным кодом, которое упрощает процесс поиска информации в документации.
Благодаря интеграции мощных LLM можно задавать вопросы по документации и различным текстам и получать точные ответы.
Модели на Hugging Face:
#llm #gpt
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
На днях исследователи из Принстона и MetaAI представили Lory — первое в своём роде решение, которое позволяет масштабировать MoE-архитектуры для предварительного обучения авторегрессионных языковых моделей.
В Lory реализованы 2 ключевые технологии:
(1) — стратегия маршрутизации причинных сегментов, которая обеспечивает высокую эффективность операций объединения экспертов при сохранении авторегрессивной природы языковых моделей
(2) — метод группировки данных на основе сходства, который стимулирует специализацию "экспертов" путем группировки похожих документов в обучающих выборках
Результаты экспериментов с Lory показывают значительный прирост производительности по сравнению с обычными MoE-моделями.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Это самая совершенная модель из всех, намного превосходящая своих предшественников, включая таинственный gpt2-chatbot.
Она появится уже сегодня в виде приложения для пк.
GPT-4 Omni будет понимать эмоции и тон голоса.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Модель практически невозможно отличить от живого человека.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM