Код в мешке
250 subscribers
8.94K photos
1.58K videos
2.11K files
42.1K links
Код в мешке - про кодинг, и не только...
Это личная записная книжка

https://t.me/joinchat/AAAAAEIy6oGlr8oxqTMS5w
Download Telegram
Forwarded from Machinelearning
⚡️ You Only Cache Once: Decoder-Decoder Architectures for Large Language Models

Microsoft только что представили инструмент You Only Cache Once: Decoder-Decoder : архитектура Decoder-Decoder для больших языковых моделей

YOCO существенно снижает потребление памяти GPU и состоит из двух компонентов - cross decoder'а, объединенного с self-decoder'ом.

Self-decoder кодирует глобальные кэши
значений ключей (KV), которые повторно используются cross decoder'ом с механизмом cross-attention.

Результаты экспериментов показывают, что YOCO достигает более высокой производительности по сравнению с архитектурой Трансформеров при различных настройках масштабирования размера модели и количества обучающих токенов, подробнее тут.

Github: https://github.com/microsoft/unilm/tree/master/YOCO
ABS: https://arxiv.org/abs/2405.05254

#microsoft

@ai_machinelearning_big_data
Forwarded from Machinelearning
⚡️ Google Threat Intelligence — AI-решение в сфере кибербеза

Google представила новое решение в сфере кибербезопасности Threat Intelligence, которое позволит клиентам «получать ценную информацию и защищать корпоративную IT-инфраструктуру от угроз быстрее, чем когда-либо прежде», используя аналитические данные подразделения кибербезопасности Mandiant, службы анализа угроз VirusTotal в сочетании с возможностями ИИ-модели Gemini AI.

«Бесспорно, что сегодня Google обеспечивает два наиболее важных столпа анализа угроз в отрасли — VirusTotal и Mandiant. Интеграция обоих в единое предложение, дополненное ИИ и анализом угроз Google, предлагает командам безопасности новые средства для использования актуальных сведений об угрозах для лучшей защиты своих организаций», — отметил Дэйв Грубер (Dave Gruber), главный аналитик Enterprise Strategy Group.

Google отметила, что основным преимуществом Threat Intelligence является предоставление специалистам по безопасности ускоренной аналитики за счёт использования генеративного ИИ. Задействованная в решении большая языковая модель Gemini 1.5 Pro, по словам Google, сокращает время, необходимое для анализа вредоносного ПО и раскрытия его исходного кода.

Компания отметила, что вышедшей в феврале версии Gemini 1.5 Pro потребовалось всего 34 секунды, чтобы проанализировать код вируса WannaCry, программы-вымогателя, с помощью которой хакеры в 2017 году атаковали множество компаний по всему миру.

Также Gemini позволяет ускорить сбор информации о хакерской группе, её целях, тактике взлома и связанных с ней деталях. Кроме того, Gemini обеспечивает обобщение отчётов об угрозах на естественном языке в Threat Intelligence, что позволяет компаниям оценить, как потенциальные атаки могут на них повлиять, и расставить приоритеты, на чём следует сосредоточиться.

📎 Подробнее
🟡 Демонстрация

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔦 IC-Light: Imposing Consistent Light 💡

IC-Light - это новый интересный проект для реалистичного управления освещением.

Внутри два типа моделей: модель изменения освещения с из тектовых промптов и модель изменения подсветки фона изображений.

Github: https://github.com/lllyasviel/IC-Light
Jupyter: https://github.com/camenduru/IC-Light-jupyter
Demo: https://huggingface.co/spaces/lllyasviel/IC-Light

@ai_machinelearning_big_data
Forwarded from Machinelearning
🔥Gemma 2B with recurrent local attention with context length of up to 10M

Огненная модель Gemma 2B с длиной контекста 10M, которая анализирует до 7 млн слов.

В нее можно закидывать огромные документы и модель всё проанализирует.

Производительность выше Gemini в 10 раз, а памяти нужно всего 32 ГБ.

Github: https://github.com/mustafaaljadery/gemma-2B-10M
HF: https://huggingface.co/mustafaaljadery/gemma-2B-10M
Technical Overview: https://medium.com/@akshgarg_36829/gemma-10m-technical-overview-900adc4fbeeb

#llm #gemma

@ai_machinelearning_big_data
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
KAN + NeRF = 🔥

KAN (Kolmogorov-Arnold Networks) — многообещающий конкурент традиционных MLP.
Почему бы не внедрить его в NeRF?

Оптимизация NeRF занимает от нескольких часов до одного-двух дней (в зависимости от разрешения) и требует GPU.
Рендеринг изображения из оптимизированного NeRF с KAN занимает от секунды до ~30 секунд в зависимости от разрешения.

🖥 GitHub

#neuralnets

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ LLaVA-NeXT: A Strong Zero-shot Video Understanding Model

LLaVA-NeXT - одна из самых мощных на сегодняшний день моделей для понимания видео, превосходящая все существующие VLM, с открытым исходным кодом.

Новая SoTA!

LLaVA-Next демонстрирует высокую скорость передачи данных и демонстрирует отличные результаты при zero-shot обучении.


git clone https://github.com/LLaVA-VL/LLaVA-NeXT


Github: https://github.com/LLaVA-VL/LLaVA-NeXT
Blog: https://llava-vl.github.io/blog/2024-04-30-llava-next-video/
HF: https://huggingface.co/shi-labs/CuMo-mistral-7b
Dataset: https://huggingface.co/datasets/shi-labs/CuMo_dataset

#llm #vlm

@ai_machinelearning_big_data
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 DocsGPT — open-source AI-помощник для работы с документами и не только

DocsGPT — это функциональное решение на базе LLM и GPT с открытым исходным кодом, которое упрощает процесс поиска информации в документации.
Благодаря интеграции мощных LLM можно задавать вопросы по документации и различным текстам и получать точные ответы.

Модели на Hugging Face:
🟡 Docsgpt-7b-mistral — требует 1×A10G GPU
🟡 Docsgpt-14b — требует 2×A10 GPU
🟡 Docsgpt-40b-falcon — требует 8×A10G GPU

🖥 GitHub

#llm #gpt

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
⚡️ Lory — полностью дифференцируемая Mixture-of-Experts (MoE) для предварительного обучения авторегрессионной языковой модели

На днях исследователи из Принстона и MetaAI представили Lory — первое в своём роде решение, которое позволяет масштабировать MoE-архитектуры для предварительного обучения авторегрессионных языковых моделей.

В Lory реализованы 2 ключевые технологии:
(1) — стратегия маршрутизации причинных сегментов, которая обеспечивает высокую эффективность операций объединения экспертов при сохранении авторегрессивной природы языковых моделей

(2) — метод группировки данных на основе сходства, который стимулирует специализацию "экспертов" путем группировки похожих документов в обучающих выборках

Результаты экспериментов с Lory показывают значительный прирост производительности по сравнению с обычными MoE-моделями.

📎 Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🖥 Вышла новая, улучшенная версия GPT-4 Omni для. И что самое главное — она доступна всем БЕСПЛАТНО!

Это самая совершенная модель из всех, намного превосходящая своих предшественников, включая таинственный gpt2-chatbot.

Она появится уже сегодня в виде приложения для пк.


GPT-4 Omni будет понимать эмоции и тон голоса.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Модель общается естественным и понятным языком, обрабатывает информацию в реальном времени и даже умеет шутить и понимать эмоции. Делает паузы, если вы спросите ее что-то.

Модель практически невозможно отличить от живого человека.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🖥 Gpt2-chatbot = Gpt-5 ?

Появился новый загадочный LLM под названием “gpt2-chatbot”, который невероятно хорошо справляется с широком спектром задач.

Пользователи reddit уверены, что создатели модели - OpenAI и таким образом они тестируют GPT-5 или GPT-4.5.

Модель выдает рабочий код высочайшего качества на всех популярных языках, решает олимпиады задачи по математике, физике, на недоступном ранее уровне и демонстрирует высокое качество рассуждений и логики.

GPT-4 тоже тестили подобным образом внутри Bing Chat, так что это вполне может быть новая модель OpenAI.

Вот как вы можете попробовать ее бесплатно и оценить модель сами:

- перейдите по ссылке: http://chat.lmsys.org

- перейдите во вкладку “Direct Chat”.

- введите свой промпт.

На видео сравниваем GPT-4 Turbo и Gpt2-chatbot. Отправляем запрос на создание игры на JS в одном HTML-документе.

Первое видео результат работы - GPT-4 Turbo, Второе - Gpt2-chatbot.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
GPT4o уже разрывает все модели, вот ее некоторые крутые скрытые фишки новой версии, которые не были показаны на презентации.

1) GPT4o на 2 головы опередил всех в создании текста на изображениях, сгенерированных искусственным интеллектом. Великолепный результат.

2) Новая модель позволяет генерировать шрифты.
3) Поддерживает  3d-рендеринг.
4/ GPT4o может создавать звуковые эффекты, а не только речь.
5) Эффективная и стабильная работа в преобразовании изображений в зависимости от контекста.

А на этом видео, вы можете посмотреть как модель отвечает на русском языке, будущее здесь. 

Если интересуетесь темой ИИ и нейросетей, здесь я публикую разбор свежих моделей, статей и гайдов, кладешь полезной информации.

Chatgpturbobot - Мы добавим новую модель в наш бесплатный бот.
Бот также поддерживает визуальную модель gpt, вы можете отправить скриншот за задачей боту и он пришлет вам решение, крутая вещь;

Источник:
https://habr.com/ru/posts/814289/
...
LocalAI — открытая и бесплатная альтернатива предложений от OpenAI

LocalAI — это open-source альтернатива решений от OpenAI.
LocalAI выступает в качестве замены REST API, совместимого со спецификациями OpenAI API для локальных выводов.

Позволяет локально запускать LLM, генерировать изображения, аудио (и не только), клонировать голос; при этом не требует GPU.

Источник:
https://habr.com/ru/posts/814239/
...