Dealer.AI

Принес вам реальные метрики Claude 3 vs GPT-4

Маркетологи Anthropic решили сравнивать Claude 3 не с последней версией GPT-4-Turbo, а GPT-4 годичной давности, взяв метрики модели GPT-4 марта 2023 года.

А по факту, GPT-4-Turbo показывает результаты, которые значительно лучшие, чем Claude 3.

😁27🤔4💯3

1.85K views11:40

Dealer.AI

Photo

а я говорил...

😁1

2.21K views11:40

Dealer.AI

Мишин Лернинг

Принес вам реальные метрики Claude 3 vs GPT-4 Маркетологи Anthropic решили сравнивать Claude 3 не с последней версией GPT-4-Turbo, а GPT-4 годичной давности, взяв метрики модели GPT-4 марта 2023 года. А по факту, GPT-4-Turbo показывает результаты, которые…

😁51🔥6❤4

2.92K views11:41

Dealer.AI

Photo

Немного жизни:

Знавал таких (щет)унов, что выберут систему метрик, ты их побьешь на ней, а они такие: "Ой это не та была вот наша новая, мы там лучшие", ты и там их побьешь , а они тебе новую несут по тому же сценарию. Сначала отчитаются конечно, что лучшие, а потом тебе понесут, где ты их побьешь, но об этом никто отчитываться не будет, конечно, если сам не заявишься.

Вот и бегает Ахилес так за черепахой. А главное ты во-первых все время в позиции жертвы, догоняющего, тк зависишь от их системы метрик. Нет бы свою продвинуть. Да и со стороны руководство видит это как не сплоченность, а разлад в системе.
Ну и во-вторых рано или поздно эти зайтейники тебя побьют или будет у вас паритет, чисто потому, что время нужное для реального апа было выйграно/подошло.

Смекайте.

🔥9👍3😢3💯1

2.27K viewsedited 12:02

Dealer.AI

Как Яндекс научил YaGPT пересказывать видео в браузере.

Коллеги по AI цеху выпустили статью на Хабре о том, как они научили YandexGPT пересказывать видео.

Пост интересен не только техническими деталями, но и продуктовыми нюансами, влияющими на user experience.

Что ребята из Яндекса там сделали? На самом деле, у команды уже была модель статейной суммаризации, поэтому взяли то что уже есть, и улучшили. При этом, что интересно, в решении нет никакой мультимодальности, как в LLaVa, напрямую. Для приклада к видео были использованы инструменты перевода звука в текст: ведь в видео есть субтитры, чем не текст? И да, ребята, подумали также.

Для обучения было подготовлено 20 000 хорошо выверенных суммаризаций со спец. форматом: заголовок, тайм-код, краткий пересказ, новый заголовок ,его тайм-код и краткий пересказ и тп. Нужно понимать, что видео бывают разные по длине, но у ребят лучше всего завелось нарезать пересказы частями до 12к символов. Иначе далее появляются глюки.

Помимо этого, важно было исследовать разные подходы к обучению LLM. Авторы остановились на LoRA и SFT с расфризом параметров LLM.

Вот так разработчки и добрались до идеальной формулы: добавляем в видео субтитры, делим их по 12 000 символов и пускаем в модельку. Благо видео вещь более структурная чем текст и тут можно делить субтитры на части без значительных смысловых потерь, деля куски субтитров на независимые друг от друга чанки.

Тема очень интересная и на первый взгляд кажется лёгкой. Но сколько же винтиков нужно прикрутить, чтобы всё заработало. Поэтому, советую прочитать статью самостоятельно, тк еще есть хинты с логикой вокруг движка и продуктовые фишки.

Хабр

Как мы научили YandexGPT пересказывать видео

Порой бывает сложно перематывать длинный ролик в надежде найти хоть что-то интересное или тот самый момент из Shorts. Или иногда хочется за ночь узнать, о чём шла речь на паре научных конференций. Для...

👍18🔥6🤩1🥴1

3.48K viewsedited 16:54

Dealer.AI

Forwarded from Love. Death. Transformers.

Релиз русифицированной модели от sambanovasystems

Взяли базовую лламу2
- докинули 25к русских токенов в словарь
- пробежали 63B русских токенов на большом датасетe culturalX (довольно очищенный mc4 к слову)
- дополнительно полирнули Instruct на zephуr+DPO на ultrafeedback

модель
blog

👍12❤2

2.45K views15:17

Dealer.AI

Когда уже тцать лет разрабатываешь модели для голосовых ассистентов 🤪

😁26👍2

2.75K viewsedited 19:59

Dealer.AI

С праздником, дорогие. Пусть для Вас каждый день в году будет праздником полным мира, любви, позитивных эмоций и новых открытий.

И конечно, GenAI картинос в ленту. Цветите.

👍18❤5👎3

2.5K viewsedited 10:42

Dealer.AI

Forwarded from black_samorez

У меня есть несколько значительных апдейтов касательно AQLM:

Базовое качество: мы улучшили процедуру глобального файнтюна сетки квантизации, уменьшив зазор качества до FP16 на еще 10-30%. Мы обновили чекпоинты старых моделей и выложили еще несколько новых, включая gemma-2b.

Можно тюнить: мы прикрутили AQLM к PEFT, чтобы можно было тюнить LoRA поверх AQLM. Mixtral так можно тюнить в 15Gb VRAM хоть на колабе! (Colab Demo)

I am speed: мы добавили поддержку компиляции графа вычислений модели, что позволяет эффективно занулить оверхед питона при генерации, ускоряя ее в ~3 раза. (Colab Demo)

🔥10👍1

2.22K views15:04

Dealer.AI

Юмор выходного дня.

😁44😢3❤2

2.61K views08:41

Dealer.AI

Forwarded from Data, Stories and Languages

Обзор соревнований по ML за 2023 год

Есть такая платформа - https://mlcontests.com/, там можно увидеть список актуальных идущих соревнований по ML. Недавно автор выпустил большой годный обзор по соревнованиям за 2023 год: https://mlcontests.com/state-of-competitive-machine-learning-2023/

Вот некоторые итоги:
• Из неудивительного: большинство победителей используют Python, Kaggle остаётся топовой платформой (по юзерам и по сумме призовых), большинство решений с нейронками использует PyTorch, CNN всё ещё рулят в CV (сейчас популярны ConvNeXt);
• В NLP люди потихоньку используют LLM - для генерации синтетических данных, для файн-тюнинга и так далее. Но deberta всё ещё популярна;
• В сумме призовых насчитали $7.8m+;

#datascience

ML Contests

The State of Competitive Machine Learning | ML Contests

We summarise the state of the competitive landscape and analyse the 300+ competitions that took place in 2023. Plus a deep dive analysis of 60+ winning solutions to figure out the best strategies to win at competitive ML.

👍15

2.55K views12:02

Dealer.AI

О, мем пошел в массы.

Продолжаем
тему управления мл (и не только) тимами. 👇

2.09K viewsedited 09:16

Dealer.AI

Forwarded from ML for Value / Ваня Максимов (Ivan Maksimov)

Мамка-менеджер

Недавно общались с друзьями про управления командами, и почему иногда люди становятся чайка-менеджерами

Вот вам ответочка от собирательного «чайка-менеджера»

Сам он часто чувствует себя «мамка-менеджером»: как будто у него не команда, а маленькие дети. Оставил на 5 минут, и тут же они ~~разбили вазу~~ выкатили релиз с багами, поссорились с соседней командой и придумали новое SOTA решение, которое невозможно катнуть в прод. На разных грейдах дети выглядят чуть по-разному

Стажер
«Я все решил: сделаю бейзлайн прогноза продаж на GPT-4”

Джун
«Я сделал решение на трансформерах, которое лучше по оффлайн метрикам на 2%! Да кого парит RPS в проде и то, что я один в компании знаю JAX? Главное, что ml-метрики растут»

Миддл
«Мы готовы катить в прод: ml-метрики топ, тесты пройдены, CI-CD настроен, используем DVC, mlflow, airflow и fastapi. В смысле никому не нужно понимать, какое слово в названии товара - существительное?? Да почему всех интересуют только польза конечному юзеру и деньги?

Синьор
*Рассказывает на общем демо, что конверсия выросла +5% от новой фичи*
CEO неделю спустя спрашивает, почему упала выручка
Синьор *наконец считает, что там было в АВ со средним чеком….*

Идеал для тимлида - самостоятельные сотрудники, которые могут решить 90% задач/проблем без тимлида и продумать последствия

В общем, у взрослых команд мамка-менеджеров почти не бывает 🙂

Есть конечно 1-5%, которые кроме как чайка-менеджерить не умеют - остальные делают это от безысходности 😥

P.S. Да, мне тоже пару раз приходилось мамка-менеджерить: ооочень неприятное это дело, напишу об этом пост ~~когда перестанет так сильно подгорать~~ когда-нибудь)

@ml4value

👍16

2.23K views09:16

Dealer.AI

RoPe'ни контекст лучшего паблик энкодера.

Тут энтузиаст из "Точка" порадовал дядю "новой" версией infloat/e5 с расширенным контекстом, но ток не лонгформером. Чел обрезал e5 на 100 языков до русского и расширил ее контекст за счет RoPE (а у лонгформера аля sliding window). Тоесть ротари эмбов позиций. При расширении клон е5 где-то сильно просел в метриках (мы же научились вообще не проседать) + вопросы остаются в оптимизации под прод. Скок будет держать rps.
В целом, хорошая работа для понимания. Дядя одобряет.

https://habr.com/ru/companies/tochka/articles/797561/

Хабр

Контекст больше не предел: Линейка русскоязычных энкодеров ruRoPEBert и как она создавалась

Удлиняем и крутим - RoPEBert Привет, Хабр! Если вы интересуетесь NLP или просто современными DL моделями, то приглашаю вас узнать, как можно, имея всего лишь одну A100, около 30 гигабайтов текста и...

👍12🔥4❤1⚡1🤯1🤡1

2.99K viewsedited 16:26

Dealer.AI

Червячок ~~Джимм~~ Morris II 🪱 - твой личный AI-вирус. И дело даже не в показе Dune II.

Создан первый GenAI вирус 👾.
В недавнем исследовании, авторы создали первый вредоносный ИИ-червь, способный самостоятельно плодиться в среде с AI-агентами. Добро пожаловать в AGI world и вот вам новый вид кибератак 😵

Чтобы продемонстрировать возможности червя, исследователи создали почтовую RAG (!!!) систему, которая может отправлять и получать сообщения подключаясь к апи ChatGPT, Gemini и LLaVA. Специалисты обнаружили два способа эксплуатации системы: с использованием текстового самовоспроизводящегося запроса и встраивая самовоспроизводящийся запрос в изображение.
При этом, дядя не шарит в безе, поэтому опишет, как он понимает механизмы атак и нафига тут RAG в системе 🕵‍♂.

RAG тут ИМХО необходим для того, чтобы использовать некую стартовую базу атак на представленный контекст, а также, чтобы хранить инфо о сообщениях с уже атакованных хостов в локальной (глобальной?) памяти системы. Те RAG тут про память в системе агентов и поиск по БД зловреда. Плюс, ходя вот так по хостам юзеров системы, можно подобные уже увиденные форматы личных/корп. данных прихранивать в памяти червя и юзать их для более эффективного поиска подобных записей/сообщений на основе RAG запросов. Мол вот найди LLM-агент из того, что ты сейчас "видишь" подобные форматы из подсказки (базы атак/уже атакованных сабжей) RAGа. Нашел? Прихрани в памяти агента, передай на сервак зловреда, сделай в сабж опасную инъекцию и пусти дальше по сети сабж к другим юзерам 🤯

Исследователи подчеркивают, что Gen.AI черви станут новым вызовом перед службами безопасности технологических компаний и разработчиками стартапов.

Поэтому крепитесь 🦾 И будьте готовы.

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

Here Comes The AI Worm: Unleashing Zero-click Worms that Target...

In this paper, we show that when the communication between GenAI-powered applications relies on RAG-based inference, an attacker can initiate a computer worm-like chain reaction that we call...

👍15😈5🔥4👾4

25.7K viewsedited 20:08

Dealer.AI

Схема, мб кто сможет повторить 🙈

👍8🔥6🤡2

3.73K views20:09