Dealer.AI
Photo
ну что, кто узнал в себе или в коллеге "супер эффективного менеджера/лида/сина"?
UPD. и сразу поприбавилось 🥴. Да надо быть же жОским дЯдей.
UPD. и сразу поприбавилось 🥴. Да надо быть же жОским дЯдей.
❤3🥴3👍1💯1
Forwarded from Мишин Лернинг
Принес вам реальные метрики Claude 3 vs GPT-4
Маркетологи Anthropic решили сравнивать Claude 3 не с последней версией GPT-4-Turbo, а GPT-4 годичной давности, взяв метрики модели GPT-4 марта 2023 года.
А по факту, GPT-4-Turbo показывает результаты, которые значительно лучшие, чем Claude 3.
Маркетологи Anthropic решили сравнивать Claude 3 не с последней версией GPT-4-Turbo, а GPT-4 годичной давности, взяв метрики модели GPT-4 марта 2023 года.
А по факту, GPT-4-Turbo показывает результаты, которые значительно лучшие, чем Claude 3.
😁27🤔4💯3
Dealer.AI
Photo
Немного жизни:
Знавал таких (щет)унов, что выберут систему метрик, ты их побьешь на ней, а они такие: "Ой это не та была вот наша новая, мы там лучшие", ты и там их побьешь , а они тебе новую несут по тому же сценарию. Сначала отчитаются конечно, что лучшие, а потом тебе понесут, где ты их побьешь, но об этом никто отчитываться не будет, конечно, если сам не заявишься.
Вот и бегает Ахилес так за черепахой. А главное ты во-первых все время в позиции жертвы, догоняющего, тк зависишь от их системы метрик. Нет бы свою продвинуть. Да и со стороны руководство видит это как не сплоченность, а разлад в системе.
Ну и во-вторых рано или поздно эти зайтейники тебя побьют или будет у вас паритет, чисто потому, что время нужное для реального апа было выйграно/подошло.
Смекайте.
Знавал таких (щет)унов, что выберут систему метрик, ты их побьешь на ней, а они такие: "Ой это не та была вот наша новая, мы там лучшие", ты и там их побьешь , а они тебе новую несут по тому же сценарию. Сначала отчитаются конечно, что лучшие, а потом тебе понесут, где ты их побьешь, но об этом никто отчитываться не будет, конечно, если сам не заявишься.
Вот и бегает Ахилес так за черепахой. А главное ты во-первых все время в позиции жертвы, догоняющего, тк зависишь от их системы метрик. Нет бы свою продвинуть. Да и со стороны руководство видит это как не сплоченность, а разлад в системе.
Ну и во-вторых рано или поздно эти зайтейники тебя побьют или будет у вас паритет, чисто потому, что время нужное для реального апа было выйграно/подошло.
Смекайте.
🔥9👍3😢3💯1
Как Яндекс научил YaGPT пересказывать видео в браузере.
Коллеги по AI цеху выпустили статью на Хабре о том, как они научили YandexGPT пересказывать видео.
Пост интересен не только техническими деталями, но и продуктовыми нюансами, влияющими на user experience.
Что ребята из Яндекса там сделали? На самом деле, у команды уже была модель статейной суммаризации, поэтому взяли то что уже есть, и улучшили. При этом, что интересно, в решении нет никакой мультимодальности, как в LLaVa, напрямую. Для приклада к видео были использованы инструменты перевода звука в текст: ведь в видео есть субтитры, чем не текст? И да, ребята, подумали также.
Для обучения было подготовлено 20 000 хорошо выверенных суммаризаций со спец. форматом: заголовок, тайм-код, краткий пересказ, новый заголовок ,его тайм-код и краткий пересказ и тп. Нужно понимать, что видео бывают разные по длине, но у ребят лучше всего завелось нарезать пересказы частями до 12к символов. Иначе далее появляются глюки.
Помимо этого, важно было исследовать разные подходы к обучению LLM. Авторы остановились на LoRA и SFT с расфризом параметров LLM.
Вот так разработчки и добрались до идеальной формулы: добавляем в видео субтитры, делим их по 12 000 символов и пускаем в модельку. Благо видео вещь более структурная чем текст и тут можно делить субтитры на части без значительных смысловых потерь, деля куски субтитров на независимые друг от друга чанки.
Тема очень интересная и на первый взгляд кажется лёгкой. Но сколько же винтиков нужно прикрутить, чтобы всё заработало. Поэтому, советую прочитать статью самостоятельно, тк еще есть хинты с логикой вокруг движка и продуктовые фишки.
Коллеги по AI цеху выпустили статью на Хабре о том, как они научили YandexGPT пересказывать видео.
Пост интересен не только техническими деталями, но и продуктовыми нюансами, влияющими на user experience.
Что ребята из Яндекса там сделали? На самом деле, у команды уже была модель статейной суммаризации, поэтому взяли то что уже есть, и улучшили. При этом, что интересно, в решении нет никакой мультимодальности, как в LLaVa, напрямую. Для приклада к видео были использованы инструменты перевода звука в текст: ведь в видео есть субтитры, чем не текст? И да, ребята, подумали также.
Для обучения было подготовлено 20 000 хорошо выверенных суммаризаций со спец. форматом: заголовок, тайм-код, краткий пересказ, новый заголовок ,его тайм-код и краткий пересказ и тп. Нужно понимать, что видео бывают разные по длине, но у ребят лучше всего завелось нарезать пересказы частями до 12к символов. Иначе далее появляются глюки.
Помимо этого, важно было исследовать разные подходы к обучению LLM. Авторы остановились на LoRA и SFT с расфризом параметров LLM.
Вот так разработчки и добрались до идеальной формулы: добавляем в видео субтитры, делим их по 12 000 символов и пускаем в модельку. Благо видео вещь более структурная чем текст и тут можно делить субтитры на части без значительных смысловых потерь, деля куски субтитров на независимые друг от друга чанки.
Тема очень интересная и на первый взгляд кажется лёгкой. Но сколько же винтиков нужно прикрутить, чтобы всё заработало. Поэтому, советую прочитать статью самостоятельно, тк еще есть хинты с логикой вокруг движка и продуктовые фишки.
Хабр
Как мы научили YandexGPT пересказывать видео
Порой бывает сложно перематывать длинный ролик в надежде найти хоть что-то интересное или тот самый момент из Shorts. Или иногда хочется за ночь узнать, о чём шла речь на паре научных конференций. Для...
👍18🔥6🤩1🥴1
Forwarded from Love. Death. Transformers.
Релиз русифицированной модели от sambanovasystems
Взяли базовую лламу2
- докинули 25к русских токенов в словарь
- пробежали 63B русских токенов на большом датасетe culturalX (довольно очищенный mc4 к слову)
- дополнительно полирнули Instruct на zephуr+DPO на ultrafeedback
модель
blog
Взяли базовую лламу2
- докинули 25к русских токенов в словарь
- пробежали 63B русских токенов на большом датасетe culturalX (довольно очищенный mc4 к слову)
- дополнительно полирнули Instruct на zephуr+DPO на ultrafeedback
модель
blog
👍12❤2
Forwarded from black_samorez
У меня есть несколько значительных апдейтов касательно AQLM:
Базовое качество: мы улучшили процедуру глобального файнтюна сетки квантизации, уменьшив зазор качества до FP16 на еще 10-30%. Мы обновили чекпоинты старых моделей и выложили еще несколько новых, включая gemma-2b.
Можно тюнить: мы прикрутили AQLM к PEFT, чтобы можно было тюнить LoRA поверх AQLM. Mixtral так можно тюнить в 15Gb VRAM хоть на колабе! (Colab Demo)
I am speed: мы добавили поддержку компиляции графа вычислений модели, что позволяет эффективно занулить оверхед питона при генерации, ускоряя ее в ~3 раза. (Colab Demo)
Базовое качество: мы улучшили процедуру глобального файнтюна сетки квантизации, уменьшив зазор качества до FP16 на еще 10-30%. Мы обновили чекпоинты старых моделей и выложили еще несколько новых, включая gemma-2b.
Можно тюнить: мы прикрутили AQLM к PEFT, чтобы можно было тюнить LoRA поверх AQLM. Mixtral так можно тюнить в 15Gb VRAM хоть на колабе! (Colab Demo)
I am speed: мы добавили поддержку компиляции графа вычислений модели, что позволяет эффективно занулить оверхед питона при генерации, ускоряя ее в ~3 раза. (Colab Demo)
🔥10👍1
Forwarded from Data, Stories and Languages
Обзор соревнований по ML за 2023 год
Есть такая платформа - https://mlcontests.com/, там можно увидеть список актуальных идущих соревнований по ML. Недавно автор выпустил большой годный обзор по соревнованиям за 2023 год: https://mlcontests.com/state-of-competitive-machine-learning-2023/
Вот некоторые итоги:
• Из неудивительного: большинство победителей используют Python, Kaggle остаётся топовой платформой (по юзерам и по сумме призовых), большинство решений с нейронками использует PyTorch, CNN всё ещё рулят в CV (сейчас популярны ConvNeXt);
• В NLP люди потихоньку используют LLM - для генерации синтетических данных, для файн-тюнинга и так далее. Но deberta всё ещё популярна;
• В сумме призовых насчитали $7.8m+;
#datascience
Есть такая платформа - https://mlcontests.com/, там можно увидеть список актуальных идущих соревнований по ML. Недавно автор выпустил большой годный обзор по соревнованиям за 2023 год: https://mlcontests.com/state-of-competitive-machine-learning-2023/
Вот некоторые итоги:
• Из неудивительного: большинство победителей используют Python, Kaggle остаётся топовой платформой (по юзерам и по сумме призовых), большинство решений с нейронками использует PyTorch, CNN всё ещё рулят в CV (сейчас популярны ConvNeXt);
• В NLP люди потихоньку используют LLM - для генерации синтетических данных, для файн-тюнинга и так далее. Но deberta всё ещё популярна;
• В сумме призовых насчитали $7.8m+;
#datascience
ML Contests
The State of Competitive Machine Learning | ML Contests
We summarise the state of the competitive landscape and analyse the 300+ competitions that took place in 2023. Plus a deep dive analysis of 60+ winning solutions to figure out the best strategies to win at competitive ML.
👍15
О, мем пошел в массы.
Продолжаем
тему управления мл (и не только) тимами. 👇
Продолжаем
тему управления мл (и не только) тимами. 👇
Forwarded from ML for Value / Ваня Максимов (Ivan Maksimov)
Мамка-менеджер
Недавно общались с друзьями про управления командами, и почему иногда люди становятся чайка-менеджерами
Вот вам ответочка от собирательного «чайка-менеджера»
Сам он часто чувствует себя «мамка-менеджером»: как будто у него не команда, а маленькие дети. Оставил на 5 минут, и тут же ониразбили вазу выкатили релиз с багами, поссорились с соседней командой и придумали новое SOTA решение, которое невозможно катнуть в прод. На разных грейдах дети выглядят чуть по-разному
Стажер
«Я все решил: сделаю бейзлайн прогноза продаж на GPT-4”
Джун
«Я сделал решение на трансформерах, которое лучше по оффлайн метрикам на 2%! Да кого парит RPS в проде и то, что я один в компании знаю JAX? Главное, что ml-метрики растут»
Миддл
«Мы готовы катить в прод: ml-метрики топ, тесты пройдены, CI-CD настроен, используем DVC, mlflow, airflow и fastapi. В смысле никому не нужно понимать, какое слово в названии товара - существительное?? Да почему всех интересуют только польза конечному юзеру и деньги?
Синьор
*Рассказывает на общем демо, что конверсия выросла +5% от новой фичи*
CEO неделю спустя спрашивает, почему упала выручка
Синьор *наконец считает, что там было в АВ со средним чеком….*
Идеал для тимлида - самостоятельные сотрудники, которые могут решить 90% задач/проблем без тимлида и продумать последствия
В общем, у взрослых команд мамка-менеджеров почти не бывает 🙂
Есть конечно 1-5%, которые кроме как чайка-менеджерить не умеют - остальные делают это от безысходности 😥
P.S. Да, мне тоже пару раз приходилось мамка-менеджерить: ооочень неприятное это дело, напишу об этом посткогда перестанет так сильно подгорать когда-нибудь)
@ml4value
Недавно общались с друзьями про управления командами, и почему иногда люди становятся чайка-менеджерами
Вот вам ответочка от собирательного «чайка-менеджера»
Сам он часто чувствует себя «мамка-менеджером»: как будто у него не команда, а маленькие дети. Оставил на 5 минут, и тут же они
Стажер
«Я все решил: сделаю бейзлайн прогноза продаж на GPT-4”
Джун
«Я сделал решение на трансформерах, которое лучше по оффлайн метрикам на 2%! Да кого парит RPS в проде и то, что я один в компании знаю JAX? Главное, что ml-метрики растут»
Миддл
«Мы готовы катить в прод: ml-метрики топ, тесты пройдены, CI-CD настроен, используем DVC, mlflow, airflow и fastapi. В смысле никому не нужно понимать, какое слово в названии товара - существительное?? Да почему всех интересуют только польза конечному юзеру и деньги?
Синьор
*Рассказывает на общем демо, что конверсия выросла +5% от новой фичи*
CEO неделю спустя спрашивает, почему упала выручка
Синьор *наконец считает, что там было в АВ со средним чеком….*
Идеал для тимлида - самостоятельные сотрудники, которые могут решить 90% задач/проблем без тимлида и продумать последствия
В общем, у взрослых команд мамка-менеджеров почти не бывает 🙂
Есть конечно 1-5%, которые кроме как чайка-менеджерить не умеют - остальные делают это от безысходности 😥
P.S. Да, мне тоже пару раз приходилось мамка-менеджерить: ооочень неприятное это дело, напишу об этом пост
@ml4value
👍16
RoPe'ни контекст лучшего паблик энкодера.
Тут энтузиаст из "Точка" порадовал дядю "новой" версией infloat/e5 с расширенным контекстом, но ток не лонгформером. Чел обрезал e5 на 100 языков до русского и расширил ее контекст за счет RoPE (а у лонгформера аля sliding window). Тоесть ротари эмбов позиций. При расширении клон е5 где-то сильно просел в метриках (мы же научились вообще не проседать) + вопросы остаются в оптимизации под прод. Скок будет держать rps.
В целом, хорошая работа для понимания. Дядя одобряет.
https://habr.com/ru/companies/tochka/articles/797561/
Тут энтузиаст из "Точка" порадовал дядю "новой" версией infloat/e5 с расширенным контекстом, но ток не лонгформером. Чел обрезал e5 на 100 языков до русского и расширил ее контекст за счет RoPE (а у лонгформера аля sliding window). Тоесть ротари эмбов позиций. При расширении клон е5 где-то сильно просел в метриках (мы же научились вообще не проседать) + вопросы остаются в оптимизации под прод. Скок будет держать rps.
В целом, хорошая работа для понимания. Дядя одобряет.
https://habr.com/ru/companies/tochka/articles/797561/
Хабр
Контекст больше не предел: Линейка русскоязычных энкодеров ruRoPEBert и как она создавалась
Удлиняем и крутим - RoPEBert Привет, Хабр! Если вы интересуетесь NLP или просто современными DL моделями, то приглашаю вас узнать, как можно, имея всего лишь одну A100, около 30 гигабайтов текста и...
👍12🔥4❤1⚡1🤯1🤡1
Червячок Джимм Morris II 🪱 - твой личный AI-вирус. И дело даже не в показе Dune II.
Создан первый GenAI вирус 👾.
В недавнем исследовании, авторы создали первый вредоносный ИИ-червь, способный самостоятельно плодиться в среде с AI-агентами. Добро пожаловать в AGI world и вот вам новый вид кибератак😵
Чтобы продемонстрировать возможности червя, исследователи создали почтовую RAG (!!!) систему, которая может отправлять и получать сообщения подключаясь к апи ChatGPT, Gemini и LLaVA. Специалисты обнаружили два способа эксплуатации системы: с использованием текстового самовоспроизводящегося запроса и встраивая самовоспроизводящийся запрос в изображение.
При этом, дядя не шарит в безе, поэтому опишет, как он понимает механизмы атак и нафига тут RAG в системе 🕵♂.
RAG тут ИМХО необходим для того, чтобы использовать некую стартовую базу атак на представленный контекст, а также, чтобы хранить инфо о сообщениях с уже атакованных хостов в локальной (глобальной?) памяти системы. Те RAG тут про память в системе агентов и поиск по БД зловреда. Плюс, ходя вот так по хостам юзеров системы, можно подобные уже увиденные форматы личных/корп. данных прихранивать в памяти червя и юзать их для более эффективного поиска подобных записей/сообщений на основе RAG запросов. Мол вот найди LLM-агент из того, что ты сейчас "видишь" подобные форматы из подсказки (базы атак/уже атакованных сабжей) RAGа. Нашел? Прихрани в памяти агента, передай на сервак зловреда, сделай в сабж опасную инъекцию и пусти дальше по сети сабж к другим юзерам 🤯
Исследователи подчеркивают, что Gen.AI черви станут новым вызовом перед службами безопасности технологических компаний и разработчиками стартапов.
Поэтому крепитесь 🦾 И будьте готовы.
Создан первый GenAI вирус 👾.
В недавнем исследовании, авторы создали первый вредоносный ИИ-червь, способный самостоятельно плодиться в среде с AI-агентами. Добро пожаловать в AGI world и вот вам новый вид кибератак
Чтобы продемонстрировать возможности червя, исследователи создали почтовую RAG (!!!) систему, которая может отправлять и получать сообщения подключаясь к апи ChatGPT, Gemini и LLaVA. Специалисты обнаружили два способа эксплуатации системы: с использованием текстового самовоспроизводящегося запроса и встраивая самовоспроизводящийся запрос в изображение.
При этом, дядя не шарит в безе, поэтому опишет, как он понимает механизмы атак и нафига тут RAG в системе 🕵♂.
RAG тут ИМХО необходим для того, чтобы использовать некую стартовую базу атак на представленный контекст, а также, чтобы хранить инфо о сообщениях с уже атакованных хостов в локальной (глобальной?) памяти системы. Те RAG тут про память в системе агентов и поиск по БД зловреда. Плюс, ходя вот так по хостам юзеров системы, можно подобные уже увиденные форматы личных/корп. данных прихранивать в памяти червя и юзать их для более эффективного поиска подобных записей/сообщений на основе RAG запросов. Мол вот найди LLM-агент из того, что ты сейчас "видишь" подобные форматы из подсказки (базы атак/уже атакованных сабжей) RAGа. Нашел? Прихрани в памяти агента, передай на сервак зловреда, сделай в сабж опасную инъекцию и пусти дальше по сети сабж к другим юзерам 🤯
Исследователи подчеркивают, что Gen.AI черви станут новым вызовом перед службами безопасности технологических компаний и разработчиками стартапов.
Поэтому крепитесь 🦾 И будьте готовы.
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Here Comes The AI Worm: Unleashing Zero-click Worms that Target...
In this paper, we show that when the communication between GenAI-powered applications relies on RAG-based inference, an attacker can initiate a computer worm-like chain reaction that we call...
👍15😈5🔥4👾4