Forwarded from Дратути Антон
Занимательное интервью
Я иногда посматриваю Оскара, иногда Михаила — они два достаточно известных предпринимателя, мне нравится их образ мышления, часто производят мысли, которые заставляют лично меня задуматься. Тут мне рекомендации подсунули ролик, где Оскар берёт интервью у Михаила. Очень понравилось то, как хорошо гость отвечал, а иногда и оспаривал тезисы ведущего — такое не часто встретишь!
Какие мысли меня зацепили.
Если бы бизнес все делали по-умному, то нашему миру было бы очень грустно.
Аргумент следующий: большое число убыточных бизнесов (без негативной коннотации) делают продукты и услуги, которыми мы пользуемся, которые составляют важную для нас ценность.
У любого человека капитал состоит из трёх компонент: деньги, компетенции и ресурсы. Вначале лучше ставить на компетенции и ресурсы, а потом уже на деньги.
Аргумент следующий: когда мы стартуем карьеру, у нас есть какие-то компетенции и ресурсы: здоровье, высокая готовность к риску и т.д. В этих условиях лучше качать компетенции, за счёт которых ты потом сможешь зарабатывать больше денег.
Мой пример более простой: если бы я сейчас выбирал какое-то место работы, я бы ставил на первое место те команды и компании, где я могу многому научиться в зоне моих интересов. Если брать мой текущий трек — "руководитель", то не так просто найти такого человека, который в тебя будет вкладывать свой ресурс. И тут не совсем важна даже сама компания и её амбиции, сколько тот человек, который тебя будет вести и обучать.
Люди 20-ти лет — самый ценный ресурс, на который общество не обращает внимание.
Аргумент следующий: в 20 лет человек как будто получает стартовый пакет — родители и/или общество вложились, образование есть. Но в этот момент происходит самое сложное: он оказывается наедине с реальностью. Карьеры рушатся, люди теряются, потому что поддержки уже нет. Ему просто говорят: "ну всё, давай, дальше сам".
Надо работать над сильными сторонами и забить на слабые, а не так, как популярно — прокачивать свои слабые стороны.
Аргумент следующий: надо развиваться в том, в чём ты себя нашёл, в чём ты хорош. Невозможно стать лучшим во всём, при этом очень легко стать среднячком везде. Куда лучше найти свои точки максимума и растить их.
Например, я когда-то забил на гуманитарные науки. Да, я, возможно, недостаточно эрудирован в каких-то областях (особенно литературе), но при этом весьма неплох в том, что делаю сейчас.
В общем рекомендую! Ссылка на видео: https://www.youtube.com/watch?v=queK6HTrKec
Как вам такие идеи? Какие из них вам ближе, а с какими не согласны?
Я иногда посматриваю Оскара, иногда Михаила — они два достаточно известных предпринимателя, мне нравится их образ мышления, часто производят мысли, которые заставляют лично меня задуматься. Тут мне рекомендации подсунули ролик, где Оскар берёт интервью у Михаила. Очень понравилось то, как хорошо гость отвечал, а иногда и оспаривал тезисы ведущего — такое не часто встретишь!
Какие мысли меня зацепили.
Если бы бизнес все делали по-умному, то нашему миру было бы очень грустно.
Аргумент следующий: большое число убыточных бизнесов (без негативной коннотации) делают продукты и услуги, которыми мы пользуемся, которые составляют важную для нас ценность.
У любого человека капитал состоит из трёх компонент: деньги, компетенции и ресурсы. Вначале лучше ставить на компетенции и ресурсы, а потом уже на деньги.
Аргумент следующий: когда мы стартуем карьеру, у нас есть какие-то компетенции и ресурсы: здоровье, высокая готовность к риску и т.д. В этих условиях лучше качать компетенции, за счёт которых ты потом сможешь зарабатывать больше денег.
Мой пример более простой: если бы я сейчас выбирал какое-то место работы, я бы ставил на первое место те команды и компании, где я могу многому научиться в зоне моих интересов. Если брать мой текущий трек — "руководитель", то не так просто найти такого человека, который в тебя будет вкладывать свой ресурс. И тут не совсем важна даже сама компания и её амбиции, сколько тот человек, который тебя будет вести и обучать.
Люди 20-ти лет — самый ценный ресурс, на который общество не обращает внимание.
Аргумент следующий: в 20 лет человек как будто получает стартовый пакет — родители и/или общество вложились, образование есть. Но в этот момент происходит самое сложное: он оказывается наедине с реальностью. Карьеры рушатся, люди теряются, потому что поддержки уже нет. Ему просто говорят: "ну всё, давай, дальше сам".
Надо работать над сильными сторонами и забить на слабые, а не так, как популярно — прокачивать свои слабые стороны.
Аргумент следующий: надо развиваться в том, в чём ты себя нашёл, в чём ты хорош. Невозможно стать лучшим во всём, при этом очень легко стать среднячком везде. Куда лучше найти свои точки максимума и растить их.
Например, я когда-то забил на гуманитарные науки. Да, я, возможно, недостаточно эрудирован в каких-то областях (особенно литературе), но при этом весьма неплох в том, что делаю сейчас.
В общем рекомендую! Ссылка на видео: https://www.youtube.com/watch?v=queK6HTrKec
Как вам такие идеи? Какие из них вам ближе, а с какими не согласны?
Forwarded from Плюшевый Питон
Дополнение про min-p
Как известно, семплеры (температура, top-p, top-k, позже Mirostat, min-p, DRY, XTC и другие) изначально были придуманы, чтобы компенсировать недостатки обучения GPT-подобных языковых моделей.
Такие модели на этапе претрейна и SFT учатся решать задачу _классификации_ (наиболее правдоподобного следующего токена). Inductive bias здесь в предположении, что на каждом шаге порождения текста может быть только один правильный следующий токен. В природе это не так ("Они решили назвать свою дочь <?>" - какой здесь единственный правильный следущий токен?). В обучающих данных это требование тоже не обязано соблюдаться - например, в SFT у вас могут быть разные эталонные ответы на один и тот же промпт.
Могут ли модели научиться в таком режиме генерировать связный текст, не содержащий внутренних противоречий? Да. Но как сделать так, чтобы ответы модели были ещё и разнообразными? Если на каждом шаге генерации брать самый вероятный токен - у вас всегда будут получаться одинаковые ответы на один и тот же запрос. Есть ситуации, когда важно разнообразие и возможность получить несколько неодинаковых ответов. Например, при решении творческих задач: брейншторминг, рерайтинг, ролплей и т.п. Тут на помощь и приходит семплирование. Сильно упрощая, оно позволяет нам не всегда брать самый вероятный токен, что делает ответы более живыми и разнообразными. Однако важно семплировать аккуратно, чтобы не сбиться с мысли и не начать порождать бред.😵
Классические семплеры, такие как температура и top-p, чувствительны к выбору модели и к решаемой задаче. Например, насыщенные модели, которые обучались на очень большом количестве токенов, требуют более высокой температуры, если нужно разнообразие генераций. Магия же min-p как раз в том, что мы можем использовать одни и те же параметры семплирования практически на любой модели и задаче, и при этом стабильно получать связные и разнообразные ответы.🙄
Интересно, что этот семплер появился уже довольно давно в сообществе LLM-ролплееров, использующих локальные модели. Вот один из ключевых постов его автора, наглядно разъясняющий его преимущества и недостатки традиционных семплеров. Пост был опубликован в r/LocalLLaMA ещё в ноябре 2023 года!
Я регулярно пользуюсь min-p в личных проектах и экспериментах с локальными моделями уже около года. Это единственный семплер, который у меня включен по дефолту - я не использую top-k, top-p и т.д. Он отлично подходит для всего, кроме, пожалуй, замера бенчмарков, но это особый случай. Если ещё не пробовали в своих задачах - попробуйте!👍
Как известно, семплеры (температура, top-p, top-k, позже Mirostat, min-p, DRY, XTC и другие) изначально были придуманы, чтобы компенсировать недостатки обучения GPT-подобных языковых моделей.
Такие модели на этапе претрейна и SFT учатся решать задачу _классификации_ (наиболее правдоподобного следующего токена). Inductive bias здесь в предположении, что на каждом шаге порождения текста может быть только один правильный следующий токен. В природе это не так ("Они решили назвать свою дочь <?>" - какой здесь единственный правильный следущий токен?). В обучающих данных это требование тоже не обязано соблюдаться - например, в SFT у вас могут быть разные эталонные ответы на один и тот же промпт.
Могут ли модели научиться в таком режиме генерировать связный текст, не содержащий внутренних противоречий? Да. Но как сделать так, чтобы ответы модели были ещё и разнообразными? Если на каждом шаге генерации брать самый вероятный токен - у вас всегда будут получаться одинаковые ответы на один и тот же запрос. Есть ситуации, когда важно разнообразие и возможность получить несколько неодинаковых ответов. Например, при решении творческих задач: брейншторминг, рерайтинг, ролплей и т.п. Тут на помощь и приходит семплирование. Сильно упрощая, оно позволяет нам не всегда брать самый вероятный токен, что делает ответы более живыми и разнообразными. Однако важно семплировать аккуратно, чтобы не сбиться с мысли и не начать порождать бред.
Классические семплеры, такие как температура и top-p, чувствительны к выбору модели и к решаемой задаче. Например, насыщенные модели, которые обучались на очень большом количестве токенов, требуют более высокой температуры, если нужно разнообразие генераций. Магия же min-p как раз в том, что мы можем использовать одни и те же параметры семплирования практически на любой модели и задаче, и при этом стабильно получать связные и разнообразные ответы.
Интересно, что этот семплер появился уже довольно давно в сообществе LLM-ролплееров, использующих локальные модели. Вот один из ключевых постов его автора, наглядно разъясняющий его преимущества и недостатки традиционных семплеров. Пост был опубликован в r/LocalLLaMA ещё в ноябре 2023 года!
Я регулярно пользуюсь min-p в личных проектах и экспериментах с локальными моделями уже около года. Это единственный семплер, который у меня включен по дефолту - я не использую top-k, top-p и т.д. Он отлично подходит для всего, кроме, пожалуй, замера бенчмарков, но это особый случай. Если ещё не пробовали в своих задачах - попробуйте!
Please open Telegram to view this post
VIEW IN TELEGRAM
Reddit
From the LocalLLaMA community on Reddit: Your settings are (probably) hurting your model - Why sampler settings matter
Explore this post and more from the LocalLLaMA community
Forwarded from AbstractDL
Люди, которые часто используют ChatGPT — идеальные детекторы AI-текста
Оказалось, что эксперты, регулярно пользующиеся LLM в своей работе, способны распознавать AI-генерацию с почти 100% точностью, обходя все существующие детекторы и БЕЗ ложных срабатываний (в режиме majority voting).
Вот главные признаки сгенерированного текста по их мнению:
- избыточное использование некоторых слов: "crucial", "testament", "vibrant" и др.
- структура слишком "правильная" и предсказуемая
- заключения всегда аккуратные, оптимистичные и подытоживающие
Да, выборка людей была небольшая — всего 9 человек, но это всё равно продемонстрировало, что тексты от GPT-4o, o1-pro и Claude-3.5-sonnet реально детектировать, причём никакие fancy способы защиты (парафразы, доп инструкции) совсем не помогли.
Авторы выложили в открытый доступ код и датасет из 300 пар сгенерированных\реальных статей с очень подробной разметкой.
Статья, GitHub
Оказалось, что эксперты, регулярно пользующиеся LLM в своей работе, способны распознавать AI-генерацию с почти 100% точностью, обходя все существующие детекторы и БЕЗ ложных срабатываний (в режиме majority voting).
Вот главные признаки сгенерированного текста по их мнению:
- избыточное использование некоторых слов: "crucial", "testament", "vibrant" и др.
- структура слишком "правильная" и предсказуемая
- заключения всегда аккуратные, оптимистичные и подытоживающие
Да, выборка людей была небольшая — всего 9 человек, но это всё равно продемонстрировало, что тексты от GPT-4o, o1-pro и Claude-3.5-sonnet реально детектировать, причём никакие fancy способы защиты (парафразы, доп инструкции) совсем не помогли.
Авторы выложили в открытый доступ код и датасет из 300 пар сгенерированных\реальных статей с очень подробной разметкой.
Статья, GitHub
Forwarded from Варим МЛ (Евгений Никитин)
Что взять для вашей следующей гениальной идеи с LLM под капотом - модель с миллионным контекстом или RAG? Разбираемся!
Заодно хочу порекомендовать (не реклама, платной рекламы всё ещё нет и не планируется) крутой продукт моего коллеги по Цельсу Жени Гутина. Это система на основе дообученных под русский язык Speech2Text и LLM-моделей, которая генерирует автоматический протокол и транскрипт любых ваших звонков. Мы её постоянно используем в Цельсе, а ещё она, вероятно, будет интегрирована в некоторые наши продукты, но я вам об этом не говорил.
#Жека #llm
Заодно хочу порекомендовать (не реклама, платной рекламы всё ещё нет и не планируется) крутой продукт моего коллеги по Цельсу Жени Гутина. Это система на основе дообученных под русский язык Speech2Text и LLM-моделей, которая генерирует автоматический протокол и транскрипт любых ваших звонков. Мы её постоянно используем в Цельсе, а ещё она, вероятно, будет интегрирована в некоторые наши продукты, но я вам об этом не говорил.
#Жека #llm
Telegraph
RAG мёртв? Хайп вокруг 1M-моделей
На Реддите и в твиттере время от времени появляются такие посты И такие У людей, которые уже успели повыкатывать приложения с LLM под капотом в продакшн, немедленно начинает бомбить в комментариях. Почему? Давайте разбираться. Эра большого контекста Проблему…
Forwarded from Product Sweat 💦
https://podlodka.io/407
Самый интересный подкаст, который я прослушал в январе. В нем достаточно базированный чел рассказывает, как с нуля вкатиться в селф-хостинг. То есть как начать некоторые сервисы выносить к себе на локалку или на свой сервер.
Зачем так делать? Ну например хочешь хранить данные у себя в synology и не вываливать на облака. Или у тебя есть серверок и хочешь меньше платить за подписку, а только за аренду сервера (и запускать больше сервисов для себя по цене одной подписки) или просто тебе нравится деплоить как хобби.
Для меня скорее мотивация в локальном умном доме, к котрому я постепенно присматриваюсь, но пока не вкладываюсь, только изучаю. Об этом как-нибудь еще расскажу.
Самый интересный подкаст, который я прослушал в январе. В нем достаточно базированный чел рассказывает, как с нуля вкатиться в селф-хостинг. То есть как начать некоторые сервисы выносить к себе на локалку или на свой сервер.
Зачем так делать? Ну например хочешь хранить данные у себя в synology и не вываливать на облака. Или у тебя есть серверок и хочешь меньше платить за подписку, а только за аренду сервера (и запускать больше сервисов для себя по цене одной подписки) или просто тебе нравится деплоить как хобби.
Для меня скорее мотивация в локальном умном доме, к котрому я постепенно присматриваюсь, но пока не вкладываюсь, только изучаю. Об этом как-нибудь еще расскажу.
podlodka.io
Podlodka #407 – Self-hosting
Одно из самых айтишных хобби – селфхостинг. Вместо того, чтобы полагаться на ненадежных облачных провайдеров, которые могут вас забанить в любой день по цвету паспорта, перед этим случайно слив ваши приватные данные, вы поднимаете свой собственный домашний…
Forwarded from Product Sweat 💦
Product Sweat 💦
https://podlodka.io/407 Самый интересный подкаст, который я прослушал в январе. В нем достаточно базированный чел рассказывает, как с нуля вкатиться в селф-хостинг. То есть как начать некоторые сервисы выносить к себе на локалку или на свой сервер. Зачем…
Вот о чем вы узнаете, если послушаете подкаст (собрано по видео через Google NotebookLM):
* Хоумлабинг (Homelabbing) - создание домашней лаборатории с серверами и сетями для различных задач.
* Пример: Покупка серверов и настройка сети дома для экспериментов и хранения данных.
* Дата хординг (Data hoarding) - хранение больших объемов данных дома.
* Пример: Создание архива фильмов и музыки на домашнем сервере.
* Syncthing - бесплатное программное обеспечение с открытым исходным кодом, которое синхронизирует файлы между платформами.
* Пример: Синхронизация файлов между устройствами без регистрации и подписки.
* RustDesk - бесплатное программное обеспечение с открытым исходным кодом для удалённого управления компьютерами.
* Пример: Удалённый доступ к компьютерам родственников для помощи в решении технических проблем.
* Google Photos - сервис для хранения и организации фотографий.
* Пример: Автоматическое распознавание лиц и поиск по изображениям.
* Галерея (Gallery) - платформа, которую можно использовать для организации библиотеки.
* Пример: Развернуть за несколько минут с помощью контейнеризации на любой доступной платформе.
* Dawarich - программное обеспечение для создания собственной Google Timeline.
* Пример: Использование данных из Google Timeline для визуализации перемещений.
* Google Takeout - сервис для выгрузки данных из сервисов Google.
* Пример: Выгрузка фотографий из Google Photos.
* NAS (Network Attached Storage) - сетевое хранилище данных.
* Пример: Хранение фотографий и других файлов с доступом из разных устройств в сети.
* Raid - технология, которая позволяет одновременно писать вместо одного SSD на два.
* Пример: Использование для повышения надежности хранения данных.
* CDN (Content Delivery Network) - сеть доставки контента.
* Пример: Cloudflare.
* Cloudflare - сервис, предоставляющий защиту от DDoS-атак и другие функции безопасности.
* Пример: Использование для защиты веб-сайта от вредоносного трафика.
* Proxmox - система виртуализации.
* Пример: Разделение домашних приложений в виртуальных машинах.
* LXC контейнеры - позволяют развернуть Docker и Kubernetes.
* Home Assistant - платформа для автоматизации умного дома.
* Пример: Управление устройствами умного дома.
* AdGuard Home - блокировка рекламы и трекеров на уровне всей сети.
* Пример: Блокировка рекламы на всех устройствах в доме.
* Автоматизация мультимедиа (Sonarr, Radarr и др.) - автоматическая загрузка фильмов и сериалов.
* Пример: Автоматическая загрузка новых серий сериалов.
* Calibre - программное обеспечение, которое позволяет читать FB2, EPUB и другие форматы.
* Jellyfin - медиасервер, который позволяет выводить контент на телевизор.
* Пример: Воспроизведение фильмов на телевизоре по беспроводной сети.
* Plex - медиасервер.
*Пример: Вещание в качестве на телевизоре по UPnP протоколу.
* Open Cloud - позволяет организовать свое облако.
* PhotoPrism - альтернатива для фотографии и фотогалереи, которую можно организовать.
* Grafana - инструменты для мониторинга.
* Synology Quick Connect - сервис для доступа к хранилищу Synology из любого места.
* MailPit - Cлушает на 25-м порту, берет все, что ему отправили без авторизации, и делает доставку на почту.
* Community Scripts - репозиторий, где можно почитать об этой штуке.
* Хоумлабинг (Homelabbing) - создание домашней лаборатории с серверами и сетями для различных задач.
* Пример: Покупка серверов и настройка сети дома для экспериментов и хранения данных.
* Дата хординг (Data hoarding) - хранение больших объемов данных дома.
* Пример: Создание архива фильмов и музыки на домашнем сервере.
* Syncthing - бесплатное программное обеспечение с открытым исходным кодом, которое синхронизирует файлы между платформами.
* Пример: Синхронизация файлов между устройствами без регистрации и подписки.
* RustDesk - бесплатное программное обеспечение с открытым исходным кодом для удалённого управления компьютерами.
* Пример: Удалённый доступ к компьютерам родственников для помощи в решении технических проблем.
* Google Photos - сервис для хранения и организации фотографий.
* Пример: Автоматическое распознавание лиц и поиск по изображениям.
* Галерея (Gallery) - платформа, которую можно использовать для организации библиотеки.
* Пример: Развернуть за несколько минут с помощью контейнеризации на любой доступной платформе.
* Dawarich - программное обеспечение для создания собственной Google Timeline.
* Пример: Использование данных из Google Timeline для визуализации перемещений.
* Google Takeout - сервис для выгрузки данных из сервисов Google.
* Пример: Выгрузка фотографий из Google Photos.
* NAS (Network Attached Storage) - сетевое хранилище данных.
* Пример: Хранение фотографий и других файлов с доступом из разных устройств в сети.
* Raid - технология, которая позволяет одновременно писать вместо одного SSD на два.
* Пример: Использование для повышения надежности хранения данных.
* CDN (Content Delivery Network) - сеть доставки контента.
* Пример: Cloudflare.
* Cloudflare - сервис, предоставляющий защиту от DDoS-атак и другие функции безопасности.
* Пример: Использование для защиты веб-сайта от вредоносного трафика.
* Proxmox - система виртуализации.
* Пример: Разделение домашних приложений в виртуальных машинах.
* LXC контейнеры - позволяют развернуть Docker и Kubernetes.
* Home Assistant - платформа для автоматизации умного дома.
* Пример: Управление устройствами умного дома.
* AdGuard Home - блокировка рекламы и трекеров на уровне всей сети.
* Пример: Блокировка рекламы на всех устройствах в доме.
* Автоматизация мультимедиа (Sonarr, Radarr и др.) - автоматическая загрузка фильмов и сериалов.
* Пример: Автоматическая загрузка новых серий сериалов.
* Calibre - программное обеспечение, которое позволяет читать FB2, EPUB и другие форматы.
* Jellyfin - медиасервер, который позволяет выводить контент на телевизор.
* Пример: Воспроизведение фильмов на телевизоре по беспроводной сети.
* Plex - медиасервер.
*Пример: Вещание в качестве на телевизоре по UPnP протоколу.
* Open Cloud - позволяет организовать свое облако.
* PhotoPrism - альтернатива для фотографии и фотогалереи, которую можно организовать.
* Grafana - инструменты для мониторинга.
* Synology Quick Connect - сервис для доступа к хранилищу Synology из любого места.
* MailPit - Cлушает на 25-м порту, берет все, что ему отправили без авторизации, и делает доставку на почту.
* Community Scripts - репозиторий, где можно почитать об этой штуке.
Forwarded from Product Sweat 💦
Список полезных ссылок
Proxmox Virtual Environment https://www.proxmox.com
Proxmox Community Scripts https://community-scripts.github.io/ProxmoxVE/scripts – Reddit: r/selfhosted https://www.reddit.com/r/selfhosted/
Reddit: r/homelab https://www.reddit.com/r/homelab/
Reddit: r/homeassistant https://www.reddit.com/r/homeassistant/
GitHub: awesome-selfhosted https://github.com/awesome-selfhosted/awesome-selfhosted
GitHub: SelfHosting Guide https://github.com/mikeroyal/Self-Hosting-Guide
Мини-ПК декабря 2024 https://habr.com/ru/companies/selectel/articles/864784/
Каталог железок CaseEnd https://caseend.com/
Блог Techno Tim https://technotim.live/
YouTube “Wolfgang's Channel” https://www.youtube.com/@WolfgangsChannel
YouTube “Christian Lempa” https://www.youtube.com/@christianlempa
YouTube “Hardware Haven” https://www.youtube.com/@HardwareHaven
YouTube “Jeff Geerling” https://www.youtube.com/watch?v=yoFTL0Zm3tw
Tailscale https://tailscale.com/
Dawarich (собственный Google Timeline) https://dawarich.app
Селфхостед почта на отправку https://github.com/axllent/mailpit
Селфхостед sms to Telegram https://github.com/kutovoys/sms-to-telegram
Proxmox Virtual Environment https://www.proxmox.com
Proxmox Community Scripts https://community-scripts.github.io/ProxmoxVE/scripts – Reddit: r/selfhosted https://www.reddit.com/r/selfhosted/
Reddit: r/homelab https://www.reddit.com/r/homelab/
Reddit: r/homeassistant https://www.reddit.com/r/homeassistant/
GitHub: awesome-selfhosted https://github.com/awesome-selfhosted/awesome-selfhosted
GitHub: SelfHosting Guide https://github.com/mikeroyal/Self-Hosting-Guide
Мини-ПК декабря 2024 https://habr.com/ru/companies/selectel/articles/864784/
Каталог железок CaseEnd https://caseend.com/
Блог Techno Tim https://technotim.live/
YouTube “Wolfgang's Channel” https://www.youtube.com/@WolfgangsChannel
YouTube “Christian Lempa” https://www.youtube.com/@christianlempa
YouTube “Hardware Haven” https://www.youtube.com/@HardwareHaven
YouTube “Jeff Geerling” https://www.youtube.com/watch?v=yoFTL0Zm3tw
Tailscale https://tailscale.com/
Dawarich (собственный Google Timeline) https://dawarich.app
Селфхостед почта на отправку https://github.com/axllent/mailpit
Селфхостед sms to Telegram https://github.com/kutovoys/sms-to-telegram
Proxmox
Proxmox Server Solutions
Proxmox develops powerful and efficient open-source server solutions like the Proxmox VE platform, Proxmox Backup Server, and Proxmox Mail Gateway.
Forwarded from Борис опять
В общем, коротко: SigLIP 2 это лучший на текущий момент CLIP.
К нему приделали все идеи из разных self-supervised методов современного CV и получилось хорошо:
1. Self-distillation при обучении как в DINO/DINOv2. Модель-ученик видит только локальный кроп изображения, модель-учитель (ema от обучаемой модели) глобальный кроп. Так что модель учится по деталям получать те же репрезентации, что и по всей картинке. Это, например, заставляет модель видя нос собаки мысленно "достраивать" всю собаку.
2. Маскировка патчей, что ставит некоторую задачу реконструкции, как в MAE (который Masked Autoencoders от FAIR).
3. Декодер. Прямо при обучении заставляют модель генерировать подписи, ббоксы и подписи к ббоксам. Это, по идее, самое важное: напрямую учат модель связи деталей изображения и текста.
Все это должно полечить вечную проблему клипов, что они хорошо понимают на уровне изображения и плохо понимают детали. Таким образом прошло долгожданное объединение contrastive learning и self supervised подходов.
Ещё подвезли версию устойчивую к разным разрешениям и размерам изображений.
Это конечно Франкенштейн с несколькими лоссами и стадиями тренировки, так что bitter lesson еще придет, но очень круто.
В общем, теперь если нужны какие-то эмбеддинги изображений и текстов берем с полки SigLIP2.
К нему приделали все идеи из разных self-supervised методов современного CV и получилось хорошо:
1. Self-distillation при обучении как в DINO/DINOv2. Модель-ученик видит только локальный кроп изображения, модель-учитель (ema от обучаемой модели) глобальный кроп. Так что модель учится по деталям получать те же репрезентации, что и по всей картинке. Это, например, заставляет модель видя нос собаки мысленно "достраивать" всю собаку.
2. Маскировка патчей, что ставит некоторую задачу реконструкции, как в MAE (который Masked Autoencoders от FAIR).
3. Декодер. Прямо при обучении заставляют модель генерировать подписи, ббоксы и подписи к ббоксам. Это, по идее, самое важное: напрямую учат модель связи деталей изображения и текста.
Все это должно полечить вечную проблему клипов, что они хорошо понимают на уровне изображения и плохо понимают детали. Таким образом прошло долгожданное объединение contrastive learning и self supervised подходов.
Ещё подвезли версию устойчивую к разным разрешениям и размерам изображений.
Это конечно Франкенштейн с несколькими лоссами и стадиями тренировки, так что bitter lesson еще придет, но очень круто.
В общем, теперь если нужны какие-то эмбеддинги изображений и текстов берем с полки SigLIP2.
Forwarded from Reliable ML
Почему во времена AI-революции стоит быть осторожным?
Заметки на полях
Решила тут Ирина почитать последние актуальные книги по GenAI - и по внедрению в прод, и про разное менеджерско-стратегическое. Нашлось как всякое интересное (могу потом сделать обзор, если интересно), так и очень интересное.
Например, книга Chief AI Officer Handbook от Packt Publishing. Которую уже после 1й главы начинаешь подозревать в чем-то нехорошем: уж слишком подозрительно структурирован текст, идеальным языком написаны итоги каждого раздела, а главное - уж больно бессмысленно все это в совокупности. До последнего не хотелось верить, что в такое издательство может проникнуть книга, так неприкрыто написанная LLM/ChatGPT, но более детальный разбор показал, что так оно и есть.
Грусть, возмущение и мысли о том, что бедным издательствам теперь будет трудно, и надо что-то менять, чтобы продолжать оставаться ценными для читаталей. А нам, читателям, тоже надо быть начеку и - если мы хотим получать действительно ценную информацию - уметь отличать сгенерированную LLM инфу от человеческой. Уже даже исследования появляются на тему того, что у человека это неплохо получается - лучше алгоритмов.
В голове - с учетом статей - собираются вот такие критерии для идентификации LLM-подставы:
- Очень характерный стиль изложения: выхолощенная, предсказуемая структура, с четкими абзацами и пошаговым изложением, где жирным выделены главные резюмирующие мысли (в начале каждого абзаца).
- Заключения всегда аккуратные, оптимистичные и резюмирующие
- Часто используются определенные слова. Судя по статье, например, vibrant, crucial, significantly, etc. А по личным наблюдениям, можно даже найти следы промптов в тексте - например step-by-step в заголовках книги про Chief AI Officer.
- Отсутствие понятного посыла или новых/интересных для читателя мыслей. Хотя как единственный критерий это, конечно, не работает. Всякие книги встречаются.
- Фактура спорная, неверная или очень общая. Пример критерия с высоким весом - ссылки на литературу ведут на несуществующие страницы.
- Ни одной (или мало) схем в тексте. У авторов-людей почти всегда есть потребность как-то визуально структурировать и показать наглядно мысли, которые они передают в тексте. Для LLM-текста - человек должен заморочиться отдельным промптом, чтобы собрать подобное. А возможно, даже осмыслить тот текст, который ему написала модель. Это уже существенно отдалит его от полностью сгенеренного.
Есть ли у вас что добавить к списку критериев? Не дадим LLM захватить литературу!
Вот такой вот дивный новый мир. На фоне размышлений о будущем после книги про AI Officers мне вспоминается история из великого башорга. Для тех, кто еще помнит😄
На картинке - скрин из книги с заголовком с кусочком промпта.
Ваш @Reliable ML
#business #мысли #reliable_ml #llm
Заметки на полях
Решила тут Ирина почитать последние актуальные книги по GenAI - и по внедрению в прод, и про разное менеджерско-стратегическое. Нашлось как всякое интересное (могу потом сделать обзор, если интересно), так и очень интересное.
Например, книга Chief AI Officer Handbook от Packt Publishing. Которую уже после 1й главы начинаешь подозревать в чем-то нехорошем: уж слишком подозрительно структурирован текст, идеальным языком написаны итоги каждого раздела, а главное - уж больно бессмысленно все это в совокупности. До последнего не хотелось верить, что в такое издательство может проникнуть книга, так неприкрыто написанная LLM/ChatGPT, но более детальный разбор показал, что так оно и есть.
Грусть, возмущение и мысли о том, что бедным издательствам теперь будет трудно, и надо что-то менять, чтобы продолжать оставаться ценными для читаталей. А нам, читателям, тоже надо быть начеку и - если мы хотим получать действительно ценную информацию - уметь отличать сгенерированную LLM инфу от человеческой. Уже даже исследования появляются на тему того, что у человека это неплохо получается - лучше алгоритмов.
В голове - с учетом статей - собираются вот такие критерии для идентификации LLM-подставы:
- Очень характерный стиль изложения: выхолощенная, предсказуемая структура, с четкими абзацами и пошаговым изложением, где жирным выделены главные резюмирующие мысли (в начале каждого абзаца).
- Заключения всегда аккуратные, оптимистичные и резюмирующие
- Часто используются определенные слова. Судя по статье, например, vibrant, crucial, significantly, etc. А по личным наблюдениям, можно даже найти следы промптов в тексте - например step-by-step в заголовках книги про Chief AI Officer.
- Отсутствие понятного посыла или новых/интересных для читателя мыслей. Хотя как единственный критерий это, конечно, не работает. Всякие книги встречаются.
- Фактура спорная, неверная или очень общая. Пример критерия с высоким весом - ссылки на литературу ведут на несуществующие страницы.
- Ни одной (или мало) схем в тексте. У авторов-людей почти всегда есть потребность как-то визуально структурировать и показать наглядно мысли, которые они передают в тексте. Для LLM-текста - человек должен заморочиться отдельным промптом, чтобы собрать подобное. А возможно, даже осмыслить тот текст, который ему написала модель. Это уже существенно отдалит его от полностью сгенеренного.
Есть ли у вас что добавить к списку критериев? Не дадим LLM захватить литературу!
Вот такой вот дивный новый мир. На фоне размышлений о будущем после книги про AI Officers мне вспоминается история из великого башорга. Для тех, кто еще помнит
На картинке - скрин из книги с заголовком с кусочком промпта.
Ваш @Reliable ML
#business #мысли #reliable_ml #llm
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Data Blog
🔎 Probing GPT model: привет, друзья!
Почему бы и не опубликовать туториал под ночь перед понедельником? Я тоже не вижу препятствий.
Подготовила новый туториал. Карты активации в прошлый раз зашли хорошо, так что по мере сил стараюсь что-то такое интересное добавлять в открытые материалы.
Туториал посвящён зондированию (probing) — простому, но мощному (и красивому иногда) методу для изучения внутренней работы LLM (больших языковых моделей). С его помощью можно получить приближенные знания о паттернах, которые выучивает модель и о том, как эти знания распространяются по слоям.
В туториале рассмотрено:
1. Процесс зондирования на примере GPT2;
2. Анализ информативности скрытых состояний с помощью PCA;
3. Постановку эксперимента (и сам эксперимент) для ответа на вопрос: какой слой по уровню позволяет приближенно решить задачу регресси и хранит информацию по годам?;
Ссылочки:
✔️Код туториала на гитхаб: часть 1, часть 2 (по ссылкам англ версии, но можно провалиться в папку — есть русский).
✔️Статья на Хабр
Добрых вам снов и продуктивной недели!
Ваш Дата-автор!
Почему бы и не опубликовать туториал под ночь перед понедельником? Я тоже не вижу препятствий.
Подготовила новый туториал. Карты активации в прошлый раз зашли хорошо, так что по мере сил стараюсь что-то такое интересное добавлять в открытые материалы.
Туториал посвящён зондированию (probing) — простому, но мощному (и красивому иногда) методу для изучения внутренней работы LLM (больших языковых моделей). С его помощью можно получить приближенные знания о паттернах, которые выучивает модель и о том, как эти знания распространяются по слоям.
В туториале рассмотрено:
1. Процесс зондирования на примере GPT2;
2. Анализ информативности скрытых состояний с помощью PCA;
3. Постановку эксперимента (и сам эксперимент) для ответа на вопрос: какой слой по уровню позволяет приближенно решить задачу регресси и хранит информацию по годам?;
Ссылочки:
✔️Код туториала на гитхаб: часть 1, часть 2 (по ссылкам англ версии, но можно провалиться в папку — есть русский).
✔️Статья на Хабр
Добрых вам снов и продуктивной недели!
Ваш Дата-автор!
Forwarded from Valuable AI / Валентин Малых
китайские товарищи предложили еще одну новую идею: не считать всю огромную матрицу внимания, а выбрать из нее только важные блоки; это и до них пытались делать, вспомнить хотя бы BigBird, но тут коллеги предложили делать выбор по принципу смеси экспертов, то есть ввести специальный роутер, который будет отправлять запрос в нужный блок (фактически - на сравнение с нужной фразой); на картинке слева показана принципиальная схема работы самого модифицированного внимания, а справа - в контексте всего трансформера; в заключение хочу отметить вкус коллег в плане названия - MoBA (ждем YoBA)
P.S. стоит отметить, что Moonshot сразу выложили код, за что им отдельный лайк от меня
P.S. стоит отметить, что Moonshot сразу выложили код, за что им отдельный лайк от меня
Please open Telegram to view this post
VIEW IN TELEGRAM