Dealer.AI
15.7K subscribers
722 photos
46 videos
19 files
776 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: теория, приклад и meme👾

Head of AI в ритейл; AI-визионер и энтузиаст.

Для связи @dealer_ai
(реклама и консультации по AI для бизнеса).

РКН: 6348592885
Download Telegram
Токенизируй меня полностью.

Наверняка, вы уже посмотрели замечательное видео от Карпаты про токенизацию в языковых моделях. Если нет, бегом смотреть.

Далее, советую ознакомиться с еще одной мерой описания информации на токен - фертильность. Понятие старое, придуманное еще IBM в далекие 90-е, в рамках машинного перевода. Основная интуиция, лежащая в основе манипуляций с фертильностью, заключалась в том, что одно понятие может быть выражено на английском языке множеством непересекающихся слов. То же справедливо, конечно и для ру языка.

Вопрос: Зачем нужна фертильность? Ответ: Для оценки эффективности словаря.

В языковых моделях мы можем рассматривать число сабвордов/токенов на одно реальное слово. Тогда для словаря только из лексем (реальных слов) фертильность будет равна 1, тк один токен = 1 реальное слово. Но у слов есть словоформы зависящие от числа рода и падежа и тп. Так словарь будет разбухать от сингл лексем, будет пухнуть эмб матрица -> расти модель, время на обучение и тп.

Эффективнее разумеется переходить к сабвордам, тк из их комбинаций можно собрать много слов. Таким образом, вся эта токенизация при помощи bpe/bbpe/wpiece/spiece и др. предстает перед нами с другой стороны. И как мы оцениваем нормальность LLM через перплексию, так мы можем оценить эффективность словаря добавив еще и фертильность. Для примера, в данной работе, авторы при создании многоязычного словаря и токенизатора к нему, проводят непрямое расширение словаря. Для этого они заменяют низкочастотные лексемы одного языка на соответствующие частотные другого, устремляя фертильность расширенного словаря к изначальному монолингвальному (тут я еще сам осознаю как это работает, ибо не лингвист).

Что дальше?

А дальше, можно потыкать вот такую тулзу на HF для демо работы токенизации: https://huggingface.co/spaces/Xenova/the-tokenizer-playground

Посмотреть обзор multiling-bert словаря на предмет покрытия токенов, в тч с расчетом фертильности:
https://juditacs.github.io/2019/02/19/bert-tokenization-stats.html

Почитать про фертильность "мохнатого" года статью.
15🔥3
много картинок про фертильность
multiling-bert словаря для разных языков.

Фертильность указана над графиком.

https://juditacs.github.io/assets/bert_vocab/bert_sent_len_full_fertility_sorted.png
5
Балалайка, березка, Matryoshka.

Выпустили концептуальный гайд по эмбам матрехи на hf. Красивые картиносы матрех и схемы, концепты теории и примеры на sentence-transformers.

Ну че тут рассказывать? Все просто берем embs и вдоль dim нарезаем по нарастающей, сводим саб эмбы и эмбы в конвеере metric learning на нужной датке в NLI, STS или qa задачках. Хочешь сводишь все на одном и том же, хочешь каждому эмбу из нарезки сообщаешь свою таску.

В чем польза?
1. Меньше индекс - на поверхности.
2. Возможность строить быстрые каскадные пайпы ранжирования. Преранк, например, на full index с маленьким эмбом (так быстрее), далее сложные примеры на more big эмбах, итоговый реранк в топ1 на жирнючем.

Код в блоге присутствует. Поэтому дерзайте.
👍18🔥2🦄21
Forwarded from AbstractDL
Do Large Language Models Latently Perform Multi-Hop Reasoning? (by Google)

Авторы обнаружили, что если вопрос сформулирован неявно, то LLM уже во время его чтения "пытаются" подставить промежуточный шаг рассуждений в латентном пространстве. Например, для эмбеддингов последних токенов этого вопроса
Сколько людей живут в крупнейшем городе Европы?

растут логиты, соответствующие слову "Стамбул".

Выходит, что на промежуточных слоях происходит multi-hop reasoning. Пока авторы нашли подтверждение этому максимум до 2 шагов рассуждений, причём качество первого шага растёт по мере увеличения модели, а вот второй шаг размазывается по всем слоям и почему-то не сильно зависит от размеров LLM.

Статья
👍12🔥72🤔1
Генеративные модели достигли в программировании уровня сеньоров
😁62
Сергей Марков: машинное обучение, искусство и шитпостинг
Генеративные модели достигли в программировании уровня сеньоров
Добавлю комментарии источника:

"зелёное написал человек, а Copilot предлагает продолжение в виде серого текста".

Вот так еще веселее)

Надеюсь там нет кода: "не запускай - убьет" или "я бы не лез сюда, ты еще молодой ... ".
😁4
Forwarded from Complete AI (Andrey Kuznetsov)
Вот и статья про Sora пожаловала от OpenAI
(А точнее от Lehigh University и Microsoft Research)

Сделать разбор статьи о том, что внутри?

PDF

@complete_ai
💯53👍4🥴1
Последний день этого отпуска. Читал Макиавелли. Принцип лисы и льва: "лиса обойдет ловушки, а лев даст бой, если нужно".

А я блин пока медвед с балалайкой.

А кто вы?
😁181👎1
Восстанови промт, если сможешь.

Новое соревнование на kaggle:
LLM Prompt Recovery | Kaggle

По уже новой традиции соревок с LLM (к примеру LLM detect):

- Трейна неть (ходите генерите сами) 🤨

- Тест 1400 семплов, но мы его вам не дадим, у вас докУментов нету 🤣

Из плюсов понятна моделька, из которой все это безобразие* идет: Gemma2b или все же 7/9b? 😀
Не ясны параметры генерации (врубаем брутфорс перебор).

Че там наделали с ней? Взяли исходный промпт кожАных, переписали его с Gemma, далее получили по этому промпту конечную генерацию. Воть, далее извольте определить, измененный промпт из теста и генерация совместны или нет.

Метрика косинус между векторным представлением промпта вашего решения и верным ответом. Эмбы получают с помощью sentence-t5 модели.

Подстава в том, что у нас нет опорных затравок для переписывания промпта с Gemma. Следовательно, придется выдумывать самому (трансферить стиль на 1 данном примере с LLM я как-то не вижу смысла).

* gemma в последнее время = безобразие ;)
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Знаю, кому понравится этот видос...


Спасибо подписчикам.
😁56🔥53🍌1
Dealer.AI
Знаю, кому понравится этот видос... Спасибо подписчикам.
блин, как же хорошо в отпуск сходил.

продолжаем👇
🔥6😁1
Верим или осуждаем? 👇
⚡️Маск: OpenAI уже достигли AGI и подал в суд против Open AI и Сэма Альтмана за нарушение контракта.

Илон Маск подал иск против OpenAI за нарушение контракта, фидуциарных обязанностей и недобросовестную деловую практику и просит OpenAI вернуться к открытому исходному коду и поделиться всеми своими исследованиями на благо человечества.

Маск утверждает, что OpenAI уже достигли AGI и, таким образом, выходят за рамки соглашения с Microsoft, которое применимо только к технологиям, предшествующим AGI.

По сути, Маск утверждает, что с GPT-4 они уже достигли порога AGI, и, не открывая исходный код GPT-4, они нарушают Учредительное соглашение.

«Похоже, что Q* может сейчас или в будущем стать частью 6, еще более ясного и яркого примера общего искусственного интеллекта, разработанного OpenAI».

Интересно, что Маск требует судебного решения по аргументу о том, что GPT-4, Q* и «LLM следующего поколения, находящиеся в настоящее время в разработке», представляют собой AGI.
😁17👍9🔥3🤡3🦄1