Друзья, а как вы чистите текстовые данные?
Ковыряюсь с libgen'ом (~2Tb книг), датасет большой и разнообразный, но большинство из текстов — это конвертация в txt из разных форматов типа pdf, со всеми вытекающими.
После чистки все же остается достаточно артефактов (примеры на картинках): разъехавшиеся формулы и таблицы, издательская информация, слова со всеми буквами через пробел. Иногда есть бессмысленные строки посреди нормального текста.
👉 Поделитесь своим опытом в этом деле.
🔥 Upd. Предложения
🔸 Эвристики на словарях
🔸 Фильтры моделями по семантической близости
🔸 По перплексии
🔸 По энтропии (считаем коэфф-т сжатия)
🔸 Чувствительный к ошибкам классификатор на n-граммах
🔸 По языку
🔸 Еще эвристики на регулярках
Ковыряюсь с libgen'ом (~2Tb книг), датасет большой и разнообразный, но большинство из текстов — это конвертация в txt из разных форматов типа pdf, со всеми вытекающими.
После чистки все же остается достаточно артефактов (примеры на картинках): разъехавшиеся формулы и таблицы, издательская информация, слова со всеми буквами через пробел. Иногда есть бессмысленные строки посреди нормального текста.
👉 Поделитесь своим опытом в этом деле.
🔥 Upd. Предложения
🔸 Эвристики на словарях
🔸 Фильтры моделями по семантической близости
🔸 По перплексии
🔸 По энтропии (считаем коэфф-т сжатия)
🔸 Чувствительный к ошибкам классификатор на n-граммах
🔸 По языку
🔸 Еще эвристики на регулярках
👀14👍11🔥4🤓1
🔺 Тренируем с коллегами одну модель. Потихоньку просыпается!
Программист, забывший пароли,
Взламывает компьютеры богов.
Судьба программиста — познать печаль.
Программист, забывший пароли,
Взламывает компьютеры богов.
Судьба программиста — познать печаль.
🔥44😁14⚡2✍2🥴2👍1
🔺 ChatGPT и Whisper стали доступны по API
В первый день весны OpenAI заоптимизировали свои модели (говорят, что теперь тратят на 90% меньше ресурсов чем два месяца назад) и сделали их доступными по API.
Теперь можно встраивать в свои приложения генерацию контента через ChatGPT и распознавание речи через Whisper (97 языков).
Цена за ASR — $0.006/минута аудио, за ChatGPT — $0.002/тыс. токенов.
👉 Пост
В первый день весны OpenAI заоптимизировали свои модели (говорят, что теперь тратят на 90% меньше ресурсов чем два месяца назад) и сделали их доступными по API.
Теперь можно встраивать в свои приложения генерацию контента через ChatGPT и распознавание речи через Whisper (97 языков).
Цена за ASR — $0.006/минута аудио, за ChatGPT — $0.002/тыс. токенов.
👉 Пост
Openai
Introducing ChatGPT and Whisper APIs
Developers can now integrate ChatGPT and Whisper models into their apps and products through our API.
🔥32😱5👍3❤1⚡1
Forwarded from AbstractDL
GPT теперь принимает на вход эмбеддинги
Наконец! В
За последние годы вышло много работ, которые предлагают использовать этот механизм для таких штук как мультимодальный диалог и p-tuning, но приходилось сильно извращаться чтобы совместить эти подходы с генерацией текста. А теперь это можно сделать в одну строчку! Cоединять текст, картинки и звук теперь будет ещё проще!
Поддержка уже есть для GPT-2, GPT-j, BLOOM, BioGPT, но надо будет установить версию
GitHub
Наконец! В
transformers добавлена поддержка эмбеддингов в качестве инпута для полноценной генерации в GPT-like моделях.За последние годы вышло много работ, которые предлагают использовать этот механизм для таких штук как мультимодальный диалог и p-tuning, но приходилось сильно извращаться чтобы совместить эти подходы с генерацией текста. А теперь это можно сделать в одну строчку! Cоединять текст, картинки и звук теперь будет ещё проще!
Поддержка уже есть для GPT-2, GPT-j, BLOOM, BioGPT, но надо будет установить версию
4.27.0.GitHub
🔥21👍6⚡3💯1
🔺 Новый Bing
Давайте посмотрим на то, как у Microsoft получается встраивать ChatGPT в свою поисковую систему. Как раз дали доступ к новому режиму, так что можно поиграться.
1️⃣ Во-первых, настройки генерации модели оформили в виде трех режимов — креативный, сбалансированный и точный.
2️⃣ Во-вторых, в отличие от демо OpenAI теперь у модели есть выход в интернет и перед ответом она лезет в API Bing'a, набирая к себе в контекст часть поисковой выдачи. Вот тут можно подробнее почитать про подход WebGPT. Это позволяет отвечать на актуальные темы, которых не было в претрейне модели. В случае с демо ChatGPT, из ее затравки следовало, что она была ограниченна данными на конец 2021 года.
3️⃣ В-третьих, обратил внимание на различные детали — в выдачу добавили эмодзи, а после каждого ответа выдается по три варианта продолжения диалога. Количество же шагов диалога с моделью ограничено 8-ю, после чего выдается "Sorry, this conversation has reached its limit".
〰️ Кроме того, в отличие от последнего демо ChatGPT иногда идут довольно душные ответы, типа на "сочини оду про что-то" модель может ответить
Давайте посмотрим на то, как у Microsoft получается встраивать ChatGPT в свою поисковую систему. Как раз дали доступ к новому режиму, так что можно поиграться.
1️⃣ Во-первых, настройки генерации модели оформили в виде трех режимов — креативный, сбалансированный и точный.
2️⃣ Во-вторых, в отличие от демо OpenAI теперь у модели есть выход в интернет и перед ответом она лезет в API Bing'a, набирая к себе в контекст часть поисковой выдачи. Вот тут можно подробнее почитать про подход WebGPT. Это позволяет отвечать на актуальные темы, которых не было в претрейне модели. В случае с демо ChatGPT, из ее затравки следовало, что она была ограниченна данными на конец 2021 года.
3️⃣ В-третьих, обратил внимание на различные детали — в выдачу добавили эмодзи, а после каждого ответа выдается по три варианта продолжения диалога. Количество же шагов диалога с моделью ограничено 8-ю, после чего выдается "Sorry, this conversation has reached its limit".
〰️ Кроме того, в отличие от последнего демо ChatGPT иногда идут довольно душные ответы, типа на "сочини оду про что-то" модель может ответить
"ода должна восхвалять что-то, а то, о чем вы спрашиваете этого не заслуживает" 😁👉 Upd. Не всегда достает из поиска последние события. К примеру, не может ответить как сегодня сыграла какая-то команда в футбол, хотя в выдаче это идет первой ссылкой. (Скрин в комментариях).
👍11🔥5❤🔥1🤯1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁34🎉10❤🔥8👍3😱1🤓1
🔺 Карта языковых моделей
Обновил свою интерактивную визуализацию мультиязыковых моделей на карте.
Добавил туда LLaMA, также есть BLOOM, mt5 и mGPT.
Сделал на plotly, если кто не еще пробовал, то рекомендую.
👉 В репозитории есть скрипт для создания визуализации, если кто-то захочет сделать что-то свое.
Карта | Скрипт
Обновил свою интерактивную визуализацию мультиязыковых моделей на карте.
Добавил туда LLaMA, также есть BLOOM, mt5 и mGPT.
Сделал на plotly, если кто не еще пробовал, то рекомендую.
👉 В репозитории есть скрипт для создания визуализации, если кто-то захочет сделать что-то свое.
Карта | Скрипт
🔥15👍5❤🔥2⚡1❤1👌1
🔺 ChatGPT на коленке
Появился интересный репозиторий под названием ChatLLaMA. Авторы собрали пайплайн для тренировки персонализированного ChatGPT-like ассистента на основе открытых моделей (базовая модель + reward + RLHF). Человеческая оценка происходит тоже через модели — либо платно через API к OpenAI, либо моделью с huggingface.
В примере из репы после подготовки данных все делается в три команды.
👉 GitHub
Появился интересный репозиторий под названием ChatLLaMA. Авторы собрали пайплайн для тренировки персонализированного ChatGPT-like ассистента на основе открытых моделей (базовая модель + reward + RLHF). Человеческая оценка происходит тоже через модели — либо платно через API к OpenAI, либо моделью с huggingface.
В примере из репы после подготовки данных все делается в три команды.
👉 GitHub
🔥35👍4✍2⚡2🏆1
🔺 Продолжаем с коллегами работать над моделью. Стало еще чуть лучше.
» Напиши песню про тимлида
Как скажете.
Первый куплет:
Тимлид — нервный тип,
Он проводит дни напролёт,
Разработчики сходят с ума,
Потому что он ничего не делает.
Припев:
Кто же будет кодить, если не мы?
Кто же будет кодить, если не мы?
Кто же будет кодить, если не мы?
» Напиши песню про тимлида
Как скажете.
Первый куплет:
Тимлид — нервный тип,
Он проводит дни напролёт,
Разработчики сходят с ума,
Потому что он ничего не делает.
Припев:
Кто же будет кодить, если не мы?
Кто же будет кодить, если не мы?
Кто же будет кодить, если не мы?
🔥32😁21🆒6❤🔥4👍2🍾2❤1