Dealer.AI
14.4K subscribers
673 photos
46 videos
16 files
703 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai
(реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Результаты в разных связках retrieval+LLM
👍3
Пользователь @pakhandrin из Twitter написал при помощи ChatGPT приложение Курсор, при этом самостоятельно не придумал ни строчки кода.

За наводку спасибо @belozersky

История: https://twitter.com/pakhandrin/status/1640397012502822938?t=odzklZ3B5z7v7V_poXKEVg&s=19
🔥1032👏1
Forwarded from Ilya Gusev
Привет.

Мы тут экспериментируем с instruct-моделями для русского. Вот их список:

instruct_rugptlarge
rugpt_medium_turbo_instructed
rugpt_large_turbo_instructed
rut5_large_turbo_instructed
mt0_xxl_ru_turbo_alpaca_lora
llama_7b_ru_turbo_alpaca_lora


Последняя - русский аналог Стенфордской Альпаки. Изначально я думал, что это не будет работать из-за того, что в обучении из русского там была только ru-wiki, но кажется я ошибся. Работает приемлемо. Насколько приемлемо будем ещё измерять. В карточке есть ссылка на Колаб, а также Spaces (он будет жить ещё 24 часа).

Код обучения и сборки датасета: https://github.com/IlyaGusev/rulm/tree/master/self_instruct.

Что касается датасета, он увеличился до 30к, там добавилась разметка для 3.5к примеров (спасибо всем разметчикам!), а также колонка с альтернативными ответами от ChatGPT, когда её спрашивают каждое задание по отдельности.

Теперь о деньгах. Суммарно 70$ ушло на ChatGPT API для сборки датасета, и 120$ на вычислительные ресурсы для всех экспериментов. Хотите помочь деньгами?
Ссылка для тех, кто не в России: PayPal
Для тех кто в России: Cloudtips

P.S.: "мы" это @alexkuk, @alexnikolich, @YallenGusev, @chckdskeasfsd, @dno5iq
21👍3
Предвыходное чтиво

Рубрика LLAMA в каждый дом

Тут ребята предлагают возможность тюнить на инструкциях свою ламу за 1 час. А всё благодаря, всеми любимыми адаптерам.

На мой взгляд вполне логичное продолжение темы. Заведи свою Ламу у себя на тапке. Обещают не только быструю адаптацию, но и поддержку мультимодальности (текст, картинки и вот это всё).

Го, го, го тестить!

Всем доброй ночи и пятницы развратницы!
🔥13
👍4
👍6
Тут ребзя нашли курс по RL , говорят совместно с deep mind.

Давайте проходите и пилите свой PPO super pro max pluse RLHF

https://youtube.com/playlist?list=PLqYmG7hTraZDVH599EItlEWsUOsJbAodm
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
14👍4👏3😁3👎1😢1
ru-reward model.

Наши коллеги по цеху ведут public активность по открытым LLM, дообученным на инструкциях.

Но думаю, для полного сетапа RLHF+LLM не хватает reward модельки. Поэтому, Ваш покорный слуга, вооружился kaggle kernels и обучил для Вас ru-Bert-base reward.

В качестве основы взяты переводы сетов:

-Антропик
-WebGPT
-GPT-j

Основная информация по сетам, лоссу и архитектуре на обнимашках.

UPD. Важно. Сохранять формат ввода:
Человек: ... Ассистент: .... Человек:... Ассистент:...

Модель работает НЕ только для пар, но и для более длинных контекстов из 2+ пар реплик человек - модель, при этом скорится контекст vs последний ответ модели ассистента.

https://huggingface.co/Andrilko/ruBert-base-reward
👍256
Внезапно лента выдала мне интересное.
Говорят, что скоро NVIDIA будет не нужОн, AMD решения в тч Radeon взяли в оборот на Pytorch2 🤔
🔥163
сгенерил тут себе с ходу 4 варианта для новой Авы канала. Выбрал пару.
Генератор туть: @kandinsky21_bot
Какую картинку взять?
Final Results
42%
Первую
26%
Вторую
40%
Оставь текущую
Кажется я нашел секретного автора музыки поп звёзд...

З. Ы. Всё ещё можно хакнуть?
😁142🤯1
Тут все разом принялись щемить OpenAI за её GPT like решения.
Среди стран : Италия, Германия, Нидерланды и др.
А ещё тут Канада движ начинает
https://www.priv.gc.ca/en/opc-news/news-and-announcements/2023/an_230404/

И тут, неожиданно, OpenAI решила рассказать о своих решениях и теме безопасности в них. Думаю, что такая паблик активность поможет им отстоять в тч себя перед госами.

https://openai.com/blog/our-approach-to-ai-safety
This media is not supported in your browser
VIEW IN TELEGRAM
Мир вокруг Kandinsky 2.1

Забрал у @belozersky
👍104
Мои коллеги, выложили таки чекпоинт FRED-T5.

Уже попробовал чекпоинт в своём multitask. Буду очень ждать версию с MLM на encoder. А пока, думаю лучшее - это text2text применение.


Подробнее https://t.me/nlpcoreteam/11
🔥9👍2🆒2
Ломай меня, ломай меня полностью(с)Open.Ai

Компания OpenAI запустила программу по поиску уязвимостей в своих решениях ChatGPT/GPT-4 , называется эта красота bug bounty. При этом партнером стала платформа Bugcrowd, которая будет собирать заявки пользователей и управлять выплатами вознаграждений.

Сумма выплат начинается от 200$ и заканчивается до 20тыс.$, за экстра находки! При этом есть исключения на выплаты, они не производятся, если находки завязаны на ответы модели.
👍6
Полуночное такси чтиво.
RL для метаоптимизации retrieval based систем.

Коллеги из Amazon выпустили очень интересный обзор на тему улучшения поисковых систем, путём внедрения RL на уровне оркестрации компонент системы.

В чем суть. Однажды я уже рассказывал, как можно с помощью RL-critic улучшить свойства полноконтекстного поиска. А теперь, коллеги из Amazon предлагают выйти на уровень выше. Пусть у нас есть несколько источников кандидатов для поиска: bm25 индекс, SBERT+KNN, ODQA/KGQA системы и тп. Давайте, мы надстроим сверху алгоритм многоруких бандитов (MAB) целью которого будет выбор оптимальной стратегии извлечения кандидатов для переранжирования. Зададим ему функцию цели такую, что на каждый запрос пользователя, MAB будет выдавать условно вектор из 0 и 1 , маскируя/выключая и включая нужные компоненты нашей системы. На выходе мы будем получать разный пулл кандидатов от них, далее замерять функцию полезности, например ожидаемое число кликов, recall@K , да всё что вы сможете оцифровать и оценить.

Таким образом мы решаем несколько проблем:
1) Упрощаем системы поиска с несколькими источниками на инференсе.

2) Покрываем парадигму исследуй или эксплуатируй. Посредством выбора или надёжных источников или неожиданных генераторов (привет decoder like GPT и тп)

3) Повышаем качество выдачи за счёт самой цели MAB.

Остаётся главный вопрос, как быть с инференсом: скорость изменения реакции на действия юзера, возможность быстро менять стратегии, вообще дизайн такой системы и тп.

Но тут это отсылает нас к real time системам рекомендаций на основе MAB. А это уже совсем другая история.
👍32