Предвыходное чтиво
Рубрика LLAMA в каждый дом
Тут ребята предлагают возможность тюнить на инструкциях свою ламу за 1 час. А всё благодаря, всеми любимыми адаптерам.
На мой взгляд вполне логичное продолжение темы. Заведи свою Ламу у себя на тапке. Обещают не только быструю адаптацию, но и поддержку мультимодальности (текст, картинки и вот это всё).
Го, го, го тестить!
Всем доброй ночи и пятницы развратницы!
Рубрика LLAMA в каждый дом
Тут ребята предлагают возможность тюнить на инструкциях свою ламу за 1 час. А всё благодаря, всеми любимыми адаптерам.
На мой взгляд вполне логичное продолжение темы. Заведи свою Ламу у себя на тапке. Обещают не только быструю адаптацию, но и поддержку мультимодальности (текст, картинки и вот это всё).
Го, го, го тестить!
Всем доброй ночи и пятницы развратницы!
GitHub
GitHub - ZrrSkywalker/LLaMA-Adapter: Fine-tuning LLaMA to follow Instructions within 1 Hour and 1.2M Parameters
Fine-tuning LLaMA to follow Instructions within 1 Hour and 1.2M Parameters - ZrrSkywalker/LLaMA-Adapter
🔥13
Тут ребзя нашли курс по RL , говорят совместно с deep mind.
Давайте проходите и пилите свой PPO super pro max pluse RLHF
https://youtube.com/playlist?list=PLqYmG7hTraZDVH599EItlEWsUOsJbAodm
Давайте проходите и пилите свой PPO super pro max pluse RLHF
https://youtube.com/playlist?list=PLqYmG7hTraZDVH599EItlEWsUOsJbAodm
👍8
ru-reward model.
Наши коллеги по цеху ведут public активность по открытым LLM, дообученным на инструкциях.
Но думаю, для полного сетапа RLHF+LLM не хватает reward модельки. Поэтому, Ваш покорный слуга, вооружился kaggle kernels и обучил для Вас ru-Bert-base reward.
В качестве основы взяты переводы сетов:
-Антропик
-WebGPT
-GPT-j
Основная информация по сетам, лоссу и архитектуре на обнимашках.
UPD. Важно. Сохранять формат ввода:
Человек: ... Ассистент: .... Человек:... Ассистент:...
Модель работает НЕ только для пар, но и для более длинных контекстов из 2+ пар реплик человек - модель, при этом скорится контекст vs последний ответ модели ассистента.
https://huggingface.co/Andrilko/ruBert-base-reward
Наши коллеги по цеху ведут public активность по открытым LLM, дообученным на инструкциях.
Но думаю, для полного сетапа RLHF+LLM не хватает reward модельки. Поэтому, Ваш покорный слуга, вооружился kaggle kernels и обучил для Вас ru-Bert-base reward.
В качестве основы взяты переводы сетов:
-Антропик
-WebGPT
-GPT-j
Основная информация по сетам, лоссу и архитектуре на обнимашках.
UPD. Важно. Сохранять формат ввода:
Человек: ... Ассистент: .... Человек:... Ассистент:...
Модель работает НЕ только для пар, но и для более длинных контекстов из 2+ пар реплик человек - модель, при этом скорится контекст vs последний ответ модели ассистента.
https://huggingface.co/Andrilko/ruBert-base-reward
huggingface.co
Andrilko/ruBert-base-reward · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍25❤6
Внезапно лента выдала мне интересное.
Говорят, что скоро NVIDIA будет не нужОн, AMD решения в тч Radeon взяли в оборот на Pytorch2 🤔
Говорят, что скоро NVIDIA будет не нужОн, AMD решения в тч Radeon взяли в оборот на Pytorch2 🤔
PyTorch
Experience the power of PyTorch 2.0 on AMD Solutions
PyTorch 2.0 represents a significant step forward for the PyTorch machine learning framework. The stable release of PyTorch 2.0 brings new features that unlock even higher performance, while remaining backward compatible with prior releases and retaining…
🔥16❤3
Мои хорошие други, заононсили наконец-то Kandinsky 2.1!!!!
Если что, это не аналог ru Mid journey, это чисто решение ребят на диффузиях с хаками своими.
Налетай!!!
https://t.me/complete_ai/108
Если что, это не аналог ru Mid journey, это чисто решение ребят на диффузиях с хаками своими.
Налетай!!!
https://t.me/complete_ai/108
Telegram
Complete AI
🚀Kandinsky 2.1🚀
Наступил день, которого ждала вся команда (вовсе не тот, который стал всплывать в разных каналах на прошлой неделе😂). Сегодня мы официально выпускаем новую лучшую версию нашей диффузионной генеративной модели, которая претерпела существенные…
Наступил день, которого ждала вся команда (вовсе не тот, который стал всплывать в разных каналах на прошлой неделе😂). Сегодня мы официально выпускаем новую лучшую версию нашей диффузионной генеративной модели, которая претерпела существенные…
❤4
сгенерил тут себе с ходу 4 варианта для новой Авы канала. Выбрал пару.
Генератор туть: @kandinsky21_bot
Генератор туть: @kandinsky21_bot
Тут все разом принялись щемить OpenAI за её GPT like решения.
Среди стран : Италия, Германия, Нидерланды и др.
А ещё тут Канада движ начинает
https://www.priv.gc.ca/en/opc-news/news-and-announcements/2023/an_230404/
И тут, неожиданно, OpenAI решила рассказать о своих решениях и теме безопасности в них. Думаю, что такая паблик активность поможет им отстоять в тч себя перед госами.
https://openai.com/blog/our-approach-to-ai-safety
Среди стран : Италия, Германия, Нидерланды и др.
А ещё тут Канада движ начинает
https://www.priv.gc.ca/en/opc-news/news-and-announcements/2023/an_230404/
И тут, неожиданно, OpenAI решила рассказать о своих решениях и теме безопасности в них. Думаю, что такая паблик активность поможет им отстоять в тч себя перед госами.
https://openai.com/blog/our-approach-to-ai-safety
Openai
Our approach to AI safety
Ensuring that AI systems are built, deployed, and used safely is critical to our mission.
Мои коллеги, выложили таки чекпоинт FRED-T5.
Уже попробовал чекпоинт в своём multitask. Буду очень ждать версию с MLM на encoder. А пока, думаю лучшее - это text2text применение.
Подробнее https://t.me/nlpcoreteam/11
Уже попробовал чекпоинт в своём multitask. Буду очень ждать версию с MLM на encoder. А пока, думаю лучшее - это text2text применение.
Подробнее https://t.me/nlpcoreteam/11
huggingface.co
ai-forever/FRED-T5-1.7B at main
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥9👍2🆒2
Ломай меня, ломай меня полностью(с)Open.Ai
Компания OpenAI запустила программу по поиску уязвимостей в своих решениях ChatGPT/GPT-4 , называется эта красота bug bounty. При этом партнером стала платформа Bugcrowd, которая будет собирать заявки пользователей и управлять выплатами вознаграждений.
Сумма выплат начинается от 200$ и заканчивается до 20тыс.$, за экстра находки! При этом есть исключения на выплаты, они не производятся, если находки завязаны на ответы модели.
Компания OpenAI запустила программу по поиску уязвимостей в своих решениях ChatGPT/GPT-4 , называется эта красота bug bounty. При этом партнером стала платформа Bugcrowd, которая будет собирать заявки пользователей и управлять выплатами вознаграждений.
Сумма выплат начинается от 200$ и заканчивается до 20тыс.$, за экстра находки! При этом есть исключения на выплаты, они не производятся, если находки завязаны на ответы модели.
Openai
Announcing OpenAI’s Bug Bounty Program
This initiative is essential to our commitment to develop safe and advanced AI. As we create technology and services that are secure, reliable, and trustworthy, we need your help.
👍6
Мой, хороший друже ака @belozersky, поставщик мемов и интересных ссылок на около AI темы, открыл свой канал.
Вообще он клёвый UI/UX дизайнер, лид и просто крутой чел.
Залетай.
Вообще он клёвый UI/UX дизайнер, лид и просто крутой чел.
Залетай.
Telegram
snzdo
Еще парочку AI сервисов, на которые наткнулся и которые показались мне интересными.
1. https://playgroundai.com/create
Сервис, позволяющий создавать картинки из текста, используя Stable Diffusion или DALLE-2. Кстати, спасибо ему за картинку этого поста.…
1. https://playgroundai.com/create
Сервис, позволяющий создавать картинки из текста, используя Stable Diffusion или DALLE-2. Кстати, спасибо ему за картинку этого поста.…
👍3👎1🤯1
Полуночное такси чтиво.
RL для метаоптимизации retrieval based систем.
Коллеги из Amazon выпустили очень интересный обзор на тему улучшения поисковых систем, путём внедрения RL на уровне оркестрации компонент системы.
В чем суть. Однажды я уже рассказывал, как можно с помощью RL-critic улучшить свойства полноконтекстного поиска. А теперь, коллеги из Amazon предлагают выйти на уровень выше. Пусть у нас есть несколько источников кандидатов для поиска: bm25 индекс, SBERT+KNN, ODQA/KGQA системы и тп. Давайте, мы надстроим сверху алгоритм многоруких бандитов (MAB) целью которого будет выбор оптимальной стратегии извлечения кандидатов для переранжирования. Зададим ему функцию цели такую, что на каждый запрос пользователя, MAB будет выдавать условно вектор из 0 и 1 , маскируя/выключая и включая нужные компоненты нашей системы. На выходе мы будем получать разный пулл кандидатов от них, далее замерять функцию полезности, например ожидаемое число кликов, recall@K , да всё что вы сможете оцифровать и оценить.
Таким образом мы решаем несколько проблем:
1) Упрощаем системы поиска с несколькими источниками на инференсе.
2) Покрываем парадигму исследуй или эксплуатируй. Посредством выбора или надёжных источников или неожиданных генераторов (привет decoder like GPT и тп)
3) Повышаем качество выдачи за счёт самой цели MAB.
Остаётся главный вопрос, как быть с инференсом: скорость изменения реакции на действия юзера, возможность быстро менять стратегии, вообще дизайн такой системы и тп.
Но тут это отсылает нас к real time системам рекомендаций на основе MAB. А это уже совсем другая история.
RL для метаоптимизации retrieval based систем.
Коллеги из Amazon выпустили очень интересный обзор на тему улучшения поисковых систем, путём внедрения RL на уровне оркестрации компонент системы.
В чем суть. Однажды я уже рассказывал, как можно с помощью RL-critic улучшить свойства полноконтекстного поиска. А теперь, коллеги из Amazon предлагают выйти на уровень выше. Пусть у нас есть несколько источников кандидатов для поиска: bm25 индекс, SBERT+KNN, ODQA/KGQA системы и тп. Давайте, мы надстроим сверху алгоритм многоруких бандитов (MAB) целью которого будет выбор оптимальной стратегии извлечения кандидатов для переранжирования. Зададим ему функцию цели такую, что на каждый запрос пользователя, MAB будет выдавать условно вектор из 0 и 1 , маскируя/выключая и включая нужные компоненты нашей системы. На выходе мы будем получать разный пулл кандидатов от них, далее замерять функцию полезности, например ожидаемое число кликов, recall@K , да всё что вы сможете оцифровать и оценить.
Таким образом мы решаем несколько проблем:
1) Упрощаем системы поиска с несколькими источниками на инференсе.
2) Покрываем парадигму исследуй или эксплуатируй. Посредством выбора или надёжных источников или неожиданных генераторов (привет decoder like GPT и тп)
3) Повышаем качество выдачи за счёт самой цели MAB.
Остаётся главный вопрос, как быть с инференсом: скорость изменения реакции на действия юзера, возможность быстро менять стратегии, вообще дизайн такой системы и тп.
Но тут это отсылает нас к real time системам рекомендаций на основе MAB. А это уже совсем другая история.
Amazon Science
From structured search to learning-to-rank-and-retrieve
Using reinforcement learning improves candidate selection and ranking for search, ad platforms, and recommender systems.
👍3❤2
Nudes from Cl4d14.
Да да вы не ошиблись в прочтении заголовка. Тут, какие-то чуваки в шутку сделали аккаунт девушки по имени Клаудиа на реддит и начали продавать ее нюдсы за шекели. Потом сознались, что это было MIdJouney, но реддит уже зациклилися:)
Кста, нашел у этих ребят:
https://aiornot.optic.xyz/
Да да вы не ошиблись в прочтении заголовка. Тут, какие-то чуваки в шутку сделали аккаунт девушки по имени Клаудиа на реддит и начали продавать ее нюдсы за шекели. Потом сознались, что это было MIdJouney, но реддит уже зациклилися:)
Кста, нашел у этих ребят:
https://aiornot.optic.xyz/
Reddit
[Mature Content] Check out Cl4ud14_’s Reddit profile
Explore Cl4ud14_’s posts and comments on Reddit
👍2
🍌5🌭3