Больше GPT богу GPT. Ну и конечно конкуренции..
Надеюсь это не новое название Балабобы или YaLM
Говорят, YandexGPT "вышло" или нет?
UPD. Разные люди из Ya говорят, что это не тот GPT, что аналог ChatGPT. Поэтому расходимся. :(
https://yandex.ru/company/press_releases/2023/17-05-2
Надеюсь это не новое название Балабобы или YaLM
Говорят, YandexGPT "вышло" или нет?
UPD. Разные люди из Ya говорят, что это не тот GPT, что аналог ChatGPT. Поэтому расходимся. :(
https://yandex.ru/company/press_releases/2023/17-05-2
🔥4🖕1
Интересная пресс-заметка. Во-первых, YaGPT получается аналог ruGPT-3 как на Джой Sber. Далее, видимо она SFT, возможно не только диалоги/поиск/qa, но и инструкции only? Ещё замечаем, что мол, якобы, не умеет пока в контекст (см в что дальше). Крч, кому-то в PR Yandex сегодня прилетит. Ждём статьи, где будут расставлены точки над Ya..
❤3😁1🖕1
Решение алго задачек. Неплохо. Особенно порадовал локальный поиск. Собесы А секции на джуна в Ya пройти думаю можно)
🔥21❤2👍2👎2🤔1
А я напоминаю, что вчера начался датафест 2023.
Прямая трансляция индастриал секции, к примеру, по ссылке. Там же можно найти и другие.
https://t.me/ods_habr/24
Прямая трансляция индастриал секции, к примеру, по ссылке. Там же можно найти и другие.
https://t.me/ods_habr/24
Telegram
ODS Habr blog 🦜
Далее огненные доклады из секции "ML в производстве"!
https://www.youtube.com/live/wi4Fo6rO2vU?feature=share
https://www.youtube.com/live/wi4Fo6rO2vU?feature=share
👍4🗿1
В одном из рабочих чатов по DL NLP идёт интересная беседа.
-Половина говорит, что батч надо увеличивать при продвижении по трейну, половина, что батч надо уменьшать...
-Отсюда вывод: батч надо шатать!
Улыбнуло очень , сразу вспомнил мем для олдов:
Я твой батч труба шатал(с)
За ситуацию и мудрость спасибо: @oulenspiegel, @dayyass
-Половина говорит, что батч надо увеличивать при продвижении по трейну, половина, что батч надо уменьшать...
-Отсюда вывод: батч надо шатать!
Улыбнуло очень , сразу вспомнил мем для олдов:
Я твой батч труба шатал(с)
За ситуацию и мудрость спасибо: @oulenspiegel, @dayyass
😁25🤡5❤3
Готовится, что-то интересное. Естественно про NLP, конечно же с retrieval , ну и куда без RLHF.
Картинка - база. Расскажу офк не что-то с HuggingFace)
Ждём Вас завтра в 18-00 на трансляции DataFest2023. Трек InstructModels and RLHF для NLP.
https://youtube.com/@ODSAIRu
Картинка - база. Расскажу офк не что-то с HuggingFace)
Ждём Вас завтра в 18-00 на трансляции DataFest2023. Трек InstructModels and RLHF для NLP.
https://youtube.com/@ODSAIRu
🔥17❤2👍1
Други сегодня был крутой день. #DataFest2023 Секция InstructModels удалась.
Выступили мои хорошие знакомые и друзья. Да и сам рядом постоял, чет побухтел) надеюсь Вам понравилось.
Презентация ниже.
https://www.youtube.com/live/pgIH51zc0l4?feature=share&t=26749
Выступили мои хорошие знакомые и друзья. Да и сам рядом постоял, чет побухтел) надеюсь Вам понравилось.
Презентация ниже.
https://www.youtube.com/live/pgIH51zc0l4?feature=share&t=26749
YouTube
Data Fest 2023, день 9: online из spatial.chat
Сегодня в spatial.chat участников Феста ждет насыщенная программа нескольких секций и активностей:
Computer Vision: с 11:30 до 13:00
Practical ML Yandex: с 12:00 до 15:45
Career: с 12:30 до 18:00 (с перерывом на On-site-test)
DS Talks: с 13:00 до 14:00
MLOps:…
Computer Vision: с 11:30 до 13:00
Practical ML Yandex: с 12:00 до 15:45
Career: с 12:30 до 18:00 (с перерывом на On-site-test)
DS Talks: с 13:00 до 14:00
MLOps:…
🔥13
Forwarded from что-то на DL-ском
Так, обещала обзор на адаптеры, делаю на весь зоопарк PEFT
В общем-то недавно, все резко вспомнили о существовании параметрической эффективной настройки, ну а чтобы было привычно для слуха, про PEFT.
(решение которое на самом деле выходило еще в те годы, когда появлялись большие модели по типу Bert. Тогда как раз и предлагали эффективные решения для обучения путем обучения не на всех параметрах)
В приложении предлагаю посмотреть👀 на целый зоопарк таких методов. Увидеть, что на самом деле их большое множество. Они делятся на группы. Можно наверняка уже заприметить знакомые слуху сокращения
Давайте рассмотрим по группам:
Adapters
Идея очень проста: наверняка все слышали о способе transfer learning, когда мы замораживаем слои, добавляем новые, и дообучаем только [добавленные нами]/[добавленные и те, что мы не заморозили в сетке]. Вот тут идея такая же, мы добавляем отдельные слои в разные части сетки, которых в целом может быть сколько угодно. И так обучаемся. В чем проблема? Сеть становится слишком глубокой, это накладывает ограничение при ее инференсе
Selective methods
Теперь представьте, что мы можем не бездумно внедрять эти адаптивные слои, а на основе статистических метрик или результатов обучения производить выборочную адаптацию определенных слоев
Soft promts
Теперь отойдем от добавляемых слоев, и подумаем, что аналогично вышеперечисленному можно оптимизировать, чтобы заморозить все остальные веса? Я бы не придумала, а умные люди в 20-ые годы поняли, что можно подать вместе с запросом, еще некоторую подсказку и оптимизировать только это подсказку. Соответсвенно остальные веса входной последовательности заморозить. Тем самым мы уменьшаем количество параметров во время тренировки и тратим меньше ресурсов
Вот именно методы soft prompts и adapters на самом деле представляли изначально общую группу под названием additive methods.Название говорит само за себя . И, как можно было уже догадаться, суть этой группы в том, чтобы добавить что-то новое, что будет пересчитываться во время ft, а остальное будет заморожено
Ну и на десерт Reparametrization-based methods
Работают они за счет изменения параметров модели таким образом, чтобы можно было получить новые выборки из распределения путем нахождения низкорангового приближения матрицы.
Данные представлены в виде матрицы, где строки представляют объекты, а столбцы представляют признаки объектов. В некоторых случаях, матрицы данных могут быть очень большими и содержать много шумовых признаков. Низкоранговые методы позволяют сократить размерность матрицы, оставив только наиболее информативные признаки.
Го марафон разбора каждого метода в отдельности? Пишите в комментах с чего начать🤓
В общем-то недавно, все резко вспомнили о существовании параметрической эффективной настройки, ну а чтобы было привычно для слуха, про PEFT.
(решение которое на самом деле выходило еще в те годы, когда появлялись большие модели по типу Bert. Тогда как раз и предлагали эффективные решения для обучения путем обучения не на всех параметрах)
В приложении предлагаю посмотреть
Давайте рассмотрим по группам:
Adapters
Идея очень проста: наверняка все слышали о способе transfer learning, когда мы замораживаем слои, добавляем новые, и дообучаем только [добавленные нами]/[добавленные и те, что мы не заморозили в сетке]. Вот тут идея такая же, мы добавляем отдельные слои в разные части сетки, которых в целом может быть сколько угодно. И так обучаемся. В чем проблема? Сеть становится слишком глубокой, это накладывает ограничение при ее инференсе
Selective methods
Теперь представьте, что мы можем не бездумно внедрять эти адаптивные слои, а на основе статистических метрик или результатов обучения производить выборочную адаптацию определенных слоев
Soft promts
Теперь отойдем от добавляемых слоев, и подумаем, что аналогично вышеперечисленному можно оптимизировать, чтобы заморозить все остальные веса? Я бы не придумала, а умные люди в 20-ые годы поняли, что можно подать вместе с запросом, еще некоторую подсказку и оптимизировать только это подсказку. Соответсвенно остальные веса входной последовательности заморозить. Тем самым мы уменьшаем количество параметров во время тренировки и тратим меньше ресурсов
Вот именно методы soft prompts и adapters на самом деле представляли изначально общую группу под названием additive methods.
Ну и на десерт Reparametrization-based methods
Работают они за счет изменения параметров модели таким образом, чтобы можно было получить новые выборки из распределения путем нахождения низкорангового приближения матрицы.
Данные представлены в виде матрицы, где строки представляют объекты, а столбцы представляют признаки объектов. В некоторых случаях, матрицы данных могут быть очень большими и содержать много шумовых признаков. Низкоранговые методы позволяют сократить размерность матрицы, оставив только наиболее информативные признаки.
Го марафон разбора каждого метода в отдельности? Пишите в комментах с чего начать
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤3
Новый пожинатель пожиматель твоих embeddings - ncvis.
Тут сосед открыл для меня новый тул по сжатию dimension эмбеддингов, выглядит перспективно. Работает в разы быстрее umap. При этом, авторы, из ру комьюнити, что не может не радовать.
Помню времена, когда TSNE был медленнее, чем umap. Теперь есть что-то быстрее последнего. Уже готовлюсь внедрить этот метод к себе в пайп кластеризации со своим кастомным вариантом BertTopic + hdbscan.
Читая доку, понимаю за счёт чего сделано ускорение. Использование моих любимых ANN методик , а именно HNSW (писал об этом тут).
Всё нравится. 🦾 Сожалею лишь, что узнал об этом сейчас. А статья на секундочку 2020 года!!! 😱
URL: https://github.com/stat-ml/ncvis
Тут сосед открыл для меня новый тул по сжатию dimension эмбеддингов, выглядит перспективно. Работает в разы быстрее umap. При этом, авторы, из ру комьюнити, что не может не радовать.
Помню времена, когда TSNE был медленнее, чем umap. Теперь есть что-то быстрее последнего. Уже готовлюсь внедрить этот метод к себе в пайп кластеризации со своим кастомным вариантом BertTopic + hdbscan.
Читая доку, понимаю за счёт чего сделано ускорение. Использование моих любимых ANN методик , а именно HNSW (писал об этом тут).
Всё нравится. 🦾 Сожалею лишь, что узнал об этом сейчас. А статья на секундочку 2020 года!!! 😱
URL: https://github.com/stat-ml/ncvis
Telegram
iggisv9t channel
🔥14👍2
Не рекламы пост.
Мой хороший боевой товарищ @van_ilin является одним из создателей iki.ai - knowledge hub для профессионалов в области IT и Design.
В iki.ai уже можно:
- сохранять контент в интеллектуальную библиотеку с функциями создания заметок и выделения.
- создавать коллекции по определенным темам.
- подписки на своих коллег и экспертов, чтобы следить за их чтением и мыслями
- поиск знаний в нашей базе данных с семантическим поиском
- проверить самые последние новости в области машинного обучения и дизайна
Следующий крупный выпуск, ребята обещают будет включать автоматические потоки в библиотеке и второй пилотный проект на базе LLM!!!
P. S. Когда-то с Иваном мы вместе работали над natural language understanding в нашей диалоговой системе. Он отвечал за ML часть в question answering. Поэтому за iki.ai стоят настоящие профессионалы.
Мой хороший боевой товарищ @van_ilin является одним из создателей iki.ai - knowledge hub для профессионалов в области IT и Design.
В iki.ai уже можно:
- сохранять контент в интеллектуальную библиотеку с функциями создания заметок и выделения.
- создавать коллекции по определенным темам.
- подписки на своих коллег и экспертов, чтобы следить за их чтением и мыслями
- поиск знаний в нашей базе данных с семантическим поиском
- проверить самые последние новости в области машинного обучения и дизайна
Следующий крупный выпуск, ребята обещают будет включать автоматические потоки в библиотеке и второй пилотный проект на базе LLM!!!
P. S. Когда-то с Иваном мы вместе работали над natural language understanding в нашей диалоговой системе. Он отвечал за ML часть в question answering. Поэтому за iki.ai стоят настоящие профессионалы.
🔥9❤3👍2