Градиент обреченный – Telegram

Градиент обреченный

7.97K subscribers

834 photos

20 videos

8 files

453 links

- hfday.ru
- https://habr.com/ru/users/averkij/
- lingtra.in
- prince.lingtrain.ru

Download Telegram

About

Blog

Apps

Platform

Градиент обреченный

7.97K subscribers

Градиент обреченный

Чистил датасетик с Fidonet чатами, подчерпнул много народной мудрости.

В Pile, кстати, есть адский датасет Ubuntu IRC для улучшения качества болталки. Чатики там, правда, слиты в длиннющие документы на сотни тысяч символов.

😁43🔥8⚡3❤1

3.71K viewsSergei Averkiev, 07:19

Градиент обреченный

Друзья, за последние пару дней к нам присоединилось множество людей — примерно ⭐

🍒

🔸; и нас стало уже 🔺

🦾

🔸, если использовать письмо майя (все-таки май на дворе). Причиной тому стала папка со списком ресурсов про машинное обучение и технологии, в которой нашему каналу повезло находиться.

Для всех, кто имел неосторожность оставить уведомления включенными, хочу подсветить, что мы тут обсуждаем и чем делимся.

🔸 Меня зовут Сергей, тут пишу про практические аспекты машинного обучения, преимущественно связанного с языком (NLP). Про новинки и казусы ИИ. Иногда делаю подборки учебных материалов по теме. Иногда пишу про хобби, книжки и отпуск, но редко.
🔸 Про работу. Сейчас участвую в проекте по созданию GigaChat. Это весело. Сам я перешел в ML из разработки бэкенда, так что могу что-то подсказать и на эту тему (на тему перехода, потому что про бэкенд я все забыл).
🔸 Про иностранные языки. Люблю их и хочу помочь всем, кто занимается их изучением, а также самим языкам в их развитии (особенно малоресурсным). Для этого занимаюсь на досуге проектом Lingtrain. Проект открытый (github), при помощи него можно делать параллельные книги и извлекать параллельные корпуса, обсуждаем тут.
🔸 Для тех, кто хочет лично общаться про ML с людьми из сообщества, есть бот @neludim_bot, который сделал Саша Кукушкин. Я там тоже участвую, буквально на днях классно пообщались с Игорем из AliExpress.

Тем в области ИИ очень много, как и каналов их освещающих. Поэтому вот вам еще подборки (если не открывается, значит нужно обновить телеграм):

https://t.me/addlist/Tv2X-9ht0ck1ZTUy
https://t.me/addlist/Em6ObpOZEhJiZmUy

🔸 Люди у нас в канале собрались дружелюбные, поэтому общение и знакомство только приветствуется. Как у вас дела?

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥48❤16🤗10👾2🎉1

4.33K viewsSergei Averkiev, 11:05

Градиент обреченный

🔺 Transformers Agent

В только вышедшей версии transformers (4.29.0) добавили новый способ вызова моделей — через запрос на естественном языке.

🔸 Для выполнения задачи нужно создать агента, который сам решит какую из моделей нужно вызвать в данный момент. Например,

agent.run("Caption the following image", image=image)

или

agent.run("Read the following text out loud", text=text)

🔸 Работать можно в режиме одного независимого вызова (метод run()), или в режиме чата (chat()), чтобы иметь контекст.

🔸 Можно создать агента OpenAiAgent или HfAgent, первый пойдет в API OpenAI с вашим токеном, последний — на API Huggingface, которое пока что бесплатное. Модель нужна для того, чтобы выбрать один из инструментов (tool) для выполнения самой задачи.

🔸 Инструментов (это просто упрощенный вызов какой-то модели), встроенных в transformers, пока что 10 (ответы на вопросы, озвучка, рисование картинок, перевод и т.д.), список будет расширяться.

По-моему, классная вещь получается. Можно попробовать в Colab'е.

👉 Colab | Документация

🔥38🤗7⚡1❤1

6.56K viewsSergei Averkiev, 18:25

Градиент обреченный

Google Bard ("аналог" ChatGPT) заработал для всех. Потыкал его и, если смотреть на вещи позитивно, то

🔸 Можно задать ему вопрос, а он выдаст ответ.
🔸 Можно прокачивать японский и корейский языки, так как только их он поддерживает кроме английского.
🔸 Есть тёмная тема.

😁60🆒8🤷‍♂5❤3🗿2⚡1👌1

4.21K viewsSergei Averkiev, 07:18

Градиент обреченный

Также Bard #сингулярность

😁62🥴8🔥3🦄2👍1👀1🤪1

4.76K viewsSergei Averkiev, 08:22

Градиент обреченный

🔺У ChatGPT появился интернет

Сегодня начали включать режим веб-браузинга, а скоро обещают включать и плагины.

Если у вас есть подписка plus, то попробуйте зайти в настройки и включить beta-функционал (а может быть у вас уже есть и плагины).

🔥52⚡4🤔2👍1🍾1

5.23K viewsSergei Averkiev, 12:11

Градиент обреченный

Коллеги из Яндекса выкатывают свой аналог ChatGPT. Попробовал его и иногда оно отвечает довольно неплохо, но пока не держит контекст разговора и обложена-переложена фильтрами чувствительных слов.

Кажется, что такой подход только подстрекает людей на то, чтобы такие фильтры обходить и это всегда будет получаться, как и с любой другой моделью.

В любом случае, удачи им в этом начинании. Надеюсь, что-то удастся передать в open source и поделиться деталями с сообществом.

😁73🙈10😱9🫡5👍4

5.93K viewsSergei Averkiev, 05:41

Градиент обреченный

🔺 AI в ИБ

Сходил тут на PHDays и познакомился Сашей Мурзиной, которая руководит ML командами в Positive Technologies. Понял, что ML у безопасников — это какой-то свой мир, с задачами по обнаружению аномалий в данных и анализе инцидентов, с атаками на биометрию и соответствующим research'ем.

Еще послушал пару довольно интересных докладов из AI-трека, записи уже можно посмотреть:

🔸 Prompt Injection и все-все-все. Как лучше дизраптить LLM'ки.
🔸 Атаки на распознавание живого присутствия. Прикольный шпионский доклад с криповым реквизитом.

👉 Еще Саша поделилась страничкой про свою команду, там можно узнать про основные направления ML в сфере ИБ, если у кого-то к этому лежит душа.

🔥25👍10❤‍🔥5❤1🤓1

4.23K viewsSergei Averkiev, 08:42

Градиент обреченный

Я понял, это просто тренажер такой для дизрапта LM’ок. Наверняка там где-то рейтинг есть и баллы начисляются. #yagpt

😁69🙈14👍4💯4

3.75K viewsSergei Averkiev, 19:55

Градиент обреченный

Level 2

😁71🫡27🥴5❤3👍3⚡2🗿2🕊1

4.3K viewsSergei Averkiev, 20:14

Градиент обреченный

Всем продуктивной недели. Не обижайте языковые модели, они наши друзья.

😁42🔥7❤5👍4

4.38K viewsSergei Averkiev, 07:18

Градиент обреченный

🔺 State of GPT

Андрей Карпати не выдержал и начал нести знание про обучение ChatGPT-подобных моделей в массы.

В своем докладе Андрей объясняет все основные моменты, от языковых моделей и токенизации до RLHF.

Upd.

🔸 Почему RLHF лучше чем SFT? Потому что выбирать проще чем генерировать. Дает пример с написанием трех хокку про скрепку и выбором лучшего из них.

🔸 CoT. Модели нужны токены, что подумать.
Если постараться размазать ответ модели на более длинную последовательность токенов, то результат получится лучше, чем просто ожидать от нее точный ответ в одном токене.

👉 Видео

🔥46👍8🎉2❤‍🔥1

6.22K viewsSergei Averkiev, edited 10:27

Градиент обреченный

Ветер шепчет: "Make AI open again".

😁40🔥10⚡6💯3❤2✍2

3.49K viewsSergei Averkiev, 14:30

Градиент обреченный

Forwarded from RnD CV Team (A K)

Slovo — новый датасет для распознавания Русского Жестового Языка (РЖЯ) 🧏‍♂️🧏‍♀️

Один из проектов нашей команды — распознавания РЖЯ 🦻, в связи с чем собрали самый большой датасет (150 000 видео и 3 000 классов) для решения этой задачи. Часть данных мы готовы опубликовать сейчас и назвали её Slovo 🫶, выкладываем в Open-Source и делимся с комьюнити.

Вчера вышла наша статья на arXiv 📄, а сегодня на Habr мы подробнее расскажем о проблематике РЖЯ, пайплайне сбора и разметки данных, а также про обучение моделей на датасете Slovo! Датасет и веса моделей можно скачать по ссылкам из Github и Kaggle. 💪

Основные проблемы и вызовы в задаче РЖЯ:
- Аудитория по разным оценкам от 400 тыс. до 2 млн,
- Около 500 различных диалектов только в России,
- Отдельная обработка для составных слов и дактиля,
- Поиск целевой аудитории и экспертов очень затруднен.

Кратко об опубликованной части датасета:
👾 20.000 HD+ видео (65% датасета FullHD)
👩‍💼 194 эксперта РЖЯ
💪 самый разнородный по субъектам открытый датасет РЖЯ
🕗 время записи "жестов" - 9.2 часа
🖇 датасет представлен в нескольких вариантах для удобства использования
⚙️ размечен по началу, концу жестовых событий и авто-размечен через MediaPipe
👥 для сбора и разметки использовали 2 краудсорсинг платформы (Толоку и АБК Элементари)

Авторы: @hukenovs, @karinakv, @nagadit, @lizaforlizard
Отдельная благодарность нашим дата-инженерам: @AlexS_340, @your_petros

Очень надеемся привлечь разработчиков и экспертов-носителей РЖЯ к большой социальной проблеме коммуникации между слабослышащими людьми и людьми без дефектов слуха и речи.

Будем рады любой обратной связи! ❤️

#release

❤31👍13🔥10💯2🥴1

3.42K viewsSergei Averkiev, 07:24

Градиент обреченный

🔺 Datafest

На идущем сейчас Datafest'е завершилась секция Instruct models. Особенно полезные доклады, на мой взгляд, были про RLHF от Игоря Котенкова и Сайгу от Ильи Гусева.

Получаствовал даже Янник Килчер, немного рассказав про GigaChat. Ссылки на видео скоро появятся, ждём.

Было приятно пообщаться с всеми участниками, спасибо организаторам!

👉 P.S. Datafest продолжается. Программа | Канал

🔥27❤‍🔥6👍5😁4🍾2❤1

4.96K viewsSergei Averkiev, 07:51

Градиент обреченный

Следующую серию языковых моделей предлагаю называть по видам пальмовых.

#TrahykarpusGPT

😁35🔥10✍3❤1🤯1

4.28K viewsSergei Averkiev, 13:48