🔸 Год назад я ставил на ночь скрипты для генерации картинок типа
🔸 Теперь я ставлю ChatGPT генерировать мне рэп и факты про языки мира (вот скрипт для запуска).
🔸 Уверен, через год будем делать такое
картина [Будапешта, Праги, Милана, ...] [летом, зимой] в стиле [акварели, скетча, ...]чтобы утром посмотреть на результат. Очень это нравилось и в течение года качество становилось лучше, а сейчас уже есть куча классных моделей для этого.
🔸 Теперь я ставлю ChatGPT генерировать мне рэп и факты про языки мира (вот скрипт для запуска).
🔸 Уверен, через год будем делать такое
сделай видеоклип в стиле Раммштайн про кабачок на чувашском языке, trending on youtube
👍22🔥8💯4😁3
Forwarded from Kali Novskaya (Tatiana Shavrina)
Пришло время признаться: у меня блогерский дебют.
COPYLEFT — авторский формат, где я буду делиться историями про технологии более популярно, рассказывать про опенсорс и важность реальных достижений в ИИ.
Поддержите формат, если вам заходит!
На Рабкоре — женский голос!
#nlp #про_nlp
https://youtu.be/rJGjPEZpkOY
COPYLEFT — авторский формат, где я буду делиться историями про технологии более популярно, рассказывать про опенсорс и важность реальных достижений в ИИ.
Поддержите формат, если вам заходит!
На Рабкоре — женский голос!
#nlp #про_nlp
https://youtu.be/rJGjPEZpkOY
YouTube
Кому принадлежит интеллект в 2023?
Ресурсы Кали Новской
https://t.me/rybolos_channel
✅Отправить пожертвование на освещение дела Кагарлицкого и работу канала «Рабкор»: 2200 7004 3856 6977 (Тинькофф)
✅Карта для международных переводов: 4165 9816 0119 6631
✅Поддержать нас на Бусти: https:/…
https://t.me/rybolos_channel
✅Отправить пожертвование на освещение дела Кагарлицкого и работу канала «Рабкор»: 2200 7004 3856 6977 (Тинькофф)
✅Карта для международных переводов: 4165 9816 0119 6631
✅Поддержать нас на Бусти: https:/…
👍13🔥5🤓2❤1
Андрей Карпати присоединяется к OpenAI! Ждем курс по написанию ChatGPT с нуля в колабе.
🔥28😁15❤🔥3🎉3⚡1
🔺 Новости недели #ml_news
🔸 Microsoft провела event про встраиваниеGTA GPT 4 в свой поиск. Google ответил на следующий день, рассказав про своего ассистента Bard, но фурора не произвел, да и демки, чтобы попробовать, пока что нет.
🔸 BioGPT. Microsoft выложила модели для анализа текстов на медицинскую тематику. Весов на 1.5B, на специализированном бенчмарке PubMedQA показывает SOTA результат. Статья.
🔸 Андрей Карпати перешел в OpenAI и из публичного API сразу пропала ChatGPT, а скрипт перестал работать. Также в интерфейсе появилась возможность подписки на платный план за $20.
🔸 PEFT. В huggingface собрали текущие методы p-tuning'а в одну библиотеку peft. P-tuning, — это когда берешь жирную сеть, но дообучаешь какие-то отдельные части или вставки, — слои-адаптеры, дополнительные эмбеддинги. Очень круто, пока что есть несколько самых распространенных методов. Можно прикручивать к диффузионкам (colab).
🔸 Коллеги засабмитили модель FRED-T5 на денойзерах (как в UL2) на RussianSuperGlue и вышли на второе место. Это претрейн для русского, который можно будет использовать для своих seq2seq задач, качество должно быть повыше чем у текущих моделек. Веса для 1.7B скоро будут тут.
🔸 Also коллеги добавили в Kandinsky 2.0 синтез картинок из других картинок же наподобие midjouney. Ну и вроде получилось неплохо. Ждем релиз.
🔸 Я попробовал выравнивать аудиокнигу и текст, пока что получилось транскрибировать аудио и достать временные метки на уровне слов. Осталось выровнять это с оригиналом и прикрутить к книжке-трансформеру. Следим за событиями.
🔸 Microsoft провела event про встраивание
🔸 BioGPT. Microsoft выложила модели для анализа текстов на медицинскую тематику. Весов на 1.5B, на специализированном бенчмарке PubMedQA показывает SOTA результат. Статья.
🔸 Андрей Карпати перешел в OpenAI и из публичного API сразу пропала ChatGPT, а скрипт перестал работать. Также в интерфейсе появилась возможность подписки на платный план за $20.
🔸 PEFT. В huggingface собрали текущие методы p-tuning'а в одну библиотеку peft. P-tuning, — это когда берешь жирную сеть, но дообучаешь какие-то отдельные части или вставки, — слои-адаптеры, дополнительные эмбеддинги. Очень круто, пока что есть несколько самых распространенных методов. Можно прикручивать к диффузионкам (colab).
🔸 Коллеги засабмитили модель FRED-T5 на денойзерах (как в UL2) на RussianSuperGlue и вышли на второе место. Это претрейн для русского, который можно будет использовать для своих seq2seq задач, качество должно быть повыше чем у текущих моделек. Веса для 1.7B скоро будут тут.
🔸 Also коллеги добавили в Kandinsky 2.0 синтез картинок из других картинок же наподобие midjouney. Ну и вроде получилось неплохо. Ждем релиз.
🔸 Я попробовал выравнивать аудиокнигу и текст, пока что получилось транскрибировать аудио и достать временные метки на уровне слов. Осталось выровнять это с оригиналом и прикрутить к книжке-трансформеру. Следим за событиями.
👍23❤7🔥7⚡1💯1
🔹 Меня зовут Сергей Аверкиев. Долгие годы писал бэкенд под .NET пока не увлекся машинным обучением и сейчас занимаюсь NLP в славной команде SberDevice'ов.
Увлекаюсь разными вещами, в том числе очень люблю языки и все, что с ними связано. Подучиваю то один, то другой ради удовольствия, по каким-то сдавал экзамены. Сейчас занимаюсь китайским. Отсюда же берут начало некоторые мои пет-проекты:
• Lingtrain Studio. Приложение для выравнивания текстов на разных языках и создания книг и параллельных корпусов. Внутри используется LaBSE, поэтому поддерживается большое количество языков (100+), пробовал дообучать на малоресурсные языки.
• Книжки-трансформеры. Хочу чтобы каждый мог сделать себе нужную книгу из своих текстов на нескольких языках с удобными режимами для чтения и прослушивания. Выглядит это пока так: Мастер, Шекли, 1984. Собирается автоматически и хостится бесплатно на гитхабе. Обсуждаем тут.
🔹 Иногда что-то пишу на хабр, что-то коммичу на гитхаб.
🔹 Так как я переходил в ML из другой области (а в программирование пошел, почитав пару книжек), то могу посоветовать материалы и поделиться опытом на эту тему. Считаю, что каждому под силу сменить область деятельности, если она тебе интересна.
🔹 В этом канале предлагаю делиться полезными вещами и новостями на тему программирования и ML, историями из жизни и работы, а иногда чем-то несерьезным.
〰️ Случайные факты:
🔸 Пару-тройку раз отчислялся из универа.
🔸 Плавал вокруг Петропавловской крепости.
🔸 Родился там, где зимой под -60 и очень красиво.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥74👍32❤10❤🔥4🍾2🤗2🥴1
🔺 RLHF
Пробежался по слайдам новой лекции из CS224N (увидел тут). Там в принципе есть про весь пайплайн обучения этих ваших ChatGPT в сжатой форме. Слайды хорошие, можно помедитировать, если углубляетесь в тему.
Слайды | Все лекции
Пробежался по слайдам новой лекции из CS224N (увидел тут). Там в принципе есть про весь пайплайн обучения этих ваших ChatGPT в сжатой форме. Слайды хорошие, можно помедитировать, если углубляетесь в тему.
Слайды | Все лекции
🔥17👍4❤🔥3⚡1
🔺 Корпуса малоресурсных языков
Айгиз Кунафин выложил на huggingface 🤗 русско-башкирский (700k пар) и русско-марийский (350k) параллельные корпуса.
Корпуса собирались и собираются группами энтузиастов в течение долгого времени, ребята любят и продвигают свой родной язык.
Молодцы, ждём чувашей и коми.
👉 Upd. Чувашский корпус есть.
Айгиз Кунафин выложил на huggingface 🤗 русско-башкирский (700k пар) и русско-марийский (350k) параллельные корпуса.
Корпуса собирались и собираются группами энтузиастов в течение долгого времени, ребята любят и продвигают свой родной язык.
Молодцы, ждём чувашей и коми.
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
AigizK/bashkir-russian-parallel-corpora · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥33🆒8❤🔥4👍2⚡1
🔺 Новости недели #ml_news
🔸 LLaMA. Meta почти выложила в открытый доступ сильные мультиязычные (20 языков) претрейны от 7B до 65B параметров. 13B бьет приснопамятную GPT-3 (175B) на большинстве тестов. Обучали на открытых корпусах, показывая, что и на них можно достичь SOTA. Есть нюанс, — получить чекпоинт можно по запросу, а лицензия — noncommercial.
🔸 OpenAI написали заметку про наступление эпохи AGI (сильного искусственного интеллекта) "Planning for AGI and beyond" и о своей миссии в этом (три принципа в короткой и долгой перспективе).
🔸 Toolformer. Вновь работа от Meta, теперь развиваем идею повышения эффективности языковых моделей внешними инструментами. Если по какому-то API доступен калькулятор или качественный машинный перевод, то предсказываем что и когда в него нужно передать. Результат встраиваем в генерацию. Хороший обзор от Гриши Сапунова.
🔸 FlexGen. Еще один фреймворк от сообщества для запуска больших моделей на одной видеокарте (показывают пример с OPT-175B). Работает за счет сжатия весов и offloading'а, наподобие HF Accelerate и DeepSpeed Zero, но, говорят, быстрее на порядок, так как ориентирован на высокую производительность.
🔸 Умелец добавил редактор поз в Automatic1111. Кто не знает, — это инструмент для удобного использования Stable Diffusion моделей через web UI. Очень удобно, если есть своя карта. Можно подкладывать разные специализированные чекпоинты от сообщества и использовать плагины.
🔸 Вернулся из отпуска, будем с вами продолжать чинить добро и причинять радость.
🔸 LLaMA. Meta почти выложила в открытый доступ сильные мультиязычные (20 языков) претрейны от 7B до 65B параметров. 13B бьет приснопамятную GPT-3 (175B) на большинстве тестов. Обучали на открытых корпусах, показывая, что и на них можно достичь SOTA. Есть нюанс, — получить чекпоинт можно по запросу, а лицензия — noncommercial.
🔸 OpenAI написали заметку про наступление эпохи AGI (сильного искусственного интеллекта) "Planning for AGI and beyond" и о своей миссии в этом (три принципа в короткой и долгой перспективе).
🔸 Toolformer. Вновь работа от Meta, теперь развиваем идею повышения эффективности языковых моделей внешними инструментами. Если по какому-то API доступен калькулятор или качественный машинный перевод, то предсказываем что и когда в него нужно передать. Результат встраиваем в генерацию. Хороший обзор от Гриши Сапунова.
🔸 FlexGen. Еще один фреймворк от сообщества для запуска больших моделей на одной видеокарте (показывают пример с OPT-175B). Работает за счет сжатия весов и offloading'а, наподобие HF Accelerate и DeepSpeed Zero, но, говорят, быстрее на порядок, так как ориентирован на высокую производительность.
🔸 Умелец добавил редактор поз в Automatic1111. Кто не знает, — это инструмент для удобного использования Stable Diffusion моделей через web UI. Очень удобно, если есть своя карта. Можно подкладывать разные специализированные чекпоинты от сообщества и использовать плагины.
🔸 Вернулся из отпуска, будем с вами продолжать чинить добро и причинять радость.
👍17🔥10⚡3👀1
Друзья, а как вы чистите текстовые данные?
Ковыряюсь с libgen'ом (~2Tb книг), датасет большой и разнообразный, но большинство из текстов — это конвертация в txt из разных форматов типа pdf, со всеми вытекающими.
После чистки все же остается достаточно артефактов (примеры на картинках): разъехавшиеся формулы и таблицы, издательская информация, слова со всеми буквами через пробел. Иногда есть бессмысленные строки посреди нормального текста.
👉 Поделитесь своим опытом в этом деле.
🔥 Upd. Предложения
🔸 Эвристики на словарях
🔸 Фильтры моделями по семантической близости
🔸 По перплексии
🔸 По энтропии (считаем коэфф-т сжатия)
🔸 Чувствительный к ошибкам классификатор на n-граммах
🔸 По языку
🔸 Еще эвристики на регулярках
Ковыряюсь с libgen'ом (~2Tb книг), датасет большой и разнообразный, но большинство из текстов — это конвертация в txt из разных форматов типа pdf, со всеми вытекающими.
После чистки все же остается достаточно артефактов (примеры на картинках): разъехавшиеся формулы и таблицы, издательская информация, слова со всеми буквами через пробел. Иногда есть бессмысленные строки посреди нормального текста.
👉 Поделитесь своим опытом в этом деле.
🔥 Upd. Предложения
🔸 Эвристики на словарях
🔸 Фильтры моделями по семантической близости
🔸 По перплексии
🔸 По энтропии (считаем коэфф-т сжатия)
🔸 Чувствительный к ошибкам классификатор на n-граммах
🔸 По языку
🔸 Еще эвристики на регулярках
👀14👍11🔥4🤓1
🔺 Тренируем с коллегами одну модель. Потихоньку просыпается!
Программист, забывший пароли,
Взламывает компьютеры богов.
Судьба программиста — познать печаль.
Программист, забывший пароли,
Взламывает компьютеры богов.
Судьба программиста — познать печаль.
🔥44😁14⚡2✍2🥴2👍1
🔺 ChatGPT и Whisper стали доступны по API
В первый день весны OpenAI заоптимизировали свои модели (говорят, что теперь тратят на 90% меньше ресурсов чем два месяца назад) и сделали их доступными по API.
Теперь можно встраивать в свои приложения генерацию контента через ChatGPT и распознавание речи через Whisper (97 языков).
Цена за ASR — $0.006/минута аудио, за ChatGPT — $0.002/тыс. токенов.
👉 Пост
В первый день весны OpenAI заоптимизировали свои модели (говорят, что теперь тратят на 90% меньше ресурсов чем два месяца назад) и сделали их доступными по API.
Теперь можно встраивать в свои приложения генерацию контента через ChatGPT и распознавание речи через Whisper (97 языков).
Цена за ASR — $0.006/минута аудио, за ChatGPT — $0.002/тыс. токенов.
👉 Пост
Openai
Introducing ChatGPT and Whisper APIs
Developers can now integrate ChatGPT and Whisper models into their apps and products through our API.
🔥32😱5👍3❤1⚡1
Forwarded from AbstractDL
GPT теперь принимает на вход эмбеддинги
Наконец! В
За последние годы вышло много работ, которые предлагают использовать этот механизм для таких штук как мультимодальный диалог и p-tuning, но приходилось сильно извращаться чтобы совместить эти подходы с генерацией текста. А теперь это можно сделать в одну строчку! Cоединять текст, картинки и звук теперь будет ещё проще!
Поддержка уже есть для GPT-2, GPT-j, BLOOM, BioGPT, но надо будет установить версию
GitHub
Наконец! В
transformers добавлена поддержка эмбеддингов в качестве инпута для полноценной генерации в GPT-like моделях.За последние годы вышло много работ, которые предлагают использовать этот механизм для таких штук как мультимодальный диалог и p-tuning, но приходилось сильно извращаться чтобы совместить эти подходы с генерацией текста. А теперь это можно сделать в одну строчку! Cоединять текст, картинки и звук теперь будет ещё проще!
Поддержка уже есть для GPT-2, GPT-j, BLOOM, BioGPT, но надо будет установить версию
4.27.0.GitHub
🔥21👍6⚡3💯1