Forwarded from Lingtrain
📚 Продолжаю делать книжку-трансформер
👉 Посмотреть можно здесь.
Идея в том, чтобы после выравнивания нескольких текстов (2 и более) Lingtrain'ом можно было бы собирать веб-книжку, которую можно разместить на github pages (просто скопировать файлики) и читать откуда угодно + пользоваться дополнительным функционалом — компоновать в одну/две колонки, менять подсветку, размер шрифтов, языки, и т.д. 🔮
Делаю на примере "Мастера и Маргариты".
〰️ Пока добавил:
• тексты на 10 языках
• содержание
• переключатели размера шрифта
• сохранение настроек при перезагрузке
• подсветку соответствующего предложения при наведении
• адаптивную разметку под мобильный
Любой фидбек и идеи приветствуются! 🚀
👉 Посмотреть можно здесь.
Идея в том, чтобы после выравнивания нескольких текстов (2 и более) Lingtrain'ом можно было бы собирать веб-книжку, которую можно разместить на github pages (просто скопировать файлики) и читать откуда угодно + пользоваться дополнительным функционалом — компоновать в одну/две колонки, менять подсветку, размер шрифтов, языки, и т.д. 🔮
Делаю на примере "Мастера и Маргариты".
〰️ Пока добавил:
• тексты на 10 языках
• содержание
• переключатели размера шрифта
• сохранение настроек при перезагрузке
• подсветку соответствующего предложения при наведении
• адаптивную разметку под мобильный
Любой фидбек и идеи приветствуются! 🚀
🔥19⚡4👍3💯1
#новости
Друзья, все стремительно меняется, вот и я ухожу из одной компании и выхожу в другую. IT-мир очень тесен и среди подписчиков есть люди из обоих мест (шалом, ребята).
Хочу порекомендовать предыдущего работодателя — Криптонит (крипто- здесь от слова криптография, а не крипта 😁), где я занимался NLP в лаборатории больших данных. В компании работает много толковых людей, есть мощный грандмастер Юра и крутой роботостроитель Олег. В команды набирают сотрудников, так что, кому интересно, — пишите Карине @karinish.
А еще коллеги придумали и сделали целый музей — Музей Криптографии, который откроется в ноябре (я уже был на экскурсии, там очень круто).
P.S. Куда перехожу, напишу после выхода. Всем добра! 🤝
Друзья, все стремительно меняется, вот и я ухожу из одной компании и выхожу в другую. IT-мир очень тесен и среди подписчиков есть люди из обоих мест (шалом, ребята).
Хочу порекомендовать предыдущего работодателя — Криптонит (крипто- здесь от слова криптография, а не крипта 😁), где я занимался NLP в лаборатории больших данных. В компании работает много толковых людей, есть мощный грандмастер Юра и крутой роботостроитель Олег. В команды набирают сотрудников, так что, кому интересно, — пишите Карине @karinish.
А еще коллеги придумали и сделали целый музей — Музей Криптографии, который откроется в ноябре (я уже был на экскурсии, там очень круто).
P.S. Куда перехожу, напишу после выхода. Всем добра! 🤝
🔥12⚡5👍5❤2❤🔥1👏1🎉1
#ml #transformers
🔺 Transformers United
Самая вездесущая на сегодняшний день архитектура в DL — это трансформеры. Есть сотни их модификаций и применений, берущих начало из оригинальной статьи.
Для погружения в тему можно посмотреть актуальный курс от Стенфорда [cs25] — Transformers United (содержание курса).
👉 Лекции и TLDR;
1️⃣ Что такое трансформер. tldr; Предыстория, применение. Про энкодер и декодер. Механизм внимания (attention). Недостатки (квадратичная сложность).
2️⃣ NLP. Развитие GPT подобных моделей. tldr; Универсальность авторегрессионных моделей. Обучение без учителя (unsupervised learning). Генерация кода, сэмплирование.
3️⃣ CV. Про Visual Transformer (ViT). tldr; BigTransfer (BiT). Как делали ViT (делили картинку на патчи). Эксперименты с глубиной/шириной слоев (увеличивали/уменьшали).
4️⃣ RL. Decision Transformer. tldr; Трансформеры в задачах обучения с подкреплением. Онлайн и оффлайн обучение. Нестабильность обучения.
5️⃣ Mixture of Experts. Улучшаем Switch Transformer. Sparse модели (во время инференса активируется только часть весов) → триллионы параметров. Трюки с инициализацией (уменьшаем масштаб, увеличивая стабильность). Load Balance loss для обучения экспертов разной семантике.
6️⃣ Perceiver. Кросс-модальные взаимодействия. tldr; Модальностей в мире много (картинки, звуки, текст, датчики, ряды, т.д.). Хотим выучивать взаимодействия между модальностями. Deepmind.
7️⃣ Non-parametric transformers. Альтернативные подходы в обучении. Извлекаем зависимости из всего датасета сразу. Рассказ от автора статьи.
8️⃣ Transformers circuits. tldr; Интерпретируемость. Сравнение нейросети и скомпилированного кода. Как сделать reverse engineering? (До конца непонятно).
9️⃣ Аудио. tldr; Звуки и их представления, мел-спектрограммы. Сигнал непрерывен, нужно дискретизировать. Wavelets.
🔟 Бонус от Джеффри Хинтона. tldr; Размышления о том, чтобы сети понимали изображения и язык как люди (part-whole hierarchy). Рассказывает про идею GLOM (от слова aglomerate). Чтобы разобраться, надо читать статью.
🔺 Transformers United
Самая вездесущая на сегодняшний день архитектура в DL — это трансформеры. Есть сотни их модификаций и применений, берущих начало из оригинальной статьи.
Для погружения в тему можно посмотреть актуальный курс от Стенфорда [cs25] — Transformers United (содержание курса).
👉 Лекции и TLDR;
1️⃣ Что такое трансформер. tldr; Предыстория, применение. Про энкодер и декодер. Механизм внимания (attention). Недостатки (квадратичная сложность).
2️⃣ NLP. Развитие GPT подобных моделей. tldr; Универсальность авторегрессионных моделей. Обучение без учителя (unsupervised learning). Генерация кода, сэмплирование.
3️⃣ CV. Про Visual Transformer (ViT). tldr; BigTransfer (BiT). Как делали ViT (делили картинку на патчи). Эксперименты с глубиной/шириной слоев (увеличивали/уменьшали).
4️⃣ RL. Decision Transformer. tldr; Трансформеры в задачах обучения с подкреплением. Онлайн и оффлайн обучение. Нестабильность обучения.
5️⃣ Mixture of Experts. Улучшаем Switch Transformer. Sparse модели (во время инференса активируется только часть весов) → триллионы параметров. Трюки с инициализацией (уменьшаем масштаб, увеличивая стабильность). Load Balance loss для обучения экспертов разной семантике.
6️⃣ Perceiver. Кросс-модальные взаимодействия. tldr; Модальностей в мире много (картинки, звуки, текст, датчики, ряды, т.д.). Хотим выучивать взаимодействия между модальностями. Deepmind.
7️⃣ Non-parametric transformers. Альтернативные подходы в обучении. Извлекаем зависимости из всего датасета сразу. Рассказ от автора статьи.
8️⃣ Transformers circuits. tldr; Интерпретируемость. Сравнение нейросети и скомпилированного кода. Как сделать reverse engineering? (До конца непонятно).
9️⃣ Аудио. tldr; Звуки и их представления, мел-спектрограммы. Сигнал непрерывен, нужно дискретизировать. Wavelets.
🔟 Бонус от Джеффри Хинтона. tldr; Размышления о том, чтобы сети понимали изображения и язык как люди (part-whole hierarchy). Рассказывает про идею GLOM (от слова aglomerate). Чтобы разобраться, надо читать статью.
🔥21👍7⚡4🤗1
👋 Друзья! Нас здесь собралось 1024 человека, – можно сказать, килочелобайт. И так совпало, что у меня сегодня ДР.
🎈 Пара слов про именинника:характер нордический зовут Сергеем. Родился на Колыме, ел, пил, писал бэкенд, перешел в ML. Увлекается языками, футболом, музыкой, NLP, научной фантастикой, чем угодно, лишь бы не работать. В порочащих связях, к сожалению, замечен не был.
👉 И к новостям, — вышел на новое место работы в замечательную команду AGI NLP в SberDevices (ruGPT, mGPT, Russian SuperGLUE — их рук дело). Попытаюсь соответствовать уровню и принести пользу в области мультиязычных и мультимодальных моделей 😄
〰️
🎈 Пара слов про именинника:
👉 И к новостям, — вышел на новое место работы в замечательную команду AGI NLP в SberDevices (ruGPT, mGPT, Russian SuperGLUE — их рук дело). Попытаюсь соответствовать уровню и принести пользу в области мультиязычных и мультимодальных моделей 😄
〰️
🍾76🎉37❤6😁3⚡2👍1
🥚 Микеланджело и яичница
В новой версии Midjourney v4 заработал микс картинок. Выглядит на порядок качественнее чем в предыдущей версии. У меня даже получилось смешать божий дар с яичницей 😁
Как воспользоваться?
1️⃣ Нужно зарегаться в дискорде и вступить в канал midjourney (ссылка).
2️⃣ В одном из каналов newbies написать команду /settings и выбрать там версию 4.
3️⃣ Генерировать можно командой
Что бы еще смешать?
В новой версии Midjourney v4 заработал микс картинок. Выглядит на порядок качественнее чем в предыдущей версии. У меня даже получилось смешать божий дар с яичницей 😁
Как воспользоваться?
1️⃣ Нужно зарегаться в дискорде и вступить в канал midjourney (ссылка).
2️⃣ В одном из каналов newbies написать команду /settings и выбрать там версию 4.
3️⃣ Генерировать можно командой
/imagine prompt url1 url2
где url1 и url2 — это ссылки на ваши картинки. Само собой можно добавлять и текстовый подсказки. Бесплатно хватит на 20-30 генераций, потом придется купить подписку или регистрировать новый аккаунт.Что бы еще смешать?
🔥7👍5😁3🍓1
#book #future
📚 Трансгуманизм, душа и пустота
Читаю книгу "Искусственный ты" за авторством Сьюзан Шнайдер. Тема книги — будущее разума и искусственного интеллекта.
🔸 Если мы будем модифицировать мозг устройствами, то в какой момент мы перестанем быть самими собой?
🔸 Есть ли принципиальная возможность скопировать личность на цифровой носитель?
🔸 Как проверить, есть ли у нейросети сознание? (Да, уже есть такие тесты).
🧠 Есть несколько направлений по поводу того, что считать сознанием. Очень логичным кажется паттернизм, — для идентификации личности важен не носитель, а некий набор шаблонов, который делает нас собой.
Ведь человек, который был тобой в детстве, и ты сегодняшний состоите из разных клеток (у вас разные тела, все клетки уже по нескольку раз обновились), тем не менее мы считаем, что это одна и та же личность.
🦾 Такой подход допускает и радикальное усовершенствование мозга и перенос на цифровой носитель и прочий киберпанк. Но есть и другие теории, каждая из которых имеет право на жизнь.
👉 Книга заслуживает внимания, рекомендую. Скидывайте, если читаете что-то интересное.
📚 Трансгуманизм, душа и пустота
Читаю книгу "Искусственный ты" за авторством Сьюзан Шнайдер. Тема книги — будущее разума и искусственного интеллекта.
🔸 Если мы будем модифицировать мозг устройствами, то в какой момент мы перестанем быть самими собой?
🔸 Есть ли принципиальная возможность скопировать личность на цифровой носитель?
🔸 Как проверить, есть ли у нейросети сознание? (Да, уже есть такие тесты).
🧠 Есть несколько направлений по поводу того, что считать сознанием. Очень логичным кажется паттернизм, — для идентификации личности важен не носитель, а некий набор шаблонов, который делает нас собой.
Ведь человек, который был тобой в детстве, и ты сегодняшний состоите из разных клеток (у вас разные тела, все клетки уже по нескольку раз обновились), тем не менее мы считаем, что это одна и та же личность.
🦾 Такой подход допускает и радикальное усовершенствование мозга и перенос на цифровой носитель и прочий киберпанк. Но есть и другие теории, каждая из которых имеет право на жизнь.
👉 Книга заслуживает внимания, рекомендую. Скидывайте, если читаете что-то интересное.
⚡6👍4🔥3
Вы сейчас и вы 10 лет назад — это одна и та же личность?
за это время клетки вашего тела обновились
за это время клетки вашего тела обновились
Anonymous Poll
23%
Да
34%
Нет
28%
Частично
15%
Я робот
"Это всё придумал Юрген в 18-м году" (с)
Юрген Шмидхубер славится не только тем, что придумал LSTM и имеет под 200 тысяч цитирований на Google Scholar, но и тем, что любит говорить уважаемым людям, что их изобретения уже давно придуманы им и его командой.
Оказывается, что недавний топ-5 прорывных идей AI за прошедшее десятилетие (по версии Ле Куна, список годный) ожидаемо были лишь развитием прошлых работ мастера 😁
👉 Пруф
Юрген Шмидхубер славится не только тем, что придумал LSTM и имеет под 200 тысяч цитирований на Google Scholar, но и тем, что любит говорить уважаемым людям, что их изобретения уже давно придуманы им и его командой.
Оказывается, что недавний топ-5 прорывных идей AI за прошедшее десятилетие (по версии Ле Куна, список годный) ожидаемо были лишь развитием прошлых работ мастера 😁
👉 Пруф
😁23👍3🔥3
#event #nlp
NLP в Тинькофф
Заглянул на NLP-митап "Монолог". Удивило, что аудитория была в основном очень молодого возраста, а не "старички" как на HighLoad'ах 😁
Все доклады полезные, больше всего зашел новый P-tuning (вид дообучения больших языковых моделей, при котором мы замораживаем все кроме какой-то дополнительной части P, а эту часть пытаются вживить в разные места большой модели), который не замедляет инференс и сохраняет возможность многозадачности (можно хранить дообучаемые вектора отдельно). Тестировали на SuperGLUE, обещают скоро выложить статью.
🔸 Видео с докладов пока нету, как появятся — скину в комментарии.
NLP в Тинькофф
Заглянул на NLP-митап "Монолог". Удивило, что аудитория была в основном очень молодого возраста, а не "старички" как на HighLoad'ах 😁
Все доклады полезные, больше всего зашел новый P-tuning (вид дообучения больших языковых моделей, при котором мы замораживаем все кроме какой-то дополнительной части P, а эту часть пытаются вживить в разные места большой модели), который не замедляет инференс и сохраняет возможность многозадачности (можно хранить дообучаемые вектора отдельно). Тестировали на SuperGLUE, обещают скоро выложить статью.
🔸 Видео с докладов пока нету, как появятся — скину в комментарии.
👍12🔥10⚡4
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 SD 2.0 и Depth-Conditional SD
Несколько часов назад на 🤗 выложили чекпоинты новой версии Stable Diffusion!
Кроме того, в репозитории на GitHub появилась еще одна модель — Depth-Conditional SD, которая позволяет делать генерацию по картинке с сохранением формы (пример наверху).
Для этого, через MiDaS строится карта глубины изображения с последующим обуславливанием SD на эту карту. Выглядит очень круто.
👉 GitHub | SD 2.0 | Depth-Conditional SD
👉 Upd. Завели в колабе
👉 Upd 2. Добавили в diffusers
Несколько часов назад на 🤗 выложили чекпоинты новой версии Stable Diffusion!
Кроме того, в репозитории на GitHub появилась еще одна модель — Depth-Conditional SD, которая позволяет делать генерацию по картинке с сохранением формы (пример наверху).
Для этого, через MiDaS строится карта глубины изображения с последующим обуславливанием SD на эту карту. Выглядит очень круто.
👉 GitHub | SD 2.0 | Depth-Conditional SD
👉 Upd. Завели в колабе
👉 Upd 2. Добавили в diffusers
🔥7⚡3👍2🎉1
Сходил на лекцию антрополога Дробышевского про левый мизинец (!), узнал:
- можно долго и увлекательно рассказывать про что угодно
- генетики не парятся по поводу сохранности ископаемых артефактов
- у эмбриона генетически формируется 7 пальцев, но реализуется 5
- как вид мы эволюционно все
вымрем.
Дробышевский предлагает самим создавать следующую версию человека с большим мозгом, который будет жить после нас. Я для этих же целей предлагаю создать ИИ, который в будущем всех нас сменит и отправится колонизировать космос. Главное, успеть сделать что-то до вымирания.
- можно долго и увлекательно рассказывать про что угодно
- генетики не парятся по поводу сохранности ископаемых артефактов
- у эмбриона генетически формируется 7 пальцев, но реализуется 5
- как вид мы эволюционно все
вымрем.
Дробышевский предлагает самим создавать следующую версию человека с большим мозгом, который будет жить после нас. Я для этих же целей предлагаю создать ИИ, который в будущем всех нас сменит и отправится колонизировать космос. Главное, успеть сделать что-то до вымирания.
🔥23😁5👍4⚡1
#nlp #event
⭐ ML meetup #1
Коллеги прямо сейчас рассказывают про свои наработки и последние тенденции в мире машинного обучения. Решили рассказать все за несколько сессий, которые будут проходить по средам.
Сегодня как раз больше про NLP, — языковые модели, прикладные задачи (spell check, суммаризация и рерайтинг) и про молотилку 🔨
👉 Подключаемся
👉 Upd. Митап закончился, ссылки на записи скоро будут.
👉 Upd 2. Ссылки на видео
👉 Генеративные NLP инструменты 2022: рерайтер и суммаризатор, Алена Феногенова, Team Lead AGI NLP и Альбина Ахметгареева, DataEngineer AGI NLP
👉 Молотилка: ML Toolkit for Continuous Learning, Антон Емельянов, Senior DS AGI NLP
👉 State-of-the-art spellchecker для русского языка. Никита Мартынов, DS AGI NLP
⭐ ML meetup #1
Коллеги прямо сейчас рассказывают про свои наработки и последние тенденции в мире машинного обучения. Решили рассказать все за несколько сессий, которые будут проходить по средам.
Сегодня как раз больше про NLP, — языковые модели, прикладные задачи (spell check, суммаризация и рерайтинг) и про молотилку 🔨
👉 Генеративные NLP инструменты 2022: рерайтер и суммаризатор, Алена Феногенова, Team Lead AGI NLP и Альбина Ахметгареева, DataEngineer AGI NLP
👉 Молотилка: ML Toolkit for Continuous Learning, Антон Емельянов, Senior DS AGI NLP
👉 State-of-the-art spellchecker для русского языка. Никита Мартынов, DS AGI NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Генеративные NLP инструменты 2022 - Salute AI Day 30.11.2022
Генеративные NLP инструменты 2022 - Salute AI Day 30.11.2022
Алена Феногенова, Team Lead AGI NLP, SberDevices
Альбина Ахметгареева, Engineer AGI NLP, SberDevices
Как мы строим рабочие пайплайны для работы с текстом на примере рерайтера и суммаризатора.…
Алена Феногенова, Team Lead AGI NLP, SberDevices
Альбина Ахметгареева, Engineer AGI NLP, SberDevices
Как мы строим рабочие пайплайны для работы с текстом на примере рерайтера и суммаризатора.…
🔥6👍4⚡3
🚀 Тьюринг к нам приходит
Друзья, как вы, наверное, уже заметили, сегодня вышел замечательный релиз сети ChatGPT от OpenAI.
〰️ Что это?
Об этом она сам вам расскажет, добавлю лишь, что впервые вижу настолько качественного чат-бота. Он умеет логически рассуждать, отличая бред от того, что действительно могло бы произойти. Поэтому многие ответы дает в стиле душнилы, что мол "да не может такого быть, ты чего это, друг, давай-ка посерьезней". Срез знаний у нее на конец 2021 года, умеет кратко пересказывать книги и сюжет фильмов, причем может переделывать их, меняя детали на заказ. Хорошо держит контекст беседы, можно классно с ней чатиться.
〰️ Этика
Видно, что очень сильно затюнена этически, чтобы никого случайно незаабьюзить:
• На вопрос "Чего хочет женщина?" отвечает, что все женщины разные. Чтобы узнать, надо с ней побеседовать.
• Про отличия между странами или людьми, опять же, говорит, что все сложно и нельзя просто так делить людей на категории.
〰️ Языки
Основной язык английский, на нем она дает наиболее развернутые ответы. Но, как вы видите, я ее спрашивал на русском и на нем генерация тоже есть. Заметно, что выдается существенно меньше токенов, а значит русского в обучающей выборке было немного.
👉 Чтобы поиграться, нужно регаться на openai, сама демка здесь. А вот статья про нее.
Друзья, как вы, наверное, уже заметили, сегодня вышел замечательный релиз сети ChatGPT от OpenAI.
〰️ Что это?
Об этом она сам вам расскажет, добавлю лишь, что впервые вижу настолько качественного чат-бота. Он умеет логически рассуждать, отличая бред от того, что действительно могло бы произойти. Поэтому многие ответы дает в стиле душнилы, что мол "да не может такого быть, ты чего это, друг, давай-ка посерьезней". Срез знаний у нее на конец 2021 года, умеет кратко пересказывать книги и сюжет фильмов, причем может переделывать их, меняя детали на заказ. Хорошо держит контекст беседы, можно классно с ней чатиться.
〰️ Этика
Видно, что очень сильно затюнена этически, чтобы никого случайно незаабьюзить:
• На вопрос "Чего хочет женщина?" отвечает, что все женщины разные. Чтобы узнать, надо с ней побеседовать.
• Про отличия между странами или людьми, опять же, говорит, что все сложно и нельзя просто так делить людей на категории.
〰️ Языки
Основной язык английский, на нем она дает наиболее развернутые ответы. Но, как вы видите, я ее спрашивал на русском и на нем генерация тоже есть. Заметно, что выдается существенно меньше токенов, а значит русского в обучающей выборке было немного.
👉 Чтобы поиграться, нужно регаться на openai, сама демка здесь. А вот статья про нее.
🤯16👍11🔥6⚡2
Это похоже на какой-то киберпанк квест, но ChatGPT 👆 попросили вести себя как linux терминал, вошли в виртуалку, смогли через нее делать запросы во внешнюю сеть и обратились curl’ом к ней самой через сайт Open AI.
https://www.engraved.blog/building-a-virtual-machine-inside/
https://www.engraved.blog/building-a-virtual-machine-inside/
Engraved
Building A Virtual Machine inside ChatGPT
Unless you have been living under a rock, you have heard of this new ChatGPT assistant made by OpenAI. Did you know, that you can run a whole virtual machine inside of ChatGPT?
🤯34👍8🔥5😁2⚡1