Коллеги из Яндекса выкатывают свой аналог ChatGPT. Попробовал его и иногда оно отвечает довольно неплохо, но пока не держит контекст разговора и обложена-переложена фильтрами чувствительных слов.
Кажется, что такой подход только подстрекает людей на то, чтобы такие фильтры обходить и это всегда будет получаться, как и с любой другой моделью.
В любом случае, удачи им в этом начинании. Надеюсь, что-то удастся передать в open source и поделиться деталями с сообществом.
Кажется, что такой подход только подстрекает людей на то, чтобы такие фильтры обходить и это всегда будет получаться, как и с любой другой моделью.
В любом случае, удачи им в этом начинании. Надеюсь, что-то удастся передать в open source и поделиться деталями с сообществом.
😁73🙈10😱9🫡5👍4
🔺 AI в ИБ
Сходил тут на PHDays и познакомился Сашей Мурзиной, которая руководит ML командами в Positive Technologies. Понял, что ML у безопасников — это какой-то свой мир, с задачами по обнаружению аномалий в данных и анализе инцидентов, с атаками на биометрию и соответствующим research'ем.
Еще послушал пару довольно интересных докладов из AI-трека, записи уже можно посмотреть:
🔸 Prompt Injection и все-все-все. Как лучше дизраптить LLM'ки.
🔸 Атаки на распознавание живого присутствия. Прикольный шпионский доклад с криповым реквизитом.
👉 Еще Саша поделилась страничкой про свою команду, там можно узнать про основные направления ML в сфере ИБ, если у кого-то к этому лежит душа.
Сходил тут на PHDays и познакомился Сашей Мурзиной, которая руководит ML командами в Positive Technologies. Понял, что ML у безопасников — это какой-то свой мир, с задачами по обнаружению аномалий в данных и анализе инцидентов, с атаками на биометрию и соответствующим research'ем.
Еще послушал пару довольно интересных докладов из AI-трека, записи уже можно посмотреть:
🔸 Prompt Injection и все-все-все. Как лучше дизраптить LLM'ки.
🔸 Атаки на распознавание живого присутствия. Прикольный шпионский доклад с криповым реквизитом.
👉 Еще Саша поделилась страничкой про свою команду, там можно узнать про основные направления ML в сфере ИБ, если у кого-то к этому лежит душа.
🔥25👍10❤🔥5❤1🤓1
Я понял, это просто тренажер такой для дизрапта LM’ок. Наверняка там где-то рейтинг есть и баллы начисляются. #yagpt
😁69🙈14👍4💯4
Всем продуктивной недели. Не обижайте языковые модели, они наши друзья.
😁42🔥7❤5👍4
🔺 State of GPT
Андрей Карпати не выдержал и начал нести знание про обучение ChatGPT-подобных моделей в массы.
В своем докладе Андрей объясняет все основные моменты, от языковых моделей и токенизации до RLHF.
Upd.
🔸 Почему RLHF лучше чем SFT? Потому что выбирать проще чем генерировать. Дает пример с написанием трех хокку про скрепку и выбором лучшего из них.
🔸 CoT. Модели нужны токены, что подумать.
Если постараться размазать ответ модели на более длинную последовательность токенов, то результат получится лучше, чем просто ожидать от нее точный ответ в одном токене.
👉 Видео
Андрей Карпати не выдержал и начал нести знание про обучение ChatGPT-подобных моделей в массы.
В своем докладе Андрей объясняет все основные моменты, от языковых моделей и токенизации до RLHF.
Upd.
🔸 Почему RLHF лучше чем SFT? Потому что выбирать проще чем генерировать. Дает пример с написанием трех хокку про скрепку и выбором лучшего из них.
🔸 CoT. Модели нужны токены, что подумать.
Если постараться размазать ответ модели на более длинную последовательность токенов, то результат получится лучше, чем просто ожидать от нее точный ответ в одном токене.
👉 Видео
🔥46👍8🎉2❤🔥1
Forwarded from RnD CV Team (A K)
Slovo — новый датасет для распознавания Русского Жестового Языка (РЖЯ) 🧏♂️🧏♀️
Один из проектов нашей команды — распознавания РЖЯ 🦻, в связи с чем собрали самый большой датасет (150 000 видео и 3 000 классов) для решения этой задачи. Часть данных мы готовы опубликовать сейчас и назвали её Slovo 🫶, выкладываем в Open-Source и делимся с комьюнити.
Вчера вышла наша статья на arXiv 📄, а сегодня на Habr мы подробнее расскажем о проблематике РЖЯ, пайплайне сбора и разметки данных, а также про обучение моделей на датасете Slovo! Датасет и веса моделей можно скачать по ссылкам из Github и Kaggle. 💪
Основные проблемы и вызовы в задаче РЖЯ:
- Аудитория по разным оценкам от 400 тыс. до 2 млн,
- Около 500 различных диалектов только в России,
- Отдельная обработка для составных слов и дактиля,
- Поиск целевой аудитории и экспертов очень затруднен.
Кратко об опубликованной части датасета:
👾 20.000 HD+ видео (65% датасета FullHD)
👩💼 194 эксперта РЖЯ
💪 самый разнородный по субъектам открытый датасет РЖЯ
🕗 время записи "жестов" - 9.2 часа
🖇 датасет представлен в нескольких вариантах для удобства использования
⚙️ размечен по началу, концу жестовых событий и авто-размечен через MediaPipe
👥 для сбора и разметки использовали 2 краудсорсинг платформы (Толоку и АБК Элементари)
Авторы: @hukenovs, @karinakv, @nagadit, @lizaforlizard
Отдельная благодарность нашим дата-инженерам: @AlexS_340, @your_petros
Очень надеемся привлечь разработчиков и экспертов-носителей РЖЯ к большой социальной проблеме коммуникации между слабослышащими людьми и людьми без дефектов слуха и речи.
Будем рады любой обратной связи! ❤️
#release
Один из проектов нашей команды — распознавания РЖЯ 🦻, в связи с чем собрали самый большой датасет (150 000 видео и 3 000 классов) для решения этой задачи. Часть данных мы готовы опубликовать сейчас и назвали её Slovo 🫶, выкладываем в Open-Source и делимся с комьюнити.
Вчера вышла наша статья на arXiv 📄, а сегодня на Habr мы подробнее расскажем о проблематике РЖЯ, пайплайне сбора и разметки данных, а также про обучение моделей на датасете Slovo! Датасет и веса моделей можно скачать по ссылкам из Github и Kaggle. 💪
Основные проблемы и вызовы в задаче РЖЯ:
- Аудитория по разным оценкам от 400 тыс. до 2 млн,
- Около 500 различных диалектов только в России,
- Отдельная обработка для составных слов и дактиля,
- Поиск целевой аудитории и экспертов очень затруднен.
Кратко об опубликованной части датасета:
👾 20.000 HD+ видео (65% датасета FullHD)
👩💼 194 эксперта РЖЯ
💪 самый разнородный по субъектам открытый датасет РЖЯ
🕗 время записи "жестов" - 9.2 часа
🖇 датасет представлен в нескольких вариантах для удобства использования
⚙️ размечен по началу, концу жестовых событий и авто-размечен через MediaPipe
👥 для сбора и разметки использовали 2 краудсорсинг платформы (Толоку и АБК Элементари)
Авторы: @hukenovs, @karinakv, @nagadit, @lizaforlizard
Отдельная благодарность нашим дата-инженерам: @AlexS_340, @your_petros
Очень надеемся привлечь разработчиков и экспертов-носителей РЖЯ к большой социальной проблеме коммуникации между слабослышащими людьми и людьми без дефектов слуха и речи.
Будем рады любой обратной связи! ❤️
#release
❤31👍13🔥10💯2🥴1
🔺 Datafest
На идущем сейчас Datafest'е завершилась секция Instruct models. Особенно полезные доклады, на мой взгляд, были про RLHF от Игоря Котенкова и Сайгу от Ильи Гусева.
Получаствовал даже Янник Килчер, немного рассказав про GigaChat. Ссылки на видео скоро появятся, ждём.
Было приятно пообщаться с всеми участниками, спасибо организаторам!
👉 P.S. Datafest продолжается. Программа | Канал
На идущем сейчас Datafest'е завершилась секция Instruct models. Особенно полезные доклады, на мой взгляд, были про RLHF от Игоря Котенкова и Сайгу от Ильи Гусева.
Получаствовал даже Янник Килчер, немного рассказав про GigaChat. Ссылки на видео скоро появятся, ждём.
Было приятно пообщаться с всеми участниками, спасибо организаторам!
👉 P.S. Datafest продолжается. Программа | Канал
🔥27❤🔥6👍5😁4🍾2❤1
😁35🔥10✍3❤1🤯1
🔺 StyleDrop
Помните крутую сетку для генерации изображений MUSE от Google, которую нельзя нигде потрогать?
Так вот на днях авторы дообучили её на перенос стилей и говорят, что это лучше чем StableDiffusion+DreamBooth или Imagen.
Весов и модели снова нет, только статья и примеры. В статье однако есть ссылка на Colab с SD+textual inversion finetuning, который дает схожий по смыслу результат.
👉 Статья | Сайт
Помните крутую сетку для генерации изображений MUSE от Google, которую нельзя нигде потрогать?
Так вот на днях авторы дообучили её на перенос стилей и говорят, что это лучше чем StableDiffusion+DreamBooth или Imagen.
Весов и модели снова нет, только статья и примеры. В статье однако есть ссылка на Colab с SD+textual inversion finetuning, который дает схожий по смыслу результат.
👉 Статья | Сайт
🔥11🤔4👍3⚡1😁1🆒1
🔺 Transformer models: an introduction and catalog
Что ни день, то новая трансформерная модель. Чтобы не запутаться, можно воспользоваться обзором, который периодически обновляется.
🔸 Для каждой модели есть описание, отражающее её суть. Например, Vicuna — это LLaMA, дообученная на человеческих инструкциях, собранных из ShareGPT.
🔸 Также есть описание основных деталей архитектуры и информация по задачам, на которых модель обучалась (objective).
🔸 У каждой модели есть ссылка на оригинальную статью, если захочется погрузиться в детали.
👉 Читать | Таблица с моделями
Что ни день, то новая трансформерная модель. Чтобы не запутаться, можно воспользоваться обзором, который периодически обновляется.
🔸 Для каждой модели есть описание, отражающее её суть. Например, Vicuna — это LLaMA, дообученная на человеческих инструкциях, собранных из ShareGPT.
🔸 Также есть описание основных деталей архитектуры и информация по задачам, на которых модель обучалась (objective).
🔸 У каждой модели есть ссылка на оригинальную статью, если захочется погрузиться в детали.
👉 Читать | Таблица с моделями
🔥15👍9⚡2
#language_facts
Разбираю старые научно-полуярные книжки по лингвистике, поэтому вот вам пара забавных фактов про языки и восприятие цвета.
🔸 Синие светофоры в Японии
В Японии часто можно встретить светофоры, в которых привычный нам зелёный сигнал будет с оттенком синего. Связано это с тем, что оттенки синего и зелёного цветов в японском языке раньше обозначались одним словом ао (青, あお). И когда в 1930-е годы в Японию были импортированы первые светофоры, зелёный свет на них назывался aoshingō (青信号, あおしんごう).
Со временем, слово ao стало обозначать "синий", а значение "зелёный" сохранилось только относительно зелени и овощей — зелёные яблоки и сейчас это "ao ringo", а непосредственно зелёный цвет стал обозначаться словом midori ( 緑, みどり). Чтобы не переименовывать разрешающий сигнал в midori shingō ("зеленый сигнал"), 1973 году японцы подогнали реальность под язык и сделали светофоры более синими.
🔸 Синий и голубой
В 2008 году в Стенфорде провели следующий эксперимент. Испытуемым предлагалось три квадрата в сине-голубой гамме (как на картинке) и нужно было определить, какой из двух нижних квадратов того же цвета, что и верхний. Замеряли время ответа, о чём, для чистоты эксперимента, испытуемым не сообщали.
Интересным оказался результат для носителей русского языка. Когда верхний квадрат был на границе синего и голубого цветов, но ближе к синему, а нижний неправильный квадрат был на пару оттенков ближе к голубому, то время ответа было существенно меньше чем то же задание, сдвинутое в чисто синюю или чисто голубую гамму. У носителей английского такого эффекта не наблюдалось. Этот эффект связали с тем, что в русском языке это отдельные цвета, а в английском оба обозначаются словом blue.
Таким образом, восприятие мира во многом связано с языком и культурой, в которой мы живем. И вообще я задумался, представляем ли мы в своей голове один и тот же цвет, когда говорим, что небо синее, а трава зеленая?
Разбираю старые научно-полуярные книжки по лингвистике, поэтому вот вам пара забавных фактов про языки и восприятие цвета.
🔸 Синие светофоры в Японии
В Японии часто можно встретить светофоры, в которых привычный нам зелёный сигнал будет с оттенком синего. Связано это с тем, что оттенки синего и зелёного цветов в японском языке раньше обозначались одним словом ао (青, あお). И когда в 1930-е годы в Японию были импортированы первые светофоры, зелёный свет на них назывался aoshingō (青信号, あおしんごう).
Со временем, слово ao стало обозначать "синий", а значение "зелёный" сохранилось только относительно зелени и овощей — зелёные яблоки и сейчас это "ao ringo", а непосредственно зелёный цвет стал обозначаться словом midori ( 緑, みどり). Чтобы не переименовывать разрешающий сигнал в midori shingō ("зеленый сигнал"), 1973 году японцы подогнали реальность под язык и сделали светофоры более синими.
🔸 Синий и голубой
В 2008 году в Стенфорде провели следующий эксперимент. Испытуемым предлагалось три квадрата в сине-голубой гамме (как на картинке) и нужно было определить, какой из двух нижних квадратов того же цвета, что и верхний. Замеряли время ответа, о чём, для чистоты эксперимента, испытуемым не сообщали.
Интересным оказался результат для носителей русского языка. Когда верхний квадрат был на границе синего и голубого цветов, но ближе к синему, а нижний неправильный квадрат был на пару оттенков ближе к голубому, то время ответа было существенно меньше чем то же задание, сдвинутое в чисто синюю или чисто голубую гамму. У носителей английского такого эффекта не наблюдалось. Этот эффект связали с тем, что в русском языке это отдельные цвета, а в английском оба обозначаются словом blue.
Таким образом, восприятие мира во многом связано с языком и культурой, в которой мы живем. И вообще я задумался, представляем ли мы в своей голове один и тот же цвет, когда говорим, что небо синее, а трава зеленая?
👍32🔥12❤2🆒2
Мне тут в очередной раз пишут, что фраза "внутре у ней неонка" правильно будет "внутри у неё неонка".
Волнуюсь, что такие люди могут пойти в AI-тренеры выравнивать наши с вами нейросеточки .
👉 Кстати, видео с датафеста подъехали, можно смотреть.
👉 Кстати, видео с датафеста подъехали, можно смотреть.
😁55🔥13❤4👏2😱2🎉1
Посетил Армению, поэтому вот вам пара заметок про армянский язык.
🔸 Алфавит придумал Месроп Маштоц ещё в 405 году, за 4-5 веков до кириллицы. С тех пор добавились три буквы, остальные не менялись (сейчас их 39).
🔸 Если в Ереване обращать внимание на вывески и дорожные указатели, то через пару дней можно научиться писатьԹՌԱՆՍԼԻԹՈՄ . Но только заглавными буквами.
🔸 За городом есть прекрасное место, под названием Аллея букв. Можно погулять и поискать буквы своего имени.
🔸 Полезные фразы, которые посоветовал запомнить экскурсовод — «барев дзес» (здравствуйте), «шноракалутюн» (спасибо) и на всякий случай «погх чка» (денег нет).
#отпуск
🔸 Алфавит придумал Месроп Маштоц ещё в 405 году, за 4-5 веков до кириллицы. С тех пор добавились три буквы, остальные не менялись (сейчас их 39).
🔸 Если в Ереване обращать внимание на вывески и дорожные указатели, то через пару дней можно научиться писать
🔸 За городом есть прекрасное место, под названием Аллея букв. Можно погулять и поискать буквы своего имени.
🔸 Полезные фразы, которые посоветовал запомнить экскурсовод — «барев дзес» (здравствуйте), «шноракалутюн» (спасибо) и на всякий случай «погх чка» (денег нет).
#отпуск
👍26😁14🔥5❤2🥰1