ExMuffin
5.45K subscribers
58 photos
36 videos
74 links
Из сохраненок и набросков в посты про ИИ.

👤 @bomze
Download Telegram
🧸 AI Interior Designer 🧸

Не прошло и недели, а на канале новый колаб. На этот раз дизайнер интерьеров. Все просто: подаешь фото, выбираешь один из 84 стилей дизайна (либо пишешь свой) и получаешь прекрасный результат. Под капотом КонтролНЕТ (выбрал те модели, которые дают хороший результат). Колаб адаптировал именно под интерьеры, поэтому менять дизайн одежды или обуви можно даже не пытаться. В довесок прикрутил автопереводчик, поэтому можете писать названия каких-то новых стилей на любом языке. В общем, милости прошу тестить:

https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/AI_Interior_Designer.ipynb
MLArt

Привет всем! Целый год я ничего не писал сюда, ибо столкнулся с внутренними ограничениями, которые сам себе создал. Раньше, когда у меня было всего 8 подписчиков, я писал про дизайн, проводил интервью с интересными мне людьми, делал пересказы книг по воспитанию детей (все это еще осталось на канале). Я писал про все, к чему душа лежала (в особенности про нейросети). Я с большим удовольствием тестировал их и продолжаю тестировать по сей день.

Большой поток подписчиков пошел тогда, когда я начал постить Колаб ссылки на ноутбуки, которые я собирал для тех, кто хочет познакомиться с новинками в области машинного обучения, но не обладает навыками программирования. Это было полезным делом, ведь я чувствовал ответственность перед теми, кто ради этого и подписался. Я несколько раз писал о том, что хочу поэкспериментировать с форматами постов, но всегда останавливался, ибо боялся, что многие из вас отпишутся. Это было нечестно как перед вами, так и перед собой.

Затем на арену вышли генераторы изображений и ЛЛМки, а делать однотипные посты о том, как новая моделька на долю процента обогнала предыдущую не хотелось и я решил не писать ничего. Потом я запустил новый канал, где без зазрения совести писал о разных фреймворках, которыми сам пользуюсь, однако в чем смысл делиться ссылками с самим собой, когда есть место, где наверняка найдутся те, кому это будет интересно. Я решил вернуться сюда, честно вас предупредить, что Колабов будет меньше и, скорее всего, на не самые популярные проекты, высокую регулярность постов тоже обещать не могу, ибо все зависит от свободного времени. Посты с нового канала перенесу сюда до конца недели, а дальше как пойдет.

Всем, кто решит отписаться, хотел бы сказать спасибо за эти прекрасные годы, что вы читали меня, обсуждали со мной различные новинки и делились своим опытом. Возможно добавлю обсуждения, о которых многие просили, но это позже. Сейчас я плавно поменяю имя, описание и картинку канала, закину первый пост и буду надеяться, что не начну снова ставить себе рамки.
{guidance}

Хотел бы поделиться инструментами, которые сам часто использую. Начну с прекрасного тула для ЛЛМок, позволяющего структурировать выходные данные. Называется он Guidance. На самом деле это больше чем просто контроль аутпута, это целая парадигма взаимодействия с языковыми моделями, позволяющая легко строить логику над полученными ответами. Так, например, всего в несколько строк можно получить классификатор, вместо того, чтобы писать кучу условий в промпте и надеяться, что модель не напишет отсебятины:

from guidance import models, select
llama2 = models.LlamaCpp(path)
llama2 + 'Who loves their owner more? Answer: ' + select(['cat', 'dog'])


Иными словами мы смотрим на самый вероятный токен из представленных вариантов, а не всех, что есть в словаре. Такие варианты можно определять как списком, так и, например, регулярными выражениями. И это лишь толика того, что можно вытворять с помощью этой штуки. Еще один пример использования я прикреплю картинкой, но лучше заглянуть в репу и ознакомиться со всем функционалом (благо в ридми много подробных примеров). Эта либа прекрасно дружит и с Transformers, и с llama.cpp.

Допом можно ознакомиться с LMQL (аналог с кучей своих преимуществ).

#useful
Langflow и FlowiseAI

Всем любителям ноу-кодинга и пользователям Comfy посвящается. Нет, это не про картинки, а про ЛЛМ и LangChain (который я всей душой не люблю). С одной стороны для быстрых тестов подходящий фреймворк, но как только прикидываешь время на правки шаблонов промптов и кучи всего прочего, то понимаешь, что это сравнимо с тем, если бы все писал сам с нуля.

Энивей, многие пользуются. Этих многих могло бы быть больше, если бы они знали, что есть возможность собирать эти чейны нодами без единой строчки кода. Быстро и удобно (ведь весь ваш пайплайн потом можно экспортировать в виде кода, если вдруг решите встроить в свой сервис). Речь идет о Langflow и FlowiseAI. На отдельные посты делить их не хочется ибо они мало чем друг от друга отличаются, поэтому предлагаю попробовать оба и выбрать тот, который покажется интересным больше.

#useful
Instructor

Ждать от ГПТшки структурированного ответа не самое приятное дело. Поэтому ОпенАИ и выкатили поддержку вызова функций. Заполнил ДжейСОН-Схему и получил структурированный ответ. Новая проблема возникает тогда, когда нам нужно писать более 3 таких схем (а так же функций для них) и наш код разрастается до каких-то страшных объемов, которые еще и сложно читать. В таком случае возникает потребность в поиске иной структуры извлечения данных. И тут на помощь к нам приходит Instructor (обертка над Pydantic). Гораздо более удобный формат взаимодействия с функциями, имхо, который имеет множество фич, таких как, например, валидация ответа. Код сокращается незначительно, но обслуживать его становится сплошным удовольствием. Дополнительно можно потестировать Kor (выглядит аналогично впечатляюще).

#useful
Sora

Анонс модели для генерации видео от OpenAI.

+ Универсальность: возможность генерировать видео разных разрешений, соотношений сторон и длительности.
+ Понимание: короткий промпт, написанный на разных языках, будет дополнен деталями, точно описывающими сцену (как это было в Далли3).
+ Редактирование: можно создавать зацикленные видео, продлевать их, менять окружение и объекты, делать плавный переход между двумя видео, а так же анимировать статичные изображения (которыми уже никого не удивишь).
+ Когерентность: невероятная согласованность кадров, от чего объекты сохраняют свою позицию в пространстве. Это особенно чувствуется, когда камера вращается вокруг какого-нибудь места или объекта.
+ Взаимодействие: модель способна симулировать действия, которые влияют на состояние мира в сцене. Например, художник наносит мазки на холст. С появлением новых мазков старый сохраняются.
- Из минусов выделяют просадки с точным моделированием физики основных взаимодействий и поддержанием согласованности в длительных сценах

По мере развития Sora обещает стать еще более мощным симулятором физического и цифрового миров.

Дополнительно почитать и посмотреть можно тут: https://openai.com/research/video-generation-models-as-world-simulators

#news
This media is not supported in your browser
VIEW IN TELEGRAM
Irbis-7B v0.1 - казахская ЛЛМ 🇰🇿

Мы тут обратили внимание, что опенсорс языковые модели отвратительно работают с казахским языком и решили исправить это недоразумение. Работа еще не окончена, но уже из интересного есть, что рассказать и показать. Сейчас моделька не дурно отвечает на простые вопросы и извлекает информацию из контекста, невзирая на те трудности, с которыми пришлось столкнуться при подготовке данных и тренировке.

О том что и как было сделано (в т.ч. примеры и сравнения) можно ознакомиться в статье на Хабре.

🤗 Base: model
🤗 Instruct: lora