Потестировал вчера Ideogram и gpt-4o и вот что скажу — качество очень прилично подросло за последние несколько месяцев. Если вам в работе и хобби надо делать какие-то прототипы дизайнов и картинок, то надо обязательно использовать (если еще не).
Порисовал обложки для книг. За час получилось несколько десятков веселых обложек. Можно делать так: любой LLM с web-поиском генерируете промпт для генерации картинок (я вбивал в perplexity), что-нибудь типа такого:
Так как есть поиск, то книгу можно задавать любую, которую можно найти в интернете. Полученный промпт уже можно использовать.
gtp-4o работает с русскими надписями гораздо стабильней, хотя тоже ошибается. Самое частое у них — это либо удвоить какую-нибудь букву, либо написать одну вместо удвоенной (либо написать кракозябры). Причем, если просить не писать надписей вообще (чтобы самому дописать в иллюстраторе), то получается как-будто бы похуже. Ideogram делает более разнообразные картинки, быстрей (секунд за 20) и сразу по 4 штуки. Кроме того, на платных подписках там есть редактор с всем типичным функционалом типа inpainting'а, outpainting'а, создания стиля по своим картинкам и т.д. Как специализированный инструмент он кажется получше.
👉 Еще нащупал лайфхак. Если к надписям в полученном промпте добавлять что-то типа "label is in Russian, reads exactly as '...' " и писать не капсом, то процент правильных надписей получается выше.
В общем надо тестить еще и, наверное, накидать пет-проект для end-2-end генерации.
Порисовал обложки для книг. За час получилось несколько десятков веселых обложек. Можно делать так: любой LLM с web-поиском генерируете промпт для генерации картинок (я вбивал в perplexity), что-нибудь типа такого:
"Найди информацию о книге Стругацких "Улитка на склоне". В выводе напиши только промпт для генерации изображения для обложки этой книги. На обложке должна быть яркая сцена из книги, название и имя автора на русском, промпт должен быть на английском. Стиль укиё-э."
Так как есть поиск, то книгу можно задавать любую, которую можно найти в интернете. Полученный промпт уже можно использовать.
gtp-4o работает с русскими надписями гораздо стабильней, хотя тоже ошибается. Самое частое у них — это либо удвоить какую-нибудь букву, либо написать одну вместо удвоенной (либо написать кракозябры). Причем, если просить не писать надписей вообще (чтобы самому дописать в иллюстраторе), то получается как-будто бы похуже. Ideogram делает более разнообразные картинки, быстрей (секунд за 20) и сразу по 4 штуки. Кроме того, на платных подписках там есть редактор с всем типичным функционалом типа inpainting'а, outpainting'а, создания стиля по своим картинкам и т.д. Как специализированный инструмент он кажется получше.
👉 Еще нащупал лайфхак. Если к надписям в полученном промпте добавлять что-то типа "label is in Russian, reads exactly as '...' " и писать не капсом, то процент правильных надписей получается выше.
В общем надо тестить еще и, наверное, накидать пет-проект для end-2-end генерации.
❤28🔥13👍4🆒2
Словил дурацкий баг в Cursor'е — не логинится в IDE после успешного логина в браузере и не дает работать с агентом, переустановка не помогла. Ни у кого не было такого?
😁14👀5👍2🗿1
И у них, наконец, появились имена — Behemoth, Maverick, Scout. Последние две уже можно скачивать с HF и официального сайта.
🔸 Все модели теперь MoE (каждый раз активируется только часть от всех весов — "эксперты"). Дальше указаны активное/общее количество параметров.
🔸 Модели мультимодальные и еще более мультиязычные. Претрейн был на более чем 200 языках, из них более ста были с 1B+ токенов. Русский среди поддерживаемых 12-ти языков не указан, видимо, в топ-12 не входит.
🔸 Скаут и Маверик дистиллированы из Бегемота.
Scout → 17B/109B, 16 экспертов. Контекст — 10M токенов
Maverick → 17B/400B, 128 экспертов. Контекст — 1M токенов. На некоторых тестах показывает уровень GPT-4o. На lmarena.ai вторая после Gemini 2.5 Pro Exp.
Behemoth → 288B/2T
👉 llama.com (дают временную ссылку) | HF (одобряют заявку)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17❤7 3👍1🎉1
🔺 Llama 4 уже есть на together.ai, при регистрации дают бесплатные кредиты. Регистрируемся, пробуем, vpn/sms не нужны.
P.S. Все у нее с русским нормально.
• meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8
• meta-llama/Llama-4-Scout-17B-16E-Instruct
👉 Вот мой токен потыкать сразу 5e7f99a7bd15b5e63e537f82bf0cb112a072076209e249d13a47f5ab9c80f6c9
P.S. Все у нее с русским нормально.
• meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8
• meta-llama/Llama-4-Scout-17B-16E-Instruct
👉 Вот мой токен потыкать сразу 5e7f99a7bd15b5e63e537f82bf0cb112a072076209e249d13a47f5ab9c80f6c9
from together import Together
client = Together(
api_key="***************"
)
completion = client.chat.completions.create(
model="meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8",
messages=[
{"role": "system", "content": "Ты — ассистент Шерлока Холмса."},
{"role": "user", "content": "Кто убил садовника?"},
],
temperature=0.7,
top_p=0.8,
top_k=50,
repetition_penalty=1,
stop=["<|eot_id|>", "<|eom_id|>"],
stream=True,
max_tokens=512,
)
for token in completion:
if hasattr(token, "choices"):
if not token.choices:
break
print(token.choices[0].delta.content, end="", flush=True)
# Детектив Холмс ещё не поделился со мной своими выводами по делу об убийстве садовника. На данный момент я могу лишь повторить известные нам факты: садовник был найден мёртвым возле садового сарая, с признаками насильственной смерти. Холмс сейчас изучает улики и опрашивает свидетелей, и я не сомневаюсь, что вскоре он раскроет правду. Хотите, я приглашу его для обсуждения дела?
❤20🤗5✍1👍1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
🔺 OmniSVG
Новая работа по отрисовке векторной графики при помощи VLM. Есть статья и открытые датасеты.
Код и модели обещают выложить soon. Примеры на лендинге выглядят симпатично, ждём код с весами.
👉 https://omnisvg.github.io
Новая работа по отрисовке векторной графики при помощи VLM. Есть статья и открытые датасеты.
Код и модели обещают выложить soon. Примеры на лендинге выглядят симпатично, ждём код с весами.
👉 https://omnisvg.github.io
❤22 8👍5🔥4
Так, друзья, чуть-чуть заработался и давно не писал. Что у нас было интересного за последнее время?
🔸 Коллеги выкатили GigaChat 2 Max повсеместно, т.е. везде. Кроме улучшений по метрикам, появился web-поиск и другие фичи (можно почитать в статье, а попробовать тут — giga.chat).
🔸 Также поучаствовали в митапе про MERA (разносторонний бенчмарк для русского языка) в Тинькове и обновили лидерборд, добавив несколько новых моделей, первым теперь стал Claude 3.7. Новый офис у Т-Банка, кстати, довольно симпатичный.
🔸 В ответ на выпуск Гиги, OpenAI выкатила свои новые модели. Появились новые reasoning модели — o3, o4-mini и новая линейка gpt-4-1 (пишут, что лучше понимают код и инструкции, контекст 1M).
🔸 Также они выпустили консоль Codex CLI (кодовый клиент для терминала, похоже на Claude Code). Пока руки не дошли, обязательно посмотрю чем отличается от других. Кто пробовал — пишите, есть ли разница.
🔸 Еще дали бета-доступ до Mercury Coder, дифузионной кодовой модели. Потыкал, по части генераций каких-то откровений не приобрел, но генерирует очень быстро, где-то по тысяче токенов в секунду.
🔸 Коллеги выкатили GigaChat 2 Max повсеместно, т.е. везде. Кроме улучшений по метрикам, появился web-поиск и другие фичи (можно почитать в статье, а попробовать тут — giga.chat).
🔸 Также поучаствовали в митапе про MERA (разносторонний бенчмарк для русского языка) в Тинькове и обновили лидерборд, добавив несколько новых моделей, первым теперь стал Claude 3.7. Новый офис у Т-Банка, кстати, довольно симпатичный.
🔸 В ответ на выпуск Гиги, OpenAI выкатила свои новые модели. Появились новые reasoning модели — o3, o4-mini и новая линейка gpt-4-1 (пишут, что лучше понимают код и инструкции, контекст 1M).
🔸 Также они выпустили консоль Codex CLI (кодовый клиент для терминала, похоже на Claude Code). Пока руки не дошли, обязательно посмотрю чем отличается от других. Кто пробовал — пишите, есть ли разница.
🔸 Еще дали бета-доступ до Mercury Coder, дифузионной кодовой модели. Потыкал, по части генераций каких-то откровений не приобрел, но генерирует очень быстро, где-то по тысяче токенов в секунду.
😁21👍8❤5🔥3
Попробовал OpenAI'ный Codex клиент, пока сыровато. Первый же демо запрос "explain codebase" падает по лимиту в 200k токенов и результат не возвращает. Товарищи уже чинят. Странно, что сразу не проверили, много пользователей на это наткнулось.
Деньги за ~170k-180k токенов при этом кушает, тут ошибок нет.
Деньги за ~170k-180k токенов при этом кушает, тут ошибок нет.
😁50🤯6⚡5
OpenAI добавили в API свою новую крутую модель по генерации картинок (через которую недавно все генерили Ghibli аниме) — в API она называется gpt-image-1.
Можно было бы встроить в свои проекты, тут есть куча идей, но модель доступна только после верификации организации, привязанной к аккаунту. Верификация проходит через сторонний сервис whitepersona (а у кого-то кнопки для верификации вообще нет). Там надо загружать личные документы.
У меня с первого раза не получилось и, как я понял, вторую попытку сразу не дают. Написал им в саппорт.
Можно было бы встроить в свои проекты, тут есть куча идей, но модель доступна только после верификации организации, привязанной к аккаунту. Верификация проходит через сторонний сервис whitepersona (а у кого-то кнопки для верификации вообще нет). Там надо загружать личные документы.
У меня с первого раза не получилось и, как я понял, вторую попытку сразу не дают. Написал им в саппорт.
🤯11👍6🔥3