RAG на больших данных: экономически эффективные эмбединги от Anyscale & Pinecone
Anyscale и Pinecone представили ~дешевое решение для RAG-приложений, снижающее затраты на эмбеддинги на 90%.
Создание эмбеддингов - первый шаг в приложениях Retrieval-Augmented Generation (RAG). Если пользоваться OpenAI - то на эмбеддинг 1B токенов уйдём примерно $60к. Anyscale и Pinecone значительно снижают эти затраты (ну и не только они, есть еще together.ai embeddings)
Pinecone - это бессерверная векторная база данных (есть и другие, расскажите кто чем пользуется). А Anyscale собственно предлагают модель для эмбеддингов.
Скорость достигается путем параллелизации через Ray. Но все равно, даже при всей экономической выгоде от такого решения, 1B токенов обойдется в $6к. А хотелось бы $6.
Как думаете, через сколько месяцев будет $600?
Anyscale x Pinecone
Anyscale и Pinecone представили ~дешевое решение для RAG-приложений, снижающее затраты на эмбеддинги на 90%.
Создание эмбеддингов - первый шаг в приложениях Retrieval-Augmented Generation (RAG). Если пользоваться OpenAI - то на эмбеддинг 1B токенов уйдём примерно $60к. Anyscale и Pinecone значительно снижают эти затраты (ну и не только они, есть еще together.ai embeddings)
Pinecone - это бессерверная векторная база данных (есть и другие, расскажите кто чем пользуется). А Anyscale собственно предлагают модель для эмбеддингов.
Скорость достигается путем параллелизации через Ray. Но все равно, даже при всей экономической выгоде от такого решения, 1B токенов обойдется в $6к. А хотелось бы $6.
Как думаете, через сколько месяцев будет $600?
Anyscale x Pinecone
AlphaGeometry от DeepMind - прекрасно, как свидание поэта с математикой, и триумфально, как олимпийское золото
DeepMind представил умопомрачительную AlphaGeometry - это сочетание языковой модели и символического двигателя дедукции. Один компонент быстро генерирует интуитивные идеи, а другой - принимает рациональные решения. В официальном пресс релизе такой подход сравнили с “думай медленно... решай быстро”, где AI сочетает творчество и логику {кто читал Канемана, расскажите}
В чем прорыв:
🌌 AlphaGeometry демонстрирует способность решать геометрические задачи на уровне золотых медалистов Международной математической олимпиады.
🌌 Система успешно решила 25 из 30 задач олимпиады, используя комбинацию статистических предположений, типичных для языковых моделей, и символического рассуждения - буквально, рисуя окружности и отрезки.
🌌 Вместо обычного естественного языка команда разработала собственный язык для геометрических доказательств со строгим синтаксисом, аналогичным языку программирования, что позволяет программно проверять ответы. По сути, он говорит на “геометрическом”, и удивительно, но его можно понять!
🌌 AlphaGeometry обучалась на 100 миллионах сгенерированных и отфильтрованный доказательств, что обеспечило надежность результатов и позволило избежать потенциальных проблем, связанных с обучением на данных из интернета.
Самое интересное тут - нейросимволический подход. Языковая модель генерирует интуитивные идеи и предложения, а символический двигатель обрабатывает эти предложения, используя формальную логику и четкие правила для проверки выводов.
Take home message:
Эта система не просто даёт ответ на геометрические задачи - она переопределяет подход к решению задач с помощью AI далеко за пределами математики.
Т.е. AI может идти дальше распознавания образов и статистически выводов, а начать активно применять логическое мышление для открытия новых знаний. Ещё один шаг к AGI
♾ Статья в Nature
📐 Github repo
DeepMind представил умопомрачительную AlphaGeometry - это сочетание языковой модели и символического двигателя дедукции. Один компонент быстро генерирует интуитивные идеи, а другой - принимает рациональные решения. В официальном пресс релизе такой подход сравнили с “думай медленно... решай быстро”, где AI сочетает творчество и логику {кто читал Канемана, расскажите}
В чем прорыв:
Самое интересное тут - нейросимволический подход. Языковая модель генерирует интуитивные идеи и предложения, а символический двигатель обрабатывает эти предложения, используя формальную логику и четкие правила для проверки выводов.
Take home message:
Эта система не просто даёт ответ на геометрические задачи - она переопределяет подход к решению задач с помощью AI далеко за пределами математики.
Т.е. AI может идти дальше распознавания образов и статистически выводов, а начать активно применять логическое мышление для открытия новых знаний. Ещё один шаг к AGI
♾ Статья в Nature
📐 Github repo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Международная online конференция про AI от основателей Epic Growth
Лучшие практики для developer, researcher, data scientist, software engineer, team lead от ведущих мировых компаний, которые создают AI-based продукты и инфраструктуру.
Выступят спикеры 📣
— Meta (команда Llama-2)
— Github (команда Copilot)
— Databricks
— Hugging Face
— Anyscale
— Zilliz
— Writer
— Speechify
— Twelve Labs
И других классных компаний, которые прямо сейчас создают AI-будущее.
Будут затронуты самые актуальные темы:
— AI Agents development
— Fine-tuning & RLHF
— AI devtools & infrastructure
— Retrieval-Augmented Generation
— LLMops
— Open Source AI
— Multimodal APIs
— AI & Data analytics
Конференция пройдет в Online формате 3️⃣0️⃣➖3️⃣1️⃣ января на английском языке 🇬🇧
Участники получат доклады, воркшопы и записи, а также доступ в нетворкинг-чат.
Скидка 1️⃣0️⃣ % по промо-коду —
Регистрация через VPN
#реклама
Лучшие практики для developer, researcher, data scientist, software engineer, team lead от ведущих мировых компаний, которые создают AI-based продукты и инфраструктуру.
Выступят спикеры 📣
— Meta (команда Llama-2)
— Github (команда Copilot)
— Databricks
— Hugging Face
— Anyscale
— Zilliz
— Writer
— Speechify
— Twelve Labs
И других классных компаний, которые прямо сейчас создают AI-будущее.
Будут затронуты самые актуальные темы:
— AI Agents development
— Fine-tuning & RLHF
— AI devtools & infrastructure
— Retrieval-Augmented Generation
— LLMops
— Open Source AI
— Multimodal APIs
— AI & Data analytics
Конференция пройдет в Online формате 3️⃣0️⃣➖3️⃣1️⃣ января на английском языке 🇬🇧
Участники получат доклады, воркшопы и записи, а также доступ в нетворкинг-чат.
Скидка 1️⃣0️⃣ % по промо-коду —
SFCAND759
Регистрация через VPN
#реклама
Perplexity объявили, что они стали поиском по умолчанию для Rabbit 🐇
Rabbit - это AI-first устройство. По задумке создателей, людям больше не нужно нажимать на кнопки на телефоне. Мол зачем, если можно просто сказать ИИ чего ты хочешь, и он сделает все по красоте.
Perplexity - это такой умный поиск на стероидах. На любой запрос пользователя, он умеет давать ответ одним абзацем (и уже потом предлагает ссылки на источники).
Так вот, Perplexity теперь официальный поиск для Rabbit (enabling Rabbit Holes), более того, бесплатным, этот сыр будет только первый год (а переключаться потом будет сложновато, кнопок то нету 🤷♂️).
Мне кажется это отличный заход в потенциальные экосистемы будущего. Вне зависимости от того насколько rabbit выстрелит (а все предзаказы на него кончились в первый же день), они получат 10ки тысяч новых клиентов. А Rabbit зарекомендует себя как маркетплейс.
X
Rabbit - это AI-first устройство. По задумке создателей, людям больше не нужно нажимать на кнопки на телефоне. Мол зачем, если можно просто сказать ИИ чего ты хочешь, и он сделает все по красоте.
Perplexity - это такой умный поиск на стероидах. На любой запрос пользователя, он умеет давать ответ одним абзацем (и уже потом предлагает ссылки на источники).
Так вот, Perplexity теперь официальный поиск для Rabbit (enabling Rabbit Holes), более того, бесплатным, этот сыр будет только первый год (а переключаться потом будет сложновато, кнопок то нету 🤷♂️).
Мне кажется это отличный заход в потенциальные экосистемы будущего. Вне зависимости от того насколько rabbit выстрелит (а все предзаказы на него кончились в первый же день), они получат 10ки тысяч новых клиентов. А Rabbit зарекомендует себя как маркетплейс.
X
Meta работает над open source AGI
Новости от Meta:
- Компания работает над open source AGI
- Разместила заказ на GPUs на 10 миллиардов долларов
- LLAMA 3 на финальной стадии перед релизом🦙
📰 Новость
Новости от Meta:
- Компания работает над open source AGI
- Разместила заказ на GPUs на 10 миллиардов долларов
- LLAMA 3 на финальной стадии перед релизом🦙
📰 Новость
Сам себя не похвалишь - никто не похвалит
Языковые модели теперь могут генерировать собственные вознаграждения и использовать их для совершенствования своих способностей к следованию инструкциям и моделированию вознаграждений.
Команда из Meta + NYU испытали эту методику на практике, используя GPT-4.
Методология состоит из двух итеративных шагов:
1. Создание самоинструкции: Модель генерирует промпты, ответы и самооценки.
2. Обучение инструкциям: Используется прямая оптимизация предпочтений (DPO) на выбранных парах.
С каждой итерацией способность модели следовать инструкциям и моделировать вознаграждения улучшается!
Результаты показывают стабильное улучшение способности модели следовать инструкциям с первой по третью итерацию по сравнению с базовой моделью с фиксированным supervised fine-tuning. Более того, способность к моделированию вознаграждения, оцениваемая по соответствию человеческим суждениям, также улучшается с каждой итерацией обучения. Эта интересная разработка открывает путь к созданию моделей, которые будут постоянно развиваться как в плане следования инструкциям, так и в плане моделирования вознаграждения, что потенциально может создать цикл самосовершенствования!
Хотя первые результаты многообещающи, предстоит еще многое исследовать:
- Понимание "законов масштабирования" итераций и различных LM.
- Проведение дальнейших оценок и бенчмарков.
- Изучение безопасности постоянно совершенствующихся моделей вознаграждения.
📖 Статья
Языковые модели теперь могут генерировать собственные вознаграждения и использовать их для совершенствования своих способностей к следованию инструкциям и моделированию вознаграждений.
Команда из Meta + NYU испытали эту методику на практике, используя GPT-4.
Методология состоит из двух итеративных шагов:
1. Создание самоинструкции: Модель генерирует промпты, ответы и самооценки.
2. Обучение инструкциям: Используется прямая оптимизация предпочтений (DPO) на выбранных парах.
С каждой итерацией способность модели следовать инструкциям и моделировать вознаграждения улучшается!
Результаты показывают стабильное улучшение способности модели следовать инструкциям с первой по третью итерацию по сравнению с базовой моделью с фиксированным supervised fine-tuning. Более того, способность к моделированию вознаграждения, оцениваемая по соответствию человеческим суждениям, также улучшается с каждой итерацией обучения. Эта интересная разработка открывает путь к созданию моделей, которые будут постоянно развиваться как в плане следования инструкциям, так и в плане моделирования вознаграждения, что потенциально может создать цикл самосовершенствования!
Хотя первые результаты многообещающи, предстоит еще многое исследовать:
- Понимание "законов масштабирования" итераций и различных LM.
- Проведение дальнейших оценок и бенчмарков.
- Изучение безопасности постоянно совершенствующихся моделей вознаграждения.
📖 Статья
🇬🇧 Приходите в онлайн группу английского Talki B1
Если вы в общении на английском вдруг обнаружили себя 🐕 (“все понимаю, а сказать ничего не могу”), пришло время записаться в разговорную группу!
Вы будете систематизировать базу, учиться бегло говорить и интересно проводить время
Для тех, кто
📍 Учил английский в школе/институте, но так и не начал говорить.
📍 "Плавает" в базе языка.
📍 Понимает тексты, но еще плохо понимает речь.
Результат
✅ Понимание основ языка и способность объясниться.
Формат
⚪️ Мини-группа 4-6 человек.
⚪️ Зум-встречи 2 раза в неделю.
⚪️ Пн, Чт 18:30-20:00 по Мск
💵 8.000 руб за 8 занятий по 90 минут
📺 как это выглядит?
🗣 Алина Никишина, красный диплом ин-яз, жила и работала в США, училась в Европе.
👉 Пишите @aliinanik
❗️старт группы уже в понедельник (22 января)
#реклама
Если вы в общении на английском вдруг обнаружили себя 🐕 (“все понимаю, а сказать ничего не могу”), пришло время записаться в разговорную группу!
Вы будете систематизировать базу, учиться бегло говорить и интересно проводить время
Для тех, кто
📍 Учил английский в школе/институте, но так и не начал говорить.
📍 "Плавает" в базе языка.
📍 Понимает тексты, но еще плохо понимает речь.
Результат
✅ Понимание основ языка и способность объясниться.
Формат
⚪️ Мини-группа 4-6 человек.
⚪️ Зум-встречи 2 раза в неделю.
⚪️ Пн, Чт 18:30-20:00 по Мск
💵 8.000 руб за 8 занятий по 90 минут
📺 как это выглядит?
🗣 Алина Никишина, красный диплом ин-яз, жила и работала в США, училась в Европе.
👉 Пишите @aliinanik
❗️старт группы уже в понедельник (22 января)
#реклама
This media is not supported in your browser
VIEW IN TELEGRAM
Как начать пользоваться Apple MLX?
В 2023 году, Apple ворвались в гонку open-source библиотек для машинного обучения и выпустили MLX. Давно хотел попробовать, никак руки не доходили и вот наконец дошли.
Установка:
Что бы сразу ворваться в языковые модели, ставим MLX-LM от HuggingFace MLX Community
Запуск:
Для скорости, давайте возьмем TinyLlama - 1B модель обученая на 3T токенов.
Как можно увидеть на видео (1x скорость) - работает супер быстро!
P.S.: вообще никакой цензуры
В 2023 году, Apple ворвались в гонку open-source библиотек для машинного обучения и выпустили MLX. Давно хотел попробовать, никак руки не доходили и вот наконец дошли.
Установка:
pip install mlx
Что бы сразу ворваться в языковые модели, ставим MLX-LM от HuggingFace MLX Community
pip install mlx-lm
Запуск:
Для скорости, давайте возьмем TinyLlama - 1B модель обученая на 3T токенов.
python -m mlx_lm.generate --model mlx-community/TinyLlama-1.1B-intermediate-step-1431k-3T-mlx --prompt "The most important thing about petting capybaras"
Как можно увидеть на видео (1x скорость) - работает супер быстро!
Как пользоваться Cursor бесплатно?
Если вы пишете код, то скорее всего пользуетесь ChatGPT. Я пользуюсь им довольно много (70% моего кода пишет ChatGPT).
Как я это делал до вчерашнего дня? Заходил в свой CustomGPT, который я настроил помогать мне с Питончиком -> просил его писать какой-то код -> вставлял код в VSC и дальше по кругу.
Уже какое то время, я знал про существование приложения Cursor, которое значительно упрощает этот процесс (и предлагает прикольные плюшки, типа Chat with your Codebase и Add Library), но меня отпугивала цена.
Оказалось, им можно пользоваться бесплатно, если подключить свой OpenAI API key. Для этого открываем Cursor -> нажимаем на шестеренку в правом верхнем углу -> выбираем use OpenAI API key. И вуаля, вы сами контролируете сколько денег потратить и получаете супер удобный интерфейс для кода в придачу!
Скачать Cursor
Если вы пишете код, то скорее всего пользуетесь ChatGPT. Я пользуюсь им довольно много (70% моего кода пишет ChatGPT).
Как я это делал до вчерашнего дня? Заходил в свой CustomGPT, который я настроил помогать мне с Питончиком -> просил его писать какой-то код -> вставлял код в VSC и дальше по кругу.
Уже какое то время, я знал про существование приложения Cursor, которое значительно упрощает этот процесс (и предлагает прикольные плюшки, типа Chat with your Codebase и Add Library), но меня отпугивала цена.
Оказалось, им можно пользоваться бесплатно, если подключить свой OpenAI API key. Для этого открываем Cursor -> нажимаем на шестеренку в правом верхнем углу -> выбираем use OpenAI API key. И вуаля, вы сами контролируете сколько денег потратить и получаете супер удобный интерфейс для кода в придачу!
Скачать Cursor
⚡️ Помогают выставить счет в USD или EUR и получить оплату на карту или счет в России.
Ваш работодатель переводит средства на наш зарубежный счет, а они выплачивают вам рубли в РФ в нужной валюте (На карту, на счет, криптой)
Работают от 1500$
Их услуги подходят, как для частных специалистов - получать постоянную зарплату из-за рубежа, так и для компаний, получать средства за проектную деятельность
Отзывы и подробности в Telegram канале @moneyport
#реклама
Ваш работодатель переводит средства на наш зарубежный счет, а они выплачивают вам рубли в РФ в нужной валюте (На карту, на счет, криптой)
Работают от 1500$
Их услуги подходят, как для частных специалистов - получать постоянную зарплату из-за рубежа, так и для компаний, получать средства за проектную деятельность
Отзывы и подробности в Telegram канале @moneyport
#реклама
Media is too big
VIEW IN TELEGRAM
ТикТок представляет Depth Anything
Исследование представляет модель Depth Anything, применяющую большие неразмеченные данные для улучшения monocular depth estimation (это когда у нас только одна камера - монокуляр, а мы все равно требуем от нейросети предсказать карту глубины). Эта задача очень актуальна например в робототехнике, или в беспилотном транспорте.
В области компьютерного зрения и обработки естественного языка, уже несколько лет, наблюдается переворот благодаря появлению «фундаментальных моделей», демонстрирующих сильные способности к zero-shot и few-shot обучению. Однако, вопреки этому прогрессу, задача оценки глубины (MDE) была недостаточно исследована из-за сложностей построения масштабных размеченых датасетов (хотя безусловно работы были).
Depth Anything предлагает практичное решение для надежной оценки глубины.
Основные особенности решения включают:
- Использование большого количества дешевых и разнообразных неразмеченных изображений для улучшения MDE.
- Применение более сложных оптимизационных метрик и сохранение богатых семантических предпосылок от предварительно обученных энкодеров для лучшего понимания сцены.
- Демонстрация сильной способности к zero-shot обобщению и значительное улучшение результатов по сравнению с существующими моделями, такими как MiDaS и ZoeDepth, в задачах метрической оценки глубины.
Исследование представляет значительный шаг вперед в монокулярной оценке глубины, демонстрируя потенциал масштабных неразмеченных данных в улучшении точности и робастности моделей глубины. Результаты подчеркивают важность интеграции больших неразмеченных наборов данных и семантических предпосылок, открывая новые возможности для улучшения систем машинного зрения и их применения в реальных сценариях.
📖 Статья
😍 Демо
Исследование представляет модель Depth Anything, применяющую большие неразмеченные данные для улучшения monocular depth estimation (это когда у нас только одна камера - монокуляр, а мы все равно требуем от нейросети предсказать карту глубины). Эта задача очень актуальна например в робототехнике, или в беспилотном транспорте.
В области компьютерного зрения и обработки естественного языка, уже несколько лет, наблюдается переворот благодаря появлению «фундаментальных моделей», демонстрирующих сильные способности к zero-shot и few-shot обучению. Однако, вопреки этому прогрессу, задача оценки глубины (MDE) была недостаточно исследована из-за сложностей построения масштабных размеченых датасетов (хотя безусловно работы были).
Depth Anything предлагает практичное решение для надежной оценки глубины.
Основные особенности решения включают:
- Использование большого количества дешевых и разнообразных неразмеченных изображений для улучшения MDE.
- Применение более сложных оптимизационных метрик и сохранение богатых семантических предпосылок от предварительно обученных энкодеров для лучшего понимания сцены.
- Демонстрация сильной способности к zero-shot обобщению и значительное улучшение результатов по сравнению с существующими моделями, такими как MiDaS и ZoeDepth, в задачах метрической оценки глубины.
Исследование представляет значительный шаг вперед в монокулярной оценке глубины, демонстрируя потенциал масштабных неразмеченных данных в улучшении точности и робастности моделей глубины. Результаты подчеркивают важность интеграции больших неразмеченных наборов данных и семантических предпосылок, открывая новые возможности для улучшения систем машинного зрения и их применения в реальных сценариях.
📖 Статья
😍 Демо
This media is not supported in your browser
VIEW IN TELEGRAM
Скрейпинг веб страниц в эпоху GPT-Vision
Последние пару недель, я много эксперементировал с парсингом и скрейпингом веб страниц. В итоге я пришел к выводу, что сайты были сделаны для того что бы на них смотрели глазами, и соответственно парсить их эффкетивнее всего тоже будет глазами.
Собрал для вас старый добрый Colab, с помощью которого можно сделать summary любой страницы в интернете (в пределах того, на что не обидится OpenAI).
Как это работает:
- с помощью selenium я делаю скриншоты сайта
- объединяю их в одну картинку
- отправляю эту картинку в GPT-vision
- получаю summary
🚀 Google Colab
Приглашаю всех попробовать и присылать PR c новыми функциями, исправлением багов и прочими правками.
В качестве бонуса (для продвинутых пользователей), добавил в pipeline создание эмбедингов поверх полученных summary.
Если пойдет, может быть сделаем крутого open-source Web-scrapping Assistant или типа того
Последние пару недель, я много эксперементировал с парсингом и скрейпингом веб страниц. В итоге я пришел к выводу, что сайты были сделаны для того что бы на них смотрели глазами, и соответственно парсить их эффкетивнее всего тоже будет глазами.
Собрал для вас старый добрый Colab, с помощью которого можно сделать summary любой страницы в интернете (в пределах того, на что не обидится OpenAI).
Как это работает:
- с помощью selenium я делаю скриншоты сайта
- объединяю их в одну картинку
- отправляю эту картинку в GPT-vision
- получаю summary
🚀 Google Colab
Приглашаю всех попробовать и присылать PR c новыми функциями, исправлением багов и прочими правками.
В качестве бонуса (для продвинутых пользователей), добавил в pipeline создание эмбедингов поверх полученных summary.
Если пойдет, может быть сделаем крутого open-source Web-scrapping Assistant или типа того
Достойный кандидат ищет работу в роли Strategic Marketing Lead
#этополюбви #нереклама
Знакомьтесь, это Катя. Мы с Катей жили в одной квартире в Израиле и я каждый день восхищался ее неиссякаемой энергией и способностью находить выход из любых ситуаций. Катя не просто ищет работу - она ищет миссию, где сможет применить свои навыки в стратегическом маркетинге и рыночной аналитике.
Если чему ее и научила долгая работа и в корпорациях и в стартапах, так это анализировать рынки и конкурентов, выявлять тренды , разбираться в регуляторике, убеждать стейкхолдеров (а остальное она расскажет вам на собеседовании).
Катя активно ищет позицию Strategic Marketing Lead и готова принести свой вклад в рост вашего бизнеса, будь то в Израиле или на любой удаленной работе.
Не упускайте возможность - наймите Катю!
👩💼LinkedIn
🏋️♀️@SteinbergK
#этополюбви #нереклама
Знакомьтесь, это Катя. Мы с Катей жили в одной квартире в Израиле и я каждый день восхищался ее неиссякаемой энергией и способностью находить выход из любых ситуаций. Катя не просто ищет работу - она ищет миссию, где сможет применить свои навыки в стратегическом маркетинге и рыночной аналитике.
Если чему ее и научила долгая работа и в корпорациях и в стартапах, так это анализировать рынки и конкурентов, выявлять тренды , разбираться в регуляторике, убеждать стейкхолдеров (а остальное она расскажет вам на собеседовании).
Катя активно ищет позицию Strategic Marketing Lead и готова принести свой вклад в рост вашего бизнеса, будь то в Израиле или на любой удаленной работе.
Не упускайте возможность - наймите Катю!
🏋️♀️@SteinbergK
This media is not supported in your browser
VIEW IN TELEGRAM
InstantID: Новый метод для персонализированного синтеза изображений!
На днях вышла новая нейросеть для стилизации изображений, и это просто пушка. Постараюсь однажды рассказать как она работает, а пока вот инструкция как использовать ее на своих фотках:
1. Загрузите изображение человека. Убедитесь, что лицо не слишком маленькое и не сильно заблокировано или размыто.
(По желанию) загрузите еще одно изображение человека в качестве эталонной позы. Если оно не загружено, система будет использовать изображение первого человека для извлечения ориентиров.
2. Введите текстовый промпт, так же, как это делается в обычных моделях text2img:
3. Выберете стиль (на выбор есть такие стили как джунгли, Марс и много чего еще)
4. Нажмите кнопку "Отправить", чтобы запустить процесс.
5. Поделитесь своей фотографией с друзьями или в комментариях к этому посту, наслаждайтесь😊!
🤗 Сделать свою
🤓 Сайт проекта
С телефона тоже отлично работает
На днях вышла новая нейросеть для стилизации изображений, и это просто пушка. Постараюсь однажды рассказать как она работает, а пока вот инструкция как использовать ее на своих фотках:
1. Загрузите изображение человека. Убедитесь, что лицо не слишком маленькое и не сильно заблокировано или размыто.
(По желанию) загрузите еще одно изображение человека в качестве эталонной позы. Если оно не загружено, система будет использовать изображение первого человека для извлечения ориентиров.
2. Введите текстовый промпт, так же, как это делается в обычных моделях text2img:
диснеевская принцесса в цветах и с птичкой на руке
3. Выберете стиль (на выбор есть такие стили как джунгли, Марс и много чего еще)
4. Нажмите кнопку "Отправить", чтобы запустить процесс.
5. Поделитесь своей фотографией с друзьями или в комментариях к этому посту, наслаждайтесь😊!
🤗 Сделать свою
🤓 Сайт проекта
С телефона тоже отлично работает
Приз $2024 за прикольные применения StableLM2
Помните старую шутку про то, что современные телефоны мощнее компьютеров, отправивших человека на Луну? Теперь это точно не шутка. StableLM2 - миниатюрная языковая модель умещается в кармане и запускается даже накартошке устаревших гаджетах.
StableLM 2 объемом всего 1,6 миллиарда параметров обладает способностью к “умеренному” рассуждению и знаниям, и это делает её неприхотливой, доступной и вполне эффективной.
А чтобы было интереснее, Emad (CEO Stability AI) предлагает по $2024 в качестве приза за самые интересные применения StableLM 2. Хм... Куда бы... Языковая модель в тапочках уже есть?
Для участия достаточно дропнуть свою демку в комьюнити или в комменты к посту Emada'а
StableLM2 на HuggingFace
Помните старую шутку про то, что современные телефоны мощнее компьютеров, отправивших человека на Луну? Теперь это точно не шутка. StableLM2 - миниатюрная языковая модель умещается в кармане и запускается даже на
StableLM 2 объемом всего 1,6 миллиарда параметров обладает способностью к “умеренному” рассуждению и знаниям, и это делает её неприхотливой, доступной и вполне эффективной.
А чтобы было интереснее, Emad (CEO Stability AI) предлагает по $2024 в качестве приза за самые интересные применения StableLM 2. Хм... Куда бы... Языковая модель в тапочках уже есть?
Для участия достаточно дропнуть свою демку в комьюнити или в комменты к посту Emada'а
StableLM2 на HuggingFace
Они среди нас
Давно не было про Vesuvius Chellenge. Мы нетерпением ждали поста от участника соревнования из русскоязычной МЛ тусовки - Антона. Дружище, мы тобой очень гордимся!
Почитайте его рассказ (следующие два поста), очень воодушевляюще.
Давно не было про Vesuvius Chellenge. Мы нетерпением ждали поста от участника соревнования из русскоязычной МЛ тусовки - Антона. Дружище, мы тобой очень гордимся!
Почитайте его рассказ (следующие два поста), очень воодушевляюще.
Forwarded from Generative Anton (Anton Repushko)
Длинный текст про то, как я сходил с ума от отчаяния в последние 8 месяцев и начал учить древнегреческий.
Выше уже мелькали посты про непонятные белые буковки и шутки про ленивых древнегреческих писцов. Настало время собрать всё в цельную картинку и объясниться. Я не могу из-за правил публиковать и в деталях рассказать техническое решение (оно в процессе ревью), но порассказываю всякое другое.
Соревнование называется Vesuvius Challenge. Когда извергался Везувий и уничтожил Помпеи, он уничтожил еще и город Геркуланум, который находился тоже у его подножия. Нас интересует Геркуланум из-за того, что там откопали виллу, в которой была очень богатая библиотека. И в этой библиотеки уже нашли/ожидают найти около 4-5 тысяч свитков. Важное уточнение: до нас из Античности дошло очень небольшое количество текстов: Одиссея, Иллиада, вся философия — лишь небольшой процент от всех существовавших тогда текстов. Представьте, сколько знания и истории хранится в этих тысячах свитков. Но разумеется есть проблема: они выглядят как сгоревшая на углях картошка из-за консервации в лаве и пепле (но именно благодаря этому они и пролежали в земле 2000 лет).
На сцену выходит профессор из Кентуки Dr. Brent Seales, который всю карьеру потратил на пропихивание следующего метода: давайте мы сделаем этим свиткам МРТ, а потом как-то хитро попытаемся восстановить все и прочитать. План — надежный, как швейцарские часы, если бы не одно но: чернила, которые там были, не содержат металла (carbon-based) и на результатах МРТ не видны. Были еще попытки отсканировать один и тот же свиток с разной фазой пучка и вычтя результаты этого получить какие-то буковки. Буковок хватило на статью в Nature, но выглядит это довольно паршиво. Что же с этим делать дальше?
На сцену выходит ex-CEO Github’a Nat Freedman: меценат, организует всякие AI гранты и инвестриует в AI-стартапы. Очень приятный дядечка, который помог организовать это соревнование и завалил деньгами призовой фонд. Вот его частный фонд и вообще он мне пока кажется Илоном Маском здорового человека.
В феврале прошлого года стартует само соревнование с призовым фондом в 1M USD. Сначала на Kaggle, а потом это все продолжается в Дискорде. Есть МРТ-сканы свитков и нужно прочитать оттуда текст. Сам (предложенный организаторами) процесс виртуального разворачивания текста довольно сложный и хитрый, а данных сейчас уже примерно на 7-8Tb, что устанавливает довольно высокий технический барьер для входа.
После Kaggle’овского соревнования все немного затихло до момента, пока в августе два студента (один из штатов, второй из Берлина) независимо друг от друга глазками(!) нашли какие-то непонятные рельефы, которые подтвердили изначальную идею: не смотря на то, что чернилы не видны, бумага осталась деформированной в местах написанных букв. В итоге задачей стало пытаться программно научиться определять вот эти деформированные места (иногда глазу и незаметные) и читать буковки. Где-то в этот момент (начало августа) я и ушел в соревнование с головой.
Очень много бессонных ночей, переживаний и всего остального было на протяжении этих месяцев. Я приходил и надоедал к каждому, кто мог мне хоть как-то помочь советом/идеей (спасибо вам всем, друзья. Без вас я бы не справился). Когда обсуждал новости и произошедшее за день с девушкой, я десятки раз думал про то, что у меня не произошло вообще ничего: я решал свитки. Как и вчера. Как и продолжу завтра.
И не смотря на то, что я не смог выполнить официальные требования для главного приза (4 куска текста по 140 читаемых символов каждый), мне кажется, что никто не смог. Со слов организаторов, всего они получили около дюжины сабмишнов. И вот уже где-то месяц мы с другими участниками ждем результатов анализа папирологов. За эти полгода я познакомился с кучей интересных людей, выиграл промежуточный приз в 5200 USD, начал учить древнегреческий и сильно прокачался в решении таких вот непонятных проблем.
Выше уже мелькали посты про непонятные белые буковки и шутки про ленивых древнегреческих писцов. Настало время собрать всё в цельную картинку и объясниться. Я не могу из-за правил публиковать и в деталях рассказать техническое решение (оно в процессе ревью), но порассказываю всякое другое.
Соревнование называется Vesuvius Challenge. Когда извергался Везувий и уничтожил Помпеи, он уничтожил еще и город Геркуланум, который находился тоже у его подножия. Нас интересует Геркуланум из-за того, что там откопали виллу, в которой была очень богатая библиотека. И в этой библиотеки уже нашли/ожидают найти около 4-5 тысяч свитков. Важное уточнение: до нас из Античности дошло очень небольшое количество текстов: Одиссея, Иллиада, вся философия — лишь небольшой процент от всех существовавших тогда текстов. Представьте, сколько знания и истории хранится в этих тысячах свитков. Но разумеется есть проблема: они выглядят как сгоревшая на углях картошка из-за консервации в лаве и пепле (но именно благодаря этому они и пролежали в земле 2000 лет).
На сцену выходит профессор из Кентуки Dr. Brent Seales, который всю карьеру потратил на пропихивание следующего метода: давайте мы сделаем этим свиткам МРТ, а потом как-то хитро попытаемся восстановить все и прочитать. План — надежный, как швейцарские часы, если бы не одно но: чернила, которые там были, не содержат металла (carbon-based) и на результатах МРТ не видны. Были еще попытки отсканировать один и тот же свиток с разной фазой пучка и вычтя результаты этого получить какие-то буковки. Буковок хватило на статью в Nature, но выглядит это довольно паршиво. Что же с этим делать дальше?
На сцену выходит ex-CEO Github’a Nat Freedman: меценат, организует всякие AI гранты и инвестриует в AI-стартапы. Очень приятный дядечка, который помог организовать это соревнование и завалил деньгами призовой фонд. Вот его частный фонд и вообще он мне пока кажется Илоном Маском здорового человека.
В феврале прошлого года стартует само соревнование с призовым фондом в 1M USD. Сначала на Kaggle, а потом это все продолжается в Дискорде. Есть МРТ-сканы свитков и нужно прочитать оттуда текст. Сам (предложенный организаторами) процесс виртуального разворачивания текста довольно сложный и хитрый, а данных сейчас уже примерно на 7-8Tb, что устанавливает довольно высокий технический барьер для входа.
После Kaggle’овского соревнования все немного затихло до момента, пока в августе два студента (один из штатов, второй из Берлина) независимо друг от друга глазками(!) нашли какие-то непонятные рельефы, которые подтвердили изначальную идею: не смотря на то, что чернилы не видны, бумага осталась деформированной в местах написанных букв. В итоге задачей стало пытаться программно научиться определять вот эти деформированные места (иногда глазу и незаметные) и читать буковки. Где-то в этот момент (начало августа) я и ушел в соревнование с головой.
Очень много бессонных ночей, переживаний и всего остального было на протяжении этих месяцев. Я приходил и надоедал к каждому, кто мог мне хоть как-то помочь советом/идеей (спасибо вам всем, друзья. Без вас я бы не справился). Когда обсуждал новости и произошедшее за день с девушкой, я десятки раз думал про то, что у меня не произошло вообще ничего: я решал свитки. Как и вчера. Как и продолжу завтра.
И не смотря на то, что я не смог выполнить официальные требования для главного приза (4 куска текста по 140 читаемых символов каждый), мне кажется, что никто не смог. Со слов организаторов, всего они получили около дюжины сабмишнов. И вот уже где-то месяц мы с другими участниками ждем результатов анализа папирологов. За эти полгода я познакомился с кучей интересных людей, выиграл промежуточный приз в 5200 USD, начал учить древнегреческий и сильно прокачался в решении таких вот непонятных проблем.
Forwarded from Generative Anton (Anton Repushko)
Интересно, что в процессе соревнования я чувствовал себя невероятно fullfilled и это очень хорошая альтернатива всяким гонкам с LLM-ресечем: у тебя есть сложная непонятная проблема, которую интуитивно кажется можно решить уже текущими средствами. И вся история этих свитков (которые многие десятилетия передавались из рук в руки до момента, когда их можно будет прочесть новыми техническими средствами) — отличный пример человеческой кооперации ради чего-то, что нельзя померить деньгами. Очень нравится.
Организаторы уже анонсировали новый этап соревнования где-то в феврале, так что тут будет еще больше постов про это. Ниже картинка с примерно финальными результатами, которых удалось добиться: читаются отдельные слова и предлоги, но без знания древнегреческого тяжело прочесть больше. Посмотрим, что будет дальше.
Организаторы уже анонсировали новый этап соревнования где-то в феврале, так что тут будет еще больше постов про это. Ниже картинка с примерно финальными результатами, которых удалось добиться: читаются отдельные слова и предлоги, но без знания древнегреческого тяжело прочесть больше. Посмотрим, что будет дальше.