Градиент обреченный

#perplexity_clone

Попробовал накидать страничку со стримингом из API Perplexity. Прикольно, из коробки работают поиск и рассуждения.

Жалко, что фильтр по поисковым источникам только на высоком tier'е работает (надо закинуть $500 на счет), а то бы поигрались.

👍16❤3🔥2

4.65K viewsSergei Averkiev, edited 08:31

Градиент обреченный

DeepSeek начал открывать кофейни, в меню LatteGPT, Turing Tea, Backpropagation Raf

😁118❤11🔥6👀3💅2👍1

12.4K viewsSergei Averkiev, 10:41

Градиент обреченный

Работы венгерского художника Иштвана Ороса.

По мотивам журнала Проектор про венгерский плакат.

❤16👍6🆒32💅1

5.45K viewsSergei Averkiev, 09:23

Градиент обреченный

Forwarded from Lingtrain (Sergei Averkiev)

🔺 Обновление Lingtrain

По просьбам учащихся добавил в lingtrain-aligner и Lingtrain Alignment Studio армянский язык. Спасибо Максиму Степанянцу из ВШЭ за помощь!

🔸 Отдельный язык нужен, чтобы текст корректно делился на предложения (при делении по привычным знакам препинания можно выбрать язык General).

🔸 В армянском пунктуация как раз своя, вместо точек используются двоеточия, а признаки вопросительного предложения могут стоять внутри, причем их может быть несколько в разных словах.

🔸 P.S. На каникулах добавил в библиотеку много нового — расчет эмбеддингов по API, хранение их в БД, новый модуль corrector. Никак руки не дойдут описать все это, но скоро сделаю.

🔥28❤9❤‍🔥2👍21

3.51K viewsSergei Averkiev, 10:52

Градиент обреченный

🔺 Мультиязычные MoE эмбеддинги

Nomic выложили модель Embed Text V2 в открытый доступ, можно запускать через sentence_transformers, обещают добавить в ollama.

🔸 Эмбеддинги используются, чтобы перенести тексты в единое векторное пространство, благодаря чему можно количественно посчитать насколько два текста близки по смыслу. В данном случае это можно применить для текстов на разных языках.

🔸 Поддерживается 100+ языков (в табличке, которую прилагают авторы языков 96, но для родственных им языков также будет работать). Обучали на 1.6B пар предложений.

🔸 Архитектура MoE. По-моему, для эмбеддингов такой еще не было. Это значит, что при использовании будет активироваться только часть весов модели, всего 300M параметров, это немного.

🔸 Данные, веса и код выкладывают в открытый доступ, что мы, конечно, приветствуем.

🔸 Эмбеддинги для экономии можно обрезать до 256, так как обучали с подходом Matryoshka.

🔸 Языков России/СНГ не так много, по качеству надо смотреть.

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("nomic-ai/nomic-embed-text-v2-moe", trust_remote_code=True)
sentences = ["Hello!", "Привет!"]
embeddings = model.encode(sentences, prompt_name="passage")

similarity = model.similarity(embeddings[0], embeddings[1])

👉 Пост | GitHub | HF

🔥23👍7❤4🐳2

4.99K viewsSergei Averkiev, edited 08:08

Градиент обреченный

Все думал, что у DeepSeek'а шрифт уж больно знакомый. И точно, это же Каспер после ребрендинга.

😁56🔥5🤯2🐳2😱1

4.12K viewsSergei Averkiev, 10:53

Градиент обреченный

В Perplexity добавили DeepResearch по аналогии с DR ChatGPT (там пока что только в подписке за $200).

Доступно и в бесплатной версии и в платной за $20. Попробовал обе, в Pro находит больше источников и отвечает подробнее. Отрабатывает около 3-5 минут на один запрос.

Думаю, что все реализовано на их же Sonar API, где можно указывать актуальность источников и задавать фильтры по доменам параметрами search_recency_filter и search_domain_filter, получая разные срезы данных и накладывая поверх этого reasoning (скорее всего они это просто добавят в API как дополнительный параметр).

Зачем?

Нужно все это, чтобы автоматизировать копание в интернете и составление плана, анализа, отчета, курсовой и т.д с сохранением ссылок на собранные источники для подтверждения информации.

Судя по логам обрабатывается от 30 до 100 ресурсов.

Например, можно попросить сделать обзор исследований на тему лечения бессонницы, провести анализ событий на финансовом рынке за последние 2 дня, сделать с пост про сходства и отличия немецкой грамматики и русской с примерами.

Попробовать можно тут.

Сбор

Решил в качестве пет-проекта сделать аналог Perplexity на их API, название уже придумал. Подключу функции с верхних Tier'ов типа картинок и фильтров по доменам (доступны при пополнении баланса на $250, $500) и разверну потестировать, а там посмотрим.

Задонатить можно здесь.

Upd. Тем, кто скинул, шлю лучи добра

🤗

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22❤4🔥1🤝1

4.74K viewsSergei Averkiev, edited 09:01

Градиент обреченный

Накидал первую версию поиска

Плюс потестировал tier 2 в API Perplexity. Картинки иногда возвращает такие, которые уже не грузятся, а вот сопутствующие вопросы, которые возвращаются вместе с ответом, нравятся.

Ну и в целом оно работает, свежие новости и события находит, рассуждает, таблички составляет (пришлось заморочиться со стилями, пока не стало выглядеть более-менее прилично).

🔥23🆒6❤4⚡2

3.55K viewsSergei Averkiev, 07:44

Градиент обреченный

Ходят слухи, что сегодня зарелизят новый Claude

Он не Opus (старший из линейки) и не 4.0, но уже не Sonnet 3.6 new (Copy 2).

Учитывая, что с момента последнего релиза вышло много крутых моделей, ребята должны подготовить что-то мощное. Верим, ждём.

👍14❤4🔥4🏆1

3.17K viewsSergei Averkiev, edited 11:11

About

Blog

Apps

Platform