#perplexity_clone
Попробовал накидать страничку со стримингом из API Perplexity. Прикольно, из коробки работают поиск и рассуждения.
Жалко, что фильтр по поисковым источникам только на высоком tier'е работает (надо закинуть $500 на счет), а то бы поигрались.
Попробовал накидать страничку со стримингом из API Perplexity. Прикольно, из коробки работают поиск и рассуждения.
Жалко, что фильтр по поисковым источникам только на высоком tier'е работает (надо закинуть $500 на счет), а то бы поигрались.
👍16❤3🔥2
❤16👍6🆒3 2💅1
Forwarded from Lingtrain (Sergei Averkiev)
🔺 Обновление Lingtrain
По просьбам учащихся добавил в lingtrain-aligner и Lingtrain Alignment Studio армянский язык. Спасибо Максиму Степанянцу из ВШЭ за помощь!
🔸 Отдельный язык нужен, чтобы текст корректно делился на предложения (при делении по привычным знакам препинания можно выбрать язык General).
🔸 В армянском пунктуация как раз своя, вместо точек используются двоеточия, а признаки вопросительного предложения могут стоять внутри, причем их может быть несколько в разных словах.
🔸 P.S. На каникулах добавил в библиотеку много нового — расчет эмбеддингов по API, хранение их в БД, новый модуль corrector. Никак руки не дойдут описать все это, но скоро сделаю.
По просьбам учащихся добавил в lingtrain-aligner и Lingtrain Alignment Studio армянский язык. Спасибо Максиму Степанянцу из ВШЭ за помощь!
🔸 Отдельный язык нужен, чтобы текст корректно делился на предложения (при делении по привычным знакам препинания можно выбрать язык General).
🔸 В армянском пунктуация как раз своя, вместо точек используются двоеточия, а признаки вопросительного предложения могут стоять внутри, причем их может быть несколько в разных словах.
🔸 P.S. На каникулах добавил в библиотеку много нового — расчет эмбеддингов по API, хранение их в БД, новый модуль corrector. Никак руки не дойдут описать все это, но скоро сделаю.
🔥28❤9❤🔥2👍2 1
🔺 Мультиязычные MoE эмбеддинги
Nomic выложили модель Embed Text V2 в открытый доступ, можно запускать через sentence_transformers, обещают добавить в ollama.
🔸 Эмбеддинги используются, чтобы перенести тексты в единое векторное пространство, благодаря чему можно количественно посчитать насколько два текста близки по смыслу. В данном случае это можно применить для текстов на разных языках.
🔸 Поддерживается 100+ языков (в табличке, которую прилагают авторы языков 96, но для родственных им языков также будет работать). Обучали на 1.6B пар предложений.
🔸 Архитектура MoE. По-моему, для эмбеддингов такой еще не было. Это значит, что при использовании будет активироваться только часть весов модели, всего 300M параметров, это немного.
🔸 Данные, веса и код выкладывают в открытый доступ, что мы, конечно, приветствуем.
🔸 Эмбеддинги для экономии можно обрезать до 256, так как обучали с подходом Matryoshka.
🔸 Языков России/СНГ не так много, по качеству надо смотреть.
👉 Пост | GitHub | HF
Nomic выложили модель Embed Text V2 в открытый доступ, можно запускать через sentence_transformers, обещают добавить в ollama.
🔸 Эмбеддинги используются, чтобы перенести тексты в единое векторное пространство, благодаря чему можно количественно посчитать насколько два текста близки по смыслу. В данном случае это можно применить для текстов на разных языках.
🔸 Поддерживается 100+ языков (в табличке, которую прилагают авторы языков 96, но для родственных им языков также будет работать). Обучали на 1.6B пар предложений.
🔸 Архитектура MoE. По-моему, для эмбеддингов такой еще не было. Это значит, что при использовании будет активироваться только часть весов модели, всего 300M параметров, это немного.
🔸 Данные, веса и код выкладывают в открытый доступ, что мы, конечно, приветствуем.
🔸 Эмбеддинги для экономии можно обрезать до 256, так как обучали с подходом Matryoshka.
🔸 Языков России/СНГ не так много, по качеству надо смотреть.
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("nomic-ai/nomic-embed-text-v2-moe", trust_remote_code=True)
sentences = ["Hello!", "Привет!"]
embeddings = model.encode(sentences, prompt_name="passage")
similarity = model.similarity(embeddings[0], embeddings[1])
👉 Пост | GitHub | HF
🔥23👍7❤4🐳2
Все думал, что у DeepSeek'а шрифт уж больно знакомый. И точно, это же Каспер после ребрендинга.
😁56🔥5🤯2🐳2😱1
В Perplexity добавили DeepResearch по аналогии с DR ChatGPT (там пока что только в подписке за $200).
Доступно и в бесплатной версии и в платной за $20. Попробовал обе, в Pro находит больше источников и отвечает подробнее. Отрабатывает около 3-5 минут на один запрос.
Думаю, что все реализовано на их же Sonar API, где можно указывать актуальность источников и задавать фильтры по доменам параметрами search_recency_filter и search_domain_filter, получая разные срезы данных и накладывая поверх этого reasoning (скорее всего они это просто добавят в API как дополнительный параметр).
Зачем?
Нужно все это, чтобы автоматизировать копание в интернете и составление плана, анализа, отчета, курсовой и т.д с сохранением ссылок на собранные источники для подтверждения информации.
Судя по логам обрабатывается от 30 до 100 ресурсов.
Например, можно попросить сделать обзор исследований на тему лечения бессонницы, провести анализ событий на финансовом рынке за последние 2 дня, сделать с пост про сходства и отличия немецкой грамматики и русской с примерами.
Попробовать можно тут.
Сбор
Решил в качестве пет-проекта сделать аналог Perplexity на их API, название уже придумал. Подключу функции с верхних Tier'ов типа картинок и фильтров по доменам (доступны при пополнении баланса на $250, $500) и разверну потестировать, а там посмотрим.
Задонатить можно здесь.
Upd. Тем, кто скинул, шлю лучи добра🤗
Доступно и в бесплатной версии и в платной за $20. Попробовал обе, в Pro находит больше источников и отвечает подробнее. Отрабатывает около 3-5 минут на один запрос.
Думаю, что все реализовано на их же Sonar API, где можно указывать актуальность источников и задавать фильтры по доменам параметрами search_recency_filter и search_domain_filter, получая разные срезы данных и накладывая поверх этого reasoning (скорее всего они это просто добавят в API как дополнительный параметр).
Зачем?
Нужно все это, чтобы автоматизировать копание в интернете и составление плана, анализа, отчета, курсовой и т.д с сохранением ссылок на собранные источники для подтверждения информации.
Судя по логам обрабатывается от 30 до 100 ресурсов.
Например, можно попросить сделать обзор исследований на тему лечения бессонницы, провести анализ событий на финансовом рынке за последние 2 дня, сделать с пост про сходства и отличия немецкой грамматики и русской с примерами.
Попробовать можно тут.
Сбор
Решил в качестве пет-проекта сделать аналог Perplexity на их API, название уже придумал. Подключу функции с верхних Tier'ов типа картинок и фильтров по доменам (доступны при пополнении баланса на $250, $500) и разверну потестировать, а там посмотрим.
Задонатить можно здесь.
Upd. Тем, кто скинул, шлю лучи добра
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤4🔥1🤝1
Накидал первую версию поиска
Плюс потестировал tier 2 в API Perplexity. Картинки иногда возвращает такие, которые уже не грузятся, а вот сопутствующие вопросы, которые возвращаются вместе с ответом, нравятся.
Ну и в целом оно работает, свежие новости и события находит, рассуждает, таблички составляет (пришлось заморочиться со стилями, пока не стало выглядеть более-менее прилично).
Плюс потестировал tier 2 в API Perplexity. Картинки иногда возвращает такие, которые уже не грузятся, а вот сопутствующие вопросы, которые возвращаются вместе с ответом, нравятся.
Ну и в целом оно работает, свежие новости и события находит, рассуждает, таблички составляет (пришлось заморочиться со стилями, пока не стало выглядеть более-менее прилично).
🔥23🆒6❤4⚡2
Ходят слухи, что сегодня зарелизят новый Claude
Он не Opus (старший из линейки) и не 4.0, но уже не Sonnet 3.6 new (Copy 2).
Учитывая, что с момента последнего релиза вышло много крутых моделей, ребята должны подготовить что-то мощное. Верим, ждём.
Он не Opus (старший из линейки) и не 4.0, но уже не Sonnet 3.6 new (Copy 2).
Учитывая, что с момента последнего релиза вышло много крутых моделей, ребята должны подготовить что-то мощное. Верим, ждём.
👍14❤4🔥4🏆1