Хабр / ML & AI

Enbeddrus — обучение независящей от языка эмбеддинг-модели

Приветствую, хабровчане!

Сегодня я хочу рассказать вам историю о том, как я обучил простую и компактную независящую от языка модель-эмбеддер, которая умеет работать с техническими текстами о PHP и способна извлекать схожие эмбеддинги для параллельных текстов на английском и русском языках.

Основная причина, по которой я решил заняться этим проектом, заключается в том, что мои заметки, код и документация, накопленные за более чем десять лет практики, представляют собой солянку текстов о разных технологиях, языках программирования, пометки о настройке серверов Linux и т.д. на русском и английском языках. Поэтому мне захотелось сделать Retrieval-Augmented Generation (RAG) помогалку, которая сможет принимать запросы пользователя (меня) и эффективно находить информацию в столь разношерстой базе данных, независимо от того на каком языке я сделал запрос и на каком языке написана документация.

Для достижения этой цели необходима независимая от языка модель-эмбеддер, которая будет одинаково хорошо работать с техническими текстами на русском и английском языках.

Ещё одним важным аспектом было то, чтобы модель потребляла как можно меньше ресурсов и, если возможно, чтобы её можно было преобразовать в формат GGUF.

Читать далее

#sentence_transformer #embeddings #huggingface #ollama #gguf #llama_cpp #php | @habr_ai

Хабр

Enbeddrus — обучение независящей от языка эмбеддинг-модели

Приветствую, хабровчане! Сегодня хочу рассказать вам историю о том, как я обучил простую и компактную независящую от языка (language agnostic) модель-эмбеддер, которая умеет работать с техническими...

🔥1

39 views15:14

Хабр / ML & AI

Установка LLM на скромном VPS

«Я тебя завалю, если ещё раз упомянешь AI», — писал автор нашумевшей статьи. В самом деле, хайп вокруг ИИ всем надоел. Но мы всё-таки рискнём поговорить о том, какую LLM поставить на своём сервере и зачем.

Сразу упомянем, что на серверах RUVDS установлены видеокарты NVIDIA Quadro P4000 (на фото). Карты довольно слабенькие, так что подойдут скорее для проектов в образовательных целях и т. д. Тем более что под VPS выделяется максимум 1 ГБ видеопамяти. Но даже в таких спартанских условиях можно запустить LLM.

Кстати, о VPS с видеокартой. Несколько лет назад мы уже писали о сферах их применения и даже проводили тесты. Всё это можно найти здесь. Читать дальше →

#ruvds_статьи #vps #llm #языковые_модели #tabby #copilotkit #chat_arena #librechat #huggingface #opencompass #llamafile #llama_cpp #cosmopolitan_libc #ollama | @habr_ai

Хабр

Установка LLM на скромном VPS

«Я тебя завалю, если ещё раз упомянешь AI», — писал автор нашумевшей статьи . В самом деле, хайп вокруг ИИ всем надоел. Но мы всё-таки рискнём поговорить о том, какую LLM поставить на своём сервере и...

36 viewsedited 09:16

Хабр / ML & AI

Распределённый инференс llama.cpp через RPC

Приветствую, хабровчане!

Идея создания данной публикации крутилась в моей голове уже давно, дело в том, что одно из моих хобби связанно с распределёнными вычислениями, а другое хобби связанно с нейросетями и мне давно не давала покоя идея запустить инференс LLM на нескольких компьютерах, но так чтобы все они выполняли работу над одной и той же моделью параллельно.

Погуглив некоторое время узнал, что проект LocalAI уже относительно давно поддерживает такую возможность, недолго думая я раскатал на нескольких компьютерах данный проект, после чего выполнил все необходимые настройки связав все инстансы в единую систему и, мягко говоря, был разочарован, уж слишком "фатально-недостаточным" оказалось данное решение, Docker-образ собран неоптимально, он был огромный по весу и только под amd64, неотключаемый веб-интерфейс шел в комплекте с проектом, скупой выбор моделей, некоторые из доступных LLM не работали в режиме RPC, все эмбеддинговые модели тоже отказывались запускаться в таком режиме, и так далее и тому подобное.

Повозившись ещё немного, полез в исходники и обнаружил упоминание проекта llama.cpp, затем нашёл вызов бинарника rpc-server. И вот я оказался на странице llama.cpp/examples/rpc и всё заверте... Читать далее

#docker #llama_cpp #rpc #dockerhub #gguf #embedding #api #автоген_челлендж | @habr_ai

Хабр

Распределённый инференс llama.cpp через RPC

Приветствую, хабровчане! Идея создания данной публикации крутилась в моей голове уже давно, дело в том, что одно из моих хобби связанно с распределёнными вычислениями, а другое хобби связанно с...

🔥2

17 views18:33

Хабр / ML & AI

Квантовать или не квантовать LLM?

Многие онлайн-сервисы предлагают доступ к проприетарным LLM. Однако по различным причинам может возникнуть необходимость использовать эти модели на своем оборудовании. Аренда серверов, особенно с GPU, может быть дорогой и зависит от требований к RAM/VRAM. Квантование моделей помогает снизить эти требования.

Читать далее

#llm #квантование #llama_cpp | @habr_ai

Хабр

Квантовать или не квантовать LLM?

Многие онлайн-сервисы предлагают доступ к проприетарным LLM. Однако по различным причинам может возникнуть необходимость использовать эти модели на своем оборудовании. Аренда серверов, особенно с GPU,...

26 views08:59

Хабр / ML & AI

Как мы прикрутили RAG для интент-классификации, или Трудности перевода на LLM-ский

И не опять, а снова — про этот ваш RAG. Многие продуктовые команды сейчас пробуют приспособить его для своих задач — и мы, команда Speech&Text в компании Домклик, не избежали этой участи. Но не (только) потому, что это модно и молодёжно — попробовать RAG‑подход нас побудила необходимость решить определённые насущные проблемы. Что же это за проблемы, как мы встраивали RAG и что из этого получилось? Если интересно узнать, то милости просим в текст :)

Читать далее

#rag #gemma2 #llm #llama_cpp #intent_recognition #retrieval_augmented_generation #gemma #time_to_market #ttm #чат_бот | @habr_ai

Хабр

Как мы прикрутили RAG для интент-классификации, или Трудности перевода на LLM-ский

И не опять, а снова — про этот ваш RAG. Многие продуктовые команды сейчас пробуют приспособить его для своих задач — и мы, команда Speech&Text в компании Домклик,...

47 views08:20

Хабр / ML & AI

Как запустить локально LLM, если ее веса не помещаются в [видео]память

Некоторые люди предпочитают пользоваться не только облачными сервисами, но и запускать LLM у себя дома. Например, так можно запустить дообученные модели без цензуры, или не посылать в облако свои личные документы. А то и запускать бесчеловечные эксперименты над LLM так, чтобы superintelligence/skynet потом это не припомнил.

Есть много моделей, оптимизированых для быстрой работы на устройствах с небольшой памятью. Но, к сожалению, веса самых продвинутых моделей, которые играют в одной лиге с лучшими онлайн моделями, занимают сотни гигабайт. Например, 8-битные веса Deepseek R1-671B занимают 700 гигабайт, квантованые q4 — 350 гигов. Можно квантовать и в 1 бит, размер тогда будет около 90 гигов, но такая модель почти бесполезна. Еще есть много качественных finetunes на основе Mistral-Large-instruct-130B, Qwen2.5-72B, llama3.3-70B, веса которых также не помещаются в память старших моделей видеокарт. Читать дальше →

#llm #inference #llama_cpp #apple | @habr_ai

Хабр

Как запустить локально LLM, если ее веса не помещаются в [видео]память

Некоторые люди предпочитают пользоваться не только облачными сервисами, но и запускать LLM у себя дома. Например, так можно запустить дообученные модели без цензуры, или не посылать в облако свои...

56 views16:40

Хабр / ML & AI

Тестирование производительности видеокарт на примере больших языковых моделей с использованием Llama.cpp

В последнее время большие языковые модели (LLM) становятся все более популярными, но для их эффективного запуска требуется значительная вычислительная мощность. Один из способов запуска LLM локально - использование библиотеки Llama.cpp. В этой статье мы рассмотрим, как тестировать производительность видеокарт для LLM с использованием инструмента llama-bench, входящего в состав Llama.cpp.

Дисклеймер: Почему Llama.cpp, а не Ollama?

Прежде чем мы приступим к тестированию, важно объяснить, почему мы используем Llama.cpp напрямую, а не Ollama. Ollama – это удобная надстройка, упрощающая установку и запуск LLM. Однако, она добавляет дополнительный слой абстракции, который приводит к снижению производительности и ограничивает контроль над настройками. Llama.cpp же напротив предоставляет прямой доступ к аппаратным ресурсам и позволяет максимально оптимизировать запуск LLM на вашей системе. Если ваша цель – получить максимальную производительность и точно настроить параметры, Llama.cpp – отличный выбор. Читать далее

#бенчмарки #llm #llama_cpp #машинное_обучение #видеокарты #нагрузочное_тестирование | @habr_ai

Хабр

Тестирование производительности видеокарт на примере больших языковых моделей с использованием Llama.cpp

В последнее время большие языковые модели (LLM) становятся все более популярными, но для их эффективного запуска требуется значительная вычислительная мощность. Один из способов запуска LLM локально -...

71 views10:00

Хабр / ML & AI

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

Локальный DeepSeek-R1-0528 на скромном железе? Реально. Со скоростью улитки? Первоначально – да. Но итог моего эксперимента: эту 'улитку' можно заставить работать вдвое быстрее. Читать далее

#deepseek #ai #llm #local_ai #epyc #deepseek_r1 #deepseek_v3 #llama_cpp #huggingface #gguf | @habr_ai

Хабр

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

Зачем? У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание...

82 views15:01

Хабр / ML & AI

Ускорение DeepSeek-R1 с подвохом: Когда токены в секунду врут о реальной скорости

Токены летят быстрее, а результат — медленнее: парадокс квантизации DeepSeek-R1. Замеры 4 версий модели доказали: уменьшение размера ускоряет генерацию отдельных токенов, но что происходит с общим временем ответа? Читать далее

#deepseek #deepseek_r1 #deepseek_r1_0528 #ai #llm #llm_модели #gguf #кодогенерация #local_ai #llama_cpp | @habr_ai

Хабр

Ускорение DeepSeek-R1 с подвохом: Когда токены в секунду врут о реальной скорости

Введение После сборки домашнего сервера для работы с LLM DeepSeek-R1 подробно о нём можно прочитать в статье Локальный DeepSeek-R1-0528. Когда скорость улитки – не приговор, а точка старта возникла...

49 views08:16

Хабр / ML & AI

[Перевод] Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса

Мечтаете запустить нейросеть на компьютере и анализировать целые книги или сложные документы? Тогда объем VRAM и поддержка длинных контекстов — ваши главные приоритеты.

С появлением RTX 5060 Ti 16GB открылась интригующая возможность — собрать систему с двумя такими картами за 950 $, получив целых 32 ГБ VRAM! Но как этот дуал покажет себя против проверенной временем б/у RTX 3090 (~900 $), с её внушительными 24 ГБ и легендарной пропускной способностью?

Я провел тесты на реальных моделях (Qwen3 30B/32B), чтобы выяснить, какую видеокарту выбрать для нейросети в 2025 году, если ваша цель — запустить LLM на компьютере с максимальной отдачей, особенно для длинных контекстов. Читать далее

#видеокарты_для_нейросетей #rtx_5060_ti_16gb #rtx_3090_24gb #qwen3 #железо #тест_ии_моделей #инференс #llama_cpp #exllamav3 #tabbyapi | @habr_ai

Хабр

Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса

Мечтаете запустить нейросеть на компьютере и анализировать целые книги или сложные документы? Тогда объём VRAM и поддержка длинных контекстов — ваши главные приоритеты....

49 views08:16

Хабр / ML & AI

Запускаем самый маленький квант DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Релиз DeepSeek R2 официально отложен и пока R1 не потерял актуальность, попробуем запустить модель на домашнем ПК. Оригинальная DeepSeek R1 имеет размер 700гб, так как она обучалась в fp8, но если бы она обучалась в стандартных f16, её вес был бы 1400гб, а мы попробуем версию в 10 раз меньше. Запустим самый маленький 1.66-битный IQ1_S_R4 квант полноценной модели размером 130гб на игровом ПК, отдельно с 4090 и 4060ti. Загрузим туда очень-очень много контекста и проверим, такой квант всё ещё способен давать разумные ответы или нет. Читать далее

#llama_cpp #ik_llama #deepseek #локальные_нейросети #deepseek_r1 #deepseek_v3 | @habr_ai

Хабр

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

Релиз DeepSeek R2 официально отложен и пока R1 не потерял актуальность, попробуем запустить модель на домашнем ПК. Оригинальная DeepSeek R1 имеет размер 700гб, так как она обучалась в fp8, но если бы...

46 views09:43

Хабр / ML & AI

Георгий Герганов, автор llama.cpp и звукового кейлогера

Многие пользуются YouTube, Netflix, но не подозревают о ключевых опенсорсных программах типа ffmpeg, которые работают на бэкенде этих сервисов. Похожая ситуация с нейронками, где многие знают программу Ollama для локального запуска моделей на CPU. Но мало кто понимает, что это всего лишь простенькая оболочка вокруг опенсорсной библиотеки llama.cpp на С, которая и делает инференс. Автор этой библиотеки, талантливый разработчик Георгий Герганов, мало известен широкой публике. Читать далее

#llama_cpp #ollama #llama #llm #георгий_герганов #georgi_gerganov #lm_studio #litellm #ggml #тензорная_алгебра | @habr_ai

Хабр

Георгий Герганов, автор llama.cpp и звукового кейлогера

Многие пользуются YouTube, Netflix, но не подозревают о ключевых опенсорсных программах типа ffmpeg , которые работают на бэкенде этих сервисов. Похожая ситуация с нейронками, где многие знают...

59 views09:45

Хабр / ML & AI

Хабр

Георгий Герганов, автор llama.cpp и звукового кейлогера

23 views12:15

Хабр / ML & AI

Вайб-кодинг с доставкой на дом

Для многих рынок ИИ-решений представляется как конкурентная борьба облачных и open source-моделей, но спектр применения языковых моделей постоянно расширяется, закрывая все более узкие ниши. И сейчас все больше команд, даже среди лидеров, выкладывают свои специализированные модели в общий доступ открытыми не только для запуска, но и дообучения и доработок. Эти модели часто имеют более скромные системные требования по сравнению с облачными. Иногда настолько, что некоторые из них можно запускать на мобильных и встраиваемых устройствах даже без специальных нейро- или графических вычислителей. Такие тенденции требуют от ИТ-специалистов навыков в обращении с моделями, некоторые из которых мы рассмотрим в данной статье на примере настройки модели, ассистирующей в разработке программного кода на локальном ПК. Учитывая высокую динамику развития индустрии ИИ, приведенные решения не могут быть ультимативными и актуальными, однако, возможно, кому-то он помогут продвинуться в освоении навыков работы с LLM-моделями (Large Language Models - Большие языковые модели). Читать далее

#ollama #llama_cpp #вайб_кодинг #kubernetes | @habr_ai

Хабр

Вайб-кодинг с доставкой на дом

Для многих рынок ИИ-решений представляется как конкурентная борьба облачных и open source-моделей, но спектр применения языковых моделей постоянно расширяется, закрывая все более узкие ниши....

❤1

50 views11:03

About

Blog

Apps

Platform