Революция во векторизации данных: представляем пакет ollama_embedder! 🚀
На выходных один из разработчиков столкнулся с проблемой подготовки данных для векторизации и поиска в векторной базе данных Qdrant. После тщательного поиска решений в интернете, он решил создать свой собственный пакет на Dart - ollama_embedder! 🎉
Этот CLI-инструмент позволяет создавать векторные представления текста с помощью локального Ollama-сервера. Вот что он умеет:
🔹 Генерирует эмбеддинги для файлов и целых директорий (рекурсивно).
🔹 Работает с локальным Ollama — проверяет установку, доступность сервера и наличие модели.
🔹 Два режима предобработки: technical и textual.
🔹 Умная очистка — удаляет HTML-шум, cookie-баннеры, навигацию, футеры, эмодзи.
🔹 Умное разбиение на чанки с автоматическим определением оптимального размера и созданием перекрытий между чанками.
🔹 Надежные запросы — автоматические повторы при ошибках Ollama.
🔹 Гибкая настройка — URL сервера, модель, таймауты, размер файлов, пути ввода/вывода.
🔹 Структурированный итоговый JSON — готов для векторных БД и RAG-систем.
🔹 Покрытие тестами — 78% покрытия кода.
Полную новость читайте здесь.
FlutterPulse — канал о мире Flutter!
#flutter #dart #FlutterPulse #FlutterPulseNews #mobile_developing
На выходных один из разработчиков столкнулся с проблемой подготовки данных для векторизации и поиска в векторной базе данных Qdrant. После тщательного поиска решений в интернете, он решил создать свой собственный пакет на Dart - ollama_embedder! 🎉
Этот CLI-инструмент позволяет создавать векторные представления текста с помощью локального Ollama-сервера. Вот что он умеет:
🔹 Генерирует эмбеддинги для файлов и целых директорий (рекурсивно).
🔹 Работает с локальным Ollama — проверяет установку, доступность сервера и наличие модели.
🔹 Два режима предобработки: technical и textual.
🔹 Умная очистка — удаляет HTML-шум, cookie-баннеры, навигацию, футеры, эмодзи.
🔹 Умное разбиение на чанки с автоматическим определением оптимального размера и созданием перекрытий между чанками.
🔹 Надежные запросы — автоматические повторы при ошибках Ollama.
🔹 Гибкая настройка — URL сервера, модель, таймауты, размер файлов, пути ввода/вывода.
🔹 Структурированный итоговый JSON — готов для векторных БД и RAG-систем.
🔹 Покрытие тестами — 78% покрытия кода.
Полную новость читайте здесь.
FlutterPulse — канал о мире Flutter!
#flutter #dart #FlutterPulse #FlutterPulseNews #mobile_developing
1❤1🤝1