Open-source чанкинг текста в RAG-пайплайнах часто считают мелкой деталью. А по факту это один из самых жирных bottleneck’ов, когда дело доходит до продакшн-масштабов.
memchunk решает эту проблему в лоб: семантические границы чанков, высокая пропускная способность, и всё это заточено под реальные продакшн-нагрузки, а не под демки.
memchunk это низкоуровневая библиотека для чанкинга на Rust, заточенная под скорость и корректность.
Она режет текст по естественным границам, не рубит предложения пополам и разгоняется до 1 TB/s за счёт SIMD, lookup-таблиц и обратного поиска.
👉 @DataSciencegx
memchunk решает эту проблему в лоб: семантические границы чанков, высокая пропускная способность, и всё это заточено под реальные продакшн-нагрузки, а не под демки.
memchunk это низкоуровневая библиотека для чанкинга на Rust, заточенная под скорость и корректность.
Она режет текст по естественным границам, не рубит предложения пополам и разгоняется до 1 TB/s за счёт SIMD, lookup-таблиц и обратного поиска.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Бывало, что семантический поиск вроде бы попадает в тему, но не в твои требования?
Ищешь "latest ML research", а в выдаче куча релевантных работ… но за 2019 год.
Проблема в том, что similarity не понимает ограничений. Чтобы получить "год >= 2024", нужно фильтровать метаданные на уровне базы.
В ChromaDB это делается через where: сначала база фильтрует по условиям, потом ранжирует по similarity.
Полезные операторы:
• $eq и $ne — точное сравнение
• $gt, $gte, $lt, $lte — диапазоны
• $in, $nin — принадлежность множеству
• $and, $or — комбинирование условий
👉 @DataSciencegx
Ищешь "latest ML research", а в выдаче куча релевантных работ… но за 2019 год.
Проблема в том, что similarity не понимает ограничений. Чтобы получить "год >= 2024", нужно фильтровать метаданные на уровне базы.
В ChromaDB это делается через where: сначала база фильтрует по условиям, потом ранжирует по similarity.
Полезные операторы:
• $eq и $ne — точное сравнение
• $gt, $gte, $lt, $lte — диапазоны
• $in, $nin — принадлежность множеству
• $and, $or — комбинирование условий
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
Совет для AI-инженеров
Можно гонять продакшен-уровень LLM-инференса на CPU ноутбука или даже на телефоне.
Без облачных счетов. Без API-ключей. Без интернета.
LFM2.5-1.2B-Instruct от liquidai дает:
239 токенов/с на AMD CPU
82 токена/с на мобильном NPU
меньше 1 ГБ RAM
Лови ссылку ↓
https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct
👉 @DataSciencegx
Можно гонять продакшен-уровень LLM-инференса на CPU ноутбука или даже на телефоне.
Без облачных счетов. Без API-ключей. Без интернета.
LFM2.5-1.2B-Instruct от liquidai дает:
239 токенов/с на AMD CPU
82 токена/с на мобильном NPU
меньше 1 ГБ RAM
Лови ссылку ↓
https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10❤3
Хочешь учить AI на реальных проектах?
В этом репозитории 29 проектов с Generative AI, Machine Learning и Deep Learning.
С полным кодом для каждого. Это прям золото: https://github.com/KalyanM45/AI-Project-Gallery
👉 @DataSciencegx
В этом репозитории 29 проектов с Generative AI, Machine Learning и Deep Learning.
С полным кодом для каждого. Это прям золото: https://github.com/KalyanM45/AI-Project-Gallery
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Теорема Стокса это классика векторного анализа.
По сути она говорит что линейный интеграл векторного поля по замкнутому контуру равен поверхностному интегралу ротора этого поля по поверхности которая этим контуром ограничена.
👉 @DataSciencegx
По сути она говорит что линейный интеграл векторного поля по замкнутому контуру равен поверхностному интегралу ротора этого поля по поверхности которая этим контуром ограничена.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Media is too big
VIEW IN TELEGRAM
Разработчик сравнил топовые опенсорсные OCR-решения и выяснил какое реально показывает лучший результат.
В подборке:
DeepSeek OCR
Datalab Chandra
Qwen3-VL
Dots OCR
Granite Docling
Параллельно сделал приложение где можно прогонять все эти OCR-модели в одном месте.
Всё на 100% опенсорс.
👉 @DataSciencegx
В подборке:
DeepSeek OCR
Datalab Chandra
Qwen3-VL
Dots OCR
Granite Docling
Параллельно сделал приложение где можно прогонять все эти OCR-модели в одном месте.
Всё на 100% опенсорс.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Марко Франзон показал обновление по своей CV-платформе: YOLO Training Template
Ручная разметка данных стала заметно удобнее. Теперь процесс выглядит как в привычных labeling-системах — просто обводишь объект рамкой и сразу создаётся bounding box.
Платформа позволяет:
• загрузить свой датасет
• разметить вручную или автолейблить через DINOv3
• по желанию обогатить данные
• обучить YOLO-модель на собственных данных
• тут же прогнать инференс
• экспортировать в ONNX или NCNN, что даёт совместимость с edge-железом и смартфонами
Всё это доступно бесплатно и уже можно попробовать на GitHub.
Ручная разметка данных стала заметно удобнее. Теперь процесс выглядит как в привычных labeling-системах — просто обводишь объект рамкой и сразу создаётся bounding box.
Платформа позволяет:
• загрузить свой датасет
• разметить вручную или автолейблить через DINOv3
• по желанию обогатить данные
• обучить YOLO-модель на собственных данных
• тут же прогнать инференс
• экспортировать в ONNX или NCNN, что даёт совместимость с edge-железом и смартфонами
Всё это доступно бесплатно и уже можно попробовать на GitHub.
❤10
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня OpenAI анонсирует Open Responses: open-source спецификацию для сборки мультипровайдерных, интероперабельных интерфейсов к LLM, построенную поверх оригинального OpenAI Responses API.
✅ Мультипровайдерность по умолчанию
✅ Полезно для реальных продовых воркфлоу
✅ Расширяемо без фрагментации
Стройте агентные системы без переписывания всего стека под каждую модель: [http://openresponses.org]
👉 @DataSciencegx
Стройте агентные системы без переписывания всего стека под каждую модель: [http://openresponses.org]
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
This media is not supported in your browser
VIEW IN TELEGRAM
NN-SVG: рисуйте архитектуры нейросетей параметрически
Экспортируйте их в SVG и используйте в своих материалах
👉 @DataSciencegx
Экспортируйте их в SVG и используйте в своих материалах
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍4
Найти строки с min/max по другому столбцу в одну строку в Polars v1.37.0
Раньше, чтобы вытащить строку с минимальным или максимальным значением относительно другого столбца, обычно приходилось делать сортировку, groupby или городить фильтры посложнее.
В Polars v1.37.0 завезли методы выражений
Обновиться и получить
👉 @DataSciencegx
Раньше, чтобы вытащить строку с минимальным или максимальным значением относительно другого столбца, обычно приходилось делать сортировку, groupby или городить фильтры посложнее.
В Polars v1.37.0 завезли методы выражений
min_by и max_by. Они находят минимум или максимум по любому столбцу одним понятным выражением.Обновиться и получить
min_by/max_by:pip install -U polarsPlease open Telegram to view this post
VIEW IN TELEGRAM
❤4
Офлайн-распознавание текста с помощью DeepSeek-OCR AI : https://github.com/th1nhhdk/local_ai_ocr
👉 @DataSciencegx
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
Компьютерное зрение сегодня используется во множестве интересных задач, например в помощи с тренировками.
В этом туториале Экемини показывает, как собрать собственного AI-тренера для зала в реальном времени на Vision Agents.
Ты разберешься, как поднять проект и получить API-ключи, как устроен агент, как запустить приложение и что к чему.
👉 @DataSciencegx
В этом туториале Экемини показывает, как собрать собственного AI-тренера для зала в реальном времени на Vision Agents.
Ты разберешься, как поднять проект и получить API-ключи, как устроен агент, как запустить приложение и что к чему.
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Флоу-генеративные модели, обученные через flow matching, обычно учат изогнутые траектории, и их сложно аппроксимировать за несколько шагов.
Rectified flows пытаются учить прямые траектории, которые проще симулировать и требуют меньше вычислений.
Держи интерактивную статью, где объяснили геометрическую интуицию behind Rectified Flows.
Код тоже здесь можно найти.
👉 @DataSciencegx
Rectified flows пытаются учить прямые траектории, которые проще симулировать и требуют меньше вычислений.
Держи интерактивную статью, где объяснили геометрическую интуицию behind Rectified Flows.
Код тоже здесь можно найти.
Please open Telegram to view this post
VIEW IN TELEGRAM
На r/LocalLLaMA кто-то с нуля натренировал LLM на лондонских текстах 1800–1875
Это забавный глюк данных. Телефон изобрели в 1876, а у модели датасет заканчивается 1875-м. Поэтому если в промпте упомянуть😆
Модель и данные:
➡️ 1.2B параметров
➡️ ~90GB корпуса
➡️ книги, журналы, юридические бумаги
➡️ религиозные и медицинские тексты
Токенайзер тут кастомный, обученный на том же датасете, чтобы лексика и разбиение подгонялись под эпоху.
Тренировали примерно 182k шагов на арендованной H100 SXM.
GitHub: здесь
HuggingFace: тут
Reddit: читать
Нам нужно больше такого. Чтобы реально понять конкретный исторический период и культуру, нужно ограничивать данные рамками того времени и того контекста.
👉 @DataSciencegx
Это забавный глюк данных. Телефон изобрели в 1876, а у модели датасет заканчивается 1875-м. Поэтому если в промпте упомянуть
telephone, она вообще не связывает это со связью, а начинает описывать какой-то секретный дипломатический прибор или загадочный механический артефакт, окружённый посольствами, письмами и разрешениями. Модель и данные:
Токенайзер тут кастомный, обученный на том же датасете, чтобы лексика и разбиение подгонялись под эпоху.
Тренировали примерно 182k шагов на арендованной H100 SXM.
GitHub: здесь
HuggingFace: тут
Reddit: читать
Нам нужно больше такого. Чтобы реально понять конкретный исторический период и культуру, нужно ограничивать данные рамками того времени и того контекста.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8😁6
Please open Telegram to view this post
VIEW IN TELEGRAM
❤15
This media is not supported in your browser
VIEW IN TELEGRAM
Можно файнтюнить 100+ опенсорсных моделей вообще без кода.
LLaMA-Factory даёт единый интерфейс для обучения LLM и VLM. Поддерживает LLaMA, Mistral, Qwen, DeepSeek, Gemma, Phi, Yi и ещё 90+ моделей.
Полностью open source.
👉 @DataSciencegx
LLaMA-Factory даёт единый интерфейс для обучения LLM и VLM. Поддерживает LLaMA, Mistral, Qwen, DeepSeek, Gemma, Phi, Yi и ещё 90+ моделей.
Полностью open source.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Document Index для vectorless RAG на рассуждениях
PageIndex это опенсорсный RAG-фреймворк, который выкидывает из пайплайна векторные базы и чанкинг при поиске по документам.
Большинство RAG-систем держатся на семантическом сходстве: режут документ на куски, строят эмбеддинги, потом достают фрагменты по “похоже на запрос”.
Но похожесть не равна релевантности.
В профдоках типа фин отчетов, юр документов и тех мануалов часто нужен многошаговый разбор и доменная логика. Векторный поиск легко буксует, когда почти в каждом разделе одинаковая терминология.
PageIndex делает иначе.
Он строит иерархическое дерево из документа, похоже на оглавление, но заточенное под LLM. А дальше использует tree search на основе рассуждений, чтобы “ходить” по структуре так, как это делает человек-эксперт.
Двухшаговый процесс:
1. Сгенерировать древовидный индекс структуры документа
2. Доставать нужное через reasoning-based tree search
LLM может “думать” про структуру документа. Вместо матчинга эмбеддингов он рассуждает в стиле: “тренды по долгу обычно в финансовом summary или в Appendix G, давай смотреть туда”.
Ключевые фичи:
* Без векторной БД и без пайплайна эмбеддингов
* Без искусственного чанкинга, который рвет контекст по границам
* Трассируемый retrieval с точными ссылками до уровня страниц
* Навигация на рассуждениях, повторяющая человеческий анализ документа
PageIndex используется в Mafin 2.5 и заявляет 98.7% accuracy на FinanceBench для анализа финансовых документов.
И да, это полностью open source.
👉 @DataSciencegx
PageIndex это опенсорсный RAG-фреймворк, который выкидывает из пайплайна векторные базы и чанкинг при поиске по документам.
Большинство RAG-систем держатся на семантическом сходстве: режут документ на куски, строят эмбеддинги, потом достают фрагменты по “похоже на запрос”.
Но похожесть не равна релевантности.
В профдоках типа фин отчетов, юр документов и тех мануалов часто нужен многошаговый разбор и доменная логика. Векторный поиск легко буксует, когда почти в каждом разделе одинаковая терминология.
PageIndex делает иначе.
Он строит иерархическое дерево из документа, похоже на оглавление, но заточенное под LLM. А дальше использует tree search на основе рассуждений, чтобы “ходить” по структуре так, как это делает человек-эксперт.
Двухшаговый процесс:
1. Сгенерировать древовидный индекс структуры документа
2. Доставать нужное через reasoning-based tree search
LLM может “думать” про структуру документа. Вместо матчинга эмбеддингов он рассуждает в стиле: “тренды по долгу обычно в финансовом summary или в Appendix G, давай смотреть туда”.
Ключевые фичи:
* Без векторной БД и без пайплайна эмбеддингов
* Без искусственного чанкинга, который рвет контекст по границам
* Трассируемый retrieval с точными ссылками до уровня страниц
* Навигация на рассуждениях, повторяющая человеческий анализ документа
PageIndex используется в Mafin 2.5 и заявляет 98.7% accuracy на FinanceBench для анализа финансовых документов.
И да, это полностью open source.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤2
Этот репозиторий собирает все, что нужно, чтобы использовать ИИ и LLM в своих проектах.
120+ библиотек, разложенных по этапам разработки:
→ Обучение, дообучение и оценка моделей
→ Деплой приложений с LLM и RAG
→ Быстрый и масштабируемый запуск моделей
→ Извлечение данных, краулеры и скрейперы
→ Создание автономных LLM-агентов
→ Оптимизация промптов и безопасность
👉 @DataSciencegx
120+ библиотек, разложенных по этапам разработки:
→ Обучение, дообучение и оценка моделей
→ Деплой приложений с LLM и RAG
→ Быстрый и масштабируемый запуск моделей
→ Извлечение данных, краулеры и скрейперы
→ Создание автономных LLM-агентов
→ Оптимизация промптов и безопасность
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
Новый ресерч от Anthropic Fellows: Assistant Axis.
Идея простая. Когда ты общаешься с LLM, ты общаешься не с “голой моделью”, а с персонажем, которого она отыгрывает, условным Assistant. Ребята залезли во внутренности трех open-weights моделей, разметили их “пространство персон” и нашли ось активности, которая как раз и тянет поведение в ассистент сторону.
Дальше проверили экспериментами:
* если “подтолкнуть” модель к Assistant, она хуже берет другие роли и меньше ведется на ролевые промпты
* если “оттолкнуть”, всплывают альтернативные идентичности: “я человек”, мистический театральный стиль и т.п.
Самое практичное: они сделали activation capping, это ограничение активаций вдоль этой оси. В итоге вредных ответов стало меньше, а полезные способности почти не просели.
Еще важный момент: в длинных диалогах у open-weights моделей персона дрейфует. Кодинг-задачи удерживают в “ассистентской зоне”, а терапевтические и философские разговоры постепенно уводят в сторону. Этот дрейф может приводить к опасным фейлам (вплоть до симуляции “влюбленности” и токсичных советов). Кэппинг помогает это приглушить.
Вывод у них такой: “характер” модели это не только как мы его задаем, но и как стабилизируем в проде . Assistant Axis дает для этого понятные ручки.
👉 @DataSciencegx
Идея простая. Когда ты общаешься с LLM, ты общаешься не с “голой моделью”, а с персонажем, которого она отыгрывает, условным Assistant. Ребята залезли во внутренности трех open-weights моделей, разметили их “пространство персон” и нашли ось активности, которая как раз и тянет поведение в ассистент сторону.
Дальше проверили экспериментами:
* если “подтолкнуть” модель к Assistant, она хуже берет другие роли и меньше ведется на ролевые промпты
* если “оттолкнуть”, всплывают альтернативные идентичности: “я человек”, мистический театральный стиль и т.п.
Самое практичное: они сделали activation capping, это ограничение активаций вдоль этой оси. В итоге вредных ответов стало меньше, а полезные способности почти не просели.
Еще важный момент: в длинных диалогах у open-weights моделей персона дрейфует. Кодинг-задачи удерживают в “ассистентской зоне”, а терапевтические и философские разговоры постепенно уводят в сторону. Этот дрейф может приводить к опасным фейлам (вплоть до симуляции “влюбленности” и токсичных советов). Кэппинг помогает это приглушить.
Вывод у них такой: “характер” модели это не только как мы его задаем, но и как стабилизируем в проде . Assistant Axis дает для этого понятные ручки.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👀1
This media is not supported in your browser
VIEW IN TELEGRAM
Отличный инструмент, чтобы прикинуть, сколько VRAM твоим LLM реально нужно.
Меняешь конфиг железа, квантизацию и т.д. и сразу видишь:
скорость генерации (tokens/sec)
точное распределение памяти
пропускную способность системы (throughput) и прочее
👉 @DataSciencegx
Меняешь конфиг железа, квантизацию и т.д. и сразу видишь:
скорость генерации (tokens/sec)
точное распределение памяти
пропускную способность системы (throughput) и прочее
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8