Data Portal | DS & ML

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5

2K views16:07

Open-source чанкинг текста в RAG-пайплайнах часто считают мелкой деталью. А по факту это один из самых жирных bottleneck’ов, когда дело доходит до продакшн-масштабов.

memchunk решает эту проблему в лоб: семантические границы чанков, высокая пропускная способность, и всё это заточено под реальные продакшн-нагрузки, а не под демки.

memchunk это низкоуровневая библиотека для чанкинга на Rust, заточенная под скорость и корректность.

Она режет текст по естественным границам, не рубит предложения пополам и разгоняется до 1 TB/s за счёт SIMD, lookup-таблиц и обратного поиска.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6

1.86K views06:07

Бывало, что семантический поиск вроде бы попадает в тему, но не в твои требования?

Ищешь "latest ML research", а в выдаче куча релевантных работ… но за 2019 год.

Проблема в том, что similarity не понимает ограничений. Чтобы получить "год >= 2024", нужно фильтровать метаданные на уровне базы.

В ChromaDB это делается через where: сначала база фильтрует по условиям, потом ранжирует по similarity.

Полезные операторы:
• $eq и $ne — точное сравнение
• $gt, $gte, $lt, $lte — диапазоны
• $in, $nin — принадлежность множеству
• $and, $or — комбинирование условий

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2

1.81K views16:07

Совет для AI-инженеров

Можно гонять продакшен-уровень LLM-инференса на CPU ноутбука или даже на телефоне.

Без облачных счетов. Без API-ключей. Без интернета.

LFM2.5-1.2B-Instruct от liquidai дает:

239 токенов/с на AMD CPU
82 токена/с на мобильном NPU
меньше 1 ГБ RAM

Лови ссылку ↓

https://huggingface.co/LiquidAI/LFM2.5-1.2B-Instruct

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤3

1.96K views06:07

Хочешь учить AI на реальных проектах?
В этом репозитории 29 проектов с Generative AI, Machine Learning и Deep Learning.

С полным кодом для каждого. Это прям золото: https://github.com/KalyanM45/AI-Project-Gallery

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2

2.12K views16:07

Теорема Стокса это классика векторного анализа.

По сути она говорит что линейный интеграл векторного поля по замкнутому контуру равен поверхностному интегралу ротора этого поля по поверхности которая этим контуром ограничена.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.88K views06:07

3:29

Media is too big

Разработчик сравнил топовые опенсорсные OCR-решения и выяснил какое реально показывает лучший результат.

В подборке:

DeepSeek OCR
Datalab Chandra
Qwen3-VL
Dots OCR
Granite Docling

Параллельно сделал приложение где можно прогонять все эти OCR-модели в одном месте.

Всё на 100% опенсорс.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.86K views16:07

Марко Франзон показал обновление по своей CV-платформе: YOLO Training Template

Ручная разметка данных стала заметно удобнее. Теперь процесс выглядит как в привычных labeling-системах — просто обводишь объект рамкой и сразу создаётся bounding box.

Платформа позволяет:

• загрузить свой датасет
• разметить вручную или автолейблить через DINOv3
• по желанию обогатить данные
• обучить YOLO-модель на собственных данных
• тут же прогнать инференс
• экспортировать в ONNX или NCNN, что даёт совместимость с edge-железом и смартфонами

Всё это доступно бесплатно и уже можно попробовать на GitHub.

❤10

2K views06:07

Сегодня OpenAI анонсирует Open Responses: open-source спецификацию для сборки мультипровайдерных, интероперабельных интерфейсов к LLM, построенную поверх оригинального OpenAI Responses API.

✅Мультипровайдерность по умолчанию
✅Полезно для реальных продовых воркфлоу
✅Расширяемо без фрагментации

Стройте агентные системы без переписывания всего стека под каждую модель: [http://openresponses.org]

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.78K views16:07

NN-SVG: рисуйте архитектуры нейросетей параметрически

Экспортируйте их в SVG и используйте в своих материалах

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍4

1.87K views06:07

Найти строки с min/max по другому столбцу в одну строку в Polars v1.37.0

Раньше, чтобы вытащить строку с минимальным или максимальным значением относительно другого столбца, обычно приходилось делать сортировку, groupby или городить фильтры посложнее.

В Polars v1.37.0 завезли методы выражений min_by и max_by. Они находят минимум или максимум по любому столбцу одним понятным выражением.

Обновиться и получить min_by/max_by:
pip install -U polars

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

1.86K views16:07

Офлайн-распознавание текста с помощью DeepSeek-OCR AI : https://github.com/th1nhhdk/local_ai_ocr

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

1.89K views06:07

Компьютерное зрение сегодня используется во множестве интересных задач, например в помощи с тренировками.

В этом туториале Экемини показывает, как собрать собственного AI-тренера для зала в реальном времени на Vision Agents.

Ты разберешься, как поднять проект и получить API-ключи, как устроен агент, как запустить приложение и что к чему.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

1.92K views16:07

Флоу-генеративные модели, обученные через flow matching, обычно учат изогнутые траектории, и их сложно аппроксимировать за несколько шагов.

Rectified flows пытаются учить прямые траектории, которые проще симулировать и требуют меньше вычислений.

Держи интерактивную статью, где объяснили геометрическую интуицию behind Rectified Flows.

Код тоже здесь можно найти.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

1.7K views06:07

На r/LocalLLaMA кто-то с нуля натренировал LLM на лондонских текстах 1800–1875

Это забавный глюк данных. Телефон изобрели в 1876, а у модели датасет заканчивается 1875-м. Поэтому если в промпте упомянуть telephone, она вообще не связывает это со связью, а начинает описывать какой-то секретный дипломатический прибор или загадочный механический артефакт, окружённый посольствами, письмами и разрешениями. 😆

Модель и данные:

➡️1.2B параметров
➡️~90GB корпуса
➡️книги, журналы, юридические бумаги
➡️религиозные и медицинские тексты

Токенайзер тут кастомный, обученный на том же датасете, чтобы лексика и разбиение подгонялись под эпоху.
Тренировали примерно 182k шагов на арендованной H100 SXM.

GitHub: здесь
HuggingFace: тут
Reddit: читать

Нам нужно больше такого. Чтобы реально понять конкретный исторический период и культуру, нужно ограничивать данные рамками того времени и того контекста.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8😁6

1.86K views16:07

2:12

Как на самом деле работают LLM:

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤15

1.85K views06:07

1:35

Можно файнтюнить 100+ опенсорсных моделей вообще без кода.

LLaMA-Factory даёт единый интерфейс для обучения LLM и VLM. Поддерживает LLaMA, Mistral, Qwen, DeepSeek, Gemma, Phi, Yi и ещё 90+ моделей.

Полностью open source.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4

1.8K views16:07

Document Index для vectorless RAG на рассуждениях

PageIndex это опенсорсный RAG-фреймворк, который выкидывает из пайплайна векторные базы и чанкинг при поиске по документам.

Большинство RAG-систем держатся на семантическом сходстве: режут документ на куски, строят эмбеддинги, потом достают фрагменты по “похоже на запрос”.

Но похожесть не равна релевантности.

В профдоках типа фин отчетов, юр документов и тех мануалов часто нужен многошаговый разбор и доменная логика. Векторный поиск легко буксует, когда почти в каждом разделе одинаковая терминология.

PageIndex делает иначе.

Он строит иерархическое дерево из документа, похоже на оглавление, но заточенное под LLM. А дальше использует tree search на основе рассуждений, чтобы “ходить” по структуре так, как это делает человек-эксперт.

Двухшаговый процесс:

1. Сгенерировать древовидный индекс структуры документа
2. Доставать нужное через reasoning-based tree search

LLM может “думать” про структуру документа. Вместо матчинга эмбеддингов он рассуждает в стиле: “тренды по долгу обычно в финансовом summary или в Appendix G, давай смотреть туда”.

Ключевые фичи:

* Без векторной БД и без пайплайна эмбеддингов
* Без искусственного чанкинга, который рвет контекст по границам
* Трассируемый retrieval с точными ссылками до уровня страниц
* Навигация на рассуждениях, повторяющая человеческий анализ документа

PageIndex используется в Mafin 2.5 и заявляет 98.7% accuracy на FinanceBench для анализа финансовых документов.

И да, это полностью open source.

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8❤2

1.74K views06:07

Этот репозиторий собирает все, что нужно, чтобы использовать ИИ и LLM в своих проектах.

120+ библиотек, разложенных по этапам разработки:

→ Обучение, дообучение и оценка моделей
→ Деплой приложений с LLM и RAG
→ Быстрый и масштабируемый запуск моделей
→ Извлечение данных, краулеры и скрейперы
→ Создание автономных LLM-агентов
→ Оптимизация промптов и безопасность

👉

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3

1.92K views16:07

Новый ресерч от Anthropic Fellows: Assistant Axis.

Идея простая. Когда ты общаешься с LLM, ты общаешься не с “голой моделью”, а с персонажем, которого она отыгрывает, условным Assistant. Ребята залезли во внутренности трех open-weights моделей, разметили их “пространство персон” и нашли ось активности, которая как раз и тянет поведение в ассистент сторону.

Дальше проверили экспериментами:

* если “подтолкнуть” модель к Assistant, она хуже берет другие роли и меньше ведется на ролевые промпты
* если “оттолкнуть”, всплывают альтернативные идентичности: “я человек”, мистический театральный стиль и т.п.

Самое практичное: они сделали activation capping, это ограничение активаций вдоль этой оси. В итоге вредных ответов стало меньше, а полезные способности почти не просели.

Еще важный момент: в длинных диалогах у open-weights моделей персона дрейфует. Кодинг-задачи удерживают в “ассистентской зоне”, а терапевтические и философские разговоры постепенно уводят в сторону. Этот дрейф может приводить к опасным фейлам (вплоть до симуляции “влюбленности” и токсичных советов). Кэппинг помогает это приглушить.

Вывод у них такой: “характер” модели это не только как мы его задаем, но и как стабилизируем в проде . Assistant Axis дает для этого понятные ручки.

👉