Forwarded from LLM под капотом
Первые инсайты из Enterprise RAG Challenge r2
Мы с вами их обнаружили вместе!
Во-первых, качество извлечения документов важно для точности. Тут внезапно хорошо себя проявила библиотечка Docling от IBM (даже за пределами WatsonX AI Track).
Во-вторых, при наличии хорошой архитектуры можно получить высокие результаты даже на локальных моделях.
Смотрим на архитектуру Ильи, которую он запускал на разных моделях.
PDF parsing with heavily modified Docling library + Dense retrieval + Router + Parent Document Retrieval + SO CoT + SO reparser
Видно, что по мере снижения размера модели, у нас снижается качество ответов. Но оно падает не так быстро, как можно было бы ожидать. Я думаю, что это все благодаря качественно сделанной Retrieval части - она “облегчает” работу LLM на финальных этапах.
В-третьих, в топовых решениях часто используются reasoning паттерны на основе SO CoT (Structured Outputs + Chain of Thought == Custom Chain of Thought). Причем они работают даже там, где SO нет и впомине (только нужно использовать Schema Repair).
В-четвертых, в ситуациях со сложно предсказуемыми вопросами хороший векторный поиск пока до сих пор работает чуть лучше решений без векторов.
Самый главный вывод для меня - с локальными моделями, оказывается, можно делать сильно больше и сильно лучше, чем казалось раньше. Они могут составить неплохую конкуренцию облачным моделям, если выжимать максимум из их способностей.
---
- Победители Enterprise RAG Challenge r2
- Табличка с результатами (лучший результат от каждой команды)
Ваш, @llm_under_hood 🤗
Мы с вами их обнаружили вместе!
Во-первых, качество извлечения документов важно для точности. Тут внезапно хорошо себя проявила библиотечка Docling от IBM (даже за пределами WatsonX AI Track).
Во-вторых, при наличии хорошой архитектуры можно получить высокие результаты даже на локальных моделях.
Смотрим на архитектуру Ильи, которую он запускал на разных моделях.
PDF parsing with heavily modified Docling library + Dense retrieval + Router + Parent Document Retrieval + SO CoT + SO reparser
o3-mini R: 83.8 │ G: 81.8 │ Score: 123.7
llama3.3-70b R: 83.9 │ G: 72.8 │ Score: 114.8
llama-3.1 8b R: 81.1 │ G: 68.7 │ Score: 109.3
R - Retrieval score
G - Generation score
Видно, что по мере снижения размера модели, у нас снижается качество ответов. Но оно падает не так быстро, как можно было бы ожидать. Я думаю, что это все благодаря качественно сделанной Retrieval части - она “облегчает” работу LLM на финальных этапах.
В-третьих, в топовых решениях часто используются reasoning паттерны на основе SO CoT (Structured Outputs + Chain of Thought == Custom Chain of Thought). Причем они работают даже там, где SO нет и впомине (только нужно использовать Schema Repair).
В-четвертых, в ситуациях со сложно предсказуемыми вопросами хороший векторный поиск пока до сих пор работает чуть лучше решений без векторов.
Самый главный вывод для меня - с локальными моделями, оказывается, можно делать сильно больше и сильно лучше, чем казалось раньше. Они могут составить неплохую конкуренцию облачным моделям, если выжимать максимум из их способностей.
---
- Победители Enterprise RAG Challenge r2
- Табличка с результатами (лучший результат от каждой команды)
Ваш, @llm_under_hood 🤗
Forwarded from Дратути Антон
Профилировщики
Есть такой момент: код работает 1 час вместо 1 минуты. Это вообще нормально?🏥
У меня был скрипт, который работал ну жутко долго. Из "замечательных" его свойств было:
— Обилие библиотек, которые делали одно и то же;
— Тонна строк кода, которые сложно уместить в контекст.
Примечательно и другое: всего 10000 семплов прогонялось в скрипте, а занимало целый час. Моё алгоритмическое чутьё подозревает степенную сложность у алгоритмов в коде🤓 . Но как всю эту лютейшую дичь искать глазами в такой простыне? Вообще не представляю. Значит, нужон профилировщик.
Я достаточно давно не использовал подобный инструментарий для Python кода, а потому вообще всё забыл. Погуглил, наткнулся на Austin — и правда кайфанул.
Во-первых, как мне показалось, он практически не влияет на код. Видимо, профилировка методом сбора статистик из стека вызовов сделана классно.
Во-вторых, установил и запустил — из коробки работает норм. Не нужно настраивать, читать 100500 толмутов документации, чтобы сделать запуск.
В-третьих, реалтайм построение flamegraph. Запускаешь, смотришь, останавливаешься в любой момент — и сразу видно, где всё тормозит.
Также в тулзе есть профилировщик памяти, но я юзал для этих целей memray (тож рекомендую).
В результате, я минут за 5 нашёл проблемные места и получил свою заветную одну минуту времени работы! Скорее всего вы даже лучше меня знаете, что лучше всего использовать для отладки проблем с производительностью приложений на Python. Но я считаю, что этот фреймворк — абсолютное величие для тех, кто хочет что-то быстренько ускорить на коленке.
И вот какой у меня возник вопрос: сколько бы эту задачу делал ИИ-агент и вообще смог ли бы он её сделать?
Есть такой момент: код работает 1 час вместо 1 минуты. Это вообще нормально?
У меня был скрипт, который работал ну жутко долго. Из "замечательных" его свойств было:
— Обилие библиотек, которые делали одно и то же;
— Тонна строк кода, которые сложно уместить в контекст.
Примечательно и другое: всего 10000 семплов прогонялось в скрипте, а занимало целый час. Моё алгоритмическое чутьё подозревает степенную сложность у алгоритмов в коде
Я достаточно давно не использовал подобный инструментарий для Python кода, а потому вообще всё забыл. Погуглил, наткнулся на Austin — и правда кайфанул.
Во-первых, как мне показалось, он практически не влияет на код. Видимо, профилировка методом сбора статистик из стека вызовов сделана классно.
Во-вторых, установил и запустил — из коробки работает норм. Не нужно настраивать, читать 100500 толмутов документации, чтобы сделать запуск.
В-третьих, реалтайм построение flamegraph. Запускаешь, смотришь, останавливаешься в любой момент — и сразу видно, где всё тормозит.
Также в тулзе есть профилировщик памяти, но я юзал для этих целей memray (тож рекомендую).
В результате, я минут за 5 нашёл проблемные места и получил свою заветную одну минуту времени работы! Скорее всего вы даже лучше меня знаете, что лучше всего использовать для отладки проблем с производительностью приложений на Python. Но я считаю, что этот фреймворк — абсолютное величие для тех, кто хочет что-то быстренько ускорить на коленке.
И вот какой у меня возник вопрос: сколько бы эту задачу делал ИИ-агент и вообще смог ли бы он её сделать?
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Дратути Антон
Потестил Mistral OCR
Чо могу сказать: очень хорошо, но есть куда стремиться
— Русская рукописка точно не работает;
— Русский/Английский печатный работает очень хорошо;
— Формулы я так и не нашёл пока багов, даже сложные индексы находит;
— Иногда (редко) сжевывает какие-то столбцы в таблицах;
— Явных жоский галлюцинаций я не нашёл;
— Мне показалось, что очень хорошо строит layout.
Не знаю, что ребята делают под капотом, но это работает турбо быстро! Я заливал pdfки и меньше чем за минуту ко мне прилетал уже готовый markdown. В общем, топчик!
Оригиналы скринов, документов и распознаваний приложу в комментарии!
Чо могу сказать: очень хорошо, но есть куда стремиться
— Русская рукописка точно не работает;
— Русский/Английский печатный работает очень хорошо;
— Формулы я так и не нашёл пока багов, даже сложные индексы находит;
— Иногда (редко) сжевывает какие-то столбцы в таблицах;
— Явных жоский галлюцинаций я не нашёл;
— Мне показалось, что очень хорошо строит layout.
Не знаю, что ребята делают под капотом, но это работает турбо быстро! Я заливал pdfки и меньше чем за минуту ко мне прилетал уже готовый markdown. В общем, топчик!
Оригиналы скринов, документов и распознаваний приложу в комментарии!
Forwarded from Нейросети и Блендер
Media is too big
VIEW IN TELEGRAM
Офигенный workflow от аниматора Cuco
Это как раз идеальный пример, как художник может использовать AI для упрощения процессов не особо теряя в качестве.
-- Тут обучение Лоры на своих артах, особенно когда их мало.
-- Создание всего окружения в своём стиле + создание простых сцен. Я делал что-то похожее здесь.
-- Создание простых анимаций использую только линии и затем Lineart на своей Лоре чтобы сделать финальную картинку.
-- Далее AnimateDiff с Lineart ControlNet для сцен + Лора. И вот уже у нас офигенные слои, которые можно будем потом композить.
Автор: LINK
Это как раз идеальный пример, как художник может использовать AI для упрощения процессов не особо теряя в качестве.
-- Тут обучение Лоры на своих артах, особенно когда их мало.
-- Создание всего окружения в своём стиле + создание простых сцен. Я делал что-то похожее здесь.
-- Создание простых анимаций использую только линии и затем Lineart на своей Лоре чтобы сделать финальную картинку.
-- Далее AnimateDiff с Lineart ControlNet для сцен + Лора. И вот уже у нас офигенные слои, которые можно будем потом композить.
Автор: LINK
Forwarded from Maxim Beregov
Очень советую систему DISC для оценки людей, которая поможет хаотичные мысли сложить в систему.
https://huntflow.media/disc/
https://huntflow.media/disc/
Журнал Хантфлоу
Модель DISC: что это, 4 типа личности, как использовать в управлении персоналом
Модель DISC — поведенческая методика для HR, включает 4 типа личности сотрудников. Помогает оптимизировать подбор персонала. Дали описание типологии, способы тестирования, рассказали, как использовать на практике.
Forwarded from Denis Saponenko
От себя добавлю, что для работы с проблемами актуальны:
Метод 5 почему
Диаграмма Исикавы
SWOT-анализ
Модель Enterprise Value Map
ТРИЗ
Они более высокоуровневые, но тимлиду надо расти 😉
Метод 5 почему
Диаграмма Исикавы
SWOT-анализ
Модель Enterprise Value Map
ТРИЗ
Они более высокоуровневые, но тимлиду надо расти 😉
Хабр
Метод «5 почему»: как он работает, что чаще всего забывают, и как провести тренинг для команды
Всем привет! Меня зовут Роман Сергеев, я - менеджер по внедрению и развитию продуктов и систем в ИТ «Ренессанс страхование». В этом материале я расскажу о том, как правильно метод использовать...
Forwarded from r/ретранслятор
r/ретранслятор
Китайский стартап Manus выпустил первого полностью автономного ИИ-агента, способного выполнять сложные задачи без участия человека. И это не очередная «самая умная нейронка, которая на 1% лучше других», а практически самостоятельная модель, которая не только…
Помните мы недавно писали про ИИ-агента Manus? Так вот, теперь вышел... ANUS (Autonomous Networked Utility System) — бесплатный клон Manus AI.
Всё просто: разработчик попросил Manus клонировать себя, что нейронка и сделала. Результатом стала полностью функциональная структура агента с открытым кодом, архитектурой и документацией, воссозданная за считанные минуты.
Основные возможности:
– Выполнение сложных задач через естественный язык;
– Взаимодействие между несколькими агентами;
– Работа с веб-ресурсами, документами, кодом;
– Обработка текста, изображений и аудио.
Также ANUS можно расширить плагинами и кастомными инструментами.
Если хотите попробовать ANUS, то гитхаб тут
r/#singularity
Всё просто: разработчик попросил Manus клонировать себя, что нейронка и сделала. Результатом стала полностью функциональная структура агента с открытым кодом, архитектурой и документацией, воссозданная за считанные минуты.
Основные возможности:
– Выполнение сложных задач через естественный язык;
– Взаимодействие между несколькими агентами;
– Работа с веб-ресурсами, документами, кодом;
– Обработка текста, изображений и аудио.
Также ANUS можно расширить плагинами и кастомными инструментами.
Если хотите попробовать ANUS, то гитхаб тут
r/#singularity
Forwarded from Katser
Мне было интересно послушать об итогах года в ML in Manufacturing от Димы Подвязникова. 2 года выступаю у Димы в секции на Datafest'е и даже немного помогаю собирать доклады.
Я бы дополнил выступление (далее с ссылками на материалы в канале):
За упоминание RUL в ключевых докладах отдельное спасибо
Наверно, и я много всего забыл — делитесь в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Дмитрий Подвязников | Итоги года в ML in Manufacturing
Спикер: Дмитрий Подвязников
Data Ёлка 2024 в гостях у Ecom.tech: https://ods.ai/events/data-elka-24-ecomtech-offline
Data Ёлка 2024: https://ods.ai/events/data-elka-2024
_____
Наши соц.сети:
Telegram: https://t.me/datafest
Вконтакте: https://vk.com/datafest…
Data Ёлка 2024 в гостях у Ecom.tech: https://ods.ai/events/data-elka-24-ecomtech-offline
Data Ёлка 2024: https://ods.ai/events/data-elka-2024
_____
Наши соц.сети:
Telegram: https://t.me/datafest
Вконтакте: https://vk.com/datafest…