Forwarded from LLM под капотом
Первые инсайты из Enterprise RAG Challenge r2
Мы с вами их обнаружили вместе!
Во-первых, качество извлечения документов важно для точности. Тут внезапно хорошо себя проявила библиотечка Docling от IBM (даже за пределами WatsonX AI Track).
Во-вторых, при наличии хорошой архитектуры можно получить высокие результаты даже на локальных моделях.
Смотрим на архитектуру Ильи, которую он запускал на разных моделях.
PDF parsing with heavily modified Docling library + Dense retrieval + Router + Parent Document Retrieval + SO CoT + SO reparser
Видно, что по мере снижения размера модели, у нас снижается качество ответов. Но оно падает не так быстро, как можно было бы ожидать. Я думаю, что это все благодаря качественно сделанной Retrieval части - она “облегчает” работу LLM на финальных этапах.
В-третьих, в топовых решениях часто используются reasoning паттерны на основе SO CoT (Structured Outputs + Chain of Thought == Custom Chain of Thought). Причем они работают даже там, где SO нет и впомине (только нужно использовать Schema Repair).
В-четвертых, в ситуациях со сложно предсказуемыми вопросами хороший векторный поиск пока до сих пор работает чуть лучше решений без векторов.
Самый главный вывод для меня - с локальными моделями, оказывается, можно делать сильно больше и сильно лучше, чем казалось раньше. Они могут составить неплохую конкуренцию облачным моделям, если выжимать максимум из их способностей.
---
- Победители Enterprise RAG Challenge r2
- Табличка с результатами (лучший результат от каждой команды)
Ваш, @llm_under_hood 🤗
Мы с вами их обнаружили вместе!
Во-первых, качество извлечения документов важно для точности. Тут внезапно хорошо себя проявила библиотечка Docling от IBM (даже за пределами WatsonX AI Track).
Во-вторых, при наличии хорошой архитектуры можно получить высокие результаты даже на локальных моделях.
Смотрим на архитектуру Ильи, которую он запускал на разных моделях.
PDF parsing with heavily modified Docling library + Dense retrieval + Router + Parent Document Retrieval + SO CoT + SO reparser
o3-mini R: 83.8 │ G: 81.8 │ Score: 123.7
llama3.3-70b R: 83.9 │ G: 72.8 │ Score: 114.8
llama-3.1 8b R: 81.1 │ G: 68.7 │ Score: 109.3
R - Retrieval score
G - Generation score
Видно, что по мере снижения размера модели, у нас снижается качество ответов. Но оно падает не так быстро, как можно было бы ожидать. Я думаю, что это все благодаря качественно сделанной Retrieval части - она “облегчает” работу LLM на финальных этапах.
В-третьих, в топовых решениях часто используются reasoning паттерны на основе SO CoT (Structured Outputs + Chain of Thought == Custom Chain of Thought). Причем они работают даже там, где SO нет и впомине (только нужно использовать Schema Repair).
В-четвертых, в ситуациях со сложно предсказуемыми вопросами хороший векторный поиск пока до сих пор работает чуть лучше решений без векторов.
Самый главный вывод для меня - с локальными моделями, оказывается, можно делать сильно больше и сильно лучше, чем казалось раньше. Они могут составить неплохую конкуренцию облачным моделям, если выжимать максимум из их способностей.
---
- Победители Enterprise RAG Challenge r2
- Табличка с результатами (лучший результат от каждой команды)
Ваш, @llm_under_hood 🤗
Forwarded from Дратути Антон
Профилировщики
Есть такой момент: код работает 1 час вместо 1 минуты. Это вообще нормально?🏥
У меня был скрипт, который работал ну жутко долго. Из "замечательных" его свойств было:
— Обилие библиотек, которые делали одно и то же;
— Тонна строк кода, которые сложно уместить в контекст.
Примечательно и другое: всего 10000 семплов прогонялось в скрипте, а занимало целый час. Моё алгоритмическое чутьё подозревает степенную сложность у алгоритмов в коде🤓 . Но как всю эту лютейшую дичь искать глазами в такой простыне? Вообще не представляю. Значит, нужон профилировщик.
Я достаточно давно не использовал подобный инструментарий для Python кода, а потому вообще всё забыл. Погуглил, наткнулся на Austin — и правда кайфанул.
Во-первых, как мне показалось, он практически не влияет на код. Видимо, профилировка методом сбора статистик из стека вызовов сделана классно.
Во-вторых, установил и запустил — из коробки работает норм. Не нужно настраивать, читать 100500 толмутов документации, чтобы сделать запуск.
В-третьих, реалтайм построение flamegraph. Запускаешь, смотришь, останавливаешься в любой момент — и сразу видно, где всё тормозит.
Также в тулзе есть профилировщик памяти, но я юзал для этих целей memray (тож рекомендую).
В результате, я минут за 5 нашёл проблемные места и получил свою заветную одну минуту времени работы! Скорее всего вы даже лучше меня знаете, что лучше всего использовать для отладки проблем с производительностью приложений на Python. Но я считаю, что этот фреймворк — абсолютное величие для тех, кто хочет что-то быстренько ускорить на коленке.
И вот какой у меня возник вопрос: сколько бы эту задачу делал ИИ-агент и вообще смог ли бы он её сделать?
Есть такой момент: код работает 1 час вместо 1 минуты. Это вообще нормально?
У меня был скрипт, который работал ну жутко долго. Из "замечательных" его свойств было:
— Обилие библиотек, которые делали одно и то же;
— Тонна строк кода, которые сложно уместить в контекст.
Примечательно и другое: всего 10000 семплов прогонялось в скрипте, а занимало целый час. Моё алгоритмическое чутьё подозревает степенную сложность у алгоритмов в коде
Я достаточно давно не использовал подобный инструментарий для Python кода, а потому вообще всё забыл. Погуглил, наткнулся на Austin — и правда кайфанул.
Во-первых, как мне показалось, он практически не влияет на код. Видимо, профилировка методом сбора статистик из стека вызовов сделана классно.
Во-вторых, установил и запустил — из коробки работает норм. Не нужно настраивать, читать 100500 толмутов документации, чтобы сделать запуск.
В-третьих, реалтайм построение flamegraph. Запускаешь, смотришь, останавливаешься в любой момент — и сразу видно, где всё тормозит.
Также в тулзе есть профилировщик памяти, но я юзал для этих целей memray (тож рекомендую).
В результате, я минут за 5 нашёл проблемные места и получил свою заветную одну минуту времени работы! Скорее всего вы даже лучше меня знаете, что лучше всего использовать для отладки проблем с производительностью приложений на Python. Но я считаю, что этот фреймворк — абсолютное величие для тех, кто хочет что-то быстренько ускорить на коленке.
И вот какой у меня возник вопрос: сколько бы эту задачу делал ИИ-агент и вообще смог ли бы он её сделать?
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Дратути Антон
Потестил Mistral OCR
Чо могу сказать: очень хорошо, но есть куда стремиться
— Русская рукописка точно не работает;
— Русский/Английский печатный работает очень хорошо;
— Формулы я так и не нашёл пока багов, даже сложные индексы находит;
— Иногда (редко) сжевывает какие-то столбцы в таблицах;
— Явных жоский галлюцинаций я не нашёл;
— Мне показалось, что очень хорошо строит layout.
Не знаю, что ребята делают под капотом, но это работает турбо быстро! Я заливал pdfки и меньше чем за минуту ко мне прилетал уже готовый markdown. В общем, топчик!
Оригиналы скринов, документов и распознаваний приложу в комментарии!
Чо могу сказать: очень хорошо, но есть куда стремиться
— Русская рукописка точно не работает;
— Русский/Английский печатный работает очень хорошо;
— Формулы я так и не нашёл пока багов, даже сложные индексы находит;
— Иногда (редко) сжевывает какие-то столбцы в таблицах;
— Явных жоский галлюцинаций я не нашёл;
— Мне показалось, что очень хорошо строит layout.
Не знаю, что ребята делают под капотом, но это работает турбо быстро! Я заливал pdfки и меньше чем за минуту ко мне прилетал уже готовый markdown. В общем, топчик!
Оригиналы скринов, документов и распознаваний приложу в комментарии!
Forwarded from Нейросети и Блендер
Media is too big
VIEW IN TELEGRAM
Офигенный workflow от аниматора Cuco
Это как раз идеальный пример, как художник может использовать AI для упрощения процессов не особо теряя в качестве.
-- Тут обучение Лоры на своих артах, особенно когда их мало.
-- Создание всего окружения в своём стиле + создание простых сцен. Я делал что-то похожее здесь.
-- Создание простых анимаций использую только линии и затем Lineart на своей Лоре чтобы сделать финальную картинку.
-- Далее AnimateDiff с Lineart ControlNet для сцен + Лора. И вот уже у нас офигенные слои, которые можно будем потом композить.
Автор: LINK
Это как раз идеальный пример, как художник может использовать AI для упрощения процессов не особо теряя в качестве.
-- Тут обучение Лоры на своих артах, особенно когда их мало.
-- Создание всего окружения в своём стиле + создание простых сцен. Я делал что-то похожее здесь.
-- Создание простых анимаций использую только линии и затем Lineart на своей Лоре чтобы сделать финальную картинку.
-- Далее AnimateDiff с Lineart ControlNet для сцен + Лора. И вот уже у нас офигенные слои, которые можно будем потом композить.
Автор: LINK
Forwarded from Maxim Beregov
Очень советую систему DISC для оценки людей, которая поможет хаотичные мысли сложить в систему.
https://huntflow.media/disc/
https://huntflow.media/disc/
Журнал Хантфлоу
Модель DISC: что это, 4 типа личности, как использовать в управлении персоналом
Модель DISC — поведенческая методика для HR, включает 4 типа личности сотрудников. Помогает оптимизировать подбор персонала. Дали описание типологии, способы тестирования, рассказали, как использовать на практике.
Forwarded from Denis Saponenko
От себя добавлю, что для работы с проблемами актуальны:
Метод 5 почему
Диаграмма Исикавы
SWOT-анализ
Модель Enterprise Value Map
ТРИЗ
Они более высокоуровневые, но тимлиду надо расти 😉
Метод 5 почему
Диаграмма Исикавы
SWOT-анализ
Модель Enterprise Value Map
ТРИЗ
Они более высокоуровневые, но тимлиду надо расти 😉
Хабр
Метод «5 почему»: как он работает, что чаще всего забывают, и как провести тренинг для команды
Всем привет! Меня зовут Роман Сергеев, я - менеджер по внедрению и развитию продуктов и систем в ИТ «Ренессанс страхование». В этом материале я расскажу о том, как правильно метод использовать...
Forwarded from r/ретранслятор
r/ретранслятор
Китайский стартап Manus выпустил первого полностью автономного ИИ-агента, способного выполнять сложные задачи без участия человека. И это не очередная «самая умная нейронка, которая на 1% лучше других», а практически самостоятельная модель, которая не только…
Помните мы недавно писали про ИИ-агента Manus? Так вот, теперь вышел... ANUS (Autonomous Networked Utility System) — бесплатный клон Manus AI.
Всё просто: разработчик попросил Manus клонировать себя, что нейронка и сделала. Результатом стала полностью функциональная структура агента с открытым кодом, архитектурой и документацией, воссозданная за считанные минуты.
Основные возможности:
– Выполнение сложных задач через естественный язык;
– Взаимодействие между несколькими агентами;
– Работа с веб-ресурсами, документами, кодом;
– Обработка текста, изображений и аудио.
Также ANUS можно расширить плагинами и кастомными инструментами.
Если хотите попробовать ANUS, то гитхаб тут
r/#singularity
Всё просто: разработчик попросил Manus клонировать себя, что нейронка и сделала. Результатом стала полностью функциональная структура агента с открытым кодом, архитектурой и документацией, воссозданная за считанные минуты.
Основные возможности:
– Выполнение сложных задач через естественный язык;
– Взаимодействие между несколькими агентами;
– Работа с веб-ресурсами, документами, кодом;
– Обработка текста, изображений и аудио.
Также ANUS можно расширить плагинами и кастомными инструментами.
Если хотите попробовать ANUS, то гитхаб тут
r/#singularity
Forwarded from Katser
Мне было интересно послушать об итогах года в ML in Manufacturing от Димы Подвязникова. 2 года выступаю у Димы в секции на Datafest'е и даже немного помогаю собирать доклады.
Я бы дополнил выступление (далее с ссылками на материалы в канале):
За упоминание RUL в ключевых докладах отдельное спасибо
Наверно, и я много всего забыл — делитесь в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Дмитрий Подвязников | Итоги года в ML in Manufacturing
Спикер: Дмитрий Подвязников
Data Ёлка 2024 в гостях у Ecom.tech: https://ods.ai/events/data-elka-24-ecomtech-offline
Data Ёлка 2024: https://ods.ai/events/data-elka-2024
_____
Наши соц.сети:
Telegram: https://t.me/datafest
Вконтакте: https://vk.com/datafest…
Data Ёлка 2024 в гостях у Ecom.tech: https://ods.ai/events/data-elka-24-ecomtech-offline
Data Ёлка 2024: https://ods.ai/events/data-elka-2024
_____
Наши соц.сети:
Telegram: https://t.me/datafest
Вконтакте: https://vk.com/datafest…
#prompt
AI Prompting Tips from a Power User: How to Get Way Better Responses
# 1. Stop Asking AI to “Write X” and Start Giving It a Damn Framework
AI is great at filling in blanks. It’s bad at figuring out what you actually want. So, make it easy for the poor thing.
🚫 Bad prompt: “Write an essay about automation.”
✅ Good prompt:
Title: [Insert Here]
Thesis: [Main Argument]
Arguments:
- [Key Point #1]
- [Key Point #2]
- [Key Point #3]
Counterarguments:
- [Opposing View #1]
- [Opposing View #2]
Conclusion: [Wrap-up Thought]
Now AI actually has a structure to follow, and you don’t have to spend 10 minutes fixing a rambling mess.
Or, if you’re making characters, force it into a structured format like JSON:
{
"name": "John Doe",
"archetype": "Tragic Hero",
"motivation": "Wants to prove himself to a world that has abandoned him.",
"conflicts": {
"internal": "Fear of failure",
"external": "A rival who embodies everything he despises."
},
"moral_alignment": "Chaotic Good"
}
Ever get annoyed when AI contradicts itself halfway through a story? This fixes that.
# 2. The “Lazy Essay” Trick (or: How to Get AI to Do 90% of the Work for You)
If you need AI to actually write something useful instead of spewing generic fluff, use this four-part scaffolded prompt:
Assignment: [Short, clear instructions]
Quotes: [Any key references or context]
Notes: [Your thoughts or points to include]
Additional Instructions: [Structure, word limits, POV, tone, etc.]
🚫 Bad prompt: “Tell me how automation affects jobs.”
✅ Good prompt:
Assignment: Write an analysis of how automation is changing the job market.
Quotes: “AI doesn’t take jobs; it automates tasks.” - Economist
Notes:
- Affects industries unevenly.
- High-skill jobs benefit; low-skill jobs get automated.
- Government policy isn’t keeping up.
Additional Instructions:
- Use at least three industry examples.
- Balance positives and negatives.
Why does this work? Because AI isn’t guessing what you want, it’s building off your input.
# 3. Never Accept the First Answer—It’s Always Mid
Like any writer, AI’s first draft is never its best work. If you’re accepting whatever it spits out first, you’re doing it wrong.
How to fix it:
1. First Prompt: “Explain the ethics of AI decision-making in self-driving cars.”
2. Refine: “Expand on the section about moral responsibility—who is legally accountable?”
3. Refine Again: “Add historical legal precedents related to automation liability.”
Each round makes the response better. Stop settling for autopilot answers.
# 4. Make AI Pick a Side (Because It’s Too Neutral Otherwise)
AI tries way too hard to be balanced, which makes its answers boring and generic. Force it to pick a stance.
🚫 Bad: “Explain the pros and cons of universal basic income.”
✅ Good: “Defend universal basic income as a long-term economic solution and refute common criticisms.”
Or, if you want even more depth:
✅ “Make a strong argument in favor of UBI from a socialist perspective, then argue against it from a libertarian perspective.”
This forces AI to actually generate arguments, instead of just listing pros and cons like a high school essay.
# 5. Fixing Bad Responses: Change One Thing at a Time
If AI gives a bad answer, don’t just start over—fix one part of the prompt and run it again.
* Too vague? Add constraints.
* Mid: “Tell me about the history of AI.”
* Better: “Explain the history of AI in five key technological breakthroughs.”
* Too complex? Simplify.
* Mid: “Describe the implications of AI governance on international law.”
* Better: “Explain how AI laws differ between the US and EU in simple terms.”
* Too shallow? Ask for depth.
* Mid: “What are the problems with automation?”
* Better: “What are the five biggest criticisms of automation, ranked by impact?”
Tiny tweaks = way better results.
AI Prompting Tips from a Power User: How to Get Way Better Responses
# 1. Stop Asking AI to “Write X” and Start Giving It a Damn Framework
AI is great at filling in blanks. It’s bad at figuring out what you actually want. So, make it easy for the poor thing.
🚫 Bad prompt: “Write an essay about automation.”
✅ Good prompt:
Title: [Insert Here]
Thesis: [Main Argument]
Arguments:
- [Key Point #1]
- [Key Point #2]
- [Key Point #3]
Counterarguments:
- [Opposing View #1]
- [Opposing View #2]
Conclusion: [Wrap-up Thought]
Now AI actually has a structure to follow, and you don’t have to spend 10 minutes fixing a rambling mess.
Or, if you’re making characters, force it into a structured format like JSON:
{
"name": "John Doe",
"archetype": "Tragic Hero",
"motivation": "Wants to prove himself to a world that has abandoned him.",
"conflicts": {
"internal": "Fear of failure",
"external": "A rival who embodies everything he despises."
},
"moral_alignment": "Chaotic Good"
}
Ever get annoyed when AI contradicts itself halfway through a story? This fixes that.
# 2. The “Lazy Essay” Trick (or: How to Get AI to Do 90% of the Work for You)
If you need AI to actually write something useful instead of spewing generic fluff, use this four-part scaffolded prompt:
Assignment: [Short, clear instructions]
Quotes: [Any key references or context]
Notes: [Your thoughts or points to include]
Additional Instructions: [Structure, word limits, POV, tone, etc.]
🚫 Bad prompt: “Tell me how automation affects jobs.”
✅ Good prompt:
Assignment: Write an analysis of how automation is changing the job market.
Quotes: “AI doesn’t take jobs; it automates tasks.” - Economist
Notes:
- Affects industries unevenly.
- High-skill jobs benefit; low-skill jobs get automated.
- Government policy isn’t keeping up.
Additional Instructions:
- Use at least three industry examples.
- Balance positives and negatives.
Why does this work? Because AI isn’t guessing what you want, it’s building off your input.
# 3. Never Accept the First Answer—It’s Always Mid
Like any writer, AI’s first draft is never its best work. If you’re accepting whatever it spits out first, you’re doing it wrong.
How to fix it:
1. First Prompt: “Explain the ethics of AI decision-making in self-driving cars.”
2. Refine: “Expand on the section about moral responsibility—who is legally accountable?”
3. Refine Again: “Add historical legal precedents related to automation liability.”
Each round makes the response better. Stop settling for autopilot answers.
# 4. Make AI Pick a Side (Because It’s Too Neutral Otherwise)
AI tries way too hard to be balanced, which makes its answers boring and generic. Force it to pick a stance.
🚫 Bad: “Explain the pros and cons of universal basic income.”
✅ Good: “Defend universal basic income as a long-term economic solution and refute common criticisms.”
Or, if you want even more depth:
✅ “Make a strong argument in favor of UBI from a socialist perspective, then argue against it from a libertarian perspective.”
This forces AI to actually generate arguments, instead of just listing pros and cons like a high school essay.
# 5. Fixing Bad Responses: Change One Thing at a Time
If AI gives a bad answer, don’t just start over—fix one part of the prompt and run it again.
* Too vague? Add constraints.
* Mid: “Tell me about the history of AI.”
* Better: “Explain the history of AI in five key technological breakthroughs.”
* Too complex? Simplify.
* Mid: “Describe the implications of AI governance on international law.”
* Better: “Explain how AI laws differ between the US and EU in simple terms.”
* Too shallow? Ask for depth.
* Mid: “What are the problems with automation?”
* Better: “What are the five biggest criticisms of automation, ranked by impact?”
Tiny tweaks = way better results.