Linux | OpenSource | Tech

🔥 Как мы создали крупнейший русскоязычный датасет запросов к LLM

Привет, это Роман Куцев, основатель LLM Arena. Каждый день сотни пользователей тестируют языковые модели, сравнивают их и задают самые разные вопросы. Со временем мы осознали: эти логи — не просто записи сессий, а настоящая картина реального взаимодействия людей с ИИ.

Так родилась идея собрать открытый и структурированный датасет промптов, который поможет AI-сообществу глубже изучать запросы пользователей, анализировать их и совершенствовать модели.

👉 Почему наше решение уникально?
✔ Русскоязычный контекст
✔ Высокий уровень прозрачности
✔ Улучшенное качество данных

Подробности — в статье!

Читать на Habr

#AI #LLM #Датасет #NLP

2 views09:20

🚀 Мой ответ Андрею Карпаты или зачем нам Когнитивный Инженер

🔹 Недавний тезис Андрея Карпаты о замене термина prompt engineer на context engineer получил широкую поддержку в профессиональной среде.

🔹 Промпт — лишь малая часть взаимодействия с LLM: это краткая инструкция или запрос. А вот построение контекста, в который этот промпт попадает, — куда более сложная инженерная задача.

📌 Читать полностью 👉 Habr

#ИИ #Программирование #LLM #КонтекстИнжиниринг

2 views07:06

Linux | OpenSource | Tech

🧠 Как нейросетям перестать бояться и полюбить «синтетику»

LLM (большие языковые модели) требуют огромных объёмов данных для обучения, но скоро человечество просто не сможет их обеспечить. Проблемы:
- Ограниченность реальных данных
- Высокая стоимость и юридические сложности

🤖 Синтетические данные могли бы спасти ситуацию, но и у них есть свои риски. В статье разбираются:
- Что такое «ML-аутофагия» (когда ИИ начинает «пожирать» сам себя)
- Как разработчики борются с этим феноменом
- Перспективы и подводные камни синтетических датасетов

🔗 Читать полный разбор

#ИИ #Нейросети #LLM #BigData

4 views09:24

Linux | OpenSource | Tech

🔥 Топ LLM для задач text‑to‑SQL: кто справился лучше?

📌 Что внутри?
- Сравнение 6 моделей (ChatGPT o3-mini-high, ChatGPT 4.1, Claude Sonnet 4, ChatGPT o3, Gemini 2.5 Pro, DeepSeek R1–0528)
- Тест на бенчмарке LiveSQLBench — 10 задач разной сложности (от ★★ до ★★★★★★★★★★)
- Как модели работают с лунными помехами, криптобиржами и музейными артефактами?

🔍 Результаты и выводы в статье — интересно не только экспертам!

📖 Читать подробнее →

#LLM #SQL #AI #БольшиеДанные

3 views15:24

Linux | OpenSource | Tech

🔐 Как я автоматизировал тестирование LLM-систем и создал сканер уязвимостей

Разработчик поделился историей о скрытых рисках RAG-систем и своем решении для безопасного внедрения.

💡 Проблема:
При создании корпоративного чат-бота на основе LLM обнаружилось, что система легко «сливает» конфиденциальные данные при правильно заданных вопросах.

🛠 Решение:
Автоматизированный сканер уязвимостей, который выявляет утечки, инъекции и другие угрозы в моделях с RAG-архитектурой.

📌 Ключевые моменты:
- Тестирование на prompt-инъекции и jailbreak-атаки
- Проверка контекстного переопределения
- Поиск «тихих» уязвимостей в корпоративных чат-ботах

🔗 Читать подробности: Habr

#AI #Безопасность #ChatGPT #RAG #LLM

2 views11:16

About

Blog

Apps

Platform