Готовим данные для LLM: открытые инструменты для нормализации, очистки и не только
Компании активно внедряют у себя решения на основе больших языковых моделей: боты техподдержки, умный поиск по базе знаний, выявление мошенников в диалоге или HR-ассистенты.
Но самостоятельно вывести модель в полноценное продакшн-использование не так просто. К тому же для разных сценариев нужно тестировать разные модели. Это требует больших усилий. Чтобы уменьшить порог входа в эту технологию, мы создали собственную платформу — MWS GPT. Под капотом — наша инфраструктура с GPU.
О том, как тестировать разные LLM в MWS GPT и запускать ИИ-агентов без кода скоро расскажем на вебинаре — присоединяйтесь.
Для обучения LLM требуются огромные и разнообразные датасеты. Однако качество данных часто важнее простого объёма: хорошие данные позволяют модели лучше обобщать и снижать ошибки. К счастью, есть открытые решения, способные помочь с их обработкой.
Сегодня делимся подборкой систем контроля качества ML-датасетов, проектом для автоматической категоризации и системой контроля версий для наборов данных. Читать далее
#mws #mws_gpt #llm #датасет | @habr_ai
Компании активно внедряют у себя решения на основе больших языковых моделей: боты техподдержки, умный поиск по базе знаний, выявление мошенников в диалоге или HR-ассистенты.
Но самостоятельно вывести модель в полноценное продакшн-использование не так просто. К тому же для разных сценариев нужно тестировать разные модели. Это требует больших усилий. Чтобы уменьшить порог входа в эту технологию, мы создали собственную платформу — MWS GPT. Под капотом — наша инфраструктура с GPU.
О том, как тестировать разные LLM в MWS GPT и запускать ИИ-агентов без кода скоро расскажем на вебинаре — присоединяйтесь.
Для обучения LLM требуются огромные и разнообразные датасеты. Однако качество данных часто важнее простого объёма: хорошие данные позволяют модели лучше обобщать и снижать ошибки. К счастью, есть открытые решения, способные помочь с их обработкой.
Сегодня делимся подборкой систем контроля качества ML-датасетов, проектом для автоматической категоризации и системой контроля версий для наборов данных. Читать далее
#mws #mws_gpt #llm #датасет | @habr_ai
Хабр
Готовим данные для LLM: открытые инструменты для нормализации, очистки и не только
Компании активно внедряют у себя решения на основе больших языковых моделей: боты техподдержки, умный поиск по базе знаний, выявление мошенников в диалоге или HR-ассистенты. Но самостоятельно вывести...
Собираем «идеального душнилу»: как создать ИИ-агента, который завалит вашего чат-бота
Выкатили новую фичу в чат-боте и надеетесь, что она переживет встречу с реальными пользователями? Хватит надеяться — пора доказывать. В этой статье мы покажем как собрать стенд для стресс-тестирования, где один ИИ будет методично ломать другого. Открыть окно
#python #llm #nlp #ai_ассистент #чат_боты #бизнес_кейс #тестирование #openai | @habr_ai
Выкатили новую фичу в чат-боте и надеетесь, что она переживет встречу с реальными пользователями? Хватит надеяться — пора доказывать. В этой статье мы покажем как собрать стенд для стресс-тестирования, где один ИИ будет методично ломать другого. Открыть окно
#python #llm #nlp #ai_ассистент #чат_боты #бизнес_кейс #тестирование #openai | @habr_ai
Хабр
Собираем «идеального душнилу»: как создать ИИ-агента, который завалит вашего чат-бота
Выкатили новую фичу в чат-боте и надеетесь, что она переживет встречу с реальными пользователями? Хватит надеяться — пора доказывать. В этой статье мы покажем как собрать стенд для...
[Перевод] Как я заменил систему диалогов старой игры на живую LLM
Animal Crossing известна своими очаровательными, но довольно однообразными диалогами. Запустив снова эту классику с GameCube, я был поражён (нет) тем, что спустя 23 года жители города говорят те же самые фразы. Надо это исправить.
В чём заключается проблема? Игра работает на Nintendo GameCube — 24-летней консоли с процессором PowerPC на 485 МГц, 24 МБ ОЗУ и полным отсутствием подключения к Интернету. Приставка фундаментально, философски и физически проектировалась, как офлайновая.
В статье я расскажу историю о том, как проложил мостик из 2001 года в современность, сделав так, чтобы винтажная игровая консоль могла общаться с облачным ИИ, и не поменяв при этом ни строки кода оригинальной игры. Читать далее
#nintendo_gamecube #animal_crossing #эмуляторы #llm | @habr_ai
Animal Crossing известна своими очаровательными, но довольно однообразными диалогами. Запустив снова эту классику с GameCube, я был поражён (нет) тем, что спустя 23 года жители города говорят те же самые фразы. Надо это исправить.
В чём заключается проблема? Игра работает на Nintendo GameCube — 24-летней консоли с процессором PowerPC на 485 МГц, 24 МБ ОЗУ и полным отсутствием подключения к Интернету. Приставка фундаментально, философски и физически проектировалась, как офлайновая.
В статье я расскажу историю о том, как проложил мостик из 2001 года в современность, сделав так, чтобы винтажная игровая консоль могла общаться с облачным ИИ, и не поменяв при этом ни строки кода оригинальной игры. Читать далее
#nintendo_gamecube #animal_crossing #эмуляторы #llm | @habr_ai
Хабр
Как я заменил систему диалогов старой игры на живую LLM
Куки: «Божечки, Джош :)! Мне приснился самый странный сон: как будто всё, что мы делаем, происходит в игре! Гав!» Animal Crossing известна своими очаровательными, но довольно однообразными диалогами....
❤1
Перевод датасета для оценки эмпатии на русский язык: подход, проблемы, результаты
Эмпатия играет важную роль в коммуникации между людьми, и в частности, в сервисах психологической помощи. В онлайн-среде, где такая помощь всё чаще оказывается в текстовом формате, появляется много различных сервисов, которые предоставляют психологическую помощь на основе чатботов. Для них способность отвечать эмпатично становится критически важным навыком. В противном случае хорошо если сеанс окажется просто бесполезным и не усугубит имеющиеся проблемы.
Успех БЯМ побуждает разработчиков использовать их в качестве основы для таких чатботов. Для оценки их способностей разрабатываются различные бенчмарки, в частности для задач с уклоном в психотерапию. Одним из таких является PsyEval.
Однако для автоматической оценки эмпатии в текстах на русском языке размеченных датасетов просто нет. Мы, русскоязычные MLщики, не можем сказать, как сейчас БЯМ справляются с задачами, которые связаны с выявлением эмпатии и генерацией эмпатичных ответов. А ведь эти задачи напрямую влияют на качество инструментов псих-поддержки.
Чтобы это хоть как-то исправить, мы приспособили большие языковые модели к переводу датасета с английского на русский язык. В этом посте я расскажу, как мы в команде Пситехлаб переводили датасет EPITOME с помощью больших языковых моделей. Читать далее
#llm #natural_language_processing #machine_learning #artificial_intelligence #перевод_с_английского #пситехлаб #датасет | @habr_ai
Эмпатия играет важную роль в коммуникации между людьми, и в частности, в сервисах психологической помощи. В онлайн-среде, где такая помощь всё чаще оказывается в текстовом формате, появляется много различных сервисов, которые предоставляют психологическую помощь на основе чатботов. Для них способность отвечать эмпатично становится критически важным навыком. В противном случае хорошо если сеанс окажется просто бесполезным и не усугубит имеющиеся проблемы.
Успех БЯМ побуждает разработчиков использовать их в качестве основы для таких чатботов. Для оценки их способностей разрабатываются различные бенчмарки, в частности для задач с уклоном в психотерапию. Одним из таких является PsyEval.
Однако для автоматической оценки эмпатии в текстах на русском языке размеченных датасетов просто нет. Мы, русскоязычные MLщики, не можем сказать, как сейчас БЯМ справляются с задачами, которые связаны с выявлением эмпатии и генерацией эмпатичных ответов. А ведь эти задачи напрямую влияют на качество инструментов псих-поддержки.
Чтобы это хоть как-то исправить, мы приспособили большие языковые модели к переводу датасета с английского на русский язык. В этом посте я расскажу, как мы в команде Пситехлаб переводили датасет EPITOME с помощью больших языковых моделей. Читать далее
#llm #natural_language_processing #machine_learning #artificial_intelligence #перевод_с_английского #пситехлаб #датасет | @habr_ai
Хабр
Перевод датасета для оценки эмпатии на русский язык: подход, проблемы, результаты
Привет. Меня зовут Нафиса Валиева. Я младший разработчик в MWS AI и Пситехлабе, студентка 3го курса ПМ-ПУ СПбГУ. Этот пост — текстовый вариант моего выступления на Дата Фесте . Я расскажу вам, как мы...
Репозитории на автопилоте: как ИИ сам поднимает окружение и запускает код
Открытые репозитории — это кладезь готовых моделей, скриптов и датасетов, но работа с ними порой напоминает сборку конструктора без инструкции. Сначала разбираешься, как всё устроено, потом ловишь баги на ровном месте, устанавливаешь зависимости — и только после этого кое-как запускаешь нужную задачу. А как было бы здорово, если бы сами репозитории умели понимать, что от них хотят, настраивать себе среду и ещё договариваться между собой!
Вот тут на сцену выходит EnvX — система, которая превращает обычные проекты в автономных агентов: они читают документацию, поднимают окружение, выполняют нужные функции и… общаются друг с другом. Получается совсем новый взгляд на то, каким может стать open-source. Читать далее
#ии #llm | @habr_ai
Открытые репозитории — это кладезь готовых моделей, скриптов и датасетов, но работа с ними порой напоминает сборку конструктора без инструкции. Сначала разбираешься, как всё устроено, потом ловишь баги на ровном месте, устанавливаешь зависимости — и только после этого кое-как запускаешь нужную задачу. А как было бы здорово, если бы сами репозитории умели понимать, что от них хотят, настраивать себе среду и ещё договариваться между собой!
Вот тут на сцену выходит EnvX — система, которая превращает обычные проекты в автономных агентов: они читают документацию, поднимают окружение, выполняют нужные функции и… общаются друг с другом. Получается совсем новый взгляд на то, каким может стать open-source. Читать далее
#ии #llm | @habr_ai
Хабр
Репозитории на автопилоте: как ИИ сам поднимает окружение и запускает код
Открытые репозитории полны готовых решений: скрипты, модели, датасеты, демо. Но чтобы собрать всё и запустить, нужен ручной труд: поставить зависимости, скачать артефакты, прочесть документацию, не...
[Перевод] Instinct от Continue: будущее автоматического рефакторинга
Команда AI for Devs подготовила перевод статьи о том, как Continue обучила Instinct — открытую модель Next Edit для предсказания следующей правки кода. Разработчики собрали тысячи реальных правок, внедрили алгоритм SeleKT для обучения и показали, что их модель работает в 6,4 раза быстрее ручного редактирования. Читать далее
#instinct #continue #рефакторинг_кода #автодополнение #llm #производительность #open_source | @habr_ai
Команда AI for Devs подготовила перевод статьи о том, как Continue обучила Instinct — открытую модель Next Edit для предсказания следующей правки кода. Разработчики собрали тысячи реальных правок, внедрили алгоритм SeleKT для обучения и показали, что их модель работает в 6,4 раза быстрее ручного редактирования. Читать далее
#instinct #continue #рефакторинг_кода #автодополнение #llm #производительность #open_source | @habr_ai
Хабр
Instinct от Continue: будущее автоматического рефакторинга
Команда AI for Devs подготовила перевод статьи о том, как Continue обучила Instinct — открытую модель Next Edit для предсказания следующей правки кода. Разработчики собрали тысячи реальных правок,...
Law & Practice Ensemble RAG. Как создать ИИ-ассистента, помогающего решать многоаспектные юридические задачи
В первой части мы кратко рассмотрели предпосылки и последствия ИИ‑трансформации деятельности юристов, а также предложили вариант архитектуры продвинутой RAG‑системы, учитывающей особенности юридической предметной области.
Во этой части мы проведем обзор общих и юридических бенчмарков, которые целесообразно учитывать при оценке технических компонент RAG, а также системы в целом. В заключение рассмотрим, как самостоятельно подготовить тестовый датасет для оценки RAG‑системы с помощью фреймворка RAGAS и разберем итоговые результаты эксперимента. Читать далее
#rag #retrieval_augmented_generation #llm #large_language_models #эмбеддинги #векторные_базы_данных #векторные_хранилища #индексация #ранжирование | @habr_ai
В первой части мы кратко рассмотрели предпосылки и последствия ИИ‑трансформации деятельности юристов, а также предложили вариант архитектуры продвинутой RAG‑системы, учитывающей особенности юридической предметной области.
Во этой части мы проведем обзор общих и юридических бенчмарков, которые целесообразно учитывать при оценке технических компонент RAG, а также системы в целом. В заключение рассмотрим, как самостоятельно подготовить тестовый датасет для оценки RAG‑системы с помощью фреймворка RAGAS и разберем итоговые результаты эксперимента. Читать далее
#rag #retrieval_augmented_generation #llm #large_language_models #эмбеддинги #векторные_базы_данных #векторные_хранилища #индексация #ранжирование | @habr_ai
Хабр
Law & Practice Ensemble RAG. Как создать ИИ-ассистента, помогающего решать многоаспектные юридические задачи
Автор статьи: Сергей Слепухин ( @Sergey_Slepukhin ) В первой части мы кратко рассмотрели предпосылки и последствия ИИ‑трансформации деятельности юристов, а также предложили вариант...
Один пост, чтобы обрести силу… или разбираемся в промптах, чтобы научиться их писать раз и навсегда
В последнее время расплодилось каналов с псевдоэкспертами по промпт-инжинирингу. Но цель у них одна — зарабатывать на вашем внимании, втюхивая вам сгенерированные в тех же LLM промпты как нечто волшебное и уникальное. Здесь мы такое не одобряем!
Давайте-ка один раз хорошенько разберём, как работают промпты и как их писать. Я намеренно не буду грузить вас заумными терминами, так как именно их используют как завесу из магической пыли вокрут этой темы. Моя же цель — рассказать все максимально просто. Читать далее
#промпты #prompt_engineering #llm #искусственный_интеллект #оптимизация_промптов #туториал #openai #chatgpt #gemini #claude | @habr_ai
В последнее время расплодилось каналов с псевдоэкспертами по промпт-инжинирингу. Но цель у них одна — зарабатывать на вашем внимании, втюхивая вам сгенерированные в тех же LLM промпты как нечто волшебное и уникальное. Здесь мы такое не одобряем!
Давайте-ка один раз хорошенько разберём, как работают промпты и как их писать. Я намеренно не буду грузить вас заумными терминами, так как именно их используют как завесу из магической пыли вокрут этой темы. Моя же цель — рассказать все максимально просто. Читать далее
#промпты #prompt_engineering #llm #искусственный_интеллект #оптимизация_промптов #туториал #openai #chatgpt #gemini #claude | @habr_ai
Хабр
Один пост, чтобы обрести силу… или разбираемся в промптах, чтобы научиться их писать раз и навсегда
Рассказываю как - в этой статье. В последнее время расплодилось каналов с псевдоэкспертами по промпт-инжинирингу. Но цель у них одна — зарабатывать на вашем внимании, втюхивая вам сгенерированные в...
Агенты без скриптов: что происходит, когда ИИ сталкивается с реальностью
Звучит просто: подключил суперсовременную LLM к десятку инструментов — и пусть решает любые задачи в реальном времени. Только вот на практике всё выходит куда прозаичнее. Даже самые мощные модели уверенно работают в лабораторных условиях, где всё строго по шаблону. А стоит им оказаться в живой, шумной среде — появляются ошибки, неожиданные сбои и довольно неожиданные выводы о том, где у современных ИИ-агентов на самом деле слабые места. Новое исследование показывает, что, когда у модели есть сотня способов решить задачу, успех — далеко не гарантирован. Почему даже мощные LLM так часто спотыкаются на пустом месте и что им мешает делать работу, как человек — разберёмся на ярких примерах из нового бенчмарка LiveMCP-101. Читать далее
#ии #агенты #llm #mcp | @habr_ai
Звучит просто: подключил суперсовременную LLM к десятку инструментов — и пусть решает любые задачи в реальном времени. Только вот на практике всё выходит куда прозаичнее. Даже самые мощные модели уверенно работают в лабораторных условиях, где всё строго по шаблону. А стоит им оказаться в живой, шумной среде — появляются ошибки, неожиданные сбои и довольно неожиданные выводы о том, где у современных ИИ-агентов на самом деле слабые места. Новое исследование показывает, что, когда у модели есть сотня способов решить задачу, успех — далеко не гарантирован. Почему даже мощные LLM так часто спотыкаются на пустом месте и что им мешает делать работу, как человек — разберёмся на ярких примерах из нового бенчмарка LiveMCP-101. Читать далее
#ии #агенты #llm #mcp | @habr_ai
Хабр
Агенты без скриптов: что происходит, когда ИИ сталкивается с реальностью
Агенты на базе MCP сегодня умеют многое: искать в вебе, работать с файлами, строить графики, считать и вызывать внешние API. Но одно дело — демонстрация на единичной задаче, другое — устойчивая работа...
Почему бокс — это мультиагентная система
Привет! Наверняка уже все видели как ИИ-агентов ради хайпа пытаются затащить куда угодно, совсем не глядя на эффективность и какой-либо здравый смысл.
В этой статье я расскажу о действительно полезном применении концепции агентов и попробую доказать, почему любой боксерский поединок является мультиагентной системой. Поговорим про system design бокса, про RLHF, адаптивные алгоритмы, всевозможный вызов tools типа джебов или клинча, очереди сообщений и гарантию их доставки, graceful degradation и выведем метрики эффективности нашей мультиагентной системы. Читать далее
#llm #agent #agentic_ai #агенты_ии #агенты #машинное_обучение #машинное_обучение #языковые_модели #большие_языковые_модели #ии_агенты | @habr_ai
Привет! Наверняка уже все видели как ИИ-агентов ради хайпа пытаются затащить куда угодно, совсем не глядя на эффективность и какой-либо здравый смысл.
В этой статье я расскажу о действительно полезном применении концепции агентов и попробую доказать, почему любой боксерский поединок является мультиагентной системой. Поговорим про system design бокса, про RLHF, адаптивные алгоритмы, всевозможный вызов tools типа джебов или клинча, очереди сообщений и гарантию их доставки, graceful degradation и выведем метрики эффективности нашей мультиагентной системы. Читать далее
#llm #agent #agentic_ai #агенты_ии #агенты #машинное_обучение #машинное_обучение #языковые_модели #большие_языковые_модели #ии_агенты | @habr_ai
Хабр
Почему бокс — это мультиагентная система
Привет! ИИ-агенты — главная горячая тема этого года, но все наверняка видели как их ради хайпа пытаются затащить куда угодно, совсем не глядя на эффективность и какой-либо здравый смысл. В этой статье...