Хабр / ML & AI

Готовим данные для LLM: открытые инструменты для нормализации, очистки и не только

Компании активно внедряют у себя решения на основе больших языковых моделей: боты техподдержки, умный поиск по базе знаний, выявление мошенников в диалоге или HR-ассистенты.

Но самостоятельно вывести модель в полноценное продакшн-использование не так просто. К тому же для разных сценариев нужно тестировать разные модели. Это требует больших усилий. Чтобы уменьшить порог входа в эту технологию, мы создали собственную платформу — MWS GPT. Под капотом — наша инфраструктура с GPU.

О том, как тестировать разные LLM в MWS GPT и запускать ИИ-агентов без кода скоро расскажем на вебинаре — присоединяйтесь.

Для обучения LLM требуются огромные и разнообразные датасеты. Однако качество данных часто важнее простого объёма: хорошие данные позволяют модели лучше обобщать и снижать ошибки. К счастью, есть открытые решения, способные помочь с их обработкой.

Сегодня делимся подборкой систем контроля качества ML-датасетов, проектом для автоматической категоризации и системой контроля версий для наборов данных. Читать далее

#mws #mws_gpt #llm #датасет | @habr_ai

Хабр

Готовим данные для LLM: открытые инструменты для нормализации, очистки и не только

Компании активно внедряют у себя решения на основе больших языковых моделей: боты техподдержки, умный поиск по базе знаний, выявление мошенников в диалоге или HR-ассистенты. Но самостоятельно вывести...

53 views15:38

Хабр / ML & AI

Собираем «идеального душнилу»: как создать ИИ-агента, который завалит вашего чат-бота

Выкатили новую фичу в чат-боте и надеетесь, что она переживет встречу с реальными пользователями? Хватит надеяться — пора доказывать. В этой статье мы покажем как собрать стенд для стресс-тестирования, где один ИИ будет методично ломать другого. Открыть окно

#python #llm #nlp #ai_ассистент #чат_боты #бизнес_кейс #тестирование #openai | @habr_ai

Хабр

Собираем «идеального душнилу»: как создать ИИ-агента, который завалит вашего чат-бота

Выкатили новую фичу в чат-боте и надеетесь, что она переживет встречу с реальными пользователями? Хватит надеяться — пора доказывать. В этой статье мы покажем как собрать стенд для...

60 views15:38

Хабр / ML & AI

[Перевод] Как я заменил систему диалогов старой игры на живую LLM

Animal Crossing известна своими очаровательными, но довольно однообразными диалогами. Запустив снова эту классику с GameCube, я был поражён (нет) тем, что спустя 23 года жители города говорят те же самые фразы. Надо это исправить.

В чём заключается проблема? Игра работает на Nintendo GameCube — 24-летней консоли с процессором PowerPC на 485 МГц, 24 МБ ОЗУ и полным отсутствием подключения к Интернету. Приставка фундаментально, философски и физически проектировалась, как офлайновая.

В статье я расскажу историю о том, как проложил мостик из 2001 года в современность, сделав так, чтобы винтажная игровая консоль могла общаться с облачным ИИ, и не поменяв при этом ни строки кода оригинальной игры. Читать далее

#nintendo_gamecube #animal_crossing #эмуляторы #llm | @habr_ai

Хабр

Как я заменил систему диалогов старой игры на живую LLM

Куки: «Божечки, Джош :)! Мне приснился самый странный сон: как будто всё, что мы делаем, происходит в игре! Гав!» Animal Crossing известна своими очаровательными, но довольно однообразными диалогами....

❤1

67 views19:38

Хабр / ML & AI

Перевод датасета для оценки эмпатии на русский язык: подход, проблемы, результаты

Эмпатия играет важную роль в коммуникации между людьми, и в частности, в сервисах психологической помощи. В онлайн-среде, где такая помощь всё чаще оказывается в текстовом формате, появляется много различных сервисов, которые предоставляют психологическую помощь на основе чатботов. Для них способность отвечать эмпатично становится критически важным навыком. В противном случае хорошо если сеанс окажется просто бесполезным и не усугубит имеющиеся проблемы.

Успех БЯМ побуждает разработчиков использовать их в качестве основы для таких чатботов. Для оценки их способностей разрабатываются различные бенчмарки, в частности для задач с уклоном в психотерапию. Одним из таких является PsyEval.

Однако для автоматической оценки эмпатии в текстах на русском языке размеченных датасетов просто нет. Мы, русскоязычные MLщики, не можем сказать, как сейчас БЯМ справляются с задачами, которые связаны с выявлением эмпатии и генерацией эмпатичных ответов. А ведь эти задачи напрямую влияют на качество инструментов псих-поддержки.

Чтобы это хоть как-то исправить, мы приспособили большие языковые модели к переводу датасета с английского на русский язык. В этом посте я расскажу, как мы в команде Пситехлаб переводили датасет EPITOME с помощью больших языковых моделей. Читать далее

#llm #natural_language_processing #machine_learning #artificial_intelligence #перевод_с_английского #пситехлаб #датасет | @habr_ai

Хабр

Перевод датасета для оценки эмпатии на русский язык: подход, проблемы, результаты

Привет. Меня зовут Нафиса Валиева. Я младший разработчик в MWS AI и Пситехлабе, студентка 3го курса ПМ-ПУ СПбГУ. Этот пост — текстовый вариант моего выступления на Дата Фесте . Я расскажу вам, как мы...

41 views07:38

Хабр / ML & AI

Репозитории на автопилоте: как ИИ сам поднимает окружение и запускает код

Открытые репозитории — это кладезь готовых моделей, скриптов и датасетов, но работа с ними порой напоминает сборку конструктора без инструкции. Сначала разбираешься, как всё устроено, потом ловишь баги на ровном месте, устанавливаешь зависимости — и только после этого кое-как запускаешь нужную задачу. А как было бы здорово, если бы сами репозитории умели понимать, что от них хотят, настраивать себе среду и ещё договариваться между собой!

Вот тут на сцену выходит EnvX — система, которая превращает обычные проекты в автономных агентов: они читают документацию, поднимают окружение, выполняют нужные функции и… общаются друг с другом. Получается совсем новый взгляд на то, каким может стать open-source. Читать далее

#ии #llm | @habr_ai

Хабр

Репозитории на автопилоте: как ИИ сам поднимает окружение и запускает код

Открытые репозитории полны готовых решений: скрипты, модели, датасеты, демо. Но чтобы собрать всё и запустить, нужен ручной труд: поставить зависимости, скачать артефакты, прочесть документацию, не...

46 views09:39

Хабр / ML & AI

[Перевод] Instinct от Continue: будущее автоматического рефакторинга

Команда AI for Devs подготовила перевод статьи о том, как Continue обучила Instinct — открытую модель Next Edit для предсказания следующей правки кода. Разработчики собрали тысячи реальных правок, внедрили алгоритм SeleKT для обучения и показали, что их модель работает в 6,4 раза быстрее ручного редактирования. Читать далее

#instinct #continue #рефакторинг_кода #автодополнение #llm #производительность #open_source | @habr_ai

Хабр

Instinct от Continue: будущее автоматического рефакторинга

Команда AI for Devs подготовила перевод статьи о том, как Continue обучила Instinct — открытую модель Next Edit для предсказания следующей правки кода. Разработчики собрали тысячи реальных правок,...

51 views10:39

Хабр / ML & AI

Law & Practice Ensemble RAG. Как создать ИИ-ассистента, помогающего решать многоаспектные юридические задачи

В первой части мы кратко рассмотрели предпосылки и последствия ИИ‑трансформации деятельности юристов, а также предложили вариант архитектуры продвинутой RAG‑системы, учитывающей особенности юридической предметной области.

Во этой части мы проведем обзор общих и юридических бенчмарков, которые целесообразно учитывать при оценке технических компонент RAG, а также системы в целом. В заключение рассмотрим, как самостоятельно подготовить тестовый датасет для оценки RAG‑системы с помощью фреймворка RAGAS и разберем итоговые результаты эксперимента. Читать далее

#rag #retrieval_augmented_generation #llm #large_language_models #эмбеддинги #векторные_базы_данных #векторные_хранилища #индексация #ранжирование | @habr_ai

Хабр

Law & Practice Ensemble RAG. Как создать ИИ-ассистента, помогающего решать многоаспектные юридические задачи

Автор статьи: Сергей Слепухин ( @Sergey_Slepukhin ) В первой части мы кратко рассмотрели предпосылки и последствия ИИ‑трансформации деятельности юристов, а также предложили вариант...

59 views13:39

Хабр / ML & AI

Один пост, чтобы обрести силу… или разбираемся в промптах, чтобы научиться их писать раз и навсегда

В последнее время расплодилось каналов с псевдоэкспертами по промпт-инжинирингу. Но цель у них одна — зарабатывать на вашем внимании, втюхивая вам сгенерированные в тех же LLM промпты как нечто волшебное и уникальное. Здесь мы такое не одобряем!

Давайте-ка один раз хорошенько разберём, как работают промпты и как их писать. Я намеренно не буду грузить вас заумными терминами, так как именно их используют как завесу из магической пыли вокрут этой темы. Моя же цель — рассказать все максимально просто. Читать далее

#промпты #prompt_engineering #llm #искусственный_интеллект #оптимизация_промптов #туториал #openai #chatgpt #gemini #claude | @habr_ai

Хабр

Один пост, чтобы обрести силу… или разбираемся в промптах, чтобы научиться их писать раз и навсегда

Рассказываю как - в этой статье. В последнее время расплодилось каналов с псевдоэкспертами по промпт-инжинирингу. Но цель у них одна — зарабатывать на вашем внимании, втюхивая вам сгенерированные в...

62 views13:41

Хабр / ML & AI

Агенты без скриптов: что происходит, когда ИИ сталкивается с реальностью

Звучит просто: подключил суперсовременную LLM к десятку инструментов — и пусть решает любые задачи в реальном времени. Только вот на практике всё выходит куда прозаичнее. Даже самые мощные модели уверенно работают в лабораторных условиях, где всё строго по шаблону. А стоит им оказаться в живой, шумной среде — появляются ошибки, неожиданные сбои и довольно неожиданные выводы о том, где у современных ИИ-агентов на самом деле слабые места. Новое исследование показывает, что, когда у модели есть сотня способов решить задачу, успех — далеко не гарантирован. Почему даже мощные LLM так часто спотыкаются на пустом месте и что им мешает делать работу, как человек — разберёмся на ярких примерах из нового бенчмарка LiveMCP-101. Читать далее

#ии #агенты #llm #mcp | @habr_ai

Хабр

Агенты без скриптов: что происходит, когда ИИ сталкивается с реальностью

Агенты на базе MCP сегодня умеют многое: искать в вебе, работать с файлами, строить графики, считать и вызывать внешние API. Но одно дело — демонстрация на единичной задаче, другое — устойчивая работа...

66 views14:41

Хабр / ML & AI

Почему бокс — это мультиагентная система

Привет! Наверняка уже все видели как ИИ-агентов ради хайпа пытаются затащить куда угодно, совсем не глядя на эффективность и какой-либо здравый смысл.

В этой статье я расскажу о действительно полезном применении концепции агентов и попробую доказать, почему любой боксерский поединок является мультиагентной системой. Поговорим про system design бокса, про RLHF, адаптивные алгоритмы, всевозможный вызов tools типа джебов или клинча, очереди сообщений и гарантию их доставки, graceful degradation и выведем метрики эффективности нашей мультиагентной системы. Читать далее

#llm #agent #agentic_ai #агенты_ии #агенты #машинное_обучение #машинное_обучение #языковые_модели #большие_языковые_модели #ии_агенты | @habr_ai

Хабр

Почему бокс — это мультиагентная система

Привет! ИИ-агенты — главная горячая тема этого года, но все наверняка видели как их ради хайпа пытаются затащить куда угодно, совсем не глядя на эффективность и какой-либо здравый смысл. В этой статье...

59 views07:10

About

Blog

Apps

Platform