Хабр / ML & AI
481 subscribers
5.49K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Собираем MVP product search: дообучение E5 и веб-сервис для сравнения поисковых выдач

Что важнее: создать продукт, или доставить его до пользователя? Оба этапа необходимы. Сегодня обсудим второй. Как нам построить поисковую e-com систему.

Покажем, что в слово логистика товара входят сложные задачи не только: перевезти наушники из Китая в Америку, но и настройка поисковой выдачи по запросу.

Быстро соберем поисковой MVP-сервис. Дообучим модель E5 на реальных данных от Amazon. Определим метрики качества и сравним BM25, pretrain E5 и fine-tune E5. Так же взглянем глазами с отладочной информацией и проанализируем изменения поисковых выдач.

И под конец обсудим каких технологий еще не хватает и можно добавить, если возникают соответствующие трудности. Погрузиться в семантический поиск →

#machine_learning #information_retrieval #semantic_search #huggingface #pytorch #nlp #e5 #streamlit #mvp #дообучение_моделей | @habr_ai
Готовимся к собесу: positional encodings в 2025 году

Если вы до сих пор считаете, что positional encoding в трансформерах — это знаменитые sin/cos из статьи 2017 года, то боюсь, что собеседование для вас закончится автоматическим реджектом.

Позиционное кодирование заметно эволюционировало с момента появления оригинальной статьи о трансформерах. В современных LLM и моделях компьютерного зрения, таких как FLUX, уже давно не используется классическое sin/cos-кодирование. Читать далее

#gpt #deeplearning #nlp #собеседование #подготовка_к_собеседованию #вход_в_it #computer_vision | @habr_ai
Чат-бот с LLM в облаке: опыт Новосибирского государственного университета и инструкция по запуску

Сейчас мало кого удивишь чат-ботом в Telegram, даже если он на базе LLM. Но, согласитесь, таким умным решением может похвастаться не каждый университет.

На связи Роман Дерунец и Иван Бондаренко (@bond005) — научные сотрудники лаборатории прикладных цифровых технологий механико-математического факультета НГУ. В статье поделимся опытом разработки нашего университетского чат-бота: расскажем, зачем он понадобился НГУ, почему мы решили создать его с нуля и что важно знать тем, кто хочет такой же. А еще — поделимся инструкцией, как запустить похожее решение в облаке. Читать дальше

#infrastructure #rag #ai #llm #nlp #telegram_бот #ai_помощник #чат_бот_в_облаке | @habr_ai
AFlow: как создавать мультиагентные системы без программиста

Привет, Хабр!

Меня зовут Ярослав, я магистрант AI Talent Hub в ИТМО. Сегодня расскажу об одной из самых интересных статей ICLR 2025 — AFlow: Automating Agentic Workflow Generation.

В ней предложен подход к автоматическому созданию мультиагентных систем для решения прикладных задач с помощью LLM и алгоритма Monte Carlo Tree Search (MCTS). Разберёмся, как это работает и почему это важно. Читать далее

#мультиагентные_системы #искусственный_интеллект #llm #agentic_ai #mcts #ai #nlp #ии | @habr_ai
15 примеров применения Natural Language Processing

Машинное обучение — это технология искусственного интеллекта, используемая для распознавания закономерностей, обучения на основе данных и принятия решений автоматически — без вмешательства человека. С другой стороны, обработка естественного языка (Natural Language Processing, NLP) — это форма ИИ, позволяющая машинам интерпретировать и понимать человеческий язык.

В этой статье мы попробуем разобраться с тем, как используется NLP для решения реальных задач и рассмотрим 15 примеров использования данной технологии и машинного обучения.

  Читать далее

#nlp #natural_language_processing #обработка_естественного_языка #машинное_обучение #bert #трансформеры #текстовая_классификация #анализ_текста #rnn | @habr_ai
Знает ли LLM то, что знаешь ты?

Представьте, что у вас есть друг, который идеально завершает ваши мысли. Вы говорите: «В детстве я любил...», а он тут же продолжает: «...играть в футбол и смотреть “Смешариков”». Совпадение? Или он вас слишком хорошо знает?

Теперь представьте, что этот “друг” — языковая модель вроде GPT-4, обученная на десятках терабайт текста. Вы даёте ей фразу — и она точно угадывает продолжение. Вопрос: она действительно видела это раньше или просто хорошо обучена угадывать?

Вот тут на сцену выходит Membership Inference Attack (MIA) — метод, который позволяет выяснить, был ли конкретный текст в тренировочном датасете модели. По сути, это способ заставить LLM проговориться: «Да, я это читала. Но никому не говори».

Раньше такие атаки были возможны только при доступе к логитам — вероятностям слов, которые модель "придумывает" на выходе. Но популярные модели вроде ChatGPT или Claude таких данных не раскрывают — вы получаете только текст.

Можно ли вытащить приватные данные, видя только текст, без логитов и без доступа к модели?

Спойлер: да, можно. И способ называется PETAL. Читать далее

#llm #nlp #машинное_обучение #python #итмо | @habr_ai
СontentCapture+LLM: как мы ускорили работу с неструктурированными документами

В эпоху цифровой трансформации каждая минута работы с документами на вес золота. Юридические отделы, банки, госучреждения ежедневно обрабатывают сотни договоров, доверенностей и судебных приказов. Ручной ввод данных, поиск реквизитов и проверка сроков могут отнимать до 20 минут на документ — и это если сотрудник не отвлекся на кофе. 

В нашей линейке продуктов есть универсальная IDP-платформа ContentCapture. Она хорошо понимает структурированные документы, а вот при обработке неструктурированных данных раньше могли возникать сложности. Чтобы решить эту проблему, мы в новом релизе продукта настроили интеграцию с облачными большими языковыми моделями (LLM), такими как YandexGPT и GigaChat. 

Делимся подробностями и рассказываем, как оценивали качество работы LLM с разными типами документов.  Читать далее

#contentcapture #llm #nlp #nlp_обработка_текста #обработка_документов | @habr_ai
Ошибки, которые не попадают в отчеты: как бизнес снижает риски через системную проверку знаний

Есть темы, которые не попадают в отчеты. Например: почему сотрудник повредил дорогое оборудование, или почему склад простаивал два дня после смены логистики. Ответ чаще всего один — недостаток знаний. Он выражается в неочевидных мелочах: кто-то не прошел инструктаж, кто-то забыл порядок действий, кто-то не понял обновленный регламент. Но в результате мы получаем производственные ошибки, травмы, штрафы и срывы сроков.

В таких отраслях, как логистика, транспорт, строительство, ритейл и промышленность, последствия бывают критичными. По оценкам Deloitte и McKinsey, до 20% операционной прибыли уходит на устранение ошибок персонала. А если смотреть на российские реалии — это более 500 млрд рублей в год потерь, связанных исключительно с "человеческим фактором". Читать далее

#охрана_труда #безопасное_производство #ии #искусственый_интеллект #nlp #gpt #оценка_персонала #грейды #hrtech #hr_процесс | @habr_ai
Почему LLM не мыслят как люди

Большие языковые модели в виде чат-ботов очень правдоподобно имитируют диалог как всезнающий собеседник и поэтому получили широкое распространение. Но даже Google в своем чат-боте Gemini не советуют доверять тому, что напишет чат-бот и просят проверять его ответы. В данном обзоре будут проанализированы различные типы ошибок LLM такие как проклятие инверсии, обработка чисел и др., чтобы выявить их причины. Такой анализ привел к выводу об общих причинах ошибок, заключающемся в том, что трансформеры не обладают глубокой аналогией, абстракцией и избирательностью контента, учитываемого в вычислении ответа (inference). Но наиболее важным выводом является то, что трансформеры, как и другие нейросети, построены по концепции обработки входного сигнала, что создает сильную зависимость от нерелевантной информации, которую не может компенсировать слой внимания трансформера. Концепция нейросетей была заложена в 50-х идеей перцептрона Ф. Розенблата и не учитывала тех достижений когнитивной психологии, которые появились позже. Согласно же конструктивисткой парадигме, входной слов (или перцепция) является только способом проверки правильности сконструированной предиктивной модели для возможных ситуаций. Это же служит причиной самой большой проблемы трансформеров, называемой галлюцинациями. И устранение ее возможно только при изменении архитектуры нейросети, а не за счет большего количества данных в обучении.

Но это далеко не все проблемы, которые непреодолимы трансформерами без помощи людей. Это и проблемы с логикой, и с вычислениями в больших последовательностях, и следование правилам, и, конечно-же, галлюцинации. Таки примеры и будут проанализированы в статье. Отсюда следует все чаще звучащий тезис о том, что необходимо искать новую архитектуру для создания поистине интеллектуальных систем. Эта статья посвящена поиску тех архитектурных принципов, которые могу приоткрыть путь к новой архитектуре. И в этом нам помогут как раз те ошибки трансформеров, которые описаны исследователями. Они прямо указывают на те принципиальные недостатки, причины которых могут быть как раз в отсутствии необходимых функций и структур нейросети. И цель исследования состоит в том, чтобы проанализировать такие ошибки «мышления» трансформеров, чтобы предположить, каких способностей не хватает трансформерам. Читать далее

#llm #ai #nlp | @habr_ai