Генеративный Мир
211 subscribers
80 photos
1 file
67 links
"Генеративный мир" — про ИИ и про людей, которые его создают.

Автор - Ксения Плесовских, руководитель компании Нейроэксперт
@ksenia_plesovskikh
Download Telegram
Новость просто 🔥
Исследователи из Пекинской академии искусственного интеллекта и Китайского университета Жэньминь представили Llama-3-8B-Instruct-80K-QLoRA, которая значительно увеличивает длину контекста оригинальной Llama-3 с 8K до 80K токенов.
А учитывая миниатюрный размер llama 3 8B, мы теперь имеем аналог GPT 4, с возможностью запуска на обычной GPU и огроменным контекстом!
#llm #AI #RAG #ИИ
👍31🔥1
Сейчас занимаемся разработкой поиска для интернет-магазина, и одна из проблем заключается в том, что пользователи ищут товар не просто по его товарным характеристикам - цвет, размер и т.п, но и указывают такие слова как «модный», «приятный» в карточке товара не встречающиеся. Мы пытаемся решать эту задачу, выделяя подобные характеристики из отзывов товаров и используя векторный поиск одновременно по нескольким коллекциям. Но сегодня попался не менее интересный способ из Стенфорда, называется SUQL (структурированный/не структурированный язык запросов). В отличие от SQL часть запроса предварительно обрабатывается LLM моделью. Пример на картинке выше, пользователю нужны итальянские романтические рестораны. Семантический парсер выделяет слово Италия как значение столбца, в котором нужно искать страну кухни, а также проверяет сведения о том, является ли ресторан романтическим. И да, тоже по отзывам :)
Демо
Гитхаб
#llm #AI #RAG #ИИ
👍5
Как работает:
Семантические парсеры способны из пользовательского запроса извлекать даты, имена, названия, LLM пока еще с трудом справляются с вопросами типа, какой день недели был 3 года назад, и они не могут учитывать, был ли среди этих 3 лет високосный год . Но стоит преобразовать «3 года назад» в конкретную дату и задача решается даже без LLM.
Семантический слой между LLM и базой данных содержит сведения, какие инструменты доступны агенту, какова структура бд… позволяет легко сгенерировать запрос на языке БД.
Семантический роутер маршрутизирует запросы по смыслу еще до того, как они попадут в LLM. Он может выделить намерение пользователя, заранее определить инструменты, которые потребуются для выполнения запроса, выбрать, какой именно модели необходимо передать запрос и какой промпт необходим для его наилучшей обработки.
Семантический кеш позволяет хранить историю запросов к LLM и ее ответов, чтобы быстро возвращать из кеша ответы, если новый запрос похож по смыслу на один из предыдущих.
#llm #AI #RAG #ИИ
🔥31👍1
На этой неделе вышла Gemma-2B-10M с длиной контекста в 10 млн токенов, что по мнению авторов вмещает в себя целую книгу о Гарри Поттере. У модели особая архитектура, вместо стандартного трансформера - рекуррентная сеть с локальным вниманием Infini-attention, благодаря чему требования к ресурсам при таком огромном контексте сумели не улететь в космос.
Модель небольшая, весит всего 9 гб, в инференсе потребляет 32 гб.
оригинал
hugging face
#llm #AI #RAG #ИИ
🔥21👍1
Еще немного про роутеры, семантические и не только. Похоже это тема начинает набирать обороты в GenAI приложениях. Они уже появились в langchain и llamaIndex
Роутеры позволяют изменять сценарии взаимодействия в зависимости от складывающихся условий - например, оформлять пользователю покупку или продолжать отрабабатывать возражения, если он еще не дозрел.
Часто маршрутизацию делают прямо в промпте через LLM, но это долго, дорого и ненадежно.
Zero-Shot роутеры вместо LLM применяют локальные NLP модели
Семантические роутеры используют эмбеддинги и векторный поиск. Есть реализация в виде python библиотеки
#llm #AI #RAG #ИИ
👍21
Более сложный кейс применения роутера. Мы не знаем заранее, что хочет пользователь, нужно ли обращаться для его ответа в базу знаний или сразу переадресовать LLM, а может быть требуется агент, чтобы совершить определенное действие, а не просто ответить на запрос.
#llm #AI #RAG #ИИ
👍21
идет трансляция openai. Представили помощника, который понимает происходящее на камере, голосом помогая решать математические примеры, написанные от руки на листе бумаги
#llm #AI #RAG #ИИ #openai
👍21
Генеративный Мир
идет трансляция openai. Представили помощника, который понимает происходящее на камере, голосом помогая решать математические примеры, написанные от руки на листе бумаги #llm #AI #RAG #ИИ #openai
Ок, Omni, у нее голос, эмоции и мультимодальность. Ещё она бесплатная, но доступна только мобильном приложении. Кажется сегодня не одна сотня стартапов закроет свой проект и превратится в адептов-интеграторов🙂
#llm #AI #RAG #ИИ #openai #gpt
👍21
Вслед за OpenAI и Google новинку представили и исследователи запрещенной в РФ Меты - модель смешанной модальности Chameleon. Обычно мультимодальные модели представляют собой смесь нескольких нейронок разной модальности, каждая из которых требует свой токенизатор в зависимости от типа данных. Такой подход вызывает проблемы при работе с документами, в которых одновременно есть и текст и изображение, поэтому исследователи предложили новую унифицированную архитектуру, одинаково обрабатывая обе модальности путем токенизации изображений аналогично тексту.
Источник
#llm #AI #RAG #ИИ
👍41
Интересную гипотезу выдвинули исследователи MIT. Они считают, что модели изображений и LLM по мере того, как становятся больше,
они измеряют расстояние между точками данных все более и более похожим образом
приближаясь к общему статистическому представлению реальности. Это называется «платоническим представлением», черпающим вдохновение из концепции Платона об идеальной реальности, лежащей в основе нашего восприятия.
… если вы хотите создать лучший LLM, вам также следует обучать его на данных изображений Мы видим, что лучшие передовые модели искусственного интеллекта, GPT-4o и Gemini 1.5 Pro, теперь изначально являются мультимодальными.

Наиболее важным следствием является то, что высокоразвитые модели ИИ будут сходиться и превращаться в похожие идеализированные модели, использующие схожие наборы обучающих данных и архитектуры для представления одной и той же базовой реальности.
источник
#llm #AI #RAG #ИИ
🤔31👍1🔥1
Сегодня на конференции 1с демонстрировали умных ботов и ещё тему матчинга номенклатуры. По ощущениям она бизнесу откликается даже больше, чем персональные ассистенты, хотя и к ним был интерес. Показывали как пользователям без навыков 1с извлекать оттуда нужную информацию с помощью бота. Традиционный RAG на векторной базе проблему не решает, т.к. данные должны быть всегда актуальными, а меняются они буквально каждую секунду. В других стеках помогает технология text-to-sql, но у 1с и тут всё своё. Задачка со звёздочкой🙂
#llm #AI #RAG #ИИ #1C #1С
🔥4👍1
⚡️ Появилась новая область программирования - программирование с LLM, и эта новость совсем не про copilot и написание кода нейросетью!

Развитие промпт инжиниринга в какой-то момент потребовало возможности структурировать промпты для удобства их сопровождения. Для решения проблемы сначала был разработан язык промтов LMQL, который позволяет писать промпт в стиле python, учитывать в нем ветвления, записывать промежуточные результаты в переменные... Но стандартизировать промпты таким способом пока не удалось, и успешность выполнения запроса по-прежнему зависит от того, как разработчик подошел к его написанию.

Авторы нового подхода отталкиваются от того, что LLM оперирует не самим текстом, а его смыслом. И тип входных и выходных параметров функции с LLM тоже определяется смыслом, а не просто фактом содержания в нем строковых или числовых значений, как это происходит в обычном программировании.

Предложено ввести понятие semistrings - семантические строки, позволяющие разработчикам аннотировать код дополнительным контекстом.
Если раньше у переменной было только имя и тип, например

name: str = "Эйнштейн"


то теперь добавляется еще и смысл:

"ученый" name:str = "Эйнштейн"


И пример функции


’Accomplishments’
accomp : list[str]

Einstein = Person(name="Einstein") by llm()

summarize (
’Accomplishments’ a: list[str]
) -> summary: str by llm()
accomp_summary = summarize(Einstein.accomp)


Это весь код🙂
Остальное должна сделать LLM, поняв по описанию, что от нее требуется вывести список достижений Эйнштейна
Источник
#llm #AI #RAG #ИИ
👍2🔥2
Для macOS сделали приложение, которое "видит" рабочий стол пользователя, благодаря чему он может задавать вопросы относительно своей текущей деятельности не передавая контекст в LLM. Может работать как с OpenAI, так и с локальными моделями.
Авторы предоставили исходный код и обещают, что скоро оно появится и в сторах.

Почему же именно mac?

Все дело в особенности архитектуры процессоров Apple, фактически по своей структуре они представляют собой не CPU, а GPU, поэтому работать будет быстро без подключения дополнительных устройств и передачи данных на сервер
#llm #AI #RAG #ИИ
🔥21👍1
Аналитический отчет Стенфордского университета про ИИ за 24 год Довольно увесистый труд на 500+ страниц, разбит на 9 глав.
1. Тренды в исследованиях.
2. Обзор технических характеристик и улучшений в LLM
3. Тенденции Responsible AI - конфиденциальность и безопасность
4. Экономические тенденции
5. ИИ в науке и медицине
6. ИИ в образовании
7. ИИ в политике и государстве
8. Сообщества разработчиков, кто и как развивает ИИ
9. Общественное мнение

Любопытный факт, на сайте авторов и во всех публикациях про этот отчет приводятся цитаты только из первой главы, возможно дальше никто еще не дочитал :)
#llm #AI #RAG #ИИ
🔥3👍2
Сегодня по миру разлетается новость, что производитель AI чипов SambaNova выпустил инференс LLM моделей со скоростью отдачи 1000 токенов в секунду.
Проверила, действительно работает очень быстро, есть готовые тестовые запросы, но я сделала свой на русском, попросила написать скрипт обхода графа по ширине. Одно огорчает, непонятно, как скоро эти технологии станут доступными для покупки
#llm #AI #RAG #ИИ
👍5👏2
Вышла мультимодальная версия модели Матрешка (М3), полностью оправдывает свое название, потому что использует эмбеддинги переменной длины, как бы вкладывая один в другой.
M3 представляет визуальный контент как вложенные наборы визуальных токенов, которые собирают информацию с различной степенью детализации. Этот новый подход позволяет явно контролировать визуальную детализацию во время вывода, позволяя регулировать количество токенов в зависимости от ожидаемой сложности или простоты контента.
Например, изображение с большим количеством деталей может быть представлено большим количеством токенов, тогда как более простые изображения могут использовать меньшее количество токенов.
В частности, в модели используются эмбеддинги длиной в 1, 9, 36, 144 и 576 токенов, причем каждый уровень обеспечивает все более точное представление визуального контента.
Это первая модель с подобным подходом
#llm #AI #RAG #ИИ
👍3🔥1
Готовый проект с агентами-исследователями. Схема достаточно стандартная- несколько ролей и возможность задавать вопросы конкретному агенту, навыки онлайн поиска... но что впечатлило - это 12 200 звезд на гитхабе. Столько человек не могут ошибаться 🙂

Скрин с демо. Может работать локально с любыми сетями. Бесплатно скачиваем и бесплатно пользуемся🙂
#llm #AI #RAG #ИИ
👍3🔥1
Взлет_и_падение_автономных_агентов_Лукаш_Ковейша.pdf
844.4 KB
Делюсь интересной точкой зрения на перспективы развития автономных мультиагентов. Это не просто агенты, которые умеют делать конкретную задачу, как в openai, а группы думающих ботов, которые без участия человека имитируют групповую деятельность или трудятся в одиночку. У них был год на взлет, но тот, так и не состоялся. Причина в их достаточно медленной сходимости к результату, они склонны дублировать действия и выбирать неоптимальные шаги.
Но действительно ли мы видим закат, казавшейся перспективной технологии?
Лично я верю в их будущее, просто для него сняты еще не все технологические барьеры, и когда все окончательно наиграются и устанут от онлайн-консультантов с RAG, рынок захочет чего-то по-настоящему интеллектуального
#llm #AI #RAG #ИИ
👍51
Мучает вопрос, как проверить качество RAG?

Google разработал набор данных FRAMES (F actuality , R etrieval, And reasoning ME asurement Set ) , включающий 824 сложных вопроса, требующих использования нескольких источников информации, в данном случае речь про разные страницы Википедии.

Аннотаторы добавили дополнительный контекст для устранения неоднозначности ответов, которые могут меняться со временем. Например, вопрос типа «Какая страна была обладателем Кубка мира ФИФА в последний раз, когда Лигу чемпионов УЕФА выиграл клуб из Лондона?» был изменен на «По состоянию на 1 августа 2024 года, какая страна была обладателем Кубка мира ФИФА в последний раз, когда Лигу чемпионов УЕФА выиграл клуб из Лондона?»

датасет
источник
#AI #LLM #RAG
🔥4