Machinelearning

🌟 multi1: Имитация GPT-o1-подобных цепочек рассуждений с локальными и онлайн LLM.

multi1 — это экспериментальный проект, вдохновленный моделью o1 от OpenAI, который позволяет использовать различные языковые модели: локальные (через ollama) и онлайн (Perplexity и Groq) через единый веб-интерфейс.

Цель проекта — изучение возможностей повышения способности языковых моделей к логическому мышлению путём применения стратегий промптинга.

Архитектура multi1 основана на использовании цепочек рассуждений, реализующих принцип динамической "Цепочки Мыслей" (Chain of Thought).

В отличие от o1, multi1 визуализирует все этапы рассуждений, предоставляя пользователю доступ к каждому шагу и позволяя наблюдать за логикой.

Тестирование показало, что multi1 способен решать простые логические задачи, которые обычно вызывают затруднения у LLM, с точностью 60-80%.

Например, multi1 достигает точности ~70% в популярном запросе "Сколько букв 'R' в слове 'strawberry'?" (n=10). Для сравнения, Llama-3.1-70b без промтинга показала 0% точности, а ChatGPT-4o - 30%.

▶️Установка и запуск:

# Set up the environment:
python3 -m venv venv
source venv/bin/activate
pip3 install -r requirements.txt

# Copy the example environment file:
cp example.env .env

# Edit the .env file with your API keys / models preferences

# Run the streamlit UI interface
streamlit run app/main.py

📌Лицензирование : MIT License.

🖥

Github

@ai_machinelearning_big_data

#AI #ML #o1 #LLM #CoT

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤23👍19🔥7😁3

9K views06:13

Machinelearning

🌟 Marco-o1: модель рассуждений от Alibaba.

Marco-o1 – LLM, файнтюн-версия Qwen2-7B-Instruct для решения сложных задач, требующих рассуждений. В создании модели использовались методики Chain-of-Thought (CoT), поиска по дереву Монте-Карло (MCTS) и уникальные стратегии регулирования действий при рассуждении.

Marco-o1 обучалась на 3 датасетах: отфильтрованный набор данных Open-O1 CoT, синтетический набор Marco-o1 CoT и собственный набор инструкций Marco.

В модели реализованы 2 стратегии действий: "шаг как действие" и "мини-шаг как действие" (32 или 64 токена соответственно). Мини-шаг как действие обеспечивает более детальное исследование пространства решений.

В Marco-o1 был внедрен механизм рефлексии, который побуждает модель переосмысливать свои рассуждения, что улучшает результаты инференса, особенно в сложных составных задачах.

Модель оценивалась на наборах данных MGSM (английский и китайский). Результаты показали, что Marco-o1 превосходит Qwen2-7B-Instruct и демонстрирует улучшение точности на 6,17% для английского набора данных и 5,60% для китайского. Модель превзошла Google Translate в задачах языкового перевода, особенно при переводе разговорных выражений.

В ближайших планах:

🟠Обучаются версии модели вознаграждения за результат (ORM) и вознаграждения за процесс (PRM).
🟠Reinforcement Learning: обучение с подкреплением для совершенствования рассуждений.

▶️Установка и локальный инференс:

# Clone the repository
git clone https://github.com/AIDC-AI/Marco-o1

# Change to the Macaw-LLM directory
cd Marco-o1

# Install required packages
pip install -r requirements.txt

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1")
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1")

# Run Inference
./src/talk_with_model.py

📌Лицензирование: Apache 2.0 License.

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #CoT #Alibaba #MarcoO1

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍36🔥11❤5🤬2🤣2

18.7K views15:29

Machinelearning

🌟 DRT-o1: метод машинного перевода с техникой CoT.

DRT-o1 - экспериментальная методика для повышения качества нейронного машинного перевода с помощью техники Chain-of-Thoughts, которая успешно применятся в задачах логического вывода.

Машинный (дословный) перевод текстов, содержащих сравнения и метафоры, зачастую не обеспечивает адекватную передачу смысла. DRT-o1 - попытка расширить возможности нейропереводчиков и сделать их более "человечными".

В методе используется многоагентная архитектура, моделирующая мыслительно- итеративный процесс перевода, где каждый этап базируется на предыдущем, способствуя более точному и глубокому пониманию сложных языковых конструкций.

За основу для тестовых моделей были взяты Qwen2.5-7B-Instruct и Qwen2.5-14B-Instruct. Обучающий датасет собирался на основе 400 англоязычных литературных произведений были извлечены предложения, содержащие сравнения или метафоры. Предложения, для которых дословный перевод на китайский язык был признан неадекватным, сохранялись для последующей обработки.

Затем использовался многоагентный пайплайн из переводчика, советника и оценщика. Переводчик генерировал варианты перевода, советник предоставлял рекомендации по их улучшению, а оценщик проводил анализ качества перевода на каждом этапе. Этот процесс повторялся итеративно до достижения установленного критерия качества.

В финале, для достижения удобочитаемости и связности полученных данных применялся GPT-4o, который модифицировал и оптимизировал процесс размышления. В результате было собрано 22 264 образца машинного перевода с длинными цепочками рассуждений.

В результате получились 2 модели перевода между английским и китайским языками:

🟢

DRT-o1-7B

🟢

DRT-o1-14B

Посттренинговые тесты обеих моделей показали ощутимое повышение качества перевода литературных текстов.
DRT-o1-7B показала улучшение на 8.26 в BLEU, 1.31 в CometKiwi и 3.36 в CometScore по сравнению с Qwen2.5-7B-Instruct. Она превзошла QwQ-32B-Preview на 7.82 в BLEU и 1.46 в CometScore.

DRT-o1-14B достигла еще более высоких показателей - 7.33 в BLEU, 0.15 в CometKiwi и 1.66 CometScore по сравнению с Qwen2.5-14B-Instruct.

▶️Пример инференса с DRT-o1-7B на Transformers:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Krystalan/DRT-o1-7B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "Translate the following text from English to Chinese:%text%."
messages = [
    {"role": "system", "content": "You are a philosopher skilled in deep thinking, accustomed to exploring complex problems with profound insight."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=2048
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.

🟡

Модель 7B

🟡

Модель 14B

🟡

Arxiv

🖥

Github

@ai_machinelearning_big_data

#AI #ML #LLM #Translation #CoT #DRTo1

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍42❤15🔥9💅3☃1🕊1🍓1

11.9K views16:19

Machinelearning

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

⭐️

OpenAI представили своего AI агента.

Operator — это ИИ-агент, который умеет работать с браузером, заказывать продукты, бронировать билеты и столики в ресторанах искать данные и тп.
Вам нужно просто описать свою задачу, а затем наблюдать в реальном времени, как оператор выполняет её за вас.
Доступ пользователям Pro уже открыт, для остальных обещают в ближайшем времени:
▪operator

⭐️ Open Operator
В преддверии релиза OpenAI Operator разработчики начали собирать полезные ресурсы, связанные с Operator и другими подобными решениями для автоматизации задач:
▪Github

⭐️

Новый лидер на Text-to-Image Arena! Imagen 3 от Google DeepMind✨

Imagen 3 дебютирует на первом месте, обойдя Recraft-v3 с впечатляющим отрывом в +70 очков!
Imagen 3 доступен на сайте .

⭐️

"Последний экзамен человечества"

Это тщательно собранный датасет с 3 000 вопросов, разработанный при участии сотен профильных экспертов, чтобы отразить границы человеческих знаний. Лучше всех справляется с ним DeepSeek R1 от, достигая 9.4%, у o1 отставание с 9.1%.
▪Dataset

⭐️ Можем ли мы генерировать изображения с помощью цепочки мыслей CoT?

Давайте проверим и улучшим генерацию изображений шаг за шагом.
Авторегрессионная генерация изображений + масштабирование выводов приводят к существенному улучшению генерации изображений на нескольких бенчмарках.
▪Github ▪Статья ▪HF

⭐️

Pika 2.1

Крутейший генератор видео уже на подходе 😁 Движение в реальном времени стало намного лучше!
Здесь, можно подать заявку на ранний доступ:
▪Доступ

⭐️

o3-mini станет бесплатной — работать с моделью скоро смогут все желающие!
▪Новость

⭐️

Anthropic. Представили Citations

Новая функция API, которая позволяет Claude обосновывать свои ответы на предоставленных вами источниках.

Еще Claude может процитировать конкретные предложения и отрывки, которые лежат в основе каждого ответа.
▪Новость

@ai_machinelearning_big_data

#news #ai #ml #machinelearning #deeplearning #openai #pika #chatgpt #Imagen #cot #Anthropic #Claude

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥35👍28❤11🤣2👾1

41.5K views05:31

Machinelearning

🌟

UnifiedReward-Think-7B: первая reward-MMLM с CoT для визуального анализа.

Ресерчеры из Tencent и их коллеги создали UnifiedReward-Think-7B, первую мультимодальную модель, которая сочетает цепочки рассуждений с обучением с подкреплением.

Основная идея была в том, чтобы научить модель не только выдавать итоговую оценку, но и подробно объяснять ход мыслей. Например, анализируя сгенерированное изображение, она шаг за шагом проверяет соответствие текстовому запросу, качество деталей и логическую согласованность. Такой механизм не только повышает надежность оценок, но и помогает выявлять ошибки в сложных сценариях, где поверхностный анализ слишком трудоемкий.

Тестовую модель обучали в 3 стадии:

🟢«Холодный старт» - небольшой набор данных с примерами рассуждений, созданных GPT-4o, который учит модель формату CoT.

🟢Отбраковка выборок: модель генерирует собственные рассуждения для разных задач, а правильные варианты сохраняются для дальнейшей тонкой настройки.

🟢GRPO - на финальной стадии модель экспериментирует с ошибочными ответами, улучшая логику методом проб и ошибок.

Эксперименты показали, что UnifiedReward-Think обходит существующие аналоги. В задачах на понимание изображений она на 5-7% точнее базовой UnifiedReward-7b, созданной месяцем ранее. В генерации видео разрыв еще заметнее: модель лучше оценивает как соответствие запросу, так и плавность анимации.

📌Лицензирование: MIT License.

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #MMLM #CoT #UnifiedReward #Tencent

Please open Telegram to view this post

VIEW IN TELEGRAM