Data Science: SQL и Аналитика данных

➡️

Kimi K2 Thinking: Новая open source-модель для сложных рассуждений и агентных задач

Вышла новая модель Kimi K2 Thinking, и, если вы увлекаетесь ИИ, то это прямо то, что стоит отметить. Эта модель — очередной шаг к масштабированию вычислений и задач, связанных с логикой, кодом и агентами. Способность выполнять до 300 последовательных действий — это прямо рекорд. И, что важнее, она не просто выполняет задачи, но и задает новые стандарты в том, как мы можем использовать ИИ в решении сложных проблем.

Во-первых, Kimi K2 Thinking может делать цепочки рассуждений, искать, писать код и вообще — выполнять задачи, которые раньше считались сложными для ИИ. За счет увеличения количества «токенов размышления» и улучшения числа шагов при вызове инструментов модель буквально может «думать» дольше и точнее, обеспечивая более глубокое понимание контекста.

На практике эта модель превзошла ожидания. Вот несколько крутых достижений:

— Humanity’s Last Exam (HLE): Бенчмарк, который оценивает логическое мышление на экспертном уровне по 100+ дисциплинам. K2 Thinking набрала 44,9% — отличный результат для задачи, где каждое слово на счету.

— SWE-Multilingual и SWE-Bench Verified: Рейтинг по задачам на кодинг и разработку ПО. Тут K2 Thinking показала 61,1% и 71,3% соответственно, что намекает на хорошие перспективы для работы с кодом на разных языках программирования.

— Terminal-Bench: И снова — 47,1% в задачах, связанных с командной строкой и терминалом. Модель находит решение и там.

— BrowseComp: Самый интересный момент! На бенчмарке по поиску и навигации в интернете K2 Thinking набрала 60,2%, что в два раза больше, чем средний человеческий результат (29,2%). Модель умеет эффективно искать, анализировать и работать с интернет-данными, что делает её уникальной для работы в динамичных, насыщенных информацией средах.

Основная фишка — Kimi K2 Thinking может создавать сложные интерактивные приложения с нуля. Например, она генерирует код для популярных библиотек визуализации, и результат просто впечатляющий. Конечно, для повседневной работы разработчиков такие примеры пока не идеально подходят, но качество и уровень проделанной работы на данный момент — на высоте.

Если вы работаете в ИТ-сфере, наверняка будете следить за этим релизом. Особенно интересно, как модель будет справляться с более сложными и динамичными задачами, выходящими за пределы лабораторных тестов.

🫡 Всё про Data Science

Please open Telegram to view this post