Data Scientist | IT
1.94K subscribers
651 photos
3 videos
1 file
707 links
Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia
Download Telegram
Полное руководство по оценке компонентов системы RAG

#почитать

Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций».

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
Нейронные сети в архитектурном проектировании

#почитать

Наша команда разрабатывает инструменты с нуля, начиная с системы команд и CAD-инструментария. Поэтому мы полностью автономны в реализации и развитии продукта — в том числе, в области экспериментов с машинным обучением и нейронными сетями. Это актуально в связи со сложностью решаемых задач на этапах проектирования. Существующих методов автоматизации и алгоритмизации процессов, не включающие в себя нейронные сети, недостаточно для их решения. Они способные покрывать лишь частные случаи.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41👍1
KAN 2.0: Kolmogorov-Arnold Networks Meet Science

#почитать

Предлагаю полный перевод второй статьи на тему нейронных сетей на основе алгоритма Колмогорова-Арнольда (KAN), опубликованной в августе 2024 года. В этой работе исследователи продолжают развивать тему KAN, раскрывают ее связь с наукой, а также приводят некоторые практические советы по использованию библиотеки pykan, написанной на python, в которой реализован алгоритм KAN.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
Оптимизация денежной наличности в АТМ, или Как сделать так, чтобы в банкомате всегда были деньги

#почитать

Место расположения банкомата подбирается как раз в зависимости от его типа. Например, банкоматы Cash OUT могут ставить под зарплатные проекты или рядом с рынками, а RCL ставят в местах более оживленных, типа торговых центров или отделений. Наиболее интересными и важными для банка являются именно RCL банкоматы, поэтому при решении задачи мы сосредоточились на них.

В данной статье не будем останавливаться на устройстве банкоматов, тем более, что на эту тему есть много статей. Здесь я расскажу о том, как мы разработали алгоритм, подбирающий сумму денег и момент инкассации. Естественно, что до нас подобный алгоритм уже существовал и очень хорошо работал, иначе банкоматы были бы бесполезны. Но у него была пара моментов, которые требовали улучшения.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
У нас тоже есть системный промпт, контекст и всё остальное

#почитать

Можно ли найти что-то подобное понятию «системный промпт» у людей?

Да сколько угодно.

То, как мы сами себя определяем в жизни, наша самоидентификация. Она формируется постепенно в процессе жизни и сильно связана с нашей моделью мира. Это роль, которую мы сами играем. Точнее, это детальное описание этой роли, которое сформировалось и укоренилось глубоко в нашем сознании. С помощью методов психоанализа можно в какой‑то степени извлечь этот наш системный промпт и изучить его. Это базовый системный промпт, но он может быть дополнен и другими.

Например, люди творческих профессий, такие как актеры театра и кино, способны на время перевоплощаться в своих героев, играя заданные роли. У них системный промпт формируется режиссером и сценаристом. Получается очень убедительно, и даже сами актеры искренне и глубоко вживаются в свои роли, становясь на время «другими» личностями.

Вот еще одна яркая демонстрация системного промпта у людей — гипноз. Особенно эффектно это работает на эстраде, когда человеку на сцене дают установку, например, что он моряк и находится на корабле, который сильно качается на волнах. В это время человек полностью подчинен этому системному промпту: он становится моряком на корабле в океане и начинает жить жизнью моряка и выполняет любые указания гипнотизера, который волен менять системный промпт человека любым образом.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41👍1
Как мы создали LLM-модель Cotype Nano

#почитать

В этой статье мы расскажем про дроп трех маленьких моделей Cotype-Nano, Cotype-Nano-4bit и Cotype-Nano-CPU. Расскажем, как нам удалось достичь 1 места на RuGeneralArena в своей весовой категории.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
Генерируем презентации с помощью GigaChat и Kandinsky

#почитать

Мы решили проверить, насколько современные LLM и модели генерации изображений могут тут облегчить нам жизнь, учитывая, насколько мощно они продвинулись в последние годы. Для этого мы собрали MVP на базе GigaChat-Max и Kandinsky 3.1, принимающий на вход текстовый запрос и количество слайдов и генерирующий файл презентации в формате .pptx.

Для первого подхода к снаряду мы сформировали относительно простой базовый конвейер, который включает в себя генерацию заголовков и текстов слайдов с помощью GigaChat с последующей генерацией изображений с помощью Kandinsky. В итоге весь синтезированный контент наполняет слайды презентации по несложным шаблонам. Далее мы расскажем обо всех шагах подробно и покажем, что получилось. Но если вам не очень хочется читать и уже хочется что-нибудь сгенерировать, то мы подняли space на Hugging Face.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥21
Разбей и властвуй: как создать кастомный токенизатор в SpaCy

#почитать

Зачем нам свой токенизатор?
Согласитесь, стандартные токенизаторы хороши, но иногда требуется что-то особенное. Например, разбивать текст на токены по специфическим правилам или обрабатывать экзотические языки программирования (да-да, я смотрю на тебя, Brainfuck).

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Вопросы на собеседовании ML Team Lead

#почитать

Если вы читаете это, значит, вы, как и я когда‑то, собираетесь пройти собеседование на позицию ML Team Lead. Или возможно, вы просто интересуетесь тем, что происходит по ту сторону баррикад. В любом случае, давайте поговорим о том, какие вопросы могут задать на таком собеседовании, и как на них отвечать так, чтобы у интервьюеров не осталось сомнений в вашей компетенции.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Дообучаем языковую модель GPT2 с помощью Torch

#почитать

В качестве данных я возьму dataset QuyenAnhDE/Diseases_Symptoms с Huggiface. Этот dataset представляет собой небольшой (400 строк) набор болезней, их симптомов и лечение. Я буду использовать только заболевание и его симптомы. То есть на вход модели будет подаваться заболевание, на выходе модель должна написать симптомы. Вы можете использовать обратную логику ввода/вывода, добавить в обучение столбец с лечением.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍1
Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году

#почитать

Именно трансформер изменил индустрию искусственного интеллекта и сделал ее такой мощной, какой мы видим ее сейчас. До 2017 года, пока исследователи из Google Brain не изобрели эту архитектуру, краеугольным камнем ИИ-индустрии был поиск подходящего строения модели. Теперь же перед учеными стоят, в основном, другие задачи, а вот об архитектуре компании и ресерчеры почти не думают: ведь есть трансформер!

Вот так говорит об этой архитектуре знаменитый Андрей Карпаты – бывший ML-директор Tesla, сооснователь и бывший главный ученый OpenAI: "Трансформер - не просто очередной метод, а подход, который полностью изменил наш взгляд на ИИ. Нам очень повезло, что мы наткнулись именно на него в огромном пространстве алгоритмов. Я верю, что трансформер лучше человеческого мозга во многих отношениях."

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
Восстание DeepSeek: что не попало в заголовки новостей

#почитать

Недавние публикации об ИИ-моделях компании DeepSeek посвящены, в основном, двум моментам. Первый — эти модели гораздо лучше, чем другие, показывают себя в тестах. Второй — они обходят другие модели в плане эффективности работы. Эти достижения достойны внимания, они несут определённые политические последствия (ниже мы поговорим об этом подробнее). Но дело в том, что реальная картина, включающая в себя и доступ к вычислительным ресурсам, и экспортные ограничения, и разработки в сфере ИИ, гораздо сложнее, чем это представлено во многих материалах. Вот несколько важных вопросов, которые заслуживают более пристального внимания.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥1
Show and Tell

#почитать

Реализация одной из самых ранних моделей нейронного генератора подписей к изображениям с помощью PyTorch.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Как LLM может валидировать данные

#почитать

Data Quality (DQ) — это набор характеристик, определяющих целостность, точность и пригодность данных для их использования в бизнес-процессах и аналитике. Высокое качество данных критически важно для достижения эффективного принятия решений, так как оно напрямую влияет на результаты анализа и позволяет организациям более точно интерпретировать информацию.

Существует множество инструментов для обеспечения качества данных (Data Quality), и они могут варьироваться по функциональности и целям, мы используем питоновский фреймворк soda. Если кратко, то soda — это open-source проект для проверки качества данных. Под капотом — собственный язык проверок SodaCL (Soda Check Language), чеки прописываются в файле YAML в интуитивно понятной форме.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2👌1
DeepSeek-R1 для чайников

#почитать

В последние месяцы всё чаще слышим про «reasoning-модели», способные не просто продолжать текст, а действительно шаг за шагом решать сложнейшие задачи цепочкой рассуждений (chain-of-thought). Впервые такой подход эффектно показали в OpenAI o1, но, к сожалению, подробности там остаются секретными. Недавно же команда DeepSeek наделала шуму с открытыми вариантами R1 и R1-Zero, созданными поверх их собственной большой MoE-модели DeepSeek-V3. В этом посте я не стану углубляться в вопрос «чья модель лучше — o1 или R1». Зато разберу, какие главные технические детали стоят за R1, почему Zero-версия выглядит особо захватывающе, и как именно авторам удалось обучить модель мыслить.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥1
Пишем свою Diffusion модель с нуля

#почитать

Я решил разобраться и понять, как устроена Diffusion модель внутри, понять ее математику и постараться объяснить и разложить ее на пальцах. Ну и конечно пописать код, который (спойлер) заработал.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Predicting Diabetes Types: A Deep Learning Approach

#почитать

Machine learning analysis of diabetes: Deep learning vs. XGBoost (64.75% vs. 74% accuracy) using health and lifestyle data.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2
KAN: Kolmogorov–Arnold Networks

#почитать

Предлагаю вашему вниманию полный перевод статьи об алгоритме нейронной сети на основе теоремы Колмогорова Арнольда, опубликованной исследователями из Massachusetts Institute of Technology, California Institute of Technology, Northeastern University и The NSF Institute for Artificial Intelligence and Fundamental Interactions.

В настоящее время в на просторах интернета есть лишь посты на основе данной статьи с интригующими названиями типа: «Новый убийца нейросетей? Сеть Колмогорова Арнольда (KANs)» или «Исследователи разработали принципиально новую архитектуру нейросетей, которая работает лучше персептрона» и т. п. Для лучшего понимания это темы обратимся к первоисточнику ‑статье, опубликованной не так давно — в апреле 2024 года.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
Создаем кастомные функции потерь в CatBoost

#почитать

Стандартные функции потерь хороши для типовых задач, но в нашей суровой жизни часто требуются специфичные решения. Например, может понадобиться усилить внимание модели на редких классах или минимизировать разные типы ошибок в зависимости от их влияния на бизнес.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Квантизация позволяет запускать Llama 3.2 на мобилках

#почитать

Какого именно уровня производительности удалось добиться новым квантованным моделям Llama?

В среднем это ускорение инференса от двух до четырех раз по сравнению с весами в формате BF16, при сохранении практически сопоставимого качества. Уменьшение размера модели на 56% - что важно для мобильного приложения, чтобы меньше места на телефоне занимало - и уменьшение объема потребляемой памяти на 41% процент. Все это согласно результатам бенчмарков, приведенных на сайте Llama.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2
Lasso, Ridge и кастомные регуляризаторы: основы

#почитать

Сегодня разберем тему, которая хоть и звучит скромно — Lasso, Ridge и кастомные регуляризаторы, — но на практике буквально спасает модели от переобучения. Если у вас бывало так, что модель на тренировочных данных показывает отличные результаты, а при проверке на валидации теряет весь блеск — поздравляю, вы столкнулись с тем самым переобучением! Регуляризация здесь как раз для того и нужна: помогает «усмирить» модель, добавляя ограничения, которые не дают ей запоминать лишние детали.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2