Data Scientist | IT
1.94K subscribers
651 photos
3 videos
1 file
707 links
Добро пожаловать в клуб.

Полезные материалы из мира DS & ML на регулярной основе.

По всем вопросам: @godinmedia
Download Telegram
Предсказываем стоимость логистики грузоперевозок

#почитать

Перевозка грузов является одной из важных сфер бизнеса, особенно в странах, имеющих большое транзитное значение, таких как Казахстан. При этом тарифы на перевозку, хоть и играют решающую роль при оценке доходности логистического бизнеса, весьма непрозрачны и зависят от большого количества факторов. В этих условиях кажется логичным построение модели, позволяющей с хорошим приближением предсказывать стоимость перевозки груза в зависимости от его параметров, условий перевозки, а также начального и конечного пунктов. В данном посте будут описаны основные этапы построения такой модели.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
Реализация подобия Apple Vision Pro

#почитать

Не так давно я был свидетелем запуска Apple Vision Pro. Презентация оказалась очень интересной, но больше всего моё внимание зацепила одна деталь — дистанционное управление вводом с помощью пальцев. Выглядит очень интуитивно — использовать перемещение и сведение пальцев для управления курсором на экране. Меня этот механизм заинтриговал, и я решил воссоздать его сам.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥1
Deepseek: лезем в голову к GPT-модели и смотрим, как она рассуждает

#почитать

Попробовать можно тут: chat.deepseek.com. Регистрация по гуглоаккаунту бесплатная, умная модель с цепочкой по переключателю под полем ввода, 50 запросов в день.

Предыдущая модель с цепочкой размышлений была ChatGPT o1 preview. Она решает некоторые задачи сильно лучше стандартной модели за счёт того, что разбивает процесс на шаги и делает много попыток решения. Но она не показывает, что творится под капотом.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥21
Полное руководство по оценке компонентов системы RAG

#почитать

Системы дополненной генерации (RAG) были разработаны для улучшения качества ответа крупной языковой модели (LLM). Когда пользователь отправляет запрос, система RAG извлекает релевантную информацию из векторной базы данных и передает ее в LLM в качестве контекста. Затем LLM использует этот контекст для генерации ответа для пользователя. Этот процесс значительно улучшает качество ответов LLM с меньшим количеством «галлюцинаций».

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
Нейронные сети в архитектурном проектировании

#почитать

Наша команда разрабатывает инструменты с нуля, начиная с системы команд и CAD-инструментария. Поэтому мы полностью автономны в реализации и развитии продукта — в том числе, в области экспериментов с машинным обучением и нейронными сетями. Это актуально в связи со сложностью решаемых задач на этапах проектирования. Существующих методов автоматизации и алгоритмизации процессов, не включающие в себя нейронные сети, недостаточно для их решения. Они способные покрывать лишь частные случаи.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41👍1
KAN 2.0: Kolmogorov-Arnold Networks Meet Science

#почитать

Предлагаю полный перевод второй статьи на тему нейронных сетей на основе алгоритма Колмогорова-Арнольда (KAN), опубликованной в августе 2024 года. В этой работе исследователи продолжают развивать тему KAN, раскрывают ее связь с наукой, а также приводят некоторые практические советы по использованию библиотеки pykan, написанной на python, в которой реализован алгоритм KAN.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
Оптимизация денежной наличности в АТМ, или Как сделать так, чтобы в банкомате всегда были деньги

#почитать

Место расположения банкомата подбирается как раз в зависимости от его типа. Например, банкоматы Cash OUT могут ставить под зарплатные проекты или рядом с рынками, а RCL ставят в местах более оживленных, типа торговых центров или отделений. Наиболее интересными и важными для банка являются именно RCL банкоматы, поэтому при решении задачи мы сосредоточились на них.

В данной статье не будем останавливаться на устройстве банкоматов, тем более, что на эту тему есть много статей. Здесь я расскажу о том, как мы разработали алгоритм, подбирающий сумму денег и момент инкассации. Естественно, что до нас подобный алгоритм уже существовал и очень хорошо работал, иначе банкоматы были бы бесполезны. Но у него была пара моментов, которые требовали улучшения.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
У нас тоже есть системный промпт, контекст и всё остальное

#почитать

Можно ли найти что-то подобное понятию «системный промпт» у людей?

Да сколько угодно.

То, как мы сами себя определяем в жизни, наша самоидентификация. Она формируется постепенно в процессе жизни и сильно связана с нашей моделью мира. Это роль, которую мы сами играем. Точнее, это детальное описание этой роли, которое сформировалось и укоренилось глубоко в нашем сознании. С помощью методов психоанализа можно в какой‑то степени извлечь этот наш системный промпт и изучить его. Это базовый системный промпт, но он может быть дополнен и другими.

Например, люди творческих профессий, такие как актеры театра и кино, способны на время перевоплощаться в своих героев, играя заданные роли. У них системный промпт формируется режиссером и сценаристом. Получается очень убедительно, и даже сами актеры искренне и глубоко вживаются в свои роли, становясь на время «другими» личностями.

Вот еще одна яркая демонстрация системного промпта у людей — гипноз. Особенно эффектно это работает на эстраде, когда человеку на сцене дают установку, например, что он моряк и находится на корабле, который сильно качается на волнах. В это время человек полностью подчинен этому системному промпту: он становится моряком на корабле в океане и начинает жить жизнью моряка и выполняет любые указания гипнотизера, который волен менять системный промпт человека любым образом.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41👍1
Как мы создали LLM-модель Cotype Nano

#почитать

В этой статье мы расскажем про дроп трех маленьких моделей Cotype-Nano, Cotype-Nano-4bit и Cotype-Nano-CPU. Расскажем, как нам удалось достичь 1 места на RuGeneralArena в своей весовой категории.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
Генерируем презентации с помощью GigaChat и Kandinsky

#почитать

Мы решили проверить, насколько современные LLM и модели генерации изображений могут тут облегчить нам жизнь, учитывая, насколько мощно они продвинулись в последние годы. Для этого мы собрали MVP на базе GigaChat-Max и Kandinsky 3.1, принимающий на вход текстовый запрос и количество слайдов и генерирующий файл презентации в формате .pptx.

Для первого подхода к снаряду мы сформировали относительно простой базовый конвейер, который включает в себя генерацию заголовков и текстов слайдов с помощью GigaChat с последующей генерацией изображений с помощью Kandinsky. В итоге весь синтезированный контент наполняет слайды презентации по несложным шаблонам. Далее мы расскажем обо всех шагах подробно и покажем, что получилось. Но если вам не очень хочется читать и уже хочется что-нибудь сгенерировать, то мы подняли space на Hugging Face.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥21
Разбей и властвуй: как создать кастомный токенизатор в SpaCy

#почитать

Зачем нам свой токенизатор?
Согласитесь, стандартные токенизаторы хороши, но иногда требуется что-то особенное. Например, разбивать текст на токены по специфическим правилам или обрабатывать экзотические языки программирования (да-да, я смотрю на тебя, Brainfuck).

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Вопросы на собеседовании ML Team Lead

#почитать

Если вы читаете это, значит, вы, как и я когда‑то, собираетесь пройти собеседование на позицию ML Team Lead. Или возможно, вы просто интересуетесь тем, что происходит по ту сторону баррикад. В любом случае, давайте поговорим о том, какие вопросы могут задать на таком собеседовании, и как на них отвечать так, чтобы у интервьюеров не осталось сомнений в вашей компетенции.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Дообучаем языковую модель GPT2 с помощью Torch

#почитать

В качестве данных я возьму dataset QuyenAnhDE/Diseases_Symptoms с Huggiface. Этот dataset представляет собой небольшой (400 строк) набор болезней, их симптомов и лечение. Я буду использовать только заболевание и его симптомы. То есть на вход модели будет подаваться заболевание, на выходе модель должна написать симптомы. Вы можете использовать обратную логику ввода/вывода, добавить в обучение столбец с лечением.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍1
Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году

#почитать

Именно трансформер изменил индустрию искусственного интеллекта и сделал ее такой мощной, какой мы видим ее сейчас. До 2017 года, пока исследователи из Google Brain не изобрели эту архитектуру, краеугольным камнем ИИ-индустрии был поиск подходящего строения модели. Теперь же перед учеными стоят, в основном, другие задачи, а вот об архитектуре компании и ресерчеры почти не думают: ведь есть трансформер!

Вот так говорит об этой архитектуре знаменитый Андрей Карпаты – бывший ML-директор Tesla, сооснователь и бывший главный ученый OpenAI: "Трансформер - не просто очередной метод, а подход, который полностью изменил наш взгляд на ИИ. Нам очень повезло, что мы наткнулись именно на него в огромном пространстве алгоритмов. Я верю, что трансформер лучше человеческого мозга во многих отношениях."

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥1
Восстание DeepSeek: что не попало в заголовки новостей

#почитать

Недавние публикации об ИИ-моделях компании DeepSeek посвящены, в основном, двум моментам. Первый — эти модели гораздо лучше, чем другие, показывают себя в тестах. Второй — они обходят другие модели в плане эффективности работы. Эти достижения достойны внимания, они несут определённые политические последствия (ниже мы поговорим об этом подробнее). Но дело в том, что реальная картина, включающая в себя и доступ к вычислительным ресурсам, и экспортные ограничения, и разработки в сфере ИИ, гораздо сложнее, чем это представлено во многих материалах. Вот несколько важных вопросов, которые заслуживают более пристального внимания.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥1
Show and Tell

#почитать

Реализация одной из самых ранних моделей нейронного генератора подписей к изображениям с помощью PyTorch.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Как LLM может валидировать данные

#почитать

Data Quality (DQ) — это набор характеристик, определяющих целостность, точность и пригодность данных для их использования в бизнес-процессах и аналитике. Высокое качество данных критически важно для достижения эффективного принятия решений, так как оно напрямую влияет на результаты анализа и позволяет организациям более точно интерпретировать информацию.

Существует множество инструментов для обеспечения качества данных (Data Quality), и они могут варьироваться по функциональности и целям, мы используем питоновский фреймворк soda. Если кратко, то soda — это open-source проект для проверки качества данных. Под капотом — собственный язык проверок SodaCL (Soda Check Language), чеки прописываются в файле YAML в интуитивно понятной форме.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2👌1
DeepSeek-R1 для чайников

#почитать

В последние месяцы всё чаще слышим про «reasoning-модели», способные не просто продолжать текст, а действительно шаг за шагом решать сложнейшие задачи цепочкой рассуждений (chain-of-thought). Впервые такой подход эффектно показали в OpenAI o1, но, к сожалению, подробности там остаются секретными. Недавно же команда DeepSeek наделала шуму с открытыми вариантами R1 и R1-Zero, созданными поверх их собственной большой MoE-модели DeepSeek-V3. В этом посте я не стану углубляться в вопрос «чья модель лучше — o1 или R1». Зато разберу, какие главные технические детали стоят за R1, почему Zero-версия выглядит особо захватывающе, и как именно авторам удалось обучить модель мыслить.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥1
Пишем свою Diffusion модель с нуля

#почитать

Я решил разобраться и понять, как устроена Diffusion модель внутри, понять ее математику и постараться объяснить и разложить ее на пальцах. Ну и конечно пописать код, который (спойлер) заработал.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Predicting Diabetes Types: A Deep Learning Approach

#почитать

Machine learning analysis of diabetes: Deep learning vs. XGBoost (64.75% vs. 74% accuracy) using health and lifestyle data.

Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2
KAN: Kolmogorov–Arnold Networks

#почитать

Предлагаю вашему вниманию полный перевод статьи об алгоритме нейронной сети на основе теоремы Колмогорова Арнольда, опубликованной исследователями из Massachusetts Institute of Technology, California Institute of Technology, Northeastern University и The NSF Institute for Artificial Intelligence and Fundamental Interactions.

В настоящее время в на просторах интернета есть лишь посты на основе данной статьи с интригующими названиями типа: «Новый убийца нейросетей? Сеть Колмогорова Арнольда (KANs)» или «Исследователи разработали принципиально новую архитектуру нейросетей, которая работает лучше персептрона» и т. п. Для лучшего понимания это темы обратимся к первоисточнику ‑статье, опубликованной не так давно — в апреле 2024 года.


Читать статью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2