Нейронные сети в архитектурном проектировании
#почитать
Наша команда разрабатывает инструменты с нуля, начиная с системы команд и CAD-инструментария. Поэтому мы полностью автономны в реализации и развитии продукта — в том числе, в области экспериментов с машинным обучением и нейронными сетями. Это актуально в связи со сложностью решаемых задач на этапах проектирования. Существующих методов автоматизации и алгоритмизации процессов, не включающие в себя нейронные сети, недостаточно для их решения. Они способные покрывать лишь частные случаи.
⏱ Читать статью
#почитать
Наша команда разрабатывает инструменты с нуля, начиная с системы команд и CAD-инструментария. Поэтому мы полностью автономны в реализации и развитии продукта — в том числе, в области экспериментов с машинным обучением и нейронными сетями. Это актуально в связи со сложностью решаемых задач на этапах проектирования. Существующих методов автоматизации и алгоритмизации процессов, не включающие в себя нейронные сети, недостаточно для их решения. Они способные покрывать лишь частные случаи.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤1👍1
KAN 2.0: Kolmogorov-Arnold Networks Meet Science
#почитать
⏱ Читать статью
#почитать
Предлагаю полный перевод второй статьи на тему нейронных сетей на основе алгоритма Колмогорова-Арнольда (KAN), опубликованной в августе 2024 года. В этой работе исследователи продолжают развивать тему KAN, раскрывают ее связь с наукой, а также приводят некоторые практические советы по использованию библиотеки pykan, написанной на python, в которой реализован алгоритм KAN.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🔥1
Оптимизация денежной наличности в АТМ, или Как сделать так, чтобы в банкомате всегда были деньги
#почитать
Место расположения банкомата подбирается как раз в зависимости от его типа. Например, банкоматы Cash OUT могут ставить под зарплатные проекты или рядом с рынками, а RCL ставят в местах более оживленных, типа торговых центров или отделений. Наиболее интересными и важными для банка являются именно RCL банкоматы, поэтому при решении задачи мы сосредоточились на них.
В данной статье не будем останавливаться на устройстве банкоматов, тем более, что на эту тему есть много статей. Здесь я расскажу о том, как мы разработали алгоритм, подбирающий сумму денег и момент инкассации. Естественно, что до нас подобный алгоритм уже существовал и очень хорошо работал, иначе банкоматы были бы бесполезны. Но у него была пара моментов, которые требовали улучшения.
⏱ Читать статью
#почитать
Место расположения банкомата подбирается как раз в зависимости от его типа. Например, банкоматы Cash OUT могут ставить под зарплатные проекты или рядом с рынками, а RCL ставят в местах более оживленных, типа торговых центров или отделений. Наиболее интересными и важными для банка являются именно RCL банкоматы, поэтому при решении задачи мы сосредоточились на них.
В данной статье не будем останавливаться на устройстве банкоматов, тем более, что на эту тему есть много статей. Здесь я расскажу о том, как мы разработали алгоритм, подбирающий сумму денег и момент инкассации. Естественно, что до нас подобный алгоритм уже существовал и очень хорошо работал, иначе банкоматы были бы бесполезны. Но у него была пара моментов, которые требовали улучшения.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🔥1
У нас тоже есть системный промпт, контекст и всё остальное
#почитать
Можно ли найти что-то подобное понятию «системный промпт» у людей?
Да сколько угодно.
То, как мы сами себя определяем в жизни, наша самоидентификация. Она формируется постепенно в процессе жизни и сильно связана с нашей моделью мира. Это роль, которую мы сами играем. Точнее, это детальное описание этой роли, которое сформировалось и укоренилось глубоко в нашем сознании. С помощью методов психоанализа можно в какой‑то степени извлечь этот наш системный промпт и изучить его. Это базовый системный промпт, но он может быть дополнен и другими.
Например, люди творческих профессий, такие как актеры театра и кино, способны на время перевоплощаться в своих героев, играя заданные роли. У них системный промпт формируется режиссером и сценаристом. Получается очень убедительно, и даже сами актеры искренне и глубоко вживаются в свои роли, становясь на время «другими» личностями.
Вот еще одна яркая демонстрация системного промпта у людей — гипноз. Особенно эффектно это работает на эстраде, когда человеку на сцене дают установку, например, что он моряк и находится на корабле, который сильно качается на волнах. В это время человек полностью подчинен этому системному промпту: он становится моряком на корабле в океане и начинает жить жизнью моряка и выполняет любые указания гипнотизера, который волен менять системный промпт человека любым образом.
⏱ Читать статью
#почитать
Можно ли найти что-то подобное понятию «системный промпт» у людей?
Да сколько угодно.
То, как мы сами себя определяем в жизни, наша самоидентификация. Она формируется постепенно в процессе жизни и сильно связана с нашей моделью мира. Это роль, которую мы сами играем. Точнее, это детальное описание этой роли, которое сформировалось и укоренилось глубоко в нашем сознании. С помощью методов психоанализа можно в какой‑то степени извлечь этот наш системный промпт и изучить его. Это базовый системный промпт, но он может быть дополнен и другими.
Например, люди творческих профессий, такие как актеры театра и кино, способны на время перевоплощаться в своих героев, играя заданные роли. У них системный промпт формируется режиссером и сценаристом. Получается очень убедительно, и даже сами актеры искренне и глубоко вживаются в свои роли, становясь на время «другими» личностями.
Вот еще одна яркая демонстрация системного промпта у людей — гипноз. Особенно эффектно это работает на эстраде, когда человеку на сцене дают установку, например, что он моряк и находится на корабле, который сильно качается на волнах. В это время человек полностью подчинен этому системному промпту: он становится моряком на корабле в океане и начинает жить жизнью моряка и выполняет любые указания гипнотизера, который волен менять системный промпт человека любым образом.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤1👍1
Как мы создали LLM-модель Cotype Nano
#почитать
⏱ Читать статью
#почитать
В этой статье мы расскажем про дроп трех маленьких моделей Cotype-Nano, Cotype-Nano-4bit и Cotype-Nano-CPU. Расскажем, как нам удалось достичь 1 места на RuGeneralArena в своей весовой категории.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🔥1
Генерируем презентации с помощью GigaChat и Kandinsky
#почитать
⏱ Читать статью
#почитать
Мы решили проверить, насколько современные LLM и модели генерации изображений могут тут облегчить нам жизнь, учитывая, насколько мощно они продвинулись в последние годы. Для этого мы собрали MVP на базе GigaChat-Max и Kandinsky 3.1, принимающий на вход текстовый запрос и количество слайдов и генерирующий файл презентации в формате .pptx.
Для первого подхода к снаряду мы сформировали относительно простой базовый конвейер, который включает в себя генерацию заголовков и текстов слайдов с помощью GigaChat с последующей генерацией изображений с помощью Kandinsky. В итоге весь синтезированный контент наполняет слайды презентации по несложным шаблонам. Далее мы расскажем обо всех шагах подробно и покажем, что получилось. Но если вам не очень хочется читать и уже хочется что-нибудь сгенерировать, то мы подняли space на Hugging Face.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2❤1
Разбей и властвуй: как создать кастомный токенизатор в SpaCy
#почитать
Зачем нам свой токенизатор?
Согласитесь, стандартные токенизаторы хороши, но иногда требуется что-то особенное. Например, разбивать текст на токены по специфическим правилам или обрабатывать экзотические языки программирования (да-да, я смотрю на тебя, Brainfuck).
⏱ Читать статью
#почитать
Зачем нам свой токенизатор?
Согласитесь, стандартные токенизаторы хороши, но иногда требуется что-то особенное. Например, разбивать текст на токены по специфическим правилам или обрабатывать экзотические языки программирования (да-да, я смотрю на тебя, Brainfuck).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Вопросы на собеседовании ML Team Lead
#почитать
Если вы читаете это, значит, вы, как и я когда‑то, собираетесь пройти собеседование на позицию ML Team Lead. Или возможно, вы просто интересуетесь тем, что происходит по ту сторону баррикад. В любом случае, давайте поговорим о том, какие вопросы могут задать на таком собеседовании, и как на них отвечать так, чтобы у интервьюеров не осталось сомнений в вашей компетенции.
⏱ Читать статью
#почитать
Если вы читаете это, значит, вы, как и я когда‑то, собираетесь пройти собеседование на позицию ML Team Lead. Или возможно, вы просто интересуетесь тем, что происходит по ту сторону баррикад. В любом случае, давайте поговорим о том, какие вопросы могут задать на таком собеседовании, и как на них отвечать так, чтобы у интервьюеров не осталось сомнений в вашей компетенции.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Дообучаем языковую модель GPT2 с помощью Torch
#почитать
В качестве данных я возьму dataset QuyenAnhDE/Diseases_Symptoms с Huggiface. Этот dataset представляет собой небольшой (400 строк) набор болезней, их симптомов и лечение. Я буду использовать только заболевание и его симптомы. То есть на вход модели будет подаваться заболевание, на выходе модель должна написать симптомы. Вы можете использовать обратную логику ввода/вывода, добавить в обучение столбец с лечением.
⏱ Читать статью
#почитать
В качестве данных я возьму dataset QuyenAnhDE/Diseases_Symptoms с Huggiface. Этот dataset представляет собой небольшой (400 строк) набор болезней, их симптомов и лечение. Я буду использовать только заболевание и его симптомы. То есть на вход модели будет подаваться заболевание, на выходе модель должна написать симптомы. Вы можете использовать обратную логику ввода/вывода, добавить в обучение столбец с лечением.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍1
Что, если не трансформеры: какие альтернативы главной архитектуре нейросетей у нас есть в 2024 году
#почитать
Именно трансформер изменил индустрию искусственного интеллекта и сделал ее такой мощной, какой мы видим ее сейчас. До 2017 года, пока исследователи из Google Brain не изобрели эту архитектуру, краеугольным камнем ИИ-индустрии был поиск подходящего строения модели. Теперь же перед учеными стоят, в основном, другие задачи, а вот об архитектуре компании и ресерчеры почти не думают: ведь есть трансформер!
Вот так говорит об этой архитектуре знаменитый Андрей Карпаты – бывший ML-директор Tesla, сооснователь и бывший главный ученый OpenAI: "Трансформер - не просто очередной метод, а подход, который полностью изменил наш взгляд на ИИ. Нам очень повезло, что мы наткнулись именно на него в огромном пространстве алгоритмов. Я верю, что трансформер лучше человеческого мозга во многих отношениях."
⏱ Читать статью
#почитать
Именно трансформер изменил индустрию искусственного интеллекта и сделал ее такой мощной, какой мы видим ее сейчас. До 2017 года, пока исследователи из Google Brain не изобрели эту архитектуру, краеугольным камнем ИИ-индустрии был поиск подходящего строения модели. Теперь же перед учеными стоят, в основном, другие задачи, а вот об архитектуре компании и ресерчеры почти не думают: ведь есть трансформер!
Вот так говорит об этой архитектуре знаменитый Андрей Карпаты – бывший ML-директор Tesla, сооснователь и бывший главный ученый OpenAI: "Трансформер - не просто очередной метод, а подход, который полностью изменил наш взгляд на ИИ. Нам очень повезло, что мы наткнулись именно на него в огромном пространстве алгоритмов. Я верю, что трансформер лучше человеческого мозга во многих отношениях."
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤1🔥1
Восстание DeepSeek: что не попало в заголовки новостей
#почитать
⏱ Читать статью
#почитать
Недавние публикации об ИИ-моделях компании DeepSeek посвящены, в основном, двум моментам. Первый — эти модели гораздо лучше, чем другие, показывают себя в тестах. Второй — они обходят другие модели в плане эффективности работы. Эти достижения достойны внимания, они несут определённые политические последствия (ниже мы поговорим об этом подробнее). Но дело в том, что реальная картина, включающая в себя и доступ к вычислительным ресурсам, и экспортные ограничения, и разработки в сфере ИИ, гораздо сложнее, чем это представлено во многих материалах. Вот несколько важных вопросов, которые заслуживают более пристального внимания.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥1
Show and Tell
#почитать
Реализация одной из самых ранних моделей нейронного генератора подписей к изображениям с помощью PyTorch.
⏱ Читать статью
#почитать
Реализация одной из самых ранних моделей нейронного генератора подписей к изображениям с помощью PyTorch.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Как LLM может валидировать данные
#почитать
Data Quality (DQ) — это набор характеристик, определяющих целостность, точность и пригодность данных для их использования в бизнес-процессах и аналитике. Высокое качество данных критически важно для достижения эффективного принятия решений, так как оно напрямую влияет на результаты анализа и позволяет организациям более точно интерпретировать информацию.
Существует множество инструментов для обеспечения качества данных (Data Quality), и они могут варьироваться по функциональности и целям, мы используем питоновский фреймворк soda. Если кратко, то soda — это open-source проект для проверки качества данных. Под капотом — собственный язык проверок SodaCL (Soda Check Language), чеки прописываются в файле YAML в интуитивно понятной форме.
⏱ Читать статью
#почитать
Data Quality (DQ) — это набор характеристик, определяющих целостность, точность и пригодность данных для их использования в бизнес-процессах и аналитике. Высокое качество данных критически важно для достижения эффективного принятия решений, так как оно напрямую влияет на результаты анализа и позволяет организациям более точно интерпретировать информацию.
Существует множество инструментов для обеспечения качества данных (Data Quality), и они могут варьироваться по функциональности и целям, мы используем питоновский фреймворк soda. Если кратко, то soda — это open-source проект для проверки качества данных. Под капотом — собственный язык проверок SodaCL (Soda Check Language), чеки прописываются в файле YAML в интуитивно понятной форме.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2👌1
DeepSeek-R1 для чайников
#почитать
⏱ Читать статью
#почитать
В последние месяцы всё чаще слышим про «reasoning-модели», способные не просто продолжать текст, а действительно шаг за шагом решать сложнейшие задачи цепочкой рассуждений (chain-of-thought). Впервые такой подход эффектно показали в OpenAI o1, но, к сожалению, подробности там остаются секретными. Недавно же команда DeepSeek наделала шуму с открытыми вариантами R1 и R1-Zero, созданными поверх их собственной большой MoE-модели DeepSeek-V3. В этом посте я не стану углубляться в вопрос «чья модель лучше — o1 или R1». Зато разберу, какие главные технические детали стоят за R1, почему Zero-версия выглядит особо захватывающе, и как именно авторам удалось обучить модель мыслить.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1🔥1
Пишем свою Diffusion модель с нуля
#почитать
Я решил разобраться и понять, как устроена Diffusion модель внутри, понять ее математику и постараться объяснить и разложить ее на пальцах. Ну и конечно пописать код, который (спойлер) заработал.
⏱ Читать статью
#почитать
Я решил разобраться и понять, как устроена Diffusion модель внутри, понять ее математику и постараться объяснить и разложить ее на пальцах. Ну и конечно пописать код, который (спойлер) заработал.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥2
Predicting Diabetes Types: A Deep Learning Approach
#почитать
Machine learning analysis of diabetes: Deep learning vs. XGBoost (64.75% vs. 74% accuracy) using health and lifestyle data.
⏱ Читать статью
#почитать
Machine learning analysis of diabetes: Deep learning vs. XGBoost (64.75% vs. 74% accuracy) using health and lifestyle data.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2
KAN: Kolmogorov–Arnold Networks
#почитать
⏱ Читать статью
#почитать
Предлагаю вашему вниманию полный перевод статьи об алгоритме нейронной сети на основе теоремы Колмогорова Арнольда, опубликованной исследователями из Massachusetts Institute of Technology, California Institute of Technology, Northeastern University и The NSF Institute for Artificial Intelligence and Fundamental Interactions.
В настоящее время в на просторах интернета есть лишь посты на основе данной статьи с интригующими названиями типа: «Новый убийца нейросетей? Сеть Колмогорова Арнольда (KANs)» или «Исследователи разработали принципиально новую архитектуру нейросетей, которая работает лучше персептрона» и т. п. Для лучшего понимания это темы обратимся к первоисточнику ‑статье, опубликованной не так давно — в апреле 2024 года.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
Создаем кастомные функции потерь в CatBoost
#почитать
Стандартные функции потерь хороши для типовых задач, но в нашей суровой жизни часто требуются специфичные решения. Например, может понадобиться усилить внимание модели на редких классах или минимизировать разные типы ошибок в зависимости от их влияния на бизнес.
⏱ Читать статью
#почитать
Стандартные функции потерь хороши для типовых задач, но в нашей суровой жизни часто требуются специфичные решения. Например, может понадобиться усилить внимание модели на редких классах или минимизировать разные типы ошибок в зависимости от их влияния на бизнес.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Квантизация позволяет запускать Llama 3.2 на мобилках
#почитать
Какого именно уровня производительности удалось добиться новым квантованным моделям Llama?
В среднем это ускорение инференса от двух до четырех раз по сравнению с весами в формате BF16, при сохранении практически сопоставимого качества. Уменьшение размера модели на 56% - что важно для мобильного приложения, чтобы меньше места на телефоне занимало - и уменьшение объема потребляемой памяти на 41% процент. Все это согласно результатам бенчмарков, приведенных на сайте Llama.
⏱ Читать статью
#почитать
Какого именно уровня производительности удалось добиться новым квантованным моделям Llama?
В среднем это ускорение инференса от двух до четырех раз по сравнению с весами в формате BF16, при сохранении практически сопоставимого качества. Уменьшение размера модели на 56% - что важно для мобильного приложения, чтобы меньше места на телефоне занимало - и уменьшение объема потребляемой памяти на 41% процент. Все это согласно результатам бенчмарков, приведенных на сайте Llama.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍2
Lasso, Ridge и кастомные регуляризаторы: основы
#почитать
Сегодня разберем тему, которая хоть и звучит скромно — Lasso, Ridge и кастомные регуляризаторы, — но на практике буквально спасает модели от переобучения. Если у вас бывало так, что модель на тренировочных данных показывает отличные результаты, а при проверке на валидации теряет весь блеск — поздравляю, вы столкнулись с тем самым переобучением! Регуляризация здесь как раз для того и нужна: помогает «усмирить» модель, добавляя ограничения, которые не дают ей запоминать лишние детали.
⏱ Читать статью
#почитать
Сегодня разберем тему, которая хоть и звучит скромно — Lasso, Ridge и кастомные регуляризаторы, — но на практике буквально спасает модели от переобучения. Если у вас бывало так, что модель на тренировочных данных показывает отличные результаты, а при проверке на валидации теряет весь блеск — поздравляю, вы столкнулись с тем самым переобучением! Регуляризация здесь как раз для того и нужна: помогает «усмирить» модель, добавляя ограничения, которые не дают ей запоминать лишние детали.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥2
Как я автоматизировал поиск работы при помощи LLM
#почитать
В свете последних новостей о сокращениях в IT-индустрии вопрос поиска работы встает все более остро даже для людей, которые в данный момент трудоустроены. Встал он и для меня, так как хоть на данный момент с работой у меня все в порядке, но начали появляться звоночки, намекающие на возможную необходимость ее смены в ближайшее время.
И тут вспоминается мой прошлый опыт поиска работы с многочасовым блужданием по соответствующим сайтам, вычитыванием очередной вакансии, попытками понять, как те или иные требования работодателя соотносятся с вакансией, добавлены ли они туда потому что действительно нужны или это такой фильтр от лишних соискателей. В общем монотонная однообразная работа вида: "Открыл вакансию -> прочитал -> если заинтересовало, нажал кнопку отклика -> прикрепил сопроводительное письмо и т.д."
Можно конечно ускорить процесс, выкинув из этого алгоритма пункт с вычитыванием резюме, но:
а) есть немалый шанс, кликая на все подряд, как обезьяна, откликнуться на неподходящую для тебя вакансию; кому-то это норм, но мне бы не хотелось дергать HR'ов лишний раз по поводу вакансии, которая на самом деле мне не интересна;
б) некоторые особо хитрые работодатели добавляют в описание своих вакансий всякие ключевые слова/вопросы, которые нужно упомянуть/ответить в резюме; по мне так не самая лучшая практика, но я их за это не виню.
Эх, вот бы нашелся кто-нибудь, кто вычитал бы вакансию за меня, определил, будет ли мне она интересна, написал бы сопроводительное письмо с учетом моего резюме, текста вакансии и всяких там ключевых слов, ответил бы на сопутствующие вопросы и послал бы все это дело работодателю...
Минуточку, кажется я знаю, кто мне в этом поможет: LLM же!
⏱ Читать статью
#почитать
В свете последних новостей о сокращениях в IT-индустрии вопрос поиска работы встает все более остро даже для людей, которые в данный момент трудоустроены. Встал он и для меня, так как хоть на данный момент с работой у меня все в порядке, но начали появляться звоночки, намекающие на возможную необходимость ее смены в ближайшее время.
И тут вспоминается мой прошлый опыт поиска работы с многочасовым блужданием по соответствующим сайтам, вычитыванием очередной вакансии, попытками понять, как те или иные требования работодателя соотносятся с вакансией, добавлены ли они туда потому что действительно нужны или это такой фильтр от лишних соискателей. В общем монотонная однообразная работа вида: "Открыл вакансию -> прочитал -> если заинтересовало, нажал кнопку отклика -> прикрепил сопроводительное письмо и т.д."
Можно конечно ускорить процесс, выкинув из этого алгоритма пункт с вычитыванием резюме, но:
а) есть немалый шанс, кликая на все подряд, как обезьяна, откликнуться на неподходящую для тебя вакансию; кому-то это норм, но мне бы не хотелось дергать HR'ов лишний раз по поводу вакансии, которая на самом деле мне не интересна;
б) некоторые особо хитрые работодатели добавляют в описание своих вакансий всякие ключевые слова/вопросы, которые нужно упомянуть/ответить в резюме; по мне так не самая лучшая практика, но я их за это не виню.
Эх, вот бы нашелся кто-нибудь, кто вычитал бы вакансию за меня, определил, будет ли мне она интересна, написал бы сопроводительное письмо с учетом моего резюме, текста вакансии и всяких там ключевых слов, ответил бы на сопутствующие вопросы и послал бы все это дело работодателю...
Минуточку, кажется я знаю, кто мне в этом поможет: LLM же!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1🔥1