Под капотом GCN
#почитать
GCN (Graph Convolutional Networks) — это масштабируемый подход к полуконтролируемому обучению, который применяется к данным, представленным в виде графов. Он основывается на принципах сверточных нейронных сетей (CNN).
Выбор сверточной архитектуры в GCN объясняется тем, что она предлагает локализованное приближение первого порядка спектральных сверток для графов. Локализованное приближение означает, что мы рассматриваем не всю структуру графовой сети, а лишь небольшую группу узлов и связей. Первый порядок указывает на размер этого локального приближения: поскольку это первый порядок, то мы будем изучать только ближайших соседей выбранного узла. Спектральная свертка — это более общее понятие, которое охватывает методы, использующие спектр графа для извлечения информации.
⏱ Читать статью
#почитать
GCN (Graph Convolutional Networks) — это масштабируемый подход к полуконтролируемому обучению, который применяется к данным, представленным в виде графов. Он основывается на принципах сверточных нейронных сетей (CNN).
Выбор сверточной архитектуры в GCN объясняется тем, что она предлагает локализованное приближение первого порядка спектральных сверток для графов. Локализованное приближение означает, что мы рассматриваем не всю структуру графовой сети, а лишь небольшую группу узлов и связей. Первый порядок указывает на размер этого локального приближения: поскольку это первый порядок, то мы будем изучать только ближайших соседей выбранного узла. Спектральная свертка — это более общее понятие, которое охватывает методы, использующие спектр графа для извлечения информации.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3❤1
Как работает Mesh R-CNN
#почитать
Вообще для чего нужен Mesh R-CNN, нужен он для того чтобы генерировать 3D объекты на основе изображения. Этот метод построен на фундаменте Mask R-CNN [2], но с добавлением ветви для предсказания сеток. Это создает начальное представление, которое преобразуется в сетку и уточняется с помощью графовой сверточной сети.
⏱ Читать статью
#почитать
Вообще для чего нужен Mesh R-CNN, нужен он для того чтобы генерировать 3D объекты на основе изображения. Этот метод построен на фундаменте Mask R-CNN [2], но с добавлением ветви для предсказания сеток. Это создает начальное представление, которое преобразуется в сетку и уточняется с помощью графовой сверточной сети.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Оценка LLM: метрики, фреймворки и лучшие практики
#почитать
Оценка LLM - это процесс тестирования и измерения того, насколько хорошо крупные языковые модели работают в реальных ситуациях. При тестировании этих моделей мы наблюдаем, насколько хорошо они понимают и отвечают на вопросы, насколько плавно и четко они генерируют текст и имеют ли их ответы смысл в контексте. Этот шаг очень важен, потому что он помогает нам выявлять любые проблемы и улучшать модель, гарантируя, что она может эффективно и надежно справляться с задачами.
⏱ Читать статью
#почитать
Оценка LLM - это процесс тестирования и измерения того, насколько хорошо крупные языковые модели работают в реальных ситуациях. При тестировании этих моделей мы наблюдаем, насколько хорошо они понимают и отвечают на вопросы, насколько плавно и четко они генерируют текст и имеют ли их ответы смысл в контексте. Этот шаг очень важен, потому что он помогает нам выявлять любые проблемы и улучшать модель, гарантируя, что она может эффективно и надежно справляться с задачами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Головоломка, кофе и охапка книг, или как я искал истоки термина «Deep Learning»
#почитать
Некоторое время назад я взялся написать обзорную статью о том, что такое Deep Learning. Задача не казалась сложной до тех пор, пока… я не добрался до определения. Вот вы можете в двух словах объяснить этот термин, ничего не упустив? Вот то-то и оно. Пока копался в референсах, читал статьи, монографии и книги, я понял, что это вопрос слишком интересный для простого обзора и быстрого ответа. Здесь мне хотелось бы поделиться тем, что удалось найти по поводу истории развития глубокого обучения и того, что с ним связано.
⏱ Читать статью
#почитать
Некоторое время назад я взялся написать обзорную статью о том, что такое Deep Learning. Задача не казалась сложной до тех пор, пока… я не добрался до определения. Вот вы можете в двух словах объяснить этот термин, ничего не упустив? Вот то-то и оно. Пока копался в референсах, читал статьи, монографии и книги, я понял, что это вопрос слишком интересный для простого обзора и быстрого ответа. Здесь мне хотелось бы поделиться тем, что удалось найти по поводу истории развития глубокого обучения и того, что с ним связано.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Кто и как управляет разработкой ML-моделей
#почитать
Согласно различным исследованиям, от 46 до 90% моделей машинного обучения не выходит в прод. Всему виной отсутствие должного контроля за их созданием, а также проблемы менеджмента команд разработки и data science.
⏱ Читать статью
#почитать
Согласно различным исследованиям, от 46 до 90% моделей машинного обучения не выходит в прод. Всему виной отсутствие должного контроля за их созданием, а также проблемы менеджмента команд разработки и data science.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3❤1
Нейронная сеть учится понимать сигналы светофора
#почитать
Задача проста: у нас есть светофор, и мы хотим научить модель решать, можно ли продолжать движение на перекрестке в зависимости от того, какой сигнал светофора горит. В статье использованы базовые принципы машинного обучения и простой код на Python, чтобы построить модель, которая способна интерпретировать показания светофора, закодированные в виде числовых данных. Приведен как «рукописный» код обучения нейронной сети, так и с применением библиотеки TensorFlow. Проведено несколько экспериментов с разными параметрами сети. В конце на десерт самое интересное – дадим обученной сети показания светофоров, которых не бывает в реальной жизни, такие как зеленый и красный горящие одновременно, посмотрим, что на это скажет сеть.
⏱ Читать статью
#почитать
Задача проста: у нас есть светофор, и мы хотим научить модель решать, можно ли продолжать движение на перекрестке в зависимости от того, какой сигнал светофора горит. В статье использованы базовые принципы машинного обучения и простой код на Python, чтобы построить модель, которая способна интерпретировать показания светофора, закодированные в виде числовых данных. Приведен как «рукописный» код обучения нейронной сети, так и с применением библиотеки TensorFlow. Проведено несколько экспериментов с разными параметрами сети. В конце на десерт самое интересное – дадим обученной сети показания светофоров, которых не бывает в реальной жизни, такие как зеленый и красный горящие одновременно, посмотрим, что на это скажет сеть.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤1🔥1
Продуктовый матчинг, или туда и обратно с миллионами товаров
#почитать
Все мы знакомы со старыми добрыми маркетплейсами – онлайн-рынками, на которых продается абсолютно все: от булавок до автомобилей. Каждый маркетплейс имеет свой джентльменский набор: уникальное название (желательно запоминающиеся), сайт (где можно заказать товар), мобильное приложение (чтобы сделать заказ было еще проще и удобнее), службу логистики (чтобы привести заказ покупателю как можно скорее), дальше через запятую.
Когда вы приходите на обычный рынок, то вряд ли покупаете что-то с первого раза, правда? Вы ходите, торгуетесь, пробуете, выбираете лучшее. С онлайн-рынками все точно так же. Допустим, вам надо срочно купить стиральную машинку. Вы открываете приложение Мегамаркета, вбиваете в поисковую строку запрос и видите, например, Indesit EWSD 51031.
⏱ Читать статью
#почитать
Все мы знакомы со старыми добрыми маркетплейсами – онлайн-рынками, на которых продается абсолютно все: от булавок до автомобилей. Каждый маркетплейс имеет свой джентльменский набор: уникальное название (желательно запоминающиеся), сайт (где можно заказать товар), мобильное приложение (чтобы сделать заказ было еще проще и удобнее), службу логистики (чтобы привести заказ покупателю как можно скорее), дальше через запятую.
Когда вы приходите на обычный рынок, то вряд ли покупаете что-то с первого раза, правда? Вы ходите, торгуетесь, пробуете, выбираете лучшее. С онлайн-рынками все точно так же. Допустим, вам надо срочно купить стиральную машинку. Вы открываете приложение Мегамаркета, вбиваете в поисковую строку запрос и видите, например, Indesit EWSD 51031.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥2
Построим GPT: с нуля и шаг за шагом
#почитать
Когда мы вводим запрос в chatGPT - ответ следует токен за токеном, слева направо. Это связано с тем, что GPT это sequence to sequence модель, которая расшифровывает как Generative Pre-trained Transformer. Именно эту архитектуру, я и реализую в этой статье.
Transformer исходит из знаменитой статьи 2017 года - Attention is all you need. Изначально, статья была для машинного перевода, однако в последующие несколько лет ее использовали для разного вида задач. В фундаменте chatGPT также лежит архитектура трансфомера.
⏱ Читать статью
#почитать
Когда мы вводим запрос в chatGPT - ответ следует токен за токеном, слева направо. Это связано с тем, что GPT это sequence to sequence модель, которая расшифровывает как Generative Pre-trained Transformer. Именно эту архитектуру, я и реализую в этой статье.
Transformer исходит из знаменитой статьи 2017 года - Attention is all you need. Изначально, статья была для машинного перевода, однако в последующие несколько лет ее использовали для разного вида задач. В фундаменте chatGPT также лежит архитектура трансфомера.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7❤3
Квантовать или не квантовать LLM
#почитать
Многие онлайн-сервисы предлагают доступ к проприетарным LLM. Однако по различным причинам может возникнуть необходимость использовать эти модели на своем оборудовании. Аренда серверов, особенно с GPU, может быть дорогой и зависит от требований к RAM/VRAM. Квантование моделей помогает снизить эти требования.
⏱ Читать статью
#почитать
Многие онлайн-сервисы предлагают доступ к проприетарным LLM. Однако по различным причинам может возникнуть необходимость использовать эти модели на своем оборудовании. Аренда серверов, особенно с GPU, может быть дорогой и зависит от требований к RAM/VRAM. Квантование моделей помогает снизить эти требования.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥3
Визуальные трансформеры (ViT)
#почитать
В этой статье мы рассмотрим трансформер зрения (Vision Transformer, ViT) в том виде, в котором он был представлен в статье [2]. Она включает в себя открытый код ViT, а также концептуальные объяснения компонентов. Реализация ViT, рассмотренная в статье, выполнена с использованием пакета PyTorch.
⏱ Читать статью
#почитать
В этой статье мы рассмотрим трансформер зрения (Vision Transformer, ViT) в том виде, в котором он был представлен в статье [2]. Она включает в себя открытый код ViT, а также концептуальные объяснения компонентов. Реализация ViT, рассмотренная в статье, выполнена с использованием пакета PyTorch.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥1
Прогнозирование банкротства физических лиц
#почитать
Начало процедуры банкротства физических лиц открывает двери для реструктуризации долгов и освобождения от финансового бремени, но также требует более детального анализа этого явления.
⏱ Читать статью
#почитать
Начало процедуры банкротства физических лиц открывает двери для реструктуризации долгов и освобождения от финансового бремени, но также требует более детального анализа этого явления.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6
Алгоритм k-means и метод локтя
#почитать
Алгоритм k-means используют для группировки объектов в наборы (кластеры) на основе их схожести. В основе работы k-means лежит принцип минимизации расстояния между объектами внутри одного кластера.
Представьте, что у вас есть много разноцветных шариков. Вам нужно разделить их на несколько групп, чтобы каждый шарик в группе был похож на остальные. Алгоритм помогает найти, как лучше всего сгруппировать эти шарики, чтобы в каждой группе они были максимально похожи друг на друга.
Он работает следующим образом: сначала выбираются несколько центров для групп (например, для трех групп — три центра). Затем алгоритм распределяет все шарики по группам, определяя, к какому центру они ближе. После этого он пересчитывает центры для новых групп и повторяет процесс, пока центры не перестанут сильно меняться. Это позволяет создать группы с шариками, схожими между собой.
⏱ Читать статью
#почитать
Алгоритм k-means используют для группировки объектов в наборы (кластеры) на основе их схожести. В основе работы k-means лежит принцип минимизации расстояния между объектами внутри одного кластера.
Представьте, что у вас есть много разноцветных шариков. Вам нужно разделить их на несколько групп, чтобы каждый шарик в группе был похож на остальные. Алгоритм помогает найти, как лучше всего сгруппировать эти шарики, чтобы в каждой группе они были максимально похожи друг на друга.
Он работает следующим образом: сначала выбираются несколько центров для групп (например, для трех групп — три центра). Затем алгоритм распределяет все шарики по группам, определяя, к какому центру они ближе. После этого он пересчитывает центры для новых групп и повторяет процесс, пока центры не перестанут сильно меняться. Это позволяет создать группы с шариками, схожими между собой.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1🔥1
Быстрый матчинг товаров на маркетплейсе Wildberries
#почитать
Цель матчинга — предложить пользователю идентичные товары другого продавца, чтобы можно было купить товар дешевле либо с более быстрой доставкой.
⏱ Читать статью
#почитать
Цель матчинга — предложить пользователю идентичные товары другого продавца, чтобы можно было купить товар дешевле либо с более быстрой доставкой.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1🔥1
Hugging Face против AI Gitee: битва платформ для дата-саентистов
#почитать
⏱ Читать статью
#почитать
Сегодня поговорим об интересном феномене в мире машинного обучения: противостоянии Hugging Face и его китайского аналога AI Gitee. Как это часто бывает с инструментами машинного обучения, тут не все так однозначно. Разберем установку Hugging Face на разные системы, что скрывается за фасадом HuggingFace, что AI Gitee использует вместо Git LFS, неочевидные проблемы при интеграции и мониторинг работы моделей в продакшене.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤1
Многопользовательский рой агентов для Ollama
#почитать
⏱ Читать статью
#почитать
Когда-то давным давно графический пользовательский интерфейс сменил консольный ввод. Казалось бы, проблему неудобства взаимодействия для неподготовленного пользователя мог бы решить псевдографический интерфейс, но есть фактор, который не все замечают.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Zero-shot решение задачи Visual Object Tracking
#почитать
В рамках данной статьи мы обсудим новое zero-shot решение (то есть способное справляться с задачей без дополнительного обучения на данных из конкретного домена) задачи Visual Object Tracking под названием SAMURAI(SAM-based Unified and Robust zero-shot visual tracker with motion-Aware Instance-level memory). Эта модель продемонстрировала хороший перфоманс в задаче визуального трекинга, обойдя на нескольких бенчмарках своего прямого предка - SAM 2, а также многие supervised-решения(требующие дообучения под конкретный домен и задачу).
⏱ Читать статью
#почитать
В рамках данной статьи мы обсудим новое zero-shot решение (то есть способное справляться с задачей без дополнительного обучения на данных из конкретного домена) задачи Visual Object Tracking под названием SAMURAI(SAM-based Unified and Robust zero-shot visual tracker with motion-Aware Instance-level memory). Эта модель продемонстрировала хороший перфоманс в задаче визуального трекинга, обойдя на нескольких бенчмарках своего прямого предка - SAM 2, а также многие supervised-решения(требующие дообучения под конкретный домен и задачу).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5
Опыт работы с библиотекой h3: гексы, геопризнаки и Geo Feature Store
#почитать
«h3 — это система геопространственной индексации, использующая гексагональную сетку, которая может быть (приблизительно) разделена на всё более мелкие гексагональные сетки»
Проще говоря, это библиотека, которая разбивает мир на шестиугольники.
⏱ Читать статью
#почитать
«h3 — это система геопространственной индексации, использующая гексагональную сетку, которая может быть (приблизительно) разделена на всё более мелкие гексагональные сетки»
Проще говоря, это библиотека, которая разбивает мир на шестиугольники.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3
Умножение троичных матриц для нейросетей
#почитать
Как известно, при умножении матриц, мы строку левой матрицы умножаем на столбец правой, и результат записываем в соответствующую ячейку результирующей матрицы. Чтобы было быстрее, мы правую матрицу предварительно транспонируем: тогда строку левой будем умножать на строку правой. Иначе говоря, мы скалярно перемножаем два вектора из тритов, причём оба занимают непрерывную область памяти.
Предположим, что процессор ориентирован на 32-битную арифметику. Тогда разобьём строку матрицы на векторы по 32 трита. Каждый из этих векторов будем хранить в виде двух 32-битных целых чисел, назовём их «плюс-вектором» и «минус-вектором». Трит с номером N равен разности бита с номером N плюс-вектора, и бита с номером N минус-вектора. При этом нулевое значение трита кодируется двумя способами: когда оба бита равны 0, или когда они оба равны 1.
⏱ Читать статью
#почитать
Как известно, при умножении матриц, мы строку левой матрицы умножаем на столбец правой, и результат записываем в соответствующую ячейку результирующей матрицы. Чтобы было быстрее, мы правую матрицу предварительно транспонируем: тогда строку левой будем умножать на строку правой. Иначе говоря, мы скалярно перемножаем два вектора из тритов, причём оба занимают непрерывную область памяти.
Предположим, что процессор ориентирован на 32-битную арифметику. Тогда разобьём строку матрицы на векторы по 32 трита. Каждый из этих векторов будем хранить в виде двух 32-битных целых чисел, назовём их «плюс-вектором» и «минус-вектором». Трит с номером N равен разности бита с номером N плюс-вектора, и бита с номером N минус-вектора. При этом нулевое значение трита кодируется двумя способами: когда оба бита равны 0, или когда они оба равны 1.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Что такое конвергенция
#почитать
⏱ Читать статью
#почитать
Алгоритмы и модели машинного обучения оценивают по разным параметрам: от них зависит, насколько быстро и точно работает модель. Один из таких параметров — сходимость, или конвергенция алгоритма. Сходимость показывает, насколько быстро модель достигает «оптимума» — точки, за которой меньше ошибается и делает более точные прогнозы.
Разбираемся подробнее, что такое конвергенция, вместе с экспертом.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Понимают ли большие языковые модели данные из таблиц
#почитать
⏱ Читать статью
#почитать
Наша команда занимается интеллектуальной обработкой документов, и мы нередко сталкиваемся с документами, содержащими таблицы. Человек обычно анализирует их, опираясь на геометрию и визуал (границы ячеек, выделение заголовков, выравнивание текстов в ячейках). Таблицы — это двумерные объекты, языковые модели же работают с одномерными последовательностями токенов. Это наталкивает на вопрос: а насколько хорошо LLM справляются с анализом таблиц в документах?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4