Shamaniks's stdout

Так, вчера вроде-бы я сделал аугментацию и динамическую загрузку батчей. Ещё вчера занимался обучением модели, но пост об этом не писал. Значит сегодня про модель.

Над моделью я долго не думал, я честно повзаимствовал готовую архитектуру, оптимизированную под mnist (датасет из рукописных цифр). Сам mnist оказывается 28х28 пикселей, а это значит, что я смогу увеличить размер своих символов на обработке (сейчас у меня 16х16)

О самой модели: она называется LeNet, а точнее я беру только архитектуру (так как у меня не цифры). Сама модель очень хорошо зарекомендовала себя в mnist, выдаёт точность 98.4% по данным из википедии, 99.45% по данным из статьи на kaggle (ссылки ниже).

Кто придумал LeNet? ОПЯТЬ ОНИ. Мои одногруппники вспомнят таких чуваков, как Bell Labs (aka AT&T Bell Laboratories). По программе нам уже встретились их разработки как алгоритм Прима и ЯП AWK. Дополню, что они создали ещё и Unix, который стал основой для Linux, MacOS и других систем. Разработали Unix они на C, который тоже их разработка. Ну и сверху они разработали C++. Теперь к этому списку прибавляется LeNet (прикол, если другие архитектуры тоже они разработали, просто мы не знали).

AWK - язык программирования для работы с табличными текстовыми данными, в основном по типу csv.

model = models.Sequential([
        # Первый свёрточный блок
        layers.Conv2D(6, kernel_size=(5, 5), activation='relu', input_shape=input_shape),
        layers.MaxPooling2D(pool_size=(2, 2)),

        # Второй свёрточный блок
        layers.Conv2D(16, kernel_size=(5, 5), activation='relu'),
        layers.MaxPooling2D(pool_size=(2, 2)),

        # Полносвязные слои
        layers.Flatten(),
        layers.Dense(120, activation='relu'),
        layers.Dense(84, activation='relu'),
        layers.Dense(num_classes, activation='softmax')
 ])

Это обычная CNN, разбор здесь я писать не буду. Потребуется - напишу в отдельном посте за каждый слой.

Модель готова, остаётся обучить и проверить. Кто помнит про разделение на обучающую выборку и валидационную? Модель при обучении проходит обучающую выборку, считает точность и потери, меняет параметры. Механизм там описывается немного не в 20 слов, но выглядит примерно так. Валидационная выборка в обучение не попадает, её модель видит впервые и никогда не изучает его. Представьте, что вы учитесь решать примеры из учебника по математике на квадратные уравнения, а потом я даю квадратное уравнение из головы, чтобы проверить, насколько хорошо вы его решаете. Такая проверка позволяет определить вы научились решать уравнения или запомнили ответы. Ситуация, когда нейросеть запоминает ответы называется переобучением (я про него уже говорил и даже объяснял тут). Проще говоря с помощью валидации мы следим, что нейросеть не переобучается.

Ещё выделяют и тестовую выборку (скорее даже тестовую выделяют чаще). Тестовую выборку, в отличии от валидационной, запускают после обучения, чтобы проверить реальную точность (соотношение правильных ответов ко всем проверкам), но мне приятнее работать с валидационной. Конкретно финальный тест можно выполнить даже на более реальном кейсе (то есть я нарисую новые символы и проверю на них). Душевно я чувствую себя спокойнее от такого подхода, хотя с точки зрения логики это неэффективно

Вики: https://en.wikipedia.org/wiki/LeNet
Кага: https://www.kaggle.com/code/roblexnana/mnist-digit-recognition-with-lenet-on-keras

Wikipedia

LeNet

type of convolutional neural network

24 views07:35