Bayesian Noise
61 subscribers
57 photos
234 links
Канал @nesterione. Посты про ИТ, машинное обучение, рациональность, иногда просто заметки и наблюдения.

з.ы. картинка не картинка...
Download Telegram
И ещё один пост про тексты, только на этот раз про красивые визуализации семантических векторов. Звучит сложно, но идея простая: давайте подберём каждому слову числовой вектор, и так, чтобы похожие по смыслу слова имели вектора близко расположенные в пространстве.

Когда-то я уже публиковал похожую демку https://t.me/tj4me/40, а вот теперь нашёл ещё одну от tensorflow https://projector.tensorflow.org/

#nlp #ai #demo #visualization
Визуализация - важный инструмент для понимания данных и их скрытой структуры. Сложности возникают, когда речь идёт о визуализации многомерных данных. Как представить что-то 4-х мерное, а что говорить о 300+ мерном? Нужно как-то понизить размерность, но при этом сохранить закономерности в данных.

Один известный способ PCA (Principal component analysis), это такой способ построить проекцию на пространство меньшей размерности.

t-SNE (t-distributed stochastic neighbor embedding) - ещё один очень хороший способ визуализировать многомерные данные. Метод показывает очень хорошие результаты, но при его использовании нужно понимать некоторые особенности, чтобы не допускать ошибок и не обмануть себя. https://distill.pub/2016/misread-tsne/ очень хорошая статься объясняющая эти важные особенности.

#ml #visualization #data #tsne
Полезный kernel на kaggle. Почти всегда решение задачи машинного обучения начинается с исследования данных. Лучший способ понять данные, это различного рода визуализации. Ноутбук изобилует разными графиками и диаграммами https://www.kaggle.com/hely333/what-is-the-secret-of-academic-success

Все эти графики несомненно можно построить в excel, но использовать для этих целей python+juputer это другой уровень, одновременно работающий код, и отчёт, который можно показать заказчику. Вы можете перезапускать код, если изменились данные, и таким образом сразу обновить отчёт.

Определённо буду использовать данный ноутбук как пример для следующего проекта.

#data #exploration #analysis #visualization
Многие задаются вопросом, что значит обучение нейронной сети? Что значат все эти параметры и как они влияют на обучение сети.

Обучение сети — решение некоторой оптимизационной задачи, нахождение таких значений весов сети, при которых вы будете получать минимальное количество ошибок на ваших тренировочных данных (что именно значит ошибка для вашей задачи описывается некоторой функцией потерь)

Вы возможно знаете про старую демку от google https://playground.tensorflow.org где можно выбрать разные параметры и посмотреть, как и что работает.

Недавно вышел крутой блог пост от deeplearning.ai, где они очень подробно рассказали про обучение сети https://www.deeplearning.ai/ai-notes/optimization/ (там всё интерактивно, можно кликать, настраивать, смотреть) — кажется это наиболее полезная вводная статья для понимания как учится сеть.

#learn #deeplearning #link #visualization
Очень наглядная визуализация с введением в машинное обучение http://www.r2d3.us/visual-intro-to-machine-learning-part-1/ Там нет формул, только данные и графики, всё красиво и просто. Если вас просят объяснить как работает машинное обучение, просто покажите эту ссылку.

#visualization #tutorial