Визуализация - важный инструмент для понимания данных и их скрытой структуры. Сложности возникают, когда речь идёт о визуализации многомерных данных. Как представить что-то 4-х мерное, а что говорить о 300+ мерном? Нужно как-то понизить размерность, но при этом сохранить закономерности в данных.
Один известный способ PCA (Principal component analysis), это такой способ построить проекцию на пространство меньшей размерности.
t-SNE (t-distributed stochastic neighbor embedding) - ещё один очень хороший способ визуализировать многомерные данные. Метод показывает очень хорошие результаты, но при его использовании нужно понимать некоторые особенности, чтобы не допускать ошибок и не обмануть себя. https://distill.pub/2016/misread-tsne/ очень хорошая статься объясняющая эти важные особенности.
#ml #visualization #data #tsne
Один известный способ PCA (Principal component analysis), это такой способ построить проекцию на пространство меньшей размерности.
t-SNE (t-distributed stochastic neighbor embedding) - ещё один очень хороший способ визуализировать многомерные данные. Метод показывает очень хорошие результаты, но при его использовании нужно понимать некоторые особенности, чтобы не допускать ошибок и не обмануть себя. https://distill.pub/2016/misread-tsne/ очень хорошая статься объясняющая эти важные особенности.
#ml #visualization #data #tsne
Distill
How to Use t-SNE Effectively
Although extremely useful for visualizing high-dimensional data, t-SNE plots can sometimes be mysterious or misleading.