📚 **Тема поста: Кластеризация данных с помощью метода k-средних на Python**
Кластеризация - это метод машинного обучения без учителя, который используется для группировки неотсортированных точек данных в кластеры. Метод k-средних - один из самых популярных методов кластеризации.
🔹 **Шаг 1:** Импортируем необходимые библиотеки:
```python
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
```
🔹 **Шаг 2:** Создадим искусственные данные для кластеризации:
```python
data, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)
plt.scatter(data[:,0], data[:,1])
```
🔹 **Шаг 3:** Применим метод k-средних:
```python
kmeans = KMeans(n_clusters=4)
pred_y = kmeans.fit_predict(data)
```
🔹 **Шаг 4:** Визуализируем результаты:
```python
plt.scatter(data[:,0], data[:,1])
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=300, c='red')
plt.show()
```
На графике точки разных цветов представляют разные кластеры, а красные точки - это центры кластеров.
Важно помнить, что метод k-средних работает лучше всего на данных, которые являются "сферическими" или "круглыми". Для более сложных форм данных могут потребоваться другие методы кластеризации.
#python #kmeans #clustering #machinelearning
Кластеризация - это метод машинного обучения без учителя, который используется для группировки неотсортированных точек данных в кластеры. Метод k-средних - один из самых популярных методов кластеризации.
🔹 **Шаг 1:** Импортируем необходимые библиотеки:
```python
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
```
🔹 **Шаг 2:** Создадим искусственные данные для кластеризации:
```python
data, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)
plt.scatter(data[:,0], data[:,1])
```
🔹 **Шаг 3:** Применим метод k-средних:
```python
kmeans = KMeans(n_clusters=4)
pred_y = kmeans.fit_predict(data)
```
🔹 **Шаг 4:** Визуализируем результаты:
```python
plt.scatter(data[:,0], data[:,1])
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=300, c='red')
plt.show()
```
На графике точки разных цветов представляют разные кластеры, а красные точки - это центры кластеров.
Важно помнить, что метод k-средних работает лучше всего на данных, которые являются "сферическими" или "круглыми". Для более сложных форм данных могут потребоваться другие методы кластеризации.
#python #kmeans #clustering #machinelearning