중화사전망 - 서예자전 - 밀도 클러스터링법은 샘플 간의 어떤 관계를 충분히 고려했습니까?

밀도 클러스터링법은 샘플 간의 어떤 관계를 충분히 고려했습니까?

밀도 클러스터 방법과 관련하여 샘플 간의 관계는 다음과 같이 충분히 고려됩니다.

밀도는 도달할 수 있다

밀도 클러스터 방법의 지침 아이디어는 샘플 점의 밀도가 특정 임계값보다 크면 샘플을 가장 가까운 클러스터에 추가하는 것입니다. 밀도 기반 클러스터링 알고리즘은 클러스터 구조가 샘플 분포의 밀도에 의해 결정될 수 있다고 가정하고 클러스터는 공간에 있는 데이터 세트의 밀도를 기준으로 합니다. 즉, 한 영역의 샘플 밀도가 임계값보다 크면 유사한 클러스터로 분류됩니다.

밀도 클러스터는 샘플 밀도의 관점에서 샘플 간의 연결을 살펴보고 연결 가능한 샘플에서 시작하여 최종 클러스터 결과를 얻을 때까지 확장합니다.

이 알고리즘은 거리 기반 알고리즘을 극복하고 "클래스 원형" (볼록) 클러스터의 단점만 발견할 수 있으며 노이즈 데이터에 민감하지 않은 임의 모양의 클러스터를 발견할 수 있습니다. 그러나 계산 밀도 단위는 계산 복잡도가 높기 때문에 계산 복잡성을 줄이기 위해 공간 색인을 작성해야 합니다. 일반적으로 사용되는 밀도 클러스터링 알고리즘으로는 DBSCAN, MDCA, OPTICS, DENCLUE 등이 있습니다.

DBSCAN 의 구체적인 구현 단계

1. 임의의 데이터 포인트부터 시작하여 거리 냄새 값 e 를 사용하여 해당 지점의 이웃을 추출합니다 .....

2. 이웃에 m 개 이상의 점이 있는 경우 해당 점은 핵심 객체이며 첫 번째 패밀리에 포함됩니다. 그렇지 않으면 점이 노이즈 점으로 표시됩니다. 이후 노이즈 점은 여전히 클러스터의 일부가 될 수 있습니다.

3. 패밀리의 핵심 오브젝트의 경우 해당 이웃의 점도 클러스터에 포함됩니다. 클러스터의 모든 점에 대해 해당 이웃을 추출하여 이웃 내의 점도 현재 가족에 속하는지 여부를 결정합니다.

4. 패밀리의 모든 점이 확인될 때까지 2-3 단계를 반복합니다. 즉, 이웃의 모든 점이 클러스터나 노이즈에 속하는 것으로 표시됩니다.

5. 현재 시리즈에서 이 작업을 완료하면 새 데이터 포인트부터 시작하여 다음 클러스터 또는 노이즈를 찾습니다. 모든 점이 액세스되고 마지막 각 점이 클러스터 또는 노이즈에 속하는 것으로 표시될 때까지 이 프로세스를 반복합니다.