Skip to main content

상관 관계 클러스터링이란 무엇입니까?

상관 관계 클러스터링은 데이터베이스 및 기타 대형 데이터 소스에서 수행되어 유사한 데이터 세트를 함께 그룹화하는 한편, 사용자에게 다른 데이터 세트를 경고합니다.이것은 일부 그래프에서 완벽하게 수행 될 수 있으며, 다른 그래프는 비슷한 데이터와 유사하게 구별하기가 어렵 기 때문에 오류가 발생합니다.후자의 경우 상관 관계 클러스터링은 오류를 자동으로 줄이는 데 도움이됩니다.이것은 종종 데이터 마이닝 또는 유사성에 대한 다루기 힘든 데이터를 검색하는 데 사용됩니다.다른 데이터는 일반적으로 삭제되거나 별도의 클러스터에 배치됩니다.

상관 관계 클러스터링 함수를 사용하는 경우 사용자의 지침에 따라 데이터를 검색합니다.사용자는 프로그램에 검색 할 내용과 발견 된 위치에 데이터를 배치 할 위치를 알려줍니다.이것은 일반적으로 불가능할 때 매우 큰 데이터 소스에 적용됩니다 mdash;또는 너무 많은 시간과 mdash;수동으로 데이터를 검색합니다.완벽한 클러스터링 또는 불완전한 클러스터링이있을 수 있습니다.

완벽한 클러스터링이 이상적인 시나리오입니다.이것은 두 가지 유형의 데이터만이 있으며, 하나는 사용자가 찾고있는 반면 다른 하나는 필요하지 않습니다.모든 양의 또는 필요한 데이터는 하나의 클러스터에 배치되고 다른 데이터는 삭제되거나 이동합니다.이 시나리오에서는 혼란이없고 모든 것이 완벽하게 작동합니다.예를 들어, 그래프에는 X, Y 및 Z. X의 세 가지 변수가 있습니다.세 가지 변수 클러스터는 매우 유사하기 때문에 완벽한 상관 관계 클러스터링을 갖는 것은 불가능합니다.이 프로그램은 긍정적 인 상관 관계의 수를 최대화하기 위해 작동하지만 사용자의 일부 수동 검색이 필요합니다.

데이터 마이닝에서, 특히 큰 데이터 세트를 처리 할 때 상관 관계 클러스터링은 유사한 데이터로 유사한 데이터를 그룹화하는 데 사용됩니다.예를 들어, 대규모 웹 사이트 또는 데이터베이스에 대한 비즈니스 마이닝 데이터가 특정 측면에 대해서만 알고 싶다면 해당 측면에 대한 모든 데이터를 검색하는 데 영원히 시간이 걸립니다.클러스터링 공식을 사용함으로써 데이터는 적절한 분석을 위해 따로 설정됩니다.정보는 다른 프로젝트에 유용 할 수 있기 때문에 사용자는 다른 클러스터에 다른 클러스터를 보낼 수 있습니다.데이터에 필요하지 않고 메모리를 낭비하는 경우 다른 정보가 버려집니다.불완전한 클러스터링에서는 사용자가보고있는 데이터와 너무 유사하기 때문에 일부 다른 정보가 버리지 않을 수 있습니다.