1. 군집분석을 어디에 쓰는가?
- 적용 예시: 어떤 대상들 사이의 공통적 취향/성질 규명 > 그룹화 -> 타겟팅 가능한 모든 것.
- 주로 타겟광고에서 쓰임 (고객 그룹화 -> 공통적인 취향/성질 별로 다른 광고 제공)
1.5. 인사(Human Resources)영역에서의 응용 예시?
- 직원의 성과 분류 및 교육 지원: 직원의 성과나 생산성에 따라 그룹을 나누고, 특정 그룹에게 필요한 지원 및 교육 훈련 결정에 사용
- 직무 만족도와 이직 의도 분석: 직원들의 만족도, 이직 의도, 커리어 발전 등의 다양한 변수를 기반으로 군집화하여 특정 그룹의 요구나 우려사항을 파악
- 내/외부 채용 관리(가장 직관적인 예시일 듯): 지원자의 스킬, 경험, 학력 등의 변수를 군집화하여 최적의 인재 프로필을 찾거나, 특정 직무에 가장 적합한 지원자 그룹을 식별.
- 직원 복지 최적화: 직원들의 선호나 요구사항에 따라 군집화하여, 각 그룹에 맞는 복지 및 혜택 패키지를 설계하거나 개선.
- 조직 문화 및 직원의 가치관 분석: 군집 분석을 활용하여 직원들의 가치관이나 조직 문화에 대한 인식을 그룹화하여, 조직 내에서의 다양한 문화나 가치관을 이해/관리
- 퇴직률 예측 및 관리: 직원들의 퇴직 이유, 근무 기간, 성과 등의 데이터를 군집화하여, 퇴직률을 예측하거나 퇴직을 줄이기 위한 전략을 수립.
2. 군집분석의 개념:
군집의 개수나 구조에 관한 특별한 가정 없이 개체들 사이의 유사도에 근거하여 자연스러운 군집을 찾고, 다음 단계의 분석을 꾀하는 탐색적인 통계분석 기법. 풀어서 보자면 아래와 같음.
- 군집의 개수나 구조에 관한 특별한 가정 없이
- 분석을 시작할 때 군집의 수나 어떻게 구성될지에 대한 사전 지식이나 특별한 가정이 필요하지 않음. 즉, 데이터가 주어지면 그 데이터 자체의 정보만으로 군집화를 수행함.
- 개체들 사이의 유사도에 근거하여
- 군집분석에서 가장 중요한 것은 데이터 포인트(또는 '개체') 간의 유사도임. 이 유사도는 거리 측정 방법(ex. 유클리디안 거리, 맨하탄 거리 등)을 사용하여 계산되며, 유사도가 높은 데이터끼리 군집으로 묶이게 됨.
- 자연스러운 군집을 찾고 다음 단계의 분석을 꾀하는
- 데이터의 내재적인 구조/패턴을 기반으로 '자연스럽게' 형성되는 군집을 찾는 것을 목표로 함. 연구자가 강제로 분류 기준을 정한 것이 아니라, 데이터 자체에서 나타나는 유사성에 따라 그룹화가 이루어진다는 것을 의미함.
- 군집분석 후에는 1)각 군집의 특성을 파악하거나, 2) 다른 분석 기법을 적용하여 군집 간 차이를 검증하거나, 3) 군집 내의 패턴을 더 깊게 탐색하는 등의 추가 분석을 수행할 수 있음.
- 탐색적인 통계분석 기법이다.
- 주어진 데이터의 구조나 패턴을 처음부터 찾아보는, 즉 "아직 알려지지 않은" 정보를 데이터를 통해 파악하려는 접근법. 열린 결말처럼 일단 데이터를 들여다보면서 숨겨진 그룹이나 패턴을 찾아내게 됨.
3. 군집분석의 두가지 종류 중 첫번째: 계층적 군집분석 (Hierarchical Clustering)
: 데이터 포인트를 계층적으로 구성된 군집 트리(주로 Dendrogram)로 나타내는 방법.
계층적 군집분석의 방법
- 병합적(Agglomerative): 개별 데이터포인트에서 시작, 가장 유사한 것끼리 단계적으로 합쳐가며 최종적으로 하나의 큰 군집이 됨)
- 분할적(Divisive): 모든 데이터포인트를 포함하는 하나의 큰 군집에서 시작하여 점점 더 작은 군집으로 분할
계층적 군집분석의 장점
- Dendrogram을 통해 군집 구조 및 계층을 시각적으로 확인할 수 있음
- 군집의 개수를 미리 지정할 필요가 없음
계층적 군집분석의 단점
- 큰 데이터셋에서는 계산 효율성이 떨어질 수 있음
- 한번 합쳐진 데이터는 나중에 분리되지 않음. (그래서 다른 분석방법이랑 섞어 쓰는게 좋음~!)
3. 군집분석의 두가지 종류 중 두번째: 비계층적 군집분석 (Non-Hierarchical Clustering)
: 주어진 데이터를 미리 지정된 k개의 군집으로 나눔 (ex. K-means Clustering)
비계층적 군집분석의 방법
- k개의 중심점(centroid) 임의 선택
- 각 데이터포인트를 가장 가까운 중심점의 군집에 할당함 (중심점을 A,B 두개로 설정했다고 하면 나머지 데이터들에게 전부 "너 A랑 더 가까워 B랑 더 가까워?" 물어봐서 전부 A속성, B속성 이름표를 달아준 셈..)
- 중심점을 군집의 평균 위치로 업데이트
- 다시 위의 과정을 전부 다에게 다시 물어보고, 이름표 바뀌면 A->B로, B->A로 바꿔 달아줌.
- 중심점을 군집의 평균 위치로 업데이트
- **시각화 자료로 보는게 더 편하다,, (1분 40초~ 부터 시작) https://youtu.be/R2e3Ls9H_fc
비계층적 군집분석의 장점
- 대량 데이터에 대해 빠르게 수행 가능함 (계산량 적음)
비계층적 군집분석의 단점
- 군집 개수 k를 미리 지정해야 함. (어떤 데이터인지 파악이 안된 상태에서 적절한 k를 선정할 수 있을까? 의 문제)
- 초기 중심점의 선택에 따라 결과가 달라질 수 있음
4. 계층적, 비계층적 군집분석의 주요 차이점
계층 | 비계층 | |
구조 | 트리형태 | 평평함 |
군집 개수 | 미리 지정할 필요가 없음 | 미리 "적절한" k값 지정해야 함 |
알고리즘 복잡성 | 데이터가 커지면 계산 복잡성 크게 증가 | 대량 데이터에도 적용 가능 |
결과 안정성 | 안정적임 (결과 달라지지 않음) | 초기값 선택에 따라 결과 달라질 가능성 |