재미난 공부들/People Analytics 공부 기록 8

생존분석: 시간에 따른 사건 발생(하지 않을)확률 모델(Survival Analysis for Modeling Singular Events Over Time)

9. Survival Analysis for Modeling Singular Events Over Time (출처: https://peopleanalytics-regression-book.org/survival.html) 본 포스팅은 위 링크 문서(Handbook of Regression Modeling in People Analytics)를 한국어로 번역한 것입니다. "Handbook of Regression Modeling in People Analytics: With Examples in R, Python and Julia" was written by Keith McNulty. *본 내용의 심화된 포스팅은 PA201스터디 페이지(추후 추가 예정) 에 업로드 될 예정입니다. 이전 장에서 우리가 모델링..

AI인터뷰 - 사용자 경험(Candidate Experience)의 연계

*메모 형식 포스트 입니다. 추후 정제된 형태로 업로드 예정입니다. *참고 논문: 인공지능 기반 인터뷰 시스템 사용 의도의 선행요인 규명 : 공존감과 신뢰감, 지각된 유용성, 지각된 사용 용이성을 중심으로 (곽명숙, 2021, 이화여자대학교) 1. Key words/concepts:사용 의도 - 기술 수용 모델(TAM; Technology Acceptance Model) = 잠재적 사용자의 성향으로 정의될 수 있음 (Swanson, 1988)인공지능 인터뷰를 사용하는 행위는, 본인이 자유의지를 가지고 사용 권한을 부여받아 수행할 수 있는 행위라고 가정하며, TAM은 사용자의 사용 의도를 설명할 수 있는 타당한 모형 (실제 사용 행위를 예측할 수 있는 가장 직접적인 변수).TAM에서는 사용자의 사용 의도 ..

[AIHR] Global Data Integrity 글로벌 데이터의 정확성/일관성 관리

Data Integrity란 무엇인가? Data Integrity란, 데이터의 "정확성" 그리고 "일관성"이다. HR에서의 Data Integrity 범위 HR시스템에 저장되어 있거나, 기타 HR적 업무를 할 때 필요한 모든 인사 데이터 때에 따라서 재무데이터 + 외부 서베이/산업군 내 데이터 포함할 수 있음. 용어 정리 로컬 HR (Practitioner) : 나라단위/리전 단위로 해당 국가 HR업무를 수행하는 사람 데이터는 HRIS, Organization Development, 보상 설계 를 근간으로, ER, compensation & Benefit으로 흐른다. 글로벌 데이터 통합의 중요성 HR데이터의 신뢰성 측면에서: Payroll, Benefit, Recruitment등 핵심(코어) 기능에서의 ..

퇴사 예측 Basic (LogisticRegression을 활용한 Attrition Prediction)

*edit: classification report 오류 수정 (06/09/22) 오늘은 퇴사 예측 모델을 만들어 볼 계획이다. EDA과정을 충분히 거치고 진행하면 더 좋겠지만 우선 아주 러프하게 모델만 돌려보도록 하자. 사용할 데이터는 IBM에서 배포한 Attirition 데이터, 캐글에서 가장 유명한 데이터다! 총 1470 (명) X 35 (개의 column)으로 되어있다. 데이터는 간단한 전처리 과정과 필요없는 컬럼을 제거하고 1470 X 31 개만 남겼다. 사용할 모델은 LogisticRegression 로지스틱회귀모델이다. 이름은 회귀이지만 사실 기능적으로 Classifier분류모델 이다. 범주형/연속형 X변수를 통해 Y이진분류를 할 수 있다. 첫번째, 기본(Baseline) 버전. 위는 해당 ..

[논문 읽기] 조직 내 '뇌과학적' 다양성 확립 Building a Neurodiverse Workforce

요즘 화제인 '이상한 변호사 우영우' 드라마의 내용과 연결되는 측면이 있다. '뇌과학적 다양성' 이란 스펙트럼적 개념이다. 즉, 정신의학적으로 장애가 있다기 보다는 그런 경향성을 띈다는 것이다. 처음에 이 논문을 읽었을 때에는 시대를 너무 앞서지 않았나? 라는 생각도 들었다. 하지만, 자폐인 변호사 이야기가 대중들에게 받아들여지고 있고, 고증도 잘 되었다는 평이 있는 것을 보면... 비즈니스에도 충분히 적용할 수 있을 것 같다. ^^ (2022.07.28 수정) 흥미로운 논문을 하나 발견했다. 제목은 "Building a Neurodiverse High-tech Workforce", "하이테크 인력관리에서의 (뇌과학 측면의) 다양성 확보" 정도로 번역할 수 있겠다. 아래는 간단한 요약(의역), 필자의 해..

회귀분석 Regression, HR에서의 활용 예시

회귀분석 Regression Analysis 독립변수로 (아직 데이터가 없는) 종속변수를 예측하는 것 독립변수는 변수에 영향을 주는 원인이 모델 밖에 있고, 종속변수는 안에 있음 ex. 대기 오염 정도(독립)가 올라가면 호흡기 질환자 수(종속)가 늘어난다 일반적으로 종속변수가 연속형일 때 (넓게 봐서, 종속변수가 범주형이면 "분류분석") 좁은 의미로는 "선형" 회귀분석만을 말하기도 함 독립변수와 종속변수 사이에 "직선적인 형태의 관계가 있다" 는 가정 즉, 독립변수의 증가분은 종속변수의 증가분과 (반비례) 관계 회귀 계수 Regression Coefficient y = [Coefficient] x + [intercept] 독립변수 x가 1 증가할 때마다 종속변수 y는 [Coefficient] 만큼 증가한..

유럽 정보 보호 기준(2018) 의 HR 적용 방안

데이터의 중요성이 증가하면서 그에 맞는 법제/윤리기준도 생겨나고 있다. 민감정보를 많이 다루는 HR Data Analysis의 특성상 데이터 관리에서의 Risk management도 중요할 것인데, 그에 관한 상세한 설명을 하고 있다. 유럽의 법안이므로, 글로벌 회사에서 HR을 담당하시는 분들은 흥미로울 것 같다. Workday에서 주최했던 Pandemic과 HR의 대응방안 워크샵에서 다뤘던 어젠다와 결부시켜 생각해볼 수도 있겠다. 도입부 해석을 추가하니, 관심이 있으신 분은 아래 링크를 참고하여 전문을 읽어보시기를 추천한다. 8 Aspects of GDPR Compliance: A Brief Guide for HR Functions ​With only a few weeks to go until the ..

퇴사에 영향을 줄 수 있는 연속형 변수 시각화

*공부 기록용 포스팅입니다. 1. 만족도 만족도가 낮은 쪽에서 퇴사자 비율이 높은 것은 당연한 것으로 보인다. 특히 0.4 주변의 퇴사자 비율이 아주 높다. 만족도 0.5를 기준으로 낮은 집단, 높은 집단을 구분하면 낮은 집단이 퇴사자 비율이 높다. 궁금한 것은 약 0.7에서 0.9 주변까지의 아주 높은 만족도를 보인 사람도 퇴사를 했다는 것. 이 집단은 회사에 불만이 있어서라기 보다는 회사 외부의 더 좋은 조건이나 개인적인 요인이 있지 않을까 생각해본다. 0부근에서 퇴사자 비율이 거의 1에 가까운 것은 데이터 자체가 적어서 그럴 것 같다. 확인이 필요한 부분. 스케일링 전의 raw data를 보면 도드라지게 비율이 높고/낮은 부분에 대한 인사이트를 얻을 수 있을 것 같다. 2. 월 평균 근무시간 월 평..