재미난 공부들 44

생존분석: 시간에 따른 사건 발생(하지 않을)확률 모델(Survival Analysis for Modeling Singular Events Over Time)

9. Survival Analysis for Modeling Singular Events Over Time (출처: https://peopleanalytics-regression-book.org/survival.html) 본 포스팅은 위 링크 문서(Handbook of Regression Modeling in People Analytics)를 한국어로 번역한 것입니다. "Handbook of Regression Modeling in People Analytics: With Examples in R, Python and Julia" was written by Keith McNulty. *본 내용의 심화된 포스팅은 PA201스터디 페이지(추후 추가 예정) 에 업로드 될 예정입니다. 이전 장에서 우리가 모델링..

AI인터뷰 - 사용자 경험(Candidate Experience)의 연계

*메모 형식 포스트 입니다. 추후 정제된 형태로 업로드 예정입니다. *참고 논문: 인공지능 기반 인터뷰 시스템 사용 의도의 선행요인 규명 : 공존감과 신뢰감, 지각된 유용성, 지각된 사용 용이성을 중심으로 (곽명숙, 2021, 이화여자대학교) 1. Key words/concepts:사용 의도 - 기술 수용 모델(TAM; Technology Acceptance Model) = 잠재적 사용자의 성향으로 정의될 수 있음 (Swanson, 1988)인공지능 인터뷰를 사용하는 행위는, 본인이 자유의지를 가지고 사용 권한을 부여받아 수행할 수 있는 행위라고 가정하며, TAM은 사용자의 사용 의도를 설명할 수 있는 타당한 모형 (실제 사용 행위를 예측할 수 있는 가장 직접적인 변수).TAM에서는 사용자의 사용 의도 ..

SQL 인사 DB - Employees DB(MySQL); Company DB(Fundamentals of DB Systems); 및 테이블 검색/집계함수/JOIN등 연습

SQL 에서의 인사 데이터베이스들 소개 1. MySQL - Employees DB Python 패키지 붓꽃 데이터나 타이타닉 데이터처럼 MySql도 교육용 데이터를 제공해주는데, 또 마침 인사데이터이다. ^^ 출처: https://dev.mysql.com/doc/employee/en/sakila-structure.html 총 6개의 테이블(Relation..)으로 구성되어 있다. 2. Fundamentals of Database Systems - Company DB 대학원 교재에 수록되어 있는데 대표적인 것 몇개만 가져와 본다. SQL 구문연습 (검색) 1. 모든 사원에 대해서 5000 달러의 급여Salary 인상을 계산한 후, 이름, 급여, 인상된 급여 출력하시오. SELECT Fname, minit,..

재미난 공부들 2023.05.22

기업 공시 데이터 (재무데이터) 분석을 위한 dart-fss 패키지

https://dart-fss.readthedocs.io/en/latest/ DART-FSS — dart-fss documentation v0.3.10 documentation © Copyright 2021, Sungwoo Jo Revision 60fa916c. dart-fss.readthedocs.io 대한민국 금융감독원에서 운영하는 다트(DART) 사이트 크롤링 및 재무제표 추출을 위한 라이브러리. 물론 직접 코드를 짜는 것 보다는 디테일면에서 떨어지겠지만 정말 편하다. 어짜피 재무데이터라고 하면 가져오는 데이터가 비슷비슷 하기 때문에 라이브러리를 쓰는 것도 좋은 선택일 것 같음.

[논문 리뷰] Pretrained Language Models for Sequential Sentence Classification (EMNLP 2019)

2019년 EMNLP논문.. 당시에는 최신 기술이었으나 지금은 저렇게 pretrain 하는게 일반적인 방법으로 자리 잡았다고 함. *원문 출처: https://aclanthology.org/D19-1383.pdf ABSTRACT 번역 더 나은 document-level understanding을 위해, 우리는 Sequence of sentences (문장들의 순서) 의 분류를 알맞은 카테고리로 분류하려 한다. 이 작업을 위해서는 해당 문서 내의 context문맥 내에서 sentence들을 이해해야 한다. 이 작업을 위한 최근의 성공적인 모델들은 1) sentence representations를 contextualize 하기 위한 계층적 모델들을 사용했다. 2) 또한 이어지는 subsequent연속적인 ..

재미난 공부들 2022.11.24

Seaborn barplot의 오차막대(error bar) 에 대해

Black error bar (ci) seaborn.barplot() 에서 그래프를 구현하다보면 보게 되는 까만색 샤프심, 오차막대 (error)라고 불린다. 기본적으로 함께 나타나도록 세팅되어 있으며, ci = 파라미터를 통해 조정 가능 이 막대의 범위는 '부트스트랩 신뢰구간(Bootstrap Confidence Interval) 을 나타낸다. 해석: 이 데이터를 기반으로, 유사한 100가지의 케이스에서 95개 이상은 해당 범위에서 결과를 얻음을 의미 평균(mean), 중앙값(median), 최빈값(mode)등의 다른 값들을 함께 고려했기 때문에 신뢰성 있는 수치임 기본값은 95% 신뢰구간이나 (ci = 95), 표준편차를 표현하고 싶다면 ci = 'sd' 로 지정 가능 seaborn.barplot()..

재미난 공부들 2022.08.12

[AIHR] Global Data Integrity 글로벌 데이터의 정확성/일관성 관리

Data Integrity란 무엇인가? Data Integrity란, 데이터의 "정확성" 그리고 "일관성"이다. HR에서의 Data Integrity 범위 HR시스템에 저장되어 있거나, 기타 HR적 업무를 할 때 필요한 모든 인사 데이터 때에 따라서 재무데이터 + 외부 서베이/산업군 내 데이터 포함할 수 있음. 용어 정리 로컬 HR (Practitioner) : 나라단위/리전 단위로 해당 국가 HR업무를 수행하는 사람 데이터는 HRIS, Organization Development, 보상 설계 를 근간으로, ER, compensation & Benefit으로 흐른다. 글로벌 데이터 통합의 중요성 HR데이터의 신뢰성 측면에서: Payroll, Benefit, Recruitment등 핵심(코어) 기능에서의 ..

퇴사 예측 Basic (LogisticRegression을 활용한 Attrition Prediction)

*edit: classification report 오류 수정 (06/09/22) 오늘은 퇴사 예측 모델을 만들어 볼 계획이다. EDA과정을 충분히 거치고 진행하면 더 좋겠지만 우선 아주 러프하게 모델만 돌려보도록 하자. 사용할 데이터는 IBM에서 배포한 Attirition 데이터, 캐글에서 가장 유명한 데이터다! 총 1470 (명) X 35 (개의 column)으로 되어있다. 데이터는 간단한 전처리 과정과 필요없는 컬럼을 제거하고 1470 X 31 개만 남겼다. 사용할 모델은 LogisticRegression 로지스틱회귀모델이다. 이름은 회귀이지만 사실 기능적으로 Classifier분류모델 이다. 범주형/연속형 X변수를 통해 Y이진분류를 할 수 있다. 첫번째, 기본(Baseline) 버전. 위는 해당 ..

[논문 읽기] 조직 내 '뇌과학적' 다양성 확립 Building a Neurodiverse Workforce

요즘 화제인 '이상한 변호사 우영우' 드라마의 내용과 연결되는 측면이 있다. '뇌과학적 다양성' 이란 스펙트럼적 개념이다. 즉, 정신의학적으로 장애가 있다기 보다는 그런 경향성을 띈다는 것이다. 처음에 이 논문을 읽었을 때에는 시대를 너무 앞서지 않았나? 라는 생각도 들었다. 하지만, 자폐인 변호사 이야기가 대중들에게 받아들여지고 있고, 고증도 잘 되었다는 평이 있는 것을 보면... 비즈니스에도 충분히 적용할 수 있을 것 같다. ^^ (2022.07.28 수정) 흥미로운 논문을 하나 발견했다. 제목은 "Building a Neurodiverse High-tech Workforce", "하이테크 인력관리에서의 (뇌과학 측면의) 다양성 확보" 정도로 번역할 수 있겠다. 아래는 간단한 요약(의역), 필자의 해..

회귀분석 Regression, HR에서의 활용 예시

회귀분석 Regression Analysis 독립변수로 (아직 데이터가 없는) 종속변수를 예측하는 것 독립변수는 변수에 영향을 주는 원인이 모델 밖에 있고, 종속변수는 안에 있음 ex. 대기 오염 정도(독립)가 올라가면 호흡기 질환자 수(종속)가 늘어난다 일반적으로 종속변수가 연속형일 때 (넓게 봐서, 종속변수가 범주형이면 "분류분석") 좁은 의미로는 "선형" 회귀분석만을 말하기도 함 독립변수와 종속변수 사이에 "직선적인 형태의 관계가 있다" 는 가정 즉, 독립변수의 증가분은 종속변수의 증가분과 (반비례) 관계 회귀 계수 Regression Coefficient y = [Coefficient] x + [intercept] 독립변수 x가 1 증가할 때마다 종속변수 y는 [Coefficient] 만큼 증가한..