재미난 공부들/세미나 및 교육 기록

[Data Robot 관련] AI와 비판적 사고: 아마존 AI 인터뷰 폐지 1

HR & 빅데이터 2020. 10. 9. 22:38

**내용 편집: 11/2020 일부 수정 및 이미지 삭제

 

출처: 아마존 AI 채용, '여성 차별'문제로 폐기...머신러닝의 한계인가? (원뉴스: 로이터통신 Amazon scraps secret AI recruiting tool that showed bias against women)

www.womentimes.co.kr/news/articleView.html?idxno=42020

www.reuters.com/article/us-amazon-com-jobs-automation-insight-idUSKCN1MK08G

 

 

 

 

AI에게 의사결정에 있어 어느정도까지 권한을 줄 수 있는가? 에 대한 생각이 많았었다.

공부를 해 보니, 아니... 얘가 왜 이런 결정을 내렸는지도 모르겠고... 너무 당연한 얘기인데 틀리다고 하고.... parameter 몇개 뺐는데 막 정확도가 올라가고.... 무튼 신뢰가 안가는 것이었다...

그래서 관련 공부를 지속한 후로는 오히려 이 기술들을 비판적으로 바라보고자 노력하는 편이다.

 

다음과 같은 이유들을 들 수 있겠다. 

 

 

1. (근본적으로) 확률 기반의 결과 값이기 때문에 100%의 정확도가 될 수 없다.

2. 기계 학습은 학습 데이터의 input에서 시작되며 그 퀄리티가 학습 결과에 영향을 끼친다.

ex. 만약, 학습데이터에 오류가 있다면 판단 능력에도 문제가 생긴다. (어떠한 의도를 가지고 수집된 데이터를 넣으면 의사결정이 편향될 수 있다.) 

ex. 학습 데이터가 제한적이라면 새로운 문제에 직면했을 때 알고리즘이 올바른 결과를 내지 못할 수 있다.

3. 머신러닝 알고리즘을 만드는 게 결국 사람이다. 엔지니어의 역량 (파라미터를 넣고, 빼고, 정확도+일관성+효율성을 유지하는 적절한 수준을 찾아내고, 데이터 전처리를 하고.. 등등) 에 따라 퍼포먼스도 달라진다. 

ex. A엔지니어의 알고리즘은 정확도 91퍼센트이고, B엔지니어의 알고리즘은 정확도 86퍼센트이다. 

4. Black-box의 개념: 딥러닝 모델의 경우 개발자조차 왜 기계가 그런 결정을 내렸는지 모른다. 

 

 

이 문제들에 관해서 추후 포스팅할 것이 많을 것 같다....

 

 

 


 

 

 

 

 

 

 

아마존의 AI채용 폐지 관련해서도 예전부터 포스팅 하고 싶었었는데, 오늘부터 차근차근 해보려 한다. 

 

아래의 내용은 관련 기사 일부이다.

요약하자면, 아마존이 개발한 이력서 스크리닝 모델은 여성보다 남성 지원자를 선호하는 경향이 있어 채용 공정성을 해치므로 폐지되었다는 이야기이다.

 

 

 

(관련 기사 이미지)

 

 

 

 

 

 

 

 

 

 

 

 

 

음............

 

 

 

 

 

 

 

 

 

 

 

왜 그런 것일까?

 

 

여러 이유가 있겠지만, 인풋 데이터가 남성 중심인 것도 하나의 원인일 수 있다 생각한다. 

(2. 기계 학습은 학습 데이터의 input에서 시작되며 그 퀄리티가 학습 결과에 영향을 끼친다. 와 관련이 있다.) 

 

기계학습은 인풋된 데이터를 기반으로 나름의 의사결정 메커니즘을 구성한다.

즉, 본인이 배운 데이터가 그 기계의 세계관 그 자체이다.

좀 느슨하게 배우면 모르겠는데, 그 데이터만 달달 외워버리게 되면 배운 것 외에는 아무것도 못하는 편협한 기계가 된다.

 

 

이런 현상을 머신러닝에서는 과대적합 (over-fitting)이라고 한다.

 

 

 

 

 

 

채용 관련 머신러닝 모델은 기본적으로 다음의 맥락을 따를 것이다.

 

1. 수많은 기존 직원들의 데이터를 분석해서

2. 실제 현장에서 좋은 퍼포먼스를 냈던 직원의 특성을 추려내서

3. 그 특성에 영향을 주는 인자를 뽑아내서

4. 그 인자가 새로 받은 이력서에 있는지 검토하는 것!

 

아마존의 경우 아마 1의 기존직원 데이터도, 2의 좋은 퍼포먼스를 냈던 직원들도 남자의 비율이 높을 것이다. 

 

 

왜냐면...?

Tech 기업 특성상 남자가 많기 때문이다.... 

(출처: recruitinginnovation.com/blog/diversity-in-tech/)

 

 

 

2017년자 구글 Tech 인원의 약 80퍼센트(83%)가 남자이다. 

 

 

 

 

 

 

구글 자료긴 하지만 아마존의 Diversity도 비슷할 것이라 생각한다.

즉, 기계가 학습한 데이터는 남자 지원자에 최적화되어 있으며 학습한 범위 밖의 데이터 (여자지원자)를 주면 올바른 판단을 내릴 능력도 없고 더 나아가 아예 틀린 사고방식으로 의사결정을 할 수 있다. 

 

 

 

 

 

예컨대 오른쪽의 그림처럼 기존 알던 애들과 달라! 틀려 틀려! 이런애는 본적도 들은적도 없어! 이러면서 여자지원자들을 건너뛰는 현상이 일어날 수 있다는 것.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

이유를 찾자면 끝도 없을 것이지만, 여튼 문제가 많은 모델로 판명......

 

 

 

 

 

 

 

2014년에 팀을 꾸렸다는데.. 정말 빠르긴 빠르다는 생각이 든다.

앞으로 이 부분을 더 보완해서 진화해 나가겠지만, 어쨌든 기사처럼 머신러닝의 한계를 보여줬다는 점에서 의미 있는 사건이라고는 생각한다.