[Data Robot 세미나] AI와 비판적 사고: 아마존 AI 인터뷰 폐지 2
Data Robot에서 주최한 웨비나 후기..
알고있고 믿고 있던 것과 다른 점이 있어 흥미로웠다. 심지어 내가 쓴 앞의 포스팅 내용과도 다르다..! 조금 당황스럽다..ㅎ
내용 출처는 Data Robot 사 입니다. 어떤 형태로든 재배포가 안된다면 말씀 주세요.
How to Stop Worrying and Start Tackling AI Bias?; 어떻게 하면 AI bias 에 대한 걱정을 멈추고, 해결을 도모할 수 있을까?
앞선 포스팅에서 머신러닝의 한계를 언급하고 끝났는데 일맥상통한다.
정리하고픈 주제 몇 개를 묶어 글을 써보도록 하겠다.
꼭지 1. 머신러닝에서의 발생 가능한 문제들은 무엇일까
머신러닝에서는 어떤 문제점이 있을 수 있나?
What can go wrong when it comes to your ML?
크게 세 가지 갈래의 문제가 발생 가능하다.
윤리적 문제, 머신러닝 성능 그 자체의 문제, 운영하면서 나타나는 문제.
1. Ethics (Privacy, Bias/Fairness, Interprobability, Transparency, Value)
2. Performance (Data Quality, Accuracy, Robustness, Stability, Speed)
3. Operations (Compliance, Security, Humility, Governance, Business Rules)
이 중에서도,
오늘은 윤리적 문제 - 편견 및 공정성의 문제에 집중해보려 한다.
(bias 를 '편견'정도로 번역할 수 있으나 이 포스팅에서는 bias라고 언급하겠다.)
AI는 인간의 삶에 관한 중대한 의사결정을 내리고 있는데.. (채용 등) 이들이 과연 실제 세상의 섬세하고 예민한 문제들에 전적으로 공명정대한 결정을 내릴 수 있을까?
머신러닝의 의사결정과정에서 나타나는 bias에 대해 우리는 어떻게 생각해야 할까?
그러한 bias의 존재를 어떻게 밝혀내고, 다뤄야 할 것인가?
꼭지 2. 머신러닝에서 bias 의 원인은 무엇일까
1) Skewed Sample:
인풋 데이터는 실제 세상을 전수조사 한 데이터가 아니다. 특정 집단의 데이터만을 넣기 때문에.. 편향되어있을 수 있다.
2) Limited Features:
feature 또한특정 집단 기준으로 뽑아냈으므로 제한적이다.
3) Tainted Examples:
데이터도 규정짓기 나름이다. 어떻게 규정되느냐에 따라, 혹은 역사적 맥락에서 편견이 들어가있을 수 있다.
4) Proxies:
대표성의 문제 - factor와 결과값이 1:1 대응이 아니다. 즉, Correlation이 있는 다른 factor을 간과할 수 있다.
예를 들면, 우편번호(지역) 이나 학교명이 특정 인종을 대표할 수 있다. 즐겨하는 스포츠나 학교명이 성별을 대표할 수 있다.
5) Sample Size Disparity:
충분한 샘플(데이터) 수를 갖추지 못했다면?
꼭지 3. 아마존의 AI 폐지 사례 자세한 설명
앞선 포스팅에서는 아주 피상적으로만 사례를 포스팅 했었는데, 이 세미나를 통해 사안을 좀 더 정확히 알 수 있었다.
- 초기 모델이 성별 편향적인 의사결정 (Gender이 여자라면 탈락시키는 식의) 을 내리는 것을 발견하고,
- bias의 주범으로 보이는 성별 (Gender) 인자를 아예 빼고 재학습 시켰다.
- 하지만, 기계가 스스로 '여학교' 등 여성과 관련된 다른 키워드들을 찾아내었고 더 심한 성별 bias를 보여주었으며,
- 결과적으로 폐지되었다.
즉, 4) Proxy 문제가 bias를 만들어 낸 것으로 보인다.
⭐️꼭지 4. bias에 관해 우리가 생각해야 할 것
AI에 관한 비판적 사고: 아마존의 AI 인터뷰 폐지 - 3 (feat. Data Robot)로 이어집니다.