재미난 공부들/일상에서 만난 빅데이터

Covid-19 국가별 검사 수/확진자/사망자 [2020.03.09] 그리고 '확진자vs실감염자'의 차이'

HR & 빅데이터 2020. 3. 9. 15:51

 

1. 실 감염자 수와 확진자수의 차이는 무엇인가? 왜 확진자 수에 관심을 갖는가?

 

우리가 알고싶은 건 엄밀히 말하면, '실 감염자' 수이다. 하지만 현실적으로 전세계 인구를 전수조사 할 수 없기 때문에, 정부가 검사를 하고, 감염자임이 확실하다고 진단을 한 뒤 나오는 수 (확진자 수) 만 보고 실 감염자 수를 추측하는 것이다. 

확진자 수에 관심을 갖는 것은, 확진자수가 그나마 실 감염자 수와 가장 가깝다고 보기 때문이다. 

 

2. 그러나, 확진자 수는 실 감염자 수를 100%반영하지 못한다.

 

확진자 수는 검사 -> 진단 이 선행되어야 나오는 숫자이다. 즉, 길거리에 실 감염자가 100만명 돌아다니고 있어도, 정부가 검사를 안하면, 확진자 수는 0명이다.

 

 

3. 그래서 시행된 검사 수를 같이 봐야 하며, 숫자가 아닌 퍼센트로 봐야 한다!



그 밖에, 감염 국가/도시의 인구 수, 인구 밀도, 고령화 정도 등등 여러가지 숫자를 종합적으로 보면 더 좋을 것이다. 
 
저는 간단하게 검사 수, 확진자 수, 사망자 수 만 업데이트해보도록 하겠습니다.

데이터 변동 속도가 너무 빨라서 반영하는 데 한계가 있습니다. 참고로만 봐주세요!

 

 

요걸 기반으로 솔팅했습니다 (Solted based on the values on this table)

 

 

 

 

1. 확진자수 (내림차순)

 

 

 

 

확진자 수만 가지고 순위 매기는 건 큰 의미가 없다 싶지만 우선, 가장 눈에 들어오는 숫자이니..

중국-한국-이탈리아-이란-프랑스 순이다. 

 

 

 

 

 

 

 

 

 

 

2. 진단수 대비 확진자수 % (내림차순) 진단수가 파악 된 국가만 넣었음

 

 

 

 

Testing 케이스 기준이 최신이 아니라 (한국것만 최신임) 섣불리 말하긴 좀 그렇지만, 조심스레 의견을 써 보면,

 

 

 

 

1. 이탈리아 testing 수는 3월 2일 기준으로 2만3천 여 건이다. 

 

2. 즉, 지난 일주일간의 데이터가 없다. 해당 기간에 대한 경우의 수를 생각해보자. 

 

  (A) 이탈리아가 여태 한 만큼의 테스팅 (약 23000건) 을 했다 ->

 

Assumption A: Italy lab tested 23345 more, during 03.03~03.09

 

 

 (B) 이탈리아가 여태 한 만큼의 두배 이상 (약 50000건)을 했다 -> 

 

Assumption B: Italy lab tested 50000 more, during 03.03~03.09

 

 

 (C) 이탈리아가 여태 한 만큼의 네 배 이상 (약 100000건)을 했다 ->

 

Assumption C: Italy lab tested 100000 more, during 03.03~03.09

 

 

 (D) 이탈리아가 거의 신의 경지 수준의 속도로 일주일 간 170000 건을 추가 검사 했다 ->

 

Assumption D: Italy lab tested 170000 more, during 03.03~03.09

 

 

 

 

 

3. (A~C)의 경우라면 현 시점 기준 한국이 이탈리아보다 덜 위험하다고 추정할 수 있다. 

 

 

 

 

 

 

 

 

 

 

 

3. 확진자수 대비 사망자수 % (내림차순)