오늘 포스팅은 애플과 구글에서 일시적으로 제공하는 '이동성 보고서' 관련이다.

지도 앱을 켰을 때, 위치 정보 제공/수집에 동의하시겠습니까? 라는 창을 본 적이 있을 것이다. 여기에 '예'를 누르면 GPS를 기반으로 한 내 위치가 실시간으로 제공되며 관련 서비스를 이용할 수 있다. 우리에게 왜 동의까지 구하는건가? 사생활 침해의 우려 때문에...?
기업이 우리의 사생활이 궁금해서 막대한 비용을 들여 수많은 데이터를 수집하고 저장할까?
아니다. 우리의 정보가 모이면 돈이 되기 때문이다.
다시 말하면, 데이터는 미래를 볼 수 있는 치트키가 될 수 있기 때문이다.
예를 들어, 누군가가 텍사스에 Uber와 같은 택시 서비스 회사를 하나 만들어볼까? 생각하고, 의사결정 전 텍사스의 "이동성 데이터"를 분석해보았다고 하자. 그 결과, 이 동네 사람들이 100% 차를 갖고 있고 날짜나 시간에 상관 없이 웬만해선 자차로 이동한다는 결론이 났다면?
오 큰일날뻔 했네~ 하고 빨리 사업을 접던가 다른 도시로 방향을 바꿀 것이다. 일을 벌이고 뒤늦게 철수하는 비용보다 사전에 취소하는 비용이 훨씬 적을 것임은 말 할 것도 없다. 만약 "이동성 데이터"를 꽤나 비싸게 주고 샀다 할 지라도, 현명한 의사결정을 통해 세이브한 비용이 훨씬 클 것이다. 기업 입장에서는 믿을만한 데이터소스라면 큰 비용을 지불할 가치가 있는 것이다.
무튼, 두 회사는 이런 고부가가치의 빅데이터, 즉 "전 세계 스마트폰 사용자들의, 24시간 위치 정보" 를 가지고 있다. 그리고 이번 코로나 팬데믹 선언을 기점으로, 공익을 위해서 위치 기반 데이터를 공개하고 도시별 트렌드 보고서를 제공하기로 했다. 이 포스팅에서는, 두 보고서를 간단히 살피고 비교해보고, 제공되는 raw data도 보고, 한국 관련 내용도 간추려보도록 하겠다!
1. 애플의 이동성 트렌드 보고서
애플 데이터 요약:
1. '나'의 위치 정보가 애플 아이디 ex. dataartist@apple.com 와는 연계되지 않는다. 예를 들면, 한국에서 코로나 확진자가 이태원의 성소수자 bar에 방문했다 쳐보자. 서울시민1 혹은 한국국민1이 해당 날짜에 해당 bar에 방문했고, 그 전에는 어딜 갔고, 뭐 타고 갔고, 이런 건 전부 공개를 하지만, 그 서울시민1이 남자인지 여자인지, 어디 회사에 다니는지, 나이는 몇살인지 등 연계 된 사항은 나와있지 않다. 오직 확진자경로 (공익 목적) 안내에만 사용하기 위해 위치만 공개하지, 당사자가 누군지 데이터를 연계 해서 추측할 수 없도록 한다.
2. Raw data: 위에서 필자가 언급한 위치정보 사용 --> '예' 클릭 --> 그 시점부터 위치 전부 저장 의 메커니즘이 아니고, 애플 지도 경로안내요청 데이터 기반이다.
3. 베이스라인(기준날짜): 1월 13일. 왜 그런지는 모르겠음.
다음은 메인 화면.
미국, 독일, 영국, 이탈리아 네 개를 기본값으로 보여준다.
왜 기준점이 하필 1월 13일인지는 모르겠지만, 무튼 해당 날짜 기준으로 각 도시/각 나라 사람들의 '경로 요청 변동 내역' 을 보여준다. 이 경로 말고 '다른 경로 알려줘!' 한 케이스라는 것이다. 그니까 이게 이동성을 대변한다는 것인데... 흠.. 이부분은 나중에 더 깊이 알아봐야 겠다.
이 그래프에서 내가 생각해봄 직 한 인사이트는 다음과 같다.
1. 팬데믹 선언을 기점으로 전 세계적으로 이동성이 현저하게 떨어졌다. (3-4월 사이)
2. 이탈리아가 그 타격이 가장 크고 미국이 가장 적다.
3. 그래프가 일정 주기로 오르락 내리락 하는 것은 아마 주말-평일의 영향이 클 것
4. Covid19 전-후를 비교해보면 주말-평일의 차이가 적어진 것을 볼 수 있다. 즉 락다운의 영향으로 주말과 평일의 경계가 모호해진 것.
일단 raw data를 한번 봐 보는게 인사이트를 무작정 찾는것 보다 먼저일 것 같다.
요롷게 생긴 데이터이다.
총 128개의 column 과 1157개의 raw로 구성되어 있다.
Column종류는:
region 컬럼은 --> 나라/도시 이름
'geo-type' 컬럼은 --> country 단위, sub-region(하부 region) 단위, 도시 단위로 세분화
'aternative_name' 컬럼은 --> 중국어도 있고 해서 생략
'transportation_type' 컬럼은 --> 운전, 도보, 갈아타기(?) 로 세분화
마지막으로, 날짜별 데이터들이 나와있다.
ㅇ ㅏ... 공공데이터들이 다 이렇게 생겼구나 ㅠㅠ... 1월 13일 이동량을 100으로 놓고 점차 이동량이 어떻게 변화하는지 나타나 있다. 내가 생각하던 엄청난 빅데이터는 아니었음.
재미삼아 한국 데이터를 찾아보자면
요롷게 두개의 row가 있다.
driving/walking 두 종류의 데이터를 날짜별로 확인할 수 있다.
한국의 이동성 트렌드 확인하기! (애플의 이동성 보고서)
이렇게 생긴 2 ROW * 128 COLUMN의 데이터셋이 다음과 같은 시각화자료로 나타나게 된다.
무튼, 한국의 트렌드를 확인해보자.
한국은 코로나가 본격적으로 퍼지기 시작 한 2월 말 기점으로 이동성이 현저히 줄었고,
특히 자차 보다 도보를 이용하는 케이스가 눈에 띄게 줄었다.
연휴때 상승세이다가 지금은 다시 줄어들었다. 그러나 길게 보면 우상향 패턴 이다.
앗.. 포스팅이 너무 길어진다.
2. 구글의 이동성 트렌드 보고서
구글은 이렇게 csv 형태랑 pdf 까지 전부 제공한다.
+ 게다가... raw data 가 좀 더 방대하다!
대략 요렇게 생겼고,
인덱스가 무려 335463개!
게다가 Date 도 예쁘게 컬럼 하나에 다 들어가 있고,
이동 수단 정보는 제공하지 않지만, 장소들이 카테고라이즈 되어서 각 칼럼에 들어가있다. (리테일업, 식료품업, 공원 등등)
애플 본받으세요.. 고작 1157개의 인덱스 csv파일 가지고 .... 무슨 데이터를 제공한다는 겁니까! 이왕 공개할거면 제대로 공개해주세요!!!
게다가 애플 데이터는 가로로 길게 날짜데이터가 분포되어있어서, 분석을 제대로 하려면 데이터 재구조화까지 해야 했었다. (이 전처리를 하더라도 143468 인덱스임)
데이터 설명도 넘 친절하다...
Overview: https://support.google.com/covid19-mobility/answer/9824897?hl=ko&ref_topic=9822927
Overview - Community Mobility Reports Help
This documentation explains how public health officials can best use the Community Mobility Reports in their work The Community Mobility Reports show movement trends by region, across different categories of places. For each category in a region, reports s
support.google.com
Understand the data: https://support.google.com/covid19-mobility/answer/9825414?hl=ko&ref_topic=9822927
Understand the data - Community Mobility Reports Help
Examples to help you interpret common patterns in the data These examples show made-up data (except figure 2) to help you understand the reports. We’re only showing the made-up absolute visitor numbers (the orange charts) in this page to help you learn.
support.google.com
Calibrate your region: https://support.google.com/covid19-mobility/checklist/9834261?hl=ko&ref_topic=9822927
Calibrate your region - Community Mobility Reports Help
How might types of work affect the mobility changes on weekdays or weekends? We don’t report any changes for types of work, but you can think about the different jobs people in your community do on weekends and the jobs on weekdays. How might COVID-19 re
support.google.com
'베이스라인' 설명만 하나 추가하자면,
구글 데이터 요약:
1. 애플과 마찬가지로 개인을 '식별' 할 수 있는 정보는 모두 제외된다.
2. 애플은 이동수단 (도보, 자동차 등) 별로 이동량 (경로변화 수) 이 늘어났는지에만 초점을 맞췄다면, 구글은 장소를 공원/식료품관련/일터 등으로 세분화 해서 각 장소들로의 이동량 변화를 보여준다.
3. Raw data: 위에서 필자가 언급한 위치정보 사용 --> '예' 클릭 --> 그 시점부터 위치 전부 저장 의 메커니즘이 아니고, 카테고리로 분류 된 한 장소에서 다른 장소로 이동한 케이스 기반이다.
4. 베이스라인(기준날짜):
애플은 1월 13일로 동일했는데 (노 성의)
구글은.. 다양한 요소를 반영해.. 2020년 1월 3일에서 2월 6일 사이의 어떤 날짜 중 가장 적절하다고 판단되는 날짜를 기준으로 설정했다.
어떤 날짜가 베이스라인인지는 케이스마다 다르다고 한다.. 그냥 언제냐고 묻지 말고 기준날짜는 저 기간 중 하나겠구나~ 구글이 알아서 잘 세팅 했겠지~ 생각하면 되겠다. 애플보다 통계적으로 정확할 듯.
한국의 트렌드도 확인해보자.
레스토랑, 까페, 쇼핑센터, 테마마크, 박물관 도서관, 영화관과 같은 곳으로의 이동성 트렌드. 베이스라인 기준으로 3월 28일~ 5월 9일까지 4월 18일경 증가하다가 최근에 급 떨어졌네요. 5월 9일자 베이스라인 기준 -18퍼센트
뾰족 솟은 데가 어린이날 앞뒤로 있던 연휴 같은데... 9일에 푹 떨어졌네요. 연휴 끝나서 이동성이 떨어진건지, 아니면 이태원 발 2차감염 때문인지..? (전자로 추측)
대형 마켓, 시장, 기타 식음료 마켓 및 약국 이동성 추이입니다. 역시 연휴때쯤 피크. 베이스라인 기준으로는 별로 안떨어졌네요. 즉, 코로나가 해당 이동성에는 크게 영향을 미치지 않았다고 볼 수 있겠습니다.
국립공원, 해변, 해양공원, 강아지 산책파크, 기타 공원 류..
아.. 연휴때 피크를 찍었군요. 그리고 급강하. 5월 9일 기준 -36퍼. 그런데 연휴때를 보면....? ㅎㅎㅎ
공공 교통시설 - 지하철, 버스, 기차역 등으로의 이동.
아.. 이태원 발 2차감염 같은 건 반영되지 않은 걸 이걸 보고 깨닫게 되네요.
그래프상 상승 하강 여부는 연휴가 영향이 컸던 것 같습니다. 단지 연휴가 끝나는 시점이 2차 지역감염 발발 시점과 동일했을 뿐. .....
일터로 가는 이동성 지수. 연휴때 엄청 낮다가 5월 9일 기준 베이스라인 대비 7퍼센트정도 낮아졌습니다.
이렇게~~ 애플과 구글의 펜데믹 관련 Mobility Report를 간단하게 살펴 보았습니다.
간단하게 아래와 같이 요약할 수 있겠습니다!
애플 | 구글 | |
공통점 | 개인을 식별할만한 데이터를 사용하지 않고, 동의 없이 데이터를 저장하지 않음 | |
차이: Raw data | 애플지도에서의 경로 변경 케이스 | 구글 앱에서의 장소에서 장소로의 이동 case |
차이: Mobility와 함께 고려한 요소 | 운송수단 (도보, 대중교통 등) 별 | 장소의 종류 (공원, 일터, 식료품점 등) 별 |
차이: Baseline (기준날짜) | 1월 13일 (왜인지 모름) | 2020년 1월 3일~ 2월 6일사이 날짜 중 구글이 판단하기에 제일 Normal한 날짜 임의 선정 |
개인적으로 Raw data가 좀 더 여러가지 컬럼을 제공해주었으면 더 재미있었겠다는 생각이 들긴 하지만,
그래도 시기에 맞춰 데이터를 공개하고 리포트까지 제공하는 애플과 구글에 작은 감사를 표합니다 (--)(__)
'재미난 공부들 > 일상에서 만난 빅데이터' 카테고리의 다른 글
딥러닝/영상편집 용 컴퓨터 조립 부품 list (기록용) (4) | 2021.09.17 |
---|---|
자연어 처리/Natural Language Processing 데이터 정제 (0) | 2020.06.03 |
미국 코로나 청문회 Live (왜 검사수가 한국에 딸리는거야?) (0) | 2020.03.12 |
Covid-19 국가별 검사 수/확진자/사망자 [2020.03.10] (0) | 2020.03.10 |
Covid-19 국가별 검사 수/확진자/사망자 [2020.03.09] 그리고 '확진자vs실감염자'의 차이' (0) | 2020.03.09 |