챗봇에 들어갈 한국어 문장 데이터 정제 과정에 참여했다.
아주 기초 단계지만, 태깅해 놓은 데이터대로 나름 열심히 분류를 해놓은 애기같은 (?) AI를 보니 넘 신기했다.
예를 들면,
사탕이 달다
라는 문장을 분석 시켜 보면, 이 친구는
'달다' 를 달 (하늘에 떠있는 달) 다 (종결어미) 로 해석 해 놓았다. 문맥에 안맞는 해석이다.
- 그 이유는 이친구가 아직 달콤하다 할 때 '달'을 이해하지 못해서이다.
들어본적이 아예 없거나 (공부할 관련 데이터가 없음), 어휘력이나 추론력이 없거나 ('사탕'이라는 글자도 모르고, 그래서 문맥상 달콤하다는 맛의 의미를 추측할 수 없음), etc etc.
- AI의 능력이 발전하려면 잘 정제된 언어 데이터를 계속 머릿속에 넣어 줘야 한다.
ex. 달콤한 사탕, 달달한 떡볶이, 설탕을 넣어 달게 만들다, 설탕은 달콤한 것이다...
- 또한, 이 때 이상한 데이터로 혼란을 주면 안된다.
ex. 달달콤한 사탕 (오타), 달콤한 아스팔트 (문맥상 너무 이상하다) , etc...
인간 아기도 언어 습득 과정이 비슷하다.
수많은 인풋을 넣어주면 알아서 알고리즘을 찾고, 그 뒤로 창조/응용하는 단계까지 나아가는 것!
(*생득주의 학자 촘스키의 보편문법/언어습득 장치 내용을 참고하면 비슷한 점이 많다.)
그리고 이 인풋의 과정에서 다량의, 질 좋은 언어 데이터를 계속 넣어줘야 한다는 것!
아기 있는 집에서 나쁜 말 쓰면 안되는 것처럼 (ㅋㅋㅋ)
좋은 챗봇을 만들려면 좋은 언어 데이터가 많아야 한다!
아래는 자연어 처리 관련 참고할만한 자료들이다.
시간 날 때 읽고 한번 더 정리해보도록 하겠다.
AI는 아이다. 인공지능을 대하는 자세 - SAP Story Hub
인공지능(AI)이라는 아이도 결국은 균형 잡힌 식단(데이터)과 경험, 칭찬을 통해 강점을 키우는 노력이 있어야 비로소 세상에 도움 되는 멋진 아이로 자라지 않을까요? 우리는 인공지능을 도깨비
sapstoryhub.co.kr
https://platum.kr/archives/60977
음성인식-AI기술로 국내 자연어 처리시장 급성장 - 'Startup's Story Platform’
최근 구글 I/O 2016 행사에서 구글은 집주인 음성을 알아듣고 지시를 수행하는 가정용 스마트 스피커인 ‘구글 홈’을 발표하며 본격적으로 음성인식 기반의 인공지능 기술을 선보였다. 재미있는
platum.kr
http://www.aitimes.kr/news/articleView.html?idxno=15036
[스페셜리포트] 자연언어처리(NLP) 무엇인가... 그 기술과 시장은? - 인공지능신문
자연 언어 처리(Natural Language Processing, 이하 NLP)는 컴퓨터와 인간 언어 사이의 상호 작용하는 기술로 인공지능의 핵심 기능 중 하나이다. 1950년대부터 기계 번역과 같은 자연어 처리 기술이 연구��
www.aitimes.kr
음성인식부터 인공지능까지, 무한한 가능성의 자연어 처리 시장 - 상품·산업 - KOTRA
'재미난 공부들 > 일상에서 만난 빅데이터' 카테고리의 다른 글
[대통령 선거와 빅데이터] 출구조사 방법, 당선 예측 적중률, 비밀 선거 원칙? (0) | 2022.03.09 |
---|---|
딥러닝/영상편집 용 컴퓨터 조립 부품 list (기록용) (4) | 2021.09.17 |
코로나 이후 각 국의 이동성(Mobility)은 어떻게 변화했을까? feat. 애플/구글의 이동성 트렌드 보고서 (0) | 2020.05.17 |
미국 코로나 청문회 Live (왜 검사수가 한국에 딸리는거야?) (0) | 2020.03.12 |
Covid-19 국가별 검사 수/확진자/사망자 [2020.03.10] (0) | 2020.03.10 |