재미난 공부들/일상에서 만난 빅데이터

자연어 처리/Natural Language Processing 데이터 정제

HR & 빅데이터 2020. 6. 3. 23:09

 

 

챗봇에 들어갈 한국어 문장 데이터 정제 과정에 참여했다.

 

아주 기초 단계지만, 태깅해 놓은 데이터대로 나름 열심히 분류를 해놓은 애기같은 (?) AI를 보니 넘 신기했다.

 

 

 

 

 

예를 들면, 

 

사탕이 달다

 

라는 문장을 분석 시켜 보면, 이 친구는

 

'달다' 를 달 (하늘에 떠있는 달) 다 (종결어미) 로 해석 해 놓았다. 문맥에 안맞는 해석이다.

 

 

 

 

 

 

- 그 이유는 이친구가 아직 달콤하다 할 때 '달'을 이해하지 못해서이다.

 

 

들어본적이 아예 없거나 (공부할 관련 데이터가 없음), 어휘력이나 추론력이 없거나 ('사탕'이라는 글자도 모르고, 그래서 문맥상 달콤하다는 맛의 의미를 추측할 수 없음), etc etc.

 

 

 

 

 

 

- AI의 능력이 발전하려면 잘 정제된 언어 데이터를 계속 머릿속에 넣어 줘야 한다.

 

ex. 달콤한 사탕, 달달한 떡볶이, 설탕을 넣어 달게 만들다, 설탕은 달콤한 것이다... 

 

 

 

 

- 또한, 이 때 이상한 데이터로 혼란을 주면 안된다.

 

ex. 달달콤한 사탕 (오타), 달콤한 아스팔트 (문맥상 너무 이상하다) , etc... 

 

 

 

 

 

 

 

 

인간 아기도 언어 습득 과정이 비슷하다.

 

수많은 인풋을 넣어주면 알아서 알고리즘을 찾고, 그 뒤로 창조/응용하는 단계까지 나아가는 것!

 

 (*생득주의 학자 촘스키의 보편문법/언어습득 장치 내용을 참고하면 비슷한 점이 많다.)

 

그리고 이 인풋의 과정에서 다량의, 질 좋은 언어 데이터를 계속 넣어줘야 한다는 것!

 

 

 

아기 있는 집에서 나쁜 말 쓰면 안되는 것처럼 (ㅋㅋㅋ)

 

좋은 챗봇을 만들려면 좋은 언어 데이터가 많아야 한다!

 

 

 

 

 

 

 

 

 

아래는 자연어 처리 관련 참고할만한 자료들이다.

시간 날 때 읽고 한번 더 정리해보도록 하겠다. 

 

https://sapstoryhub.co.kr/ai%EB%8A%94-%EC%95%84%EC%9D%B4%EB%8B%A4-%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5%EC%9D%84-%EB%8C%80%ED%95%98%EB%8A%94-%EC%9E%90%EC%84%B8/

 

AI는 아이다. 인공지능을 대하는 자세 - SAP Story Hub

인공지능(AI)이라는 아이도 결국은 균형 잡힌 식단(데이터)과 경험, 칭찬을 통해 강점을 키우는 노력이 있어야 비로소 세상에 도움 되는 멋진 아이로 자라지 않을까요? 우리는 인공지능을 도깨비

sapstoryhub.co.kr

https://platum.kr/archives/60977

 

음성인식-AI기술로 국내 자연어 처리시장 급성장 - 'Startup's Story Platform’

최근 구글 I/O 2016 행사에서 구글은 집주인 음성을 알아듣고 지시를 수행하는 가정용 스마트 스피커인 ‘구글 홈’을 발표하며 본격적으로 음성인식 기반의 인공지능 기술을 선보였다. 재미있는

platum.kr

 

http://www.aitimes.kr/news/articleView.html?idxno=15036

 

[스페셜리포트] 자연언어처리(NLP) 무엇인가... 그 기술과 시장은? - 인공지능신문

자연 언어 처리(Natural Language Processing, 이하 NLP)는 컴퓨터와 인간 언어 사이의 상호 작용하는 기술로 인공지능의 핵심 기능 중 하나이다. 1950년대부터 기계 번역과 같은 자연어 처리 기술이 연구��

www.aitimes.kr

http://news.kotra.or.kr/user/globalAllBbs/kotranews/album/781/globalBbsDataAllView.do?dataIdx=176188&column=title&search=&searchAreaCd=&searchNationCd=101001&searchTradeCd=&searchStartDate=&searchEndDate=&searchCategoryIdxs=&searchIndustryCateIdx=&page=10&row=10

 

음성인식부터 인공지능까지, 무한한 가능성의 자연어 처리 시장 - 상품·산업 - KOTRA