[논문 리뷰] Pretrained Language Models for Sequential Sentence Classification (EMNLP 2019)

재미난 공부들

[논문 리뷰] Pretrained Language Models for Sequential Sentence Classification (EMNLP 2019)

HR & 빅데이터 2022. 11. 24. 20:17

2019년 EMNLP논문.. 당시에는 최신 기술이었으나 지금은 저렇게 pretrain 하는게 일반적인 방법으로 자리 잡았다고 함.

*원문 출처: https://aclanthology.org/D19-1383.pdf

ABSTRACT 번역

더 나은 document-level understanding을 위해, 우리는 Sequence of sentences (문장들의 순서) 의 분류를 알맞은 카테고리로 분류하려 한다. 이 작업을 위해서는 해당 문서 내의 context문맥 내에서 sentence들을 이해해야 한다. 이 작업을 위한 최근의 성공적인 모델들은 1) sentence representations를 contextualize 하기 위한 계층적 모델들을 사용했다. 2) 또한 이어지는 subsequent연속적인 label들 사이의 의존성을 포함하기 위해 Conditional Random Fields(CRF)를 사용했다. 이 연구에서는, BERT 중심의 pretrained LM이 앞에서 언급한 계층적 encoding이나 CRF없이도 capture contextual dependencies하는 작업에 쓰일 수 있음을 보여줄 것이다. 특히, 우리는 joint sentence representation을 구축했는데 이는 BERT-Transformer layers가 직접적으로 모든 sentences들의 모든 word로부터 contextual information을 directly직접적으로 활용하도록 한다. 우리의 연구는 SOTA결과를 4개의 데이터셋에서 달성했고, 이는 새로운 데이터셋 (structured scientific abstracts) 도 포함한 결과이다.

모델 설명

출처: https://aclanthology.org/D19-1383.pdf

계층적 encoding이나 CRF없이도 Pretrained Language Model이 capture contextual dependencies를 할 수 잇도록 함.
BERT의 Transformer 구조를 응용했음.[CLS] 토큰 기준이 아닌 [SEP] 토큰 기준으로, 문장들을 Directly직접적으로 - 즉 한번에 활용하는 것이 핵심. 추가적인 Structure 없이 fine-tuning 만으로 문장단위 context vector 추출 가능하며 성능까지 좋음

데이터 설명

Sentence Classification task

[PubMed-RCT], [NICTA] 는 Biomedical 필드 논문들의 Abstract를 모아놓은 데이터. sentences별 문장 내 role을 labeling 했음 (ex. "INTRODUCTION", "RESULT"등...)
[CSABSTRUCT] 저자들이 새로 만든 데이터셋. 구조는 비슷한데 Computer Science 필드 논문들의 Abstract를 모아놓았음. 이 필드는 Biomed 에 비해서 writing 형식이 자유로운 것이 특징.

Extract Summary task

[CSPUBSUMEXT]
- 10k의 scientific papers, 각 sentences는 "GOOD" / "BAD" / "NEUTRAL" summary sentences 분류 label, paper highlight 존재 (기준: ROUGE overlap score)
- 본 논문에서는 이진분류 상태가 아니라 ROUGE score 자체, 말하자면 회귀식 형태로 predict 하도록 training

실험 및 결과

condition:

dropout 0.1
Optimizer the Adam (for 2-5 epochs)
Learning rates 5e-6(0.000005), 1e-5(0.00001), 2e-5(0.00002), 5e-5(0.00005)
Batch size Titan V GPU의 memory 맞는 선에서 가장 큰 batch size (dataset_model 에 따라 1-4사이)
Gradient Accumulation 사용해서 효과적인 32 batch size를 가능하게 함

evaluation:

random seed로 3번 돌려서 나온 평균을 report (non-determinism예방하기 위해)

Sentence Classification Task Result

출처: https://aclanthology.org/D19-1383.pd

결과: SOTA

PUBMED, CSABST., NICTA 세 데이터에서 모두 sota달성

Baseline과의 성능 차이를 통해 CSABST/NICTA(상대적으로 작은 데이터셋) 에서의 Pretraining의 중요성을 알 수 있다.

Extractive Summarization Task Result

결과: SOTA

Collins el al 에서 ABSTRACT-ROUGE feature 유용성을 알았기에 그대로 augmented

기존 sota 모델인 Collins el al이 복잡한 앙상블 모델이고 ,정교하게 엔지니어링 된 많은 feature이 사용된 데 반해, 우리의 모델은 single 모델에 하나의 feature만 추가 되었다. 이를 고려하면 결과가 좀더 의미있을 것.

저작자표시 비영리 변경금지 (새창열림)

'재미난 공부들' 카테고리의 다른 글

SQL 인사 DB - Employees DB(MySQL); Company DB(Fundamentals of DB Systems); 및 테이블 검색/집계함수/JOIN등 연습 (0)	2023.05.22
Seaborn barplot의 오차막대(error bar) 에 대해 (0)	2022.08.12

현재글[논문 리뷰] Pretrained Language Models for Sequential Sentence Classification (EMNLP 2019)

HR & 빅데이터

- HR Data Analyst 로 일하고 있는 호기심 많은 연구자입니다. - 데이터사이언스융합학 석사과정중입니다. (2022.08~)

네덜란드어, 자연어처리, peopleanalytics, 데이터분석, 코로나 국가별 확진자 사망자, 제대로시작하는기초통계학, 코로나, 사망자수조작, 인사데이터분석, 비정형데이터, wharton people analytics, 크롤링, CoronaVirus, hr analytics, 네덜란드, 통계학, AI면접, 빅데이터, 국가별 검사 수, 인공지능,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

HR & 빅데이터