재미난 공부들

[논문 리뷰] Pretrained Language Models for Sequential Sentence Classification (EMNLP 2019)

HR & 빅데이터 2022. 11. 24. 20:17

2019년 EMNLP논문.. 당시에는 최신 기술이었으나 지금은 저렇게 pretrain 하는게 일반적인 방법으로 자리 잡았다고 함.

 

*원문 출처: https://aclanthology.org/D19-1383.pdf

ABSTRACT 번역

더 나은 document-level understanding을 위해, 우리는 Sequence of sentences (문장들의 순서) 의 분류를 알맞은 카테고리로 분류하려 한다. 이 작업을 위해서는 해당 문서 내의 context문맥 내에서 sentence들을 이해해야 한다. 이 작업을 위한 최근의 성공적인 모델들은 1) sentence representationscontextualize 하기 위한 계층적 모델들을 사용했다. 2) 또한 이어지는 subsequent연속적인 label들 사이의 의존성을 포함하기 위해 Conditional Random Fields(CRF)를 사용했다. 이 연구에서는, BERT 중심의 pretrained LM이 앞에서 언급한 계층적 encoding이나 CRF없이도 capture contextual dependencies하는 작업에 쓰일 수 있음을 보여줄 것이다. 특히, 우리는 joint sentence representation을 구축했는데 이는 BERT-Transformer layers가 직접적으로 모든 sentences들의 모든 word로부터 contextual information directly직접적으로 활용하도록 한다. 우리의 연구는 SOTA결과를 4개의 데이터셋에서 달성했고, 이는 새로운 데이터셋 (structured scientific abstracts) 도 포함한 결과이다.

 

 

 

 

모델 설명

출처: https://aclanthology.org/D19-1383.pdf

 

  • 계층적 encoding이나 CRF없이도 Pretrained Language Model이 capture contextual dependencies를 할 수 잇도록 함.
  • BERT의 Transformer 구조를 응용했음.[CLS] 토큰 기준이 아닌 [SEP] 토큰 기준으로, 문장들을 Directly직접적으로 - 즉 한번에 활용하는 것이 핵심. 추가적인 Structure 없이 fine-tuning 만으로 문장단위 context vector 추출 가능하며 성능까지 좋음

 

 

 

데이터 설명

 

출처: https://aclanthology.org/D19-1383.pdf

 

Sentence Classification task 

  • [PubMed-RCT], [NICTA] 는 Biomedical 필드 논문들의 Abstract를 모아놓은 데이터. sentences별 문장 내 role을 labeling 했음 (ex. "INTRODUCTION", "RESULT"등...)
  • [CSABSTRUCT] 저자들이 새로 만든 데이터셋. 구조는 비슷한데 Computer Science 필드 논문들의 Abstract를 모아놓았음. 이 필드는 Biomed 에 비해서 writing 형식이 자유로운 것이 특징. 

Extract Summary task

  • [CSPUBSUMEXT]
    • 10k의 scientific papers, 각 sentences는 "GOOD" / "BAD" / "NEUTRAL" summary sentences 분류 label, paper highlight 존재 (기준: ROUGE overlap score)
    • 본 논문에서는 이진분류 상태가 아니라 ROUGE score 자체, 말하자면 회귀식 형태로 predict 하도록 training

 

실험 및 결과

condition:

  • dropout 0.1
  • Optimizer the Adam (for 2-5 epochs)
  • Learning rates 5e-6(0.000005), 1e-5(0.00001), 2e-5(0.00002), 5e-5(0.00005)
  • Batch size Titan V GPU의 memory 맞는 선에서 가장 큰 batch size (dataset_model 에 따라 1-4사이)
  • Gradient Accumulation 사용해서 효과적인 32 batch size를 가능하게 함

evaluation:

  • random seed로 3번 돌려서 나온 평균을 report (non-determinism예방하기 위해)

 

Sentence Classification Task Result

출처: https://aclanthology.org/D19-1383.pd

 

결과: SOTA

PUBMED, CSABST., NICTA 세 데이터에서 모두 sota달성

Baseline과의 성능 차이를 통해 CSABST/NICTA(상대적으로 작은 데이터셋) 에서의 Pretraining의 중요성을 알 수 있다.

 

 

Extractive Summarization Task Result

출처: https://aclanthology.org/D19-1383.pd

결과: SOTA

Collins el al 에서 ABSTRACT-ROUGE feature 유용성을 알았기에 그대로 augmented

기존 sota 모델인 Collins el al이 복잡한 앙상블 모델이고 ,정교하게 엔지니어링 된 많은 feature이 사용된 데 반해, 우리의 모델은 single 모델에 하나의 feature만 추가 되었다. 이를 고려하면 결과가 좀더 의미있을 것.