2019년 EMNLP논문.. 당시에는 최신 기술이었으나 지금은 저렇게 pretrain 하는게 일반적인 방법으로 자리 잡았다고 함.
*원문 출처: https://aclanthology.org/D19-1383.pdf
ABSTRACT 번역
더 나은 document-level understanding을 위해, 우리는 Sequence of sentences (문장들의 순서) 의 분류를 알맞은 카테고리로 분류하려 한다. 이 작업을 위해서는 해당 문서 내의 context문맥 내에서 sentence들을 이해해야 한다. 이 작업을 위한 최근의 성공적인 모델들은 1) sentence representations를 contextualize 하기 위한 계층적 모델들을 사용했다. 2) 또한 이어지는 subsequent연속적인 label들 사이의 의존성을 포함하기 위해 Conditional Random Fields(CRF)를 사용했다. 이 연구에서는, BERT 중심의 pretrained LM이 앞에서 언급한 계층적 encoding이나 CRF없이도 capture contextual dependencies하는 작업에 쓰일 수 있음을 보여줄 것이다. 특히, 우리는 joint sentence representation을 구축했는데 이는 BERT-Transformer layers가 직접적으로 모든 sentences들의 모든 word로부터 contextual information을 directly직접적으로 활용하도록 한다. 우리의 연구는 SOTA결과를 4개의 데이터셋에서 달성했고, 이는 새로운 데이터셋 (structured scientific abstracts) 도 포함한 결과이다.
모델 설명
- 계층적 encoding이나 CRF없이도 Pretrained Language Model이 capture contextual dependencies를 할 수 잇도록 함.
- BERT의 Transformer 구조를 응용했음.[CLS] 토큰 기준이 아닌 [SEP] 토큰 기준으로, 문장들을 Directly직접적으로 - 즉 한번에 활용하는 것이 핵심. 추가적인 Structure 없이 fine-tuning 만으로 문장단위 context vector 추출 가능하며 성능까지 좋음
데이터 설명
Sentence Classification task
- [PubMed-RCT], [NICTA] 는 Biomedical 필드 논문들의 Abstract를 모아놓은 데이터. sentences별 문장 내 role을 labeling 했음 (ex. "INTRODUCTION", "RESULT"등...)
- [CSABSTRUCT] 저자들이 새로 만든 데이터셋. 구조는 비슷한데 Computer Science 필드 논문들의 Abstract를 모아놓았음. 이 필드는 Biomed 에 비해서 writing 형식이 자유로운 것이 특징.
Extract Summary task
- [CSPUBSUMEXT]
- 10k의 scientific papers, 각 sentences는 "GOOD" / "BAD" / "NEUTRAL" summary sentences 분류 label, paper highlight 존재 (기준: ROUGE overlap score)
- 본 논문에서는 이진분류 상태가 아니라 ROUGE score 자체, 말하자면 회귀식 형태로 predict 하도록 training
실험 및 결과
condition:
- dropout 0.1
- Optimizer the Adam (for 2-5 epochs)
- Learning rates 5e-6(0.000005), 1e-5(0.00001), 2e-5(0.00002), 5e-5(0.00005)
- Batch size Titan V GPU의 memory 맞는 선에서 가장 큰 batch size (dataset_model 에 따라 1-4사이)
- Gradient Accumulation 사용해서 효과적인 32 batch size를 가능하게 함
evaluation:
- random seed로 3번 돌려서 나온 평균을 report (non-determinism예방하기 위해)
Sentence Classification Task Result
결과: SOTA
PUBMED, CSABST., NICTA 세 데이터에서 모두 sota달성
Baseline과의 성능 차이를 통해 CSABST/NICTA(상대적으로 작은 데이터셋) 에서의 Pretraining의 중요성을 알 수 있다.
Extractive Summarization Task Result
결과: SOTA
Collins el al 에서 ABSTRACT-ROUGE feature 유용성을 알았기에 그대로 augmented
기존 sota 모델인 Collins el al이 복잡한 앙상블 모델이고 ,정교하게 엔지니어링 된 많은 feature이 사용된 데 반해, 우리의 모델은 single 모델에 하나의 feature만 추가 되었다. 이를 고려하면 결과가 좀더 의미있을 것.
'재미난 공부들' 카테고리의 다른 글
SQL 인사 DB - Employees DB(MySQL); Company DB(Fundamentals of DB Systems); 및 테이블 검색/집계함수/JOIN등 연습 (0) | 2023.05.22 |
---|---|
Seaborn barplot의 오차막대(error bar) 에 대해 (0) | 2022.08.12 |