NLP 분야의 MRC

질의 응답 개념

질의 응답(Question Answering, QA)
주어진 지문에 대하여 질문에 답변하는 과제 대답 할 수 없는 질문이 등장하면 'No-answer'를 해야함
기계 독해(Machine Reading Comprehension, MRC)
기계가 주어진 지문과 질문을 '이해'하여 답변
ex) context - '서울은 한국의 수도이며, ...' Question(user) - '한국의 수도가 어디야?' Answer(AI) - '서울'

MRC를 활용하여 기본적 응답 외 고객이 궁금해 할 수 있는 정보를 제공
기존의 챗봇은 모든 예상 답변을 등록해야 하지만(Rule-base), MRC 기반은 설계가 간단하며 추가 학습도 가능하여 업무에 맞게 변경가능.

SQuAD의 한국어 버전입니다. 1.0과 2.0의 차이점은 1.0은 1-2개의 문단을 대상으로 하지만, 2.0은 위키 문서 전체를 대상으로 합니다.

ELECTRA : Pre-training Text Encoders as Discriminators Rather Than Generators(Google, 2020)

RTD(Replaced Token Detection)이라는 새로운 사전 학습 과제 제안
기존의 BERT는 MLM의 문제점 :
- 전체 토큰 중 15%에 대해서만 loss발생(비용 증가)
- 추론 시 MASK가 존재하지 않음

BERT의 MLM과 같은 학습 메커니즘. = 주어진 위치 t에 대해 토큰 x_t를 생성할 확률을 출력으로 설정

t번째 토큰이 원래 어떤 토큰인지 예측

$P_G(X_t | X_{maksed} = \exp (e(X_t)^T\cdot h_G(X_{masked})_t) / \Sigma_{x^\prime}\exp (e(x^\prime)^T\cdot h_G)(X_{masked}))$

$X_{maksed} = REPLACE(X, m, [MASK])$

입력 토큰 시퀀스의 각 토큰이 진짜인지 가짜(replaced)인지 이진 분류

Generator의 softmax 분포에 대해 샘플링한 토큰으로 치환한 입력이 원래 입력과 동일한지 예측

$D(X_{corrupt},t) = sigmoid(W^T\cdot h_D(X_{corrupt})_t)$

$X_{corrupt} = REPLACE(X, m, \hat X)$ -> Generator의 softmax 분포의 수식은 아래와 같습니다. $P_G(X_i | X_{masked} for i \in m)$

G가 기존 토큰과 같은 토큰값을 복원하면 GAN에서는 fake(negative)로 간주하지만, RTD에서는 real(positive)로 간주
속이기 위해 학습하지 않고 Maximum likelihood를 통해 학습
노이즈 벡터를 입력으로 넣지 않음

G와 D의 loss 합을 최소화하여 사전 학습(pre-train)

fine-tuneing시 D모델만 사용. - 다시 논문 찾아서 적기