논문 리뷰

[논문 리뷰] QASA: Advanced Question Answering on Scientific Articles

AIstarter 2024. 2. 27. 19:54

Lee, Yoonjoo, et al. "QASA: Advanced Question Answering on Scientific Articles." (2023).

 

QASA: Advanced Question Answering on Scientific Articles | OpenReview

 

QASA: Advanced Question Answering on Scientific Articles

Reasoning is the crux of intellectual thinking. While question answering (QA) tasks are prolific with various computational models and benchmark datasets, they mostly tackle factoid or shallow QA...

openreview.net

 

Abstract

Reasoning is the crux of intellectual thinking. While question answering (QA) tasks are prolific with various computational models and benchmark datasets, they mostly tackle factoid or shallow QA without asking deeper understanding. Dual process theory asserts that human reasoning consists of associative thinking to collect relevant pieces of knowledge and logical reasoning to consciously conclude grounding on evidential rationale. Based on our intensive think-aloud study that revealed the three types of questions: surface, testing, and deep questions, we first propose the QASA benchmark that consists of 1798 novel question answering pairs that require fullstack reasoning on scientific articles in AI and ML fields. Then we propose the QASA approach that tackles the full-stack reasoning with large language models via associative selection, evidential rationale-generation, and systematic composition. Our experimental results show that QASA’s fullstack inference outperforms the state-of-the-art INSTRUCTGPT by a big margin. We also find that rationale-generation is critical for the performance gain, claiming how we should rethink advanced question answering. The dataset is available at https://github.com/lgresearch/QASA.


 

본 페이지에서는 해당 연구가 해결하고자 했던 기존 문제점 및 구조, 해결방안, 실험방법 및 결과(1.사전작업, 2. 최종평가 결과), 논문의 기여점, 개선되야할 부분을 정리합니다. 개인적인 분석이므로, 해당 논문에 대한 평가가 아닌 '해당 논문이 어떠한 내용이다'를 정리한 논문 리뷰로서 참고하고 봐주시면 감사하겠습니다. 더욱 자세한 내용을 위해서는 첨부된 논문을 읽어주세요:)
언제든 피드백은 좋습니다.


기존 방식의 문제점 및 구조 :

요약:

- 전통적 정보 검색은 관련 정보를 검색하고 재순위를 매기는 데서부터 선택된 정보를 수동으로 읽고 재구성하는 데 이르기까지 일련의 비단순한 노력이 필요

- 과학 논문 및 전문 기사의 양이 계속해서 증가하면서 전통적인 프로세스는 더 이상 실현 가능하지 않으며, 지식 처리와 추론에 혁신이 필요

- 생성적 QA는 유망한 대안일 수 있지만, 인간의 지적 능력에 집중한 적절한 벤치마크와 원칙적인 방법론이 부족

 

(구체적) 기본 방식과 문제점 

-  Reading Comprehension (RC)은 다양한 질문과 답변을 제시할 수 있는 하나의 추론 작업 유형으로  모델 성능에 경쟁하는 동안 기계 응답 능력을 크게 향상시킬 수 있지만, 이러한 데이터셋은 주로 "what", "when", "where", "who"와 같은 형태의 팩트 기반 QA로 구성됨. 즉, "how", "why"에 대한 질문에 대답하기 어려움.

 

- 최근은 open-domain QA라고 하여  관련 문서를 검색한 후 구체적인 답변을 읽어 내는 "검색 후 읽기" 접근 방식을 활용함

이러한 접근 방식은 종종 첫 번째 단계에만 의존하여 추론 가능한 얕은 질문을 대상으로 한다. 그러나 일부 추론 작업은 논리적으로 올바른 공간적 추론을 필요로 함.


해결방안:

- 고급 질문에 대답하기 위해 우리는 과학 논문에 대한 질문 응답(QASA)을 제안

- QASA 제안: 새로운 벤치마크 데이터셋과 계산적 접근 방식

- 위의 그림은 QASA의 한 예시이다.

- QASA 벤치마크는 전문가 독자와 논문 저자들이 표면부터 테스트까지 다양한 유형의 질문과 답변을 생성할 수 있도록 안내

- 전체 스택 추론 과정을 모델링 함. 3 가지 하위 작업으로 분해함.

1) Associative Selection(문단에서 관련 정보를 추출하는 작업)

2) Rationale Generation(각 추출된 문단에서 증거 기반 근거만을 파악하는 작업)

3) Ststematic Composition(중복 없이 증거 기반 근거를 종합적인 답변으로 연결하는 작업)

 

- 각 하위 작업을 사전 학습된 LM으로 모델링함으로써, 공개 및 합성 데이터에 대해 파인튜닝된 FLAN-T5가 우리의 QASA에 대한 최고의 실험 대상이 될 수 있다는 것을 보여줌.


실험방법 및 결과(1) - 사전 작업:

1. 예비연구( QASA의 질문 유형 정의):

- 독자들이 읽으면서 어떤 종류의 질문을 던지는지를 파악하기 위해, 10명의 참가자를 대상으로 생각하고 말하기 연구(N = 10)를 실시하고 각 질문을 정의함
   (인간의 의도를 포착하는 데에 사용되는 인간-컴퓨터 상호작용(HCI) 분야에서 표준적으로 사용되는 접근 방식)

 

결과 ( QASA의 질문 유형을 3가지로 정의)

• Surface questions(표면적 질문):

 - 콘텐츠의 기본 개념을 확인하고 이해하기 위해 목적을 둠.

 - 답변 내용은 질문의 단어와 즉각적인 문맥과 직접적으로 관련됨.

 - verification, distinctive, concept completion 질문 종류들이 이 포함됨.

 

• Testing questions(테스트 질문):

- 의미 생성과 독자의 이전 지식과의 조화 형성에 초점을 맞춤

- 이러한 질문은 유사한 예제를 찾기 위해 (예제), 변수를 양적으로 나타내기 위해 (양적), 개념 간 의미를 찾고 비교를 수행

 

• Deep questions(심층적 질문)

- 콘텐츠의 개념 간 연결 및 논리적, 인과적 또는 목표지향적 시스템에서의 고급 추론을 유도

- 이 유형에는 causal antecedent, causal consequence, goal orientation, instrumental/procedural, rationale, expectation (인과 선행, 인과 결과, 목표 지향, 도구/절차, 근거, 기대 질문)이 포함됨.

 

2. 데이터 수집

- 다양한 고급 질문(표면적부터 심층적)을 수집하기 위해 두 가지 유형의 세션을 진행

1) 저자 세션: 논문 저자가 자신의 논문에 대한 질문을 달아준 세션

2) 독자 세션: 일반 독자로부터 Q&A를 수집

    - 질문과 답변 단계를 분리

    - Dasigi et al. (2021)의 QASPER 수집 과정 따름

 

3. QASA 분석

요약: 구성, 정확성, 근거를 분석함

- 질문 세션에서 

두 명의 도메인 전문가가 무작위로 추출한 100개의 질문을 수동으로 평가

- 질문이 전문가의 주석과 일치과 하는 정도 및 QASA의 질문 유형 분포를 분석함

- 질문 유형에 따라 답변에 필요한 증거 근거의 수를 식별함

 

4. QASA의 QA 접근 방식을 제안

- 검색 전처리: 선택할 단락을 좁히기 위해 전체 논문에서 상위 N개의 관련 단락을 검색하는 단계를 수행함(N=10).

- 다중 작업 지시를 사용한 대형 언어 모델 파인튜닝: 대형 언어 모델(LM)을 여러 하위 작업의 혼합물로 파인튜닝함. 각 하위 작업에 대한 수동 작성 지침을 사용.

- 모델 종류: T5, T0, FLAN-T5, GALACTICA 등의 최신 LM을 고려함


실험방법 및 결과(2) - 최종평가 결과:

세 가지 하위 작업에서 모델을 자동으로 평가:
(1)  Associative Selection,  (2) Rationale Generation, (3) Answer composition (=Systematic Composition) 답변 구성 및 그들의 풀 스택 QA 작업.

평가지표: 

(1) associative selection - precision (P), recall (R), and F1 score.

(2) Rationale-generation & (3) Answer composition tasks - ROUGE scores (*=standard text generation metric)

 

- 생성 작업에서 자동 평가를 보완하기 인간 평가를 수행하고, 오류 분석을 실시함

 

 

 

 

해당 결과는 Human 평가의 결과이다.

 

 

 

 

 

 

해당 결과는 InstructGPT와 제안 모델의 오류 평가이다.

 

 

 

 

 


논문의 기여점:

- 제안 모델이 최첨단 InstructGPT(OpenAI의 text-davinci-003)보다 5.11 Rouge-1 점을 능가

- 선택된 문단에서 직접 답변을 생성하는 것이 성능 저하를 일으키는 것을 확인하여, 고급 질문 응답을 다루는 데 중요한 통찰력을 제시

 


개선되야할 부분:

- 검색을 통한 전처리과정에서 전체 논문에서 상위 N=10개의 관련 단락으로 검색 공간을 좁히는 사전 처리 단계를 고려
  >  이를 통해 효율적인 선택 단계가 가능하나, 증거 단락의 회수를 어느 정도 포기함