Large Laguage Model(LLM)은 방대한 텍스트 데이터를 바탕으로 학습해 언어 이해와 생성에서 좋은 능력을 발휘한다.
이러한 LLM의 Model Understading에 대한 최신 연구에 따르면, 인과적 질문(Causal Question)에 높은 정확도로 답변을 제시하는 경우가 존재한다. 하지만 LLM이 실제로 인과 관계를 이해하고 추론(causal reasoning)을 수행하는지에 대한 논의는 여전히 진행 중이다.
인과적 질문 예시: "A가 B의 원인이고, B가 C의 원인일 때, A가 C의 원인이 될까?"
1. GPT의 학습 방식
GPT의 학습 방식은 기본적으로 "다음에 올 단어는 무엇일까?"라는 질문에 답할 수 있도록 학습한 Auto-regressive with teacher forcing 방식이다. 즉, P(출력|입력). 하지만 GPT-2가 학습된 다양한 텍스트 내에는 P(출력|입력, 과제)의 형식으로 학습 가능한 텍스트들이 존재하였고, 이로 인해 모델에게 주어진 입력에 대해 과제에 따라 여러 출력을 학습하는 메타 학습(meta learning)이 가능하게 되었다.
이 발견은 매우 중요한데, 어떠한 과제가 주어졌을 때 해당 과제에 대한 개념을 이해하고 활용하는 Few-shot learning 능력을 GPT가 보였다는 것이다. 이러한 현상을 과제 조건화(Task Conditioning) 이라고 하며, 이를 통해 LLM은 입력된 프롬프트에 맞춰 마치 스스로 문제를 이해하는 듯한 'In-Context Learning' 능력을 발휘하게 되었다
GPT의 학습 방식에 대해서 먼저 이야기한 이유는 LLM이 단순히 Next-token Prediction을 넘어, Meta learning의 능력을 갖춰지면서 Causality Task 해결 능력을 갖출 수 있는 가능성 또한 있기 때문이다.
여기서 내가 궁금했던 점은 Auto-regressive하게 Text를 학습한 LLM이 과연 Causality Task에 대한 해결능력을 갖추고 있는지 이다. 따라서 이에 대해서 LLM이 정말 Causality를 이해할 수 있는지 그리고 LLM이 어떻게 Causality Task를 해결하는데 활용될 수 있는지 다루고자 한다.
2. LLM의 인과적 추론에서의 한계
they(Language models) do seem to answer causal questions right sometimes
LLM의 Causal understanding을 탐구한 연구들은 LLM의 인과 추론 능력을 이해하기 위한 다양한 접근 방식을 탐구해 왔다.
특히, 최근 연구에서는 LLM이 단지 인과적 언어를 모방할 뿐이며 진정한 인과적 이해가 부족하다는 주장을 하며, 이러한 특성 때문에 "인과 앵무새(Causal parrots)"에 불과하다는 점을 지적하고 있다(Zecevic et al., 2023). 다시 말해, LLM은 학습 데이터에 포함된 언어 패턴을 단순 반복하여 인과적 질문에 답할 가능성을 배제하기 어렵다는 것이다.
Zečević, Matej, et al. "Causal Parrots: Large Language Models May Talk Causality But Are Not Causal." Transactions on Machine Learning Research.
몇 가지 예시와 실험을 참고하자.
예시 1: 단순한 인과 연쇄 질문
- 질문: "A가 B의 원인이고, B가 C의 원인일 때, A가 C의 원인이 될까?"
- 결과: LLM은 이런 간단한 2-3단계의 인과적 연쇄 질문에는 비교적 잘 답한다. 예를 들어, “독이 있는 음식을 먹으면 몸이 아프고, 몸이 아프면 일할 수 없다”라는 상황에서 “독이 있는 음식을 먹으면 일을 할 수 없게 되나요?”라는 질문에 맞는 답을 제시할 수 있다.
- 복잡한 예시: 연쇄가 길어지고 "A가 B에 영향을 미칠 때, B는 또 다른 변수 D에 의해 영향을 받으며, 이 모든 것이 C에 영향을 미친다"와 같은 질문으로 변형하면, LLM은 혼란스러워한다. 이는 LLM이 인과적 순서나 연결을 이해하는 것이 아니라, 단순한 패턴 인식에 의존하고 있음을 보여준다.
예시 2: 인과적 방향성을 묻는 질문
- 질문 1: "흡연은 암의 원인인가?"
- 질문 2: "암은 흡연 때문에 발생하는가?"
같은 의미의 질문이지만, 표현 방식이 다르다. 여기서 LLM은 질문의 단어 구조에 민감하게 반응해 같은 질문임에도 불구하고 답변이 일관되지 않게 나온다.
예를 들어 "암은 흡연 때문에 발생하는가?"라는 질문에는 "발생할 수 있습니다"라고 대답하지만, "흡연은 암의 원인인가?"에는 올바른 인과적 방향성을 이해하지 못하는 LLM은 틀린 답을 할 가능성이 있다. 이는 모델이 흡연 → 암이라는 인과적 방향성을 명확히 이해하지 못하고, 단어 형태에 의존하고 있음을 의미한다.
예시 3: 상관관계와 인과 관계 구분
- 질문: "비가 올 때 사람들이 우산을 쓰는 것은 상관관계인가 원인인가?"와 같은 질문에서 LLM은 상관관계와 인과 관계를 혼동할 수 있다.
- 결과: LLM은 "비가 올 때 땅이 젖는다"와 같이 명확한 인과 관계가 있는 문장과 "비가 올 때 사람들은 우산을 쓴다"와 같은 상관관계가 있는 문장을 혼합해 질문하면, 상관관계를 인과 관계로 오해하는 답을 제시할 때가 있다.
이러한 예시들을 종합하면, (1) LLM은 복잡한 인과 문제에 어려움을 겪으며, 그들이 가지고 있는 인과지식은 (2) 단순히 인과 지식이 포함된 데이터로 훈련하여 기억(memorization)할 뿐이라고 가정할 수 있다. 즉, 앵무새처럼 추론 단계에서 LLM은 문맥에서 실제 인과성을 이해하지 않고 사전 학습한 인과적 지식을 그대로 반복한다는 것이다.
+ 실험에 의하면 CoT(Chain of Tought) 방식을 활용해, 인과 추론에 대한 일관성을 다소 향상 시킬수는 있었다(이 방식도 한계는 존재)
Kıcıman et al., 2023이 수행한 실험에서는 프롬프트 설계에 따른 성능 편차를 지적하였다.
그럼에도 불구하고, LLM은 복잡한 인과 관계를 탐색하는 데 있어서 몇 가지 유용한 역할을 할 수 있다. 예를 들어, Vashishtha 의 연구에서는 LLM이 인과 관계의 방향을 정하거나, 인과 그래프를 생성하는 데 유용할 수 있음을 보여준다.
추가적으로 Kıcıman et al., 2023 은 LLM이 쌍별 인과 관계를 결정하는 데 있어 최대 97%의 정확도를 기록하며 경쟁력 있는 성능을 달성할 수 있음을 보여주었다 (물론 학습하지 못한 데이터에 대해서는 낮은 정확도 성능을 보여주었다)
In some cases, their performance can be comparable to or even surpass human-level reasoning
종합적으로 보면 LLM은 Casual Parrots이라는 결과가 더욱 일리있어 보인다. 자, GPT가 학습 데이터에서 반복적으로 나타난 인과적 상관관계를 활용한다면, LLM은 기존의 Causality Task (Disocvery + inference)에 어떤 도움을 줄 수 있을까? 먼저 자연어와 인과관계에 대해서 조금 알아보자.
3. 자연어와 Causal inference
언뜻 보기에 NLP는 인과적 아이디어에 대한 필요성이 거의 없는 것처럼 보일 수 있다. 이 분야는 Depth가 깊은 아키텍처를 사용하여 대규모 데이터 세트에서 상관 관계를 추출함으로써 놀라운 성능을 얻어으며, 이러한 딥러닝 아키텍처는 근본적으로 원인, 결과 및 교란 요인을 구별하지 않으며 인과 관계를 식별하려고 시도하지 않는다.
하지만 딥러닝 아키텍처 모델의 예측 결과는 신뢰할 수 없을 때가 존재하는데, Train 데이터셋에 존재하는 특정 상관관계로 예측을하여 Out-Of-Distribution(OOD) 문제가 발생할 수 있다. 또한, 학습의 원리가 이해하기 어려워서 위험이 큰 의사 결정에 활용할 수 없을 수도 있다. 이러한 NLP 아키텍처의 단점은 인과적 관점에서 도움을 받을 수 있다.
- 첫번째로, Observational data와 Label 간의 인과 관계에 대한 지식은 잘못된 상관관계를 공식화하고 그 영향을 완화하는 데 사용할 수 있다.
- 두번재로, 모델의 예측 결과를 설명하는 과제는 반사실적(counterfactuals)의 관점에서 도움을 받을 수 있다.
Causal graphs for the motivating examples. In Example 2, the label (Y, i.e., diagnosis) and hospital site (Z) are correlated, and both affect the clinical narrative (X). Predictions f(X) from the trained classifier depend on X
예시: 의료 연구 센터 환자 기록 텍스트를 통해 임상 진단을 예측하는 모델
문제: 임상 상태와 서술 스타일의 빈도가 서로 다른 여러 병원에서 수집하게 되며, 모델이 Train Dataset에 포함되지 않은 병원의 기록에 적용되었을 때 정확도가 감소
위의 문제처럼 Train dataset은 대상의 의학적 상태(Y)의 빈도와 환자 기록(X)이 모두 다른 여러 병원(Z)에서 추출되며, 이러한 데이터로 훈련된 모델은 편향을 가질 수 있다.
예를 들어, 특정 위치나 전문성을 가진 병원은 특정 임상 상태를 더 많이 다룰 가능성이 높으며, 그 병원은 각 서술의 시작에 고정된 텍스트와 같은 독특한 텍스트 특징을 사용할 수 있다.
-> Z에 따라 의학적 상태에 대한 환자 기록이 다르고 의학적 상태도 달라질 수 있기 때문에, 일반화 성능 관점에서 Z의 관계에 따라서 오류가 발생할 수 있다는 것이다.
여기서 우리는 모델 예측 성능을 높이기 위해 f(x)가 병원 Z와 Correlated된 텍스트 스타일에 영향을 받지 않아야 한다는 것이다.
이때, 반사실적 예제(counterfactual instances)가 도움이 될 수 있으며, 이를 생성하여 학습 데이터에 포함시키는 방식이다.
반사실적 예제에서 confounding factors Z에 대한 변화를 포함할 때, 학습의 방식에 반사실적 쌍에 대한 예측 불일치를 명시적으로 페널티화하는 항을 추가할 수 있다.
동일한 진단서 내용(진단서 내용은 고정)이지만, 오직 병원 A 스타일, 병원 B 스타일의 텍스트로 진단서를 작성할 수 있다고 가정해보자.
이때, 모델의 학습을 두 결과가 최소화하도록 학습하게 된다면, 모델이 병원의 스타일에 의존하지 않고 진단 내용에만 기반하여 예측하도록 유도할 수 있다는 의미이다. 다시 말하면, 병원 스타일이 달라졌을 때 모델 예측의 차이가 줄어들도록 학습하는 것이다.
이러한 방식은 OOD(out-of-distribution) 일반화를 개선하고 노이즈에 대한 민감성을 줄일 수 있다고 알려져 있다(Kaushik 외, 2019, 2020)
결국 반사실 예제는 아래와 같은 조건을 가지게 된다.
하지만 생각해보자. 많은 경우 심지어 언어에 매우 유창한 사람조차도 의미 있는 반사실적 사례를 생성하기 어려울 것이다. 예를 들어, "모든 것을 동일하게 유지"하면서 도서 리뷰를 음식점 리뷰로 바꾸는 작업을 상상해보자. 많은 결정이 주석자의 직관에 맡겨지면 반사실적 데이터 증강으로부터 얻을 수 있는 강건성 보장을 파악하기 어렵게 된다.
여기서 LLM이 등장하게 되었고, 특정 Task에서 LLM이 Zero-shot 반사실적 예제 생성기로서 효과적임을 입증하였다. (Bhattacharjee, Amrita, et al)
이러한 반사실적 예제는 실제 텍스트와 특정 Text가 존재하지 않았다면 텍스트가 어땠을지 간의 차이를 계산할 수 있기 때문에, 실제로 반사실적 텍스트를 생성할 수 있는 경우, 우리는 텍스트 기반 모델에 대한 해석에도 가까워 질 수 있을 것이다.
+ 추가적으로 인과추론을 쉽게 수행하기 위한 Guide로서 LLM을 활용할 수도 있다.
3. LLM과 Causal disocvery
Data를 통해, Causal Graph를 복구하는 태스크인 Causal Discovery에서, Domain 지식의 역할은 복구 성능에 영향을 미칠 만큼 중요하다(아래 그림).
하지만 문제는 전문가 참여는 리소스가 든다는 것이다. 실제로 도메인 전문가를 활용하여 하나 하나 그래프의 관계성을 검토하는 것은 사실상 실전에서 불가능한 일이다. 따라서, LLM의 학습된 지식을 이용하여 전문가 참여의 리소스를 줄여 인과 그래프 복구를 자동화하고자 하는 시도들이 존재한다.
Tasks | Prompt |
Pairwise Discovery | “Which is more likely to be true: (A) lung cancer causes cigarette smoking, or (B) cigarette smoking causes lung cancer?” |
Conditional Independence Set Test | As an expert in a specific field, you’re asked to assess the statistical independence between two variables, potentially conditioned on another variable set. Your response, based on theoretical knowledge, should be a binary guess (YES or NO) and the probability of its correctness, formatted as: [ANSWER (PROBABILITY%)]. For example, [YES (70%)] or [NO (30%)]. |
Full Graph Discovery | As a domain expert, analyze cause-and-effect relationships among variables with given abbreviations and values. Interpret each variable and present the causal relationships as a directed graph, using edges to denote direct causality, e.g., x_i1 → x_j1, ..., x_im → x_jm. |
WAN, Guangya, et al. Bridging causal discovery and large language models:
A comprehensive survey of integrative approaches and future directions
여기서의 핵심은 인과 앵무새 LLM이 학습된 패턴을 바탕으로 인과 관계와 관련된 구조나 관계에 대한 힌트를 주는 역할을 할 수 있다는 것이다.
아래는 LLM을 활용한 CI 테스트 예제 프롬프트이며, 여기에서의 장점은 LLM을 특정 영역의 전문가라는 역할을 부여하고 특정 Context 에서 두 변수의 독립성을 물어본다는 점이다.
Vashishtha et al. 은 LLM과 인과 발견(causal discovery) 방법을 결합한 두 가지 알고리즘을 제안하였다. 첫 번째 알고리즘은 제약 기반 알고리즘이 출력한 Skeleton을 인과 Edge의 순서로 정렬하기 위해 LLM에서 얻은 인과적 순서를 사용하고, 두 번째 알고리즘은 점수 기반 알고리즘에서 LLM의 인과적 순서를 사전 정보(prior)로 활용한다. 이후 이들은 학습된 인과 그래프의 엣지 정확성을 검증하고, LLM의 피드백을 기반으로 인과 발견 과정을 미세 조정하는 반복적 프레임워크를 제안했다.
4. 정리
인과 관계가 중요한 과학적 연구나 정책 결정, 의료 진단 등의 분야에서는 LLM을 단독으로 사용하는 것이 부적절할 수 있으며, 보다 적절한 방법론이 필요하다. 그렇다면, LLM이 기존의 인과 추론 작업에 어떻게 기여할 수 있을까? 현재 LLM의 인과 추론 적용 가능성은 다음과 같은 두 가지 측면에서 의미 있는 가능성을 제시하고 있다.
- Causal inference -> Counterfactual 데이터 증강
LLM을 활용해 다양한 시나리오에 대한 반사실적 데이터를 생성하면 기존 인과 추론 모델의 학습 데이터셋을 보강할 수 있다. 또한, 소수의 데이터에서도 의미 있는 학습이 가능하게 하여 인과 추론의 신뢰성과 정확성을 높이는 데 기여할 수 있다. - Causal Disocvery -> imperfact domain expert
LLM은 불완전한 도메인 전문가로서, 특정 도메인에 대한 텍스트 학습이 잘 수행된 LLM은 인과 그래프와 관련된 유용한 정보를 제공할 수 있다. 특히, 학습된 패턴을 바탕으로 인과 관계와 관련된 구조나 관계에 대한 힌트를 주는 역할을 할 수 있을 것이라고 생각한다. 이는 기존에 도메인 지식이 부족해서 Unobserved Confounder가 없다는 가정을 세울 수 밖에 없는 상황을 조금 더 유연하게 만들어줄 가능성이 높다.
참고 자료
Radford, Alec, et al. "Language models are unsupervised multitask learners, OpenAI Blog, 1.8(2019):9.
Cohrs, Kai-Hendrik, et al. "Large Language Models for Constrained Based Causal Discovery." AAAI 2024 Workshop on''Are Large Language Models Simply Causal Parrots?''. 2023.
WAN, Guangya, et al. Bridging causal discovery and large language models: A comprehensive survey of integrative approaches and future directions. arXiv preprint arXiv:2402.11068.
Jin, Zhijing, et al. "Cladder: Assessing causal reasoning in language models." Thirty-seventh conference on neural information processing systems . 2023.
Bhattacharjee, Amrita, et al. "Zero-shot LLM-guided Counterfactual Generation for Text." arXiv preprint arXiv:2405.04793 (2024).
Aniket Vashishtha et al. “Causal Inference Using LLM-Guided Discovery”. In: arXiv preprint arXiv:2310.15117 (2023).
Emre Kıcıman et al. “Causal reasoning and large language models: Opening a new frontier for causality”. In: arXiv preprint arXiv:2305.00050 (2023).
'논문 리뷰' 카테고리의 다른 글
3. Causality가 LLM이 직면한 문제를 해결하는 데 어떻게 도움이 될 수 있을까? (0) | 2025.02.04 |
---|---|
2. LLM이 인과적 메커니즘을 밝히는 데 어떻게 도움을 줄 수 있을까? (1) | 2025.01.30 |