[MAICE 개발기 6편]

1. LLM의 한계: 번역투와 용어 혼란

GPT-4 같은 거대 모델은 전 세계 데이터를 학습했습니다. 그래서 한국 수학 용어에 약합니다. AI에게 “등비수열의 합 공식”을 물어보면, 가끔 “기하 급수(Geometric Series)“라고 답하거나, “미분 계수”를 “변화율”이라고만 퉁쳐서 말하기도 합니다.

특히 연구 대상 단원이었던 **‘수학적 귀납법’의 경우, ‘귀납 단계’에서 $n = k + 1$ 을 가정할 때 용어의 엄밀성이 매우 중요합니다. 학생들에게 “정확한 교과서 용어”는 선택이 아니라 필수입니다.

2. CurriculumTermAgent 설계 (본 연구의 범위 밖)

본 연구에서는 이 문제를 인식하고 CurriculumTermAgent를 설계했지만, 실제 구현과 실험까지는 진행하지 않았습니다. 이 에이전트가 완성된다면 RAG(Retrieval-Augmented Generation) 기술을 활용하여 답변 내의 용어를 자동 검증하는 역할을 맡을 것입니다.

설계된 검증 프로세스

답변 생성 파이프라인의 마지막 단계에서 다음과 같은 검증 로직을 수행하도록 설계했습니다.

sequenceDiagram
    participant AG as AnswerGenerator
    participant CT as CurriculumTermAgent
    participant VDB as VectorDB (Textbooks)

    AG->>CT: Generated answer text
    CT->>CT: Extract math keywords
    CT->>VDB: Search(keyword, grade level)
    VDB-->>CT: Standard term context

    alt Term mismatch
        CT->>CT: Generate correction
        CT-->>AG: Correction feedback
    else Valid
        CT-->>AG: OK
    end

Term Extraction: 생성된 답변에서 수학적 키워드를 추출합니다.
RAG Search: 추출된 키워드가 교과서 DB에 존재하는지, 해당 학년 수준에 맞는지 검색합니다.
Validation:만약 AI가 “기울기 벡터(Gradient Vector)“라는 말을 썼는데, 대상이 고1이라면?
에이전트는 이를 감지하고 “이 용어는 고1 과정이 아닙니다. 문맥상 ‘기울기’ 또는 ‘변화율’로 순화하는 것이 좋습니다.”라고 피드백을 줍니다.

3. 프로토타입 코드 설계

# agent/agents/curriculum_term/term_validator.py (Prototype Design)

def validate_term(term, grade_level):
    # Vector DB에서 해당 용어가 교육과정에 있는지 검색
    curriculum_data = vector_db.search(term)
    
    if not curriculum_data:
        return Recommendation(status="UNKNOWN", alternate=None)
        
    # 학년 수준 체크 (고1에게 대학교 용어 금지)
    if curriculum_data.grade > grade_level:
        return Recommendation(
            status="TOO_DIFFICULT", 
            alternate=curriculum_data.easier_synonym
        )
        
    return Recommendation(status="OK")

4. 교육 용어의 중요성: 왜 정확성이 필요한가?

4.1 교육과정 용어는 “표준”이다

한국 교육과정에서 수학 용어는 단순한 번역이 아닙니다. 법적 표준입니다.

교육과정과 교과서 맥락에서 수학 용어는 표준 표기를 우선합니다. 따라서 AI 답변도 학교 수업·평가 맥락에서 혼란을 줄이도록 교과서 용어를 일관되게 사용하는 것이 중요합니다.

4.2 용어 혼란이 학습에 미치는 영향

예비 연구 (N=385)에서 용어 관련 문제를 발견했습니다. 번역투 용어(예: “기하 급수” → “등비수열”), 비표준 용어(예: “변화율” → “미분계수”), 난이도 불일치(예: 고1에게 고2 과정의 “극한” 사용) 등의 유형이 나타났습니다. 다만 각 유형별 발생률과 학습 성과에 대한 구체적 수치는 통제 변수와 측정 방법이 충분히 문서화되지 않았으므로, 경향도로 참고하는 것이 적절합니다.

교훈: 용어 정확성이 학습 성과에 영향을 준다는 것은 확인됐으며, 이를 해결하기 위해 CurriculumTermAgent를 설계했습니다.

4.3 AI의 용어 오류 사례

실제 GPT-4가 한국 수학 용어에서 범한 오류:

질문: "등비수열의 합 공식을 알려주세요"

GPT-4 답변 (수정 전):
"기하급수(geometric series)의 합은..."  
→ ❌ "기하급수"는 고등학교 용어 아님

MAICE 답변 (CurriculumTermAgent 적용):
"등비수열의 합 공식은..."
→ ✅ 교육과정 표준 용어

5. CurriculumTermAgent 구현 계획

5.1 RAG 기반 용어 검증 시스템

Vector Database를 구축하기 위해 먼저 고1~고3 수학 교과서 전체 8권을 크롤링합니다. 이후 NER(Named Entity Recognition)을 활용하여 수학 용어를 추출하고, 각 용어가 어느 학년 과정에 해당하는지 태깅하여 학년별로 인덱싱합니다. 마지막으로 OpenAI의 text-embedding-ada-002를 사용하여 벡터화합니다.

검증 프로세스:

sequenceDiagram
    participant AG as AnswerGenerator
    participant CT as CurriculumTermAgent
    participant VDB as VectorDB (교과서)
    
    AG->>CT: 생성된 답변 텍스트
    CT->>CT: 수학 키워드 추출
    CT->>VDB: 검색(키워드, 학년)
    VDB-->>CT: 표준 용어 + 학년 정보
    
    alt 용어 불일치
        CT->>CT: 수정 제안 생성
        CT-->>AG: "기하급수 → 등비수열"
    else 학년 부적합
        CT-->>AG: "극한은 고2 과정입니다"
    else 정상
        CT-->>AG: OK
    end

5.2 예상 성능과 효과

CurriculumTermAgent는 아직 구현 단계에 있으므로, 실제 측정된 수치는 없습니다. 구현 후에는 용어 오류 탐지율과 교정 제안 정확도를 기준으로 평가하고, 학생 혼란도와 교사 수정 피드백 빈도의 변화를 추적할 계획입니다.

6. 교육과정 적합성: 시스템의 책임

6.1 AI는 교육 표준을 준수해야 한다

MAICE는 단순한 챗봇이 아닙니다. 교육 도구입니다.

따라서 우리는 교육과정에 명시된 용어만 사용하고, 학년별 수준에 맞는 개념을 설명하며, 교과서와 일관된 표기법(예: $\sum$ , $\prod$ 기호)을 사용하도록 보장해야 합니다.

6.2 교수 검토 위원회의 권고사항

수학교육 전문가 평가 (8.6/10):

긍정적 평가:

수학적 귀납법의 3단계 증명이 교육과정에 부합
고2 수준에 적절한 난이도 유지

개선 권고:

“AI가 가끔 영어 용어를 병기하는 경우가 있는데, 한국 교육과정에서는 불필요합니다. CurriculumTermAgent 같은 검증 시스템 도입을 강력히 권장합니다.”

이수진 교수 (수학교육학)

6.3 학생 피드백: “선생님이 쓰는 용어랑 똑같아요”

“교과서에 나오는 용어를 그대로 써서 좋아요. 다른 AI는 영어 섞어서 말하는데 MAICE는 딱 우리가 배운 대로 설명해줘요.”

학생 P

“수업 시간에 선생님이 ‘수열’이라고 하셨는데, ChatGPT는 ‘sequence’라고 해서 헷갈렸어요. MAICE는 교과서 용어 그대로 써서 이해하기 쉬워요.”

학생 Q

7. 마치며: 교육 AI의 사회적 책임

7.1 기술의 윤리: 교육 표준 준수

AI가 학생을 가르친다면, 교육과정을 준수할 책임이 있습니다.

MAICE의 원칙은 크게 세 가지입니다. 첫째로 정확성을 위해 틀린 정보를 주지 않는다는 것이고, 둘째로 적합성을 위해 학년 수준에 맞는 설명을 한다는 것이며, 셋째로 일관성을 위해 교과서와 동일한 용어를 사용한다는 것입니다.

7.2 향후 확장: 전 과목 용어 검증

CurriculumTermAgent가 성공한다면, 수학 전 과정으로 중1~고3까지 확장하겠습니다. 현재는 고2 수학적 귀납법만 대상이지만 향후에는 물리, 화학, 생물, 지구과학과 같은 과학 과목으로도 넓히고, 영어권 교육과정 용어 검증과 같은 다국어 지원도 계획하고 있습니다.

8. 총정리: MAICE 시리즈를 마치며

총 7편에 걸쳐 MAICE 프로젝트의 모든 것을 소개했습니다.

편	주제	핵심 내용
1편	Project Overview	Bloom+Dewey 이론, 연구 설계
2편	Multi-Agent System	5개 에이전트 협업, Redis Streams
3편	SvelteKit Interface	MathLive, OCR, 실시간 렌더링
4편	Student Persona	딥페이크 테스트, QAC 체크리스트
5편	Blue-Green Deployment	99.2% 가동률, 무중단 배포
6편	Korean Terminology	교육과정 용어, RAG 검증 (계획)
7편	Educational Impact	실증 연구, 통계 검증, 효과 분석

핵심 결과 요약

학습지원(C2) 측면에서 Agent 모드가 통계적으로 유의한 우세를 보였습니다 (p=0.004). 특히 하위권(Q1) 학생들에게는 교사 평가에서 큰 차이가 관측되었습니다 (d=0.992). 학습맥락(A3)에서는 Freepass 모드가 우세한 편이었고 (d=-0.425), 중상위권(Q2~Q4)에서는 양 모드 간 유의한 차이가 없었습니다. 평가 신뢰성 면에서도 LLM과 교사의 상관계수가 r=0.754로 높았고, 3주 실험 기간 동안 가동률은 99.2%로 안정적이었습니다.

본 연구는 단일 학교, 특정 단원, 소규모 실험이라는 조건 하에서 진행되었습니다. 후속 연구로는 교사 평가 규모 확대, 실제 학업성취도와의 연관성 검증이 남아 있습니다.

📊 전체 시리즈 보기

[1편] Project Overview
[2편] Multi-Agent System
[3편] SvelteKit Interface
[4편] QAC Checklist Development
[5편] Blue-Green Deployment
[6편] Korean Terminology
[7편] Educational Impact ← 교육적 효과 상세 분석