[MAICE 개발기 6편] 교육적 효과를 어떻게 검증했는가: 논문 기반 정리

1. 그래서 실제로 달라졌는가

앞선 다섯 편에서는 MAICE가 왜 필요했는지, 질문 명료화를 어떻게 시스템으로 만들었는지, 그리고 실험을 위해 어떤 평가와 운영 장치를 준비했는지 살펴봤습니다.

마지막 질문은 더 직접적입니다.

학생이 질문을 더 명확하게 만들도록 도왔을 때, 실제 대화의 질은 달라졌는가?

이 글은 데모가 좋아 보였다는 이야기가 아닙니다. 실험 데이터에서 어떤 신호가 보였고, 어디까지 조심해서 해석해야 하는지를 정리하는 글입니다. 따라서 코드 설명은 결과를 뒷받침한 운영·수집·평가 환경으로만 다루고, 교육적 효과는 논문 데이터 기준으로 해석합니다.

2. 먼저 N의 단위를 구분하자

이 연구의 결과를 읽을 때 가장 먼저 조심해야 할 것은 N의 단위입니다. 학생 수, 세션 수, 평가 표본 수가 함께 등장하기 때문입니다.

대상: 고2 58명 배정(Agent 28 / Freepass 30)
유효 참여자: 55명
기간: 3주(2025-10-20 ~ 2025-11-08)
유효 세션: 284개
LLM 평가: 284개 세션 전체
교사 평가: 표본 세션 100개
평가 프레임: QAC 40점 체크리스트

LLM 평가는 많은 세션의 패턴을 보는 데 유리했습니다. 교사 평가는 교육적 타당성을 확인하는 데 중요했습니다. 두 평가를 함께 쓴 이유는 어느 한쪽만으로는 해석이 부족했기 때문입니다.

다만 LLM 평가는 평균적으로 교사보다 후하게 채점하는 경향이 있었습니다. 그래서 LLM 점수는 절대적인 채점 결과가 아니라 상대 비교와 패턴 탐색을 돕는 보조 지표로 읽어야 합니다.

3. 숫자 전에 실제 질문을 보면

통계표만 보면 결과가 멀게 느껴질 수 있습니다. 그래서 먼저 실제 수집 질문을 보겠습니다. 여기서 말하는 예시는 학생 이름이나 식별 정보를 뺀 질문-답변 및 교사 평가 데이터의 질문 예시입니다. 전체 대화 원문을 옮긴 것이 아니라, 수집된 질문-답변 및 평가 데이터에서 발췌한 ‘질문 장면’입니다.

이번 연구의 본실험 맥락은 고2 수학 I의 수학적 귀납법 단원이었습니다. 그래서 예시도 귀납법, 귀납적 증명, 증명 전략과 연결되는 질문만 골라 보았습니다.

교사 평가와 분석 데이터에서 맥락이 부족한 질문은 대체로 이렇게 짧았습니다.

근데 어떻게 증명한거야?

이 질문은 학생의 막힘을 보여 주지만, 무엇을 증명하는지 빠져 있습니다. 앞선 대화가 없다면 교사도, AI도 “어떤 명제를 증명하려는 건가요?”, “기본 단계와 귀납 단계 중 어디에서 막혔나요?”처럼 먼저 문제 문장과 막힌 지점을 확인해야 합니다.

또 다른 예시는 겉보기에는 수학적 귀납법 문제처럼 보입니다.

2^n+3^n이 항상 5의 배수임을 증명하라

이 예시는 일부러 그대로 두었습니다. 명제는 전체 자연수에 대해 참이 아니기 때문입니다. 예를 들어 $n=2$ 이면 $2^2+3^2=13$ 이므로 5의 배수가 아닙니다. 이런 질문에서는 바로 귀납법 증명을 시작하기보다, 먼저 작은 값으로 반례를 확인하고 “모든 자연수인가요, 홀수 자연수인가요?”처럼 조건이 빠졌는지 물어보아야 합니다. 올바른 명제로 바꾸면 “모든 홀수 자연수 $n$ 에 대해 $2^n+3^n$ 은 5의 배수이다”처럼 쓸 수 있습니다. 질문 명료화는 단순히 문장을 예쁘게 만드는 일이 아니라, 증명할 대상 자체가 올바른지 점검하는 과정이기도 합니다.

반대로 수학적 귀납법 단원 안에서 맥락이 더 분명한 질문도 있었습니다.

귀납법이랑 수학적 귀납법이랑 차이가 있어? 내가 알고있는건 그냥 귀납법이라서 좀 궁금한데

이 질문에는 학생이 헷갈리는 지점이 드러납니다. 단순히 “수학적 귀납법 설명해줘”보다, 일반적인 귀납법과 수학적 귀납법의 차이를 알고 싶다는 요구가 분명합니다. 답변도 자연스럽게 경험적 일반화와 수학적 증명의 차이, 기본 단계와 귀납 단계의 의미로 좁혀질 수 있습니다.

또 이런 질문도 있었습니다.

수학적 귀납법을 설명해줘 예시를 들어서

이 질문은 아주 구체적인 학습 맥락까지 담고 있지는 않지만, 적어도 원하는 내용이 정의와 예시라는 점은 분명합니다. MAICE가 여기서 한 단계 더 도울 수 있다면 “등식 증명 예시, 예를 들어 $1+2+\cdots+n=\frac{n(n+1)}{2}$ 로 볼까요?”, “부등식 증명 예시로 볼까요?”, “기본 단계와 귀납 단계를 직접 써 보는 방식으로 볼까요?”처럼 질문을 학습 활동에 가깝게 바꿀 수 있습니다.

이 예시들은 연구 결과를 증명하는 독립 증거가 아닙니다. 단일 학교와 특정 단원, 짧은 기간, LLM 채점의 후한 경향, 여러 하위 지표를 함께 본 한계도 그대로 적용됩니다. 다만 뒤에서 볼 C2 학습 지원, B3 학습 확장성, Q1 하위권 효과가 어떤 종류의 대화 차이와 연결될 수 있는지 보여 주는 장면입니다.

참고로, 위 예시는 MAICEAnalysis의 질문-답변·교사평가 병합 CSV와 MAICEFIND 계열 분석 데이터에서 귀납법·증명 관련 질문만 골라 확인한 발췌입니다. 그래서 여기서는 ‘세션 전체 대화 원문’이 아니라 ‘수집된 질문-답변 및 평가 데이터에서 본 질문 장면’으로 표현했습니다. 이제 통계 결과를 보며, 이런 질문 차이가 어떤 평가 신호와 연결되는지 살펴보겠습니다.

4. 어디에서 효과가 보였나

가장 먼저 볼 결과는 C2, 즉 학습 과정 지원입니다. Agent 모드는 LLM 평가에서 Freepass보다 C2가 높게 나타났습니다.

C2 학습 지원: +0.28점, p=0.004, d=0.353
B3 학습 확장성: +0.22점, p=0.041, d=0.245

여기서 효과크기 d는 Agent - Freepass 방향입니다. 양수는 Agent 우세, 음수는 Freepass 우세입니다.

이 결과는 명료화 흐름이 단순 정답 제공보다 사고 유도와 이해 확인 측면에서 도움이 되었을 가능성을 보여 줍니다. 다만 평균 차이 자체는 크지 않습니다. 여러 하위 지표를 함께 본 연구이므로, p값 하나만 보고 효과를 과장해서는 안 됩니다.

5. 가장 뚜렷한 신호는 하위권에서 나왔다

전체 평균보다 더 중요한 신호는 하위권(Q1)에서 나타났습니다.

LLM C2: p<0.001, d=0.855
LLM 전체 점수: +2.26점, p=0.032, d=0.499
교사 전체 점수: +6.32점, p=0.013, d=0.992

이 결과는 MAICE가 특히 질문을 어떻게 시작해야 할지 어려워하는 학생들에게 더 큰 도움을 줄 가능성을 보여 줍니다. 하위권 학생에게는 "바로 답"보다 "먼저 무엇이 막혔는지 정리하게 하는 대화"가 더 필요했을 수 있습니다.

다만 하위집단 결과는 조심해서 읽어야 합니다. 표본이 작고, 특정 학교와 특정 단원에서 나온 결과이기 때문입니다. 이 신호는 후속 연구에서 다시 확인해야 할 가설에 가깝습니다.

6. 항상 Agent가 좋았던 것은 아니다

결과가 한 방향으로만 나온 것은 아닙니다. A3, 즉 학습 맥락 항목에서는 Freepass가 더 높게 나타났습니다.

A3 학습 맥락: d=-0.425, p=0.001

이 결과는 중요합니다. 질문 명료화가 학생의 질문을 더 수학적으로 만들 수는 있지만, 그 과정에서 학생이 처음 갖고 있던 개인적 맥락이 줄어들 수도 있다는 뜻입니다.

예를 들어 학생이 "제가 여기까지 했는데 여기서 막혔어요"라고 말했는데, 명료화 과정이 수학적 조건만 정리하는 쪽으로 흐르면 개인적 학습 맥락은 약해질 수 있습니다. 그래서 다음 개선에서는 맥락 수집과 수학적 명료화를 함께 잡아야 합니다.

7. 반복 사용에서 보인 변화

복수 세션 참여자 기준에서는 Agent 모드에서 여러 항목의 개선이 관찰되었습니다.

A1 수학 전문성: +0.57 (p=0.006)
A2 질문 구조화: +0.71 (p=0.003)
B1 학습자 맞춤: +0.93 (p=0.001)
B2 설명 체계성: +0.93 (p=0.015)
C1 대화 일관성: +0.64 (p=0.010)
전체 점수: +3.45 (p=0.016)

이 결과는 반복 사용을 통해 학생 질문과 대화 품질이 조금씩 정리되었을 가능성을 보여 줍니다. 하지만 여러 하위 지표를 함께 본 결과이므로, 개별 p값 하나하나를 확정적 결론처럼 읽으면 안 됩니다. 전체 패턴과 함께 탐색적으로 해석하는 것이 안전합니다.

8. 교사 평가와 학생 체감

교사 평가에서는 전체 평균 차이가 통계적으로 유의하지는 않았습니다.

전체 점수: Agent 21.73 / Freepass 19.48
차이: +2.25, p=0.085, d=0.349

그러나 답변 영역(B)에서는 Agent 모드가 유의하게 높았습니다.

B영역: +1.28, p=0.017, d=0.488

학생 설문에서도 긍정적 신호가 있었습니다. 상호작용 품질, 질문 능력, 개념 이해, 시스템 만족도에서 높은 평균이 나타났고, 명료화 선호도도 확인되었습니다. 다만 설문은 자기보고 자료입니다. 새로운 시스템을 사용한 효과나 연구 참여 상황에서 생기는 편향도 고려해야 합니다.

9. 코드와 분석 도구가 맡은 역할

실제 코드는 이 결과를 만들어 낸 마법 상자가 아닙니다. 코드는 학생 대화를 남기고, 평가할 수 있게 만들고, 분석 가능한 형태로 정리하는 기반이었습니다.

운영 시스템은 SvelteKit 프론트엔드, FastAPI 백엔드, Redis Streams, 에이전트 워커를 통해 학생 질문과 답변 흐름을 세션 단위로 남겼습니다. 교사용 화면은 QAC 40점 루브릭 평가를 입력할 수 있게 했고, 백엔드의 자동 평가 서비스는 Gemini 기반으로 질문 3항목과 답변 3항목을 30점 구조로 기록했습니다.

분석 단계에서는 MAICEAnalysis, MAICEFIND, MAICEsurvay 같은 별도 도구와 데이터가 활용되었습니다. 다만 이 도구들이 효과를 증명하는 것은 아닙니다. 효과는 연구 설계, 평가 자료, 통계 분석을 함께 보아야 해석할 수 있습니다.

10. 한계도 결과의 일부다

이번 연구는 가능성을 보여 주었지만, 그대로 일반화하기에는 한계가 있습니다.

단일 학교, 소프트웨어 마이스터고 맥락
고2 수학 I, 수학적 귀납법 단원
3주라는 짧은 실험 기간
LLM 평가의 점수 인플레이션 가능성
교사 평가 표본 수 제한
설문 응답 편향 가능성
OCR과 UI 개선을 독립 처치로 분리하지 못한 점

따라서 MAICE의 결과는 "모든 학교에서 같은 효과가 난다"는 결론이 아닙니다. 더 정확히는, 질문 명료화를 중심으로 설계한 수학 AI가 특정 조건에서 학습 과정 지원을 개선할 가능성을 보여 준 결과입니다.

11. 결론: 정답기가 아니라 질문을 되돌려주는 시스템

MAICE를 만들며 가장 크게 확인한 것은, 수학 학습에서 질문은 단순한 입력값이 아니라는 점입니다. 질문은 학생이 자기 이해를 드러내는 자리이고, 동시에 학습이 시작되는 자리입니다.

MAICE는 정답을 더 빠르게 주는 시스템이 되려 한 것이 아닙니다. 학생이 막힌 지점을 다시 보고, 질문을 더 분명히 만들고, 그 질문을 바탕으로 답변을 받을 수 있게 하려는 시도였습니다.

효과는 제한적이었고, 한계도 분명했습니다. 하지만 하위권 학생에게서 나타난 신호와 학습 지원 항목의 개선은, AI가 답을 주기 전에 질문을 함께 다듬는 일이 교육적으로 의미 있을 수 있음을 보여 줍니다.

출처

김규봉, 『고등학교 수학 학습에서 질문 명료화를 지원하는 AI 에이전트 개발 및 효과성 분석』, 부산대학교 교육대학원 석사학위논문.