[MAICE 개발기 4편] QAC 체크리스트 개발: 교육 품질을 측정 가능한 기준으로 만들기

1. 왜 4편의 중심을 QAC로 바꿨나

학생 페르소나 테스트를 해보니, “재미있는 시뮬레이션”은 가능했지만 그 자체가 코드 품질을 직접 보장해주지는 않았습니다.

즉, 페르소나는 탐색 도구로는 유용했지만, 실제 개선 사이클에서 더 중요했던 건 일관된 평가 기준이었습니다.

그래서 4편은 페르소나 자체보다, 논문에서도 핵심으로 다룬 QAC(Question-Answer-Context) 체크리스트 중심으로 정리합니다.

교육 AI 품질은 단순 정확도 하나로 측정하기 어렵습니다.

이 세 가지를 함께 보려면 구조화된 루브릭이 필요했고, 그 역할을 QAC가 맡았습니다.

QAC는 총 3개 영역으로 구성됩니다.

각 세부 항목은 체크리스트 방식으로 평가하고, 영역 점수를 합산해 세션 단위 총점을 계산합니다.

논문 기준으로 QAC는 아래처럼 운영했습니다.

중요한 해석 포인트:

페르소나 테스트보다 실제 코드에 남은 산출물은 QAC 기반 평가 흐름이었습니다.

이 구조 덕분에 “감으로 좋아졌다”가 아니라, “어떤 항목이 개선됐는지”를 추적할 수 있었습니다.

학생 페르소나 테스트는 완전히 버린 게 아니라, 다음 용도로 제한해서 사용합니다.

다만 핵심 평가는 QAC로 가져가고, 페르소나는 보조 도구로 두는 쪽이 운영상 더 안정적이었습니다.

4편의 핵심은 “페르소나를 얼마나 정교하게 만들었는가”가 아니라, 교육 품질을 어떻게 측정 가능하게 만들었는가입니다.

MAICE에서는 그 기준이 QAC였고, 연구 단계에서도 운영 단계에서도 이 프레임이 가장 실질적인 개선 도구였습니다.