×

재미있게 읽고 계신가요?

선생님을 위한 테크 뉴스레터_TTT

선생님을 위한 에듀테크 뉴스레터, Tech Trends for Teachers를 받아보세요.

AI 코스웨어의 성능을 평가하는 가장 좋은 방법

지금 눈앞에 있는 AI 코스웨어, 진짜 AI일까요? AI 모델의 성능을 확인하고 싶을 때 어떤 지표를 봐야 할까요?

AI 코스웨어의 성능을 평가하는 가장 좋은 방법

지금 눈앞에 있는 AI 코스웨어, 진짜 AI일까요?


최근 온라인 오프라인 가릴 것 없이 가장 많이 볼 수 있는 단어를 꼽자면 AI 아닐까요? 특히 교육 분야에서는 AI라는 단어를 안 붙인 서비스를 찾는 게 더 어려울 정도로 시장에 존재하는 거의 모든 에듀테크 서비스가 AI 기반 솔루션을 표방하고 있어요. 이는 AI가 시대적 흐름인 이유도 있지만, 그만큼 AI를 접목한 새로운 형태의 교육에 대해서 교육계 전반의 기대감이 높다는 것을 방증한다고 볼 수 있어요.

한두 명의 교사가 학생 여러 명을 담당해야 함으로써 발생하는 공교육의 구조적 한계를, AI를 활용해서 극복할 수 있게 되면서 학교에서도 적극적으로 AI 코스웨어와 같은 에듀테크 솔루션을 도입하기 시작했습니다. 2023년 하반기부터 시작된 디지털 선도학교 사업이 대표적입니다. 이처럼 학교에서 AI 코스웨어를 본격적으로 도입하게 되면서 새로운 고민이 생겨났는데, 바로 선택지가 너무 많아졌다는 점입니다.

학교의 AI 코스웨어 활용을 지원하고 선택에 도움을 주려는 목적으로 한국디지털교육협회(KEFA)에서 정리한 AI 코스웨어 서비스 목록만 해도 110개 이상의 제품이 포함돼 있을 정도이니 선택하기 어려울 수밖에 없습니다. 그리고 그중에는 엄밀히 말해서 AI 기술을 접목했다고 보기 어려운 서비스도 있지만, 일상 업무가 바쁜 선생님 처지에서 이게 정말 AI 코스웨어인지 효과가 있는 서비스인지 하나하나 따져보기는 거의 불가능한 상황이죠.

모두가 자기 서비스가 최고라고 외치는 지금, AI 코스웨어가 정말 효과적인지 쉽게 알아보려면 어떻게 해야 할까요?

AI 코스웨어의 시작과 끝은 정확한 수준 진단

AI 코스웨어에 관해 설명한 지난 포스트(AI 코스웨어란?)에서 언급했지만, AI 코스웨어로서 기능하기 위해서는 몇 가지 조건을 충족해야만 합니다.

    1. AI가 학생의 수준을 정확히 진단할 수 있어야 한다.
    2. 학생의 수준에 맞춘 최적의 학습 순서와 문제를 제시한다.
    3. 학생이 능동적으로 학습 활동에 참여하도록 유도한다.
    4. 교육 및 학습 과정을 평가하고 기록할 수 있어야 한다.
AI 코스웨어의 필수 기능

기존의 학습 플랫폼과 AI 코스웨어의 가장 큰 차이는 교육자의 노동력 투입을 최소화하면서 AI가 학생 수준을 진단하고 수준에 맞춘 학습 내용을 제공한다는 점입니다. 그리고 이러한 개별 맞춤 학습 과정은 AI가 학생의 지식수준을 얼마나 정확하게 추정하는지에 따라 크게 달라집니다. AI의 성능이 부족해서 학습 수준을 정확하게 진단하지 못하는 것은 마치 병원에서 환자에게 부정확한 처방을 내리는 것과 비슷하다고 볼 수 있어요.

AI 모델 성능 확인하는 법: AUC

목적에 따라 AI 모델의 성능을 평가하는 지표는 여러 가지가 있어요. 그중에서 AI 코스웨어의 성능을 확인하고 싶다면 AUC를 보는 게 가장 적합합니다. 그런데 AUC가 무엇이고 왜 AUC를 보는 게 좋은 걸까요?

AUC는 Area Under the Curve의 줄임말로 말 그대로 곡선의 아래 영역이라는 뜻입니다. 곡선의 아래 영역이라니, 무슨 곡선을 말하는 걸까요? 여기서 말하는 곡선이 ROC 곡선입니다. 그럼, ROC 곡선이 무엇인지 알아야겠죠. ROC 곡선을 풀어쓰면 Receiver Operating Characteristic Curve, 직역하면 '수신기 작동 특성 곡선'이라는 뜻인데 아리송하시죠? 사실 단어만 보면 어려워 보이지만 그렇지 않아요.

ROC 곡선이 무엇인지 이해하기 위해서는 먼저 알아야 할 개념이 몇 가지 있습니다. 일단, 학생이 문제를 푸는 상황을 가정해 볼게요. 학생이 새로운 문제를 받으면 학생이 문제를 풀기 전에 AI가 학생이 그 문제를 맞힐지 틀릴지 예측하게 됩니다. 실제로 AI 코스웨어로 학생이 학습할 때 벌어지는 상황이기도 해요. 이때 경우의 수가 총 몇 개나 생길까요?

학생이 문제를 풀 때 경우의 수는 맞히거나 또는 틀리거나 두 가지밖에 없습니다. 문제를 반만 맞힐 수는 없으니까요. 그리고 AI가 예측하는 상황도 학생이 문제를 맞힐 것이다-틀릴 것이다 두 개 뿐이죠. 이렇게 참-거짓처럼 결과가 두 개인 상황을 이진 분류(Binary Classification)라고 하는데 아래처럼 간단한 2x2 행렬로 나타낼 수 있습니다.

그리고 행렬을 통해서 AI가 학생의 문제 풀이 결과를 예측할 때 얼마나 헷갈리고(Confused) 있는지를 표현할 수 있어요. 그래서 이 행렬을 오차행렬(또는 혼동행렬, confusion matrix)이라고 말합니다.

오차행렬로 표현할 수 있는 네 가지 결과는 다음과 같습니다.

  • TP(True-Positive): 학생이 문제를 맞혀서 - AI의 예측이 맞았고 (True), AI도 학생이 문제를 맞힐 거라고 예측(Positive)
  • FN(False-Negative): 학생이 문제를 맞혀서 - AI의 예측이 틀렸고(False), AI도 학생이 문제를 틀렸을 거라고 예측(Negative)
  • TN(True-Negative): 학생이 문제를 틀려서 - AI의 예측이 맞았고(True), AI는 학생이 문제를 틀릴 거라고 예측(Negative)
  • FP(False-Positive): 학생이 문제를 틀려서 - AI의 예측이 틀렸고(False), AI는 학생이 문제를 맞힐 거라고 예측(Positive)

조금 헷갈릴 수 있는데요, 앞의 T/F는 학생의 문제 풀이 결과 자체가 아니라 결과에 대한 AI의 예측이 맞았는지 True/False로 나타낸 것이고, P/N는 결과에 상관없이 초기 예측을 Positive/Negative하게 했는지를 뜻한다고 이해하면 쉽습니다.

네 가지 결과의 비율을 나타내기 위해 각 줄임말에 비율(Rate)을 뜻하는 R을 붙이면 TNR, FPR, TPR, FNR로 표현할 수 있죠. 여기서 중요한 것이 TPR과 FPR입니다. 그리고 FPR을 X축, TPR을 Y축으로 잡고 TPR과 FPR의 관계를 표시한 그래프가 바로 ROC 곡선입니다.

여기서 잠깐, TPR과 FPR은 어떤 관계가 있을까요? 먼저 TP, FP 공통으로 Positive니까 AI가 '학생이 문제를 맞힐 거다'라고 예측한 상황이에요. AI가 학생이 문제를 맞힐 거로 예측할 때는 AI 나름대로의 기준점(threshold)이 있습니다. 그 기준을 넘어서면 긍정적인 예측을 하고 넘어서지 않으면 부정적으로 예측을 하는 거에요.

기준을 X축으로 잡고 TP와 FP를 하나의 그래프로 나타내면 아래와 같습니다. 데이터가 충분하다면 TP와 FP는 각각 정규분포를 따르게 되는데요, AI가 특정 지점을 기준으로 학생의 문제 풀이를 예측할 때 학생이 문제를 맞혀서 예측이 참일 때(TP)도 있지만 예측이 틀리는 경우(FP)도 생길 수 있겠죠? 그래서 TP 곡선과 FP 곡선이 겹치는 영역이 발생합니다. AI가 예측을 더 잘할수록 TP 곡선과 FP 곡선이 겹치는 영역은 줄어드는 거고요.

그래프상 기준점의 오른쪽 영역, 즉 기준점을 넘어서는 TP와 FP의 비율을 나타낸 것이 바로 ROC 곡선입니다. 기본적으로 TPR과 FPR는 어느 정도 비례 관계라는 걸 보실 수 있어요. 그리고 AI의 예측 능력이 뛰어나서 TP 곡선과 FP 곡선이 덜 겹칠수록 ROC 곡선이 왼쪽 위로 붙게 됩니다.

이제 ROC 곡선이 무엇인지 정리가 됐습니다. 다시 위로 올라가서 AUC가 ROC 곡선의 아래 면적이라는 걸 떠올리셨나요? AUC는 면적이 1인 1x1 좌표에서 ROC 곡선이 차지하는 면적을 수치화한 것입니다. 그래프에서 볼 수 있듯 TP, FP 곡선이 동일하면 TPR:FPR은 1:1이 되고 AUC는 0.5가 됩니다. 그냥 무작위로 반반 찍어서 예측했을 때 AUC가 0.5라는 말과 같죠. 실제로 AUC가 0.6 이하라면 예측 모델로서 의미가 없다고 평가합니다.

일반적으로 AI 모델 성능을 판별할 때 AUC가 0.7 이상이면 타당하다고(fair) 보고, 0.8 이상이면 좋다(good), 0.9 이상이면 탁월하다(excellent)라고 평가합니다.

설명이 좀 길어졌지만, 결론적으로 AI 코스웨어가 학생의 지식수준을 정확히 예측할 수 있는지 확인하려면 코스웨어에 적용한 AI 모델의 AUC를 보면 됩니다. 물론 같은 AI 모델이라도 데이터셋 규모와 문제를 푸는 학생 집단의 특성에 따라 AUC는 조금씩 달라질 수 있어요. 그래도 평균적으로 AI 모델의 AUC가 0.8 이상이라면 해당 AI가 학생의 지식수준을 효과적으로 예측할 수 있다고 볼 수 있습니다.

클래스팅 AI는 어떨까요? 최근 자체 데이터셋을 활용해서 실험했을 때 클래스팅 AI의 AUC는 0.9를 넘어서기도 했습니다. 그만큼 클래스팅 AI가 정확하게 학생의 수준을 예측할 수 있다는 말이 되겠죠. 이렇게 높은 성능은 클래스팅 AI가 쌓아온 압도적인 학습데이터 덕분이기도 합니다. 하지만 그렇다고 클래스팅 AI의 기술력이 충분한 데이터가 쌓였을 때만 높은 성과를 보이는 건 아닙니다.

학습 데이터가 충분하지 않을 때는?

실제로 학교에서 학습 데이터가 충분하지 않은 상황이 종종 발생하는데요, 예를 들어 학기 초이거나 새로운 학생이 전학을 왔다거나, 또는 학습에 흥미가 없어서 문제를 많이 풀지 않은 학생이 있을 때, 과연 클래스팅 AI는 어느 정도나 정확하게 학생의 학습 수준을 예측할 수 있을까요?

다음 편에 계속됩니다.


맞춤 상담 문의하기(링크)

검증된 클래스팅 AI의 효과를 경험하고 싶으신가요?
편하게 문의를 남겨주세요.