틀린 답은 공짜가 아니다

10건 중 6건만 맞히는 봇이 있다고 쳐요. 나머지 4건은 그냥 사라지지 않습니다. 다시 물어보고, 사람한테 넘어가고, 더 나쁘면 그대로 믿어버려요.

그래서 우리가 보는 숫자는 이겁니다.

맞은 답변당 비용 = 답변당 비용 / 정확도

답변당 싸도 정확도가 낮으면 비싼 거예요.

비용 쪽은 생각보다 작다

실제 상담 턴을 검색+생성 파이프라인에 그대로 흘려서 cr(크레딧) 소모를 재봤어요. 추정 말고 실측으로, 생성은 gpt-5.4-mini 기준으로요.

상담 한 번(보통 멀티턴)이 약 2 cr 정도예요. 흔한 저가 모델 기준으로 재도 이만큼 작은 건, 상담 답변이 짧고 컨텍스트가 좁아서입니다. 검색은 cr로 따지면 푼돈이고, query 확장도 마찬가지예요. “확장 끄면 절약되겠지”는 헛다리였습니다.

RAG가 틀리는 건 보통 모델이 아니라 검색에서 어긋나요. 엉뚱한 근거를 물어오면, 똑똑한 모델이 그 위에 그럴듯하게 틀린 답을 씁니다. 큰 모델로 못 덮어요.

그래서 답변마다 근거 문서를 같이 답니다. 틀린 검색이 보이게 되거든요. 읽는 사람이 답을 믿는 그 출처 목록이, 우리가 “이 답이 근거에 붙어 있나”를 채점하는 목록이기도 하고요.

이 사이트 우하단 챗봇이 정확히 이 스택입니다. 우리 공개 문서를 근거로 답하고, 쓴 문서를 인용하고, 링크로 보내줘요.

요금 모델을 바꿨을 때 봇이 옛 숫자를 답한 적이 있는데 — 범인은 모델이 아니라 중복으로 쌓인 옛 문서였어요. 봇은 내내 자기 corpus에 충실했고, corpus가 버그였던 거죠. 정리하니 바로 맞더라고요.