인간의 판단력 차이가 AI에 문제를 일으킵니다

‘Noise’ in the Machine: Human Differences in Judgment Lead to Problems for AI

박윤석 VP 승인 2024.05.30 12:03 의견 0

많은 사람들이 편견의 개념을 어느 정도 직관적으로 이해합니다. 사회와 인공 지능 시스템에서는 인종 및 성별 편견이 잘 문서화되어 있습니다.

사회가 어떤 식으로든 편견을 없앨 수 있다면, 모든 문제가 사라질 것인가? 행동경제학 분야의 핵심 인물이었던 고(故) 노벨상 수상자 대니얼 카너먼(Daniel Kahneman)은 그의 마지막 저서에서 편견은 동전의 한 면에 불과하다고 주장했습니다. 판단의 오류는 편견과 소음이라는 두 가지 원인에 기인할 수 있습니다.

편견과 소음은 모두 인간의 판단이 중심이 되는 법률, 의학, 재무 예측과 같은 분야에서 중요한 역할을 합니다. 컴퓨터 및 정보 과학자로 일하면서 저와 제 동료들은 소음이 AI에서도 중요한 역할을 한다는 것을 발견했습니다.

통계적 노이즈(소음)

이 맥락에서 소음은 사람들이 동일한 문제나 상황에 대해 판단하는 방법의 변화를 의미합니다. 소음 문제는 처음에 눈에 보이는 것보다 더 널리 퍼져 있습니다. 대공황 시대까지 거슬러 올라가는 한 중요한 연구는 비슷한 사건에 대해 판사마다 다른 형을 선고한다는 것을 발견했습니다.

걱정스럽게도, 법정 소송의 선고는 기온과 지역 축구팀의 승리 여부와 같은 것들에 따라서도 달라질 수 있습니다. 이러한 요인들은 적어도 부분적으로는 사법 제도가 편향적일 뿐만 아니라 때로는 자의적이라는 인식에 기여합니다.

다른 예를 들면, 보험 조정자는 유사한 청구에 대해 다른 추정치를 제시할 수 있으며, 이는 판결에 노이즈를 반영합니다. 소음은 와인 시음에서 지역 미인 대회, 대학 입학에 이르기까지 모든 종류의 대회에 존재할 수 있습니다.

데이터의 노이즈

표면적으로는 노이즈가 AI 시스템의 성능에 영향을 미칠 것 같지 않습니다. 어쨌든 기계는 날씨나 미식축구팀의 영향을 받지 않는데, 왜 상황에 따라 다른 판단을 내릴까? 반면에 연구자들은 편향이 AI가 훈련된 데이터에 반영되기 때문에 AI에 영향을 미친다는 것을 알고 있습니다.

ChatGPT와 같은 새로운 AI 모델의 경우 황금 표준은 상식과 같은 일반적인 지능 문제에 대한 인간의 성능입니다. ChatGPT와 그 동료는 인간이 분류한 상식적인 데이터 세트와 비교하여 측정됩니다.

간단히 말해서, 연구자와 개발자는 기계에게 상식적인 질문을 하고 그것을 인간의 대답과 비교할 수 있습니다. "종이 탁자 위에 무거운 돌멩이를 올려놓으면 탁자가 무너질까? 예 또는 아니오." 테스트에 따르면 둘 사이에 높은 일치가 있는 경우(최상의 경우 완벽한 일치)는 기계가 인간 수준의 상식에 근접한 것입니다.

그렇다면 소음은 어디서 들어올까요? 위의 상식적인 질문은 간단해 보이며 대부분의 사람들은 그 대답에 동의할 가능성이 높지만 더 많은 불일치 또는 불확실성이 있는 많은 질문이 있습니다. “우리 강아지는 배구를 해요." 즉, 노이즈가 발생할 가능성이 있습니다. 흥미로운 상식적인 질문에 약간의 잡음이 있는 것은 놀라운 일이 아닙니다.

그러나 문제는 대부분의 AI 테스트가 실험에서 이러한 노이즈를 설명하지 못한다는 것입니다. 직관적으로, 서로 동의하는 경향이 있는 인간의 대답을 생성하는 질문은 대답이 엇갈리는 경우, 즉 소음이 있는 경우보다 더 높은 가중치를 부여해야 합니다. 연구자들은 이러한 상황에서 AI의 답변에 무게를 두어야 할지 또는 어떻게 평가해야 할지 아직 알지 못하지만, 첫 번째 단계는 문제가 존재한다는 것을 인정하는 것입니다.

기계의 소음 추적

이론은 제쳐두고, 위의 모든 것이 가설인지 아니면 실제 상식의 테스트에서 잡음이 있는지 여부는 여전히 의문으로 남아 있습니다. 소음의 존재를 증명하거나 반증하는 가장 좋은 방법은 기존 테스트를 수행하고 답을 제거하고 여러 사람이 독립적으로 레이블을 지정하도록 하여 답을 제공하는 것입니다. 연구가들은 사람들 사이의 의견 차이를 측정함으로써 실험에서 얼마나 많은 소음이 발생하는지 알 수 있습니다.

이러한 불일치를 측정하는 이면의 세부 사항은 중요한 통계와 수학을 포함하여 복잡합니다. 게다가 상식이 어떻게 정의되어야 하는지 누가 말할 수 있을까요? 인간 판사들이 그 질문에 대해 충분히 생각할 동기가 있다는 것을 어떻게 알 수 있습니까? 이러한 문제는 우수한 실험 설계와 통계의 교차점에 있습니다. 하나의 결과, 테스트 또는 인간 라벨러 집합은 누구도 설득할 수 없습니다. AI 테스트에서 발생할 수 있는 노이즈에 대한 연구는 없었습니다.

이 간극을 해소하기 위해 저와 제 동료들은 이러한 연구를 설계하고 그 결과를 Nature Scientific Reports에 발표하여 상식의 영역에서도 소음은 불가피하다는 것을 보여주었습니다. 판단을 이끌어내는 환경이 중요할 수 있기 때문에, 우리는 두 가지 종류의 연구를 수행했습니다. 한 가지 유형의 연구는 Amazon Mechanical Turk의 유급 근로자를 대상으로 한 반면, 다른 유형의 연구에는 University of Southern California와 Rensselaer Polytechnic Institute의 두 실험실에서 소규모 라벨링 연습이 포함되었습니다.

전자는 교육 및 평가를 위해 릴리스되기 전에 실제로 레이블이 지정된 AI 테스트의 수를 반영하여 보다 현실적인 온라인 설정으로 생각할 수 있습니다. 후자는 더 극단적이며 고품질을 보장하지만 훨씬 더 작은 규모입니다. 우리가 대답하기 시작한 질문은 소음이 얼마나 불가피한지, 그리고 그것은 단지 품질 관리의 문제인가 하는 것이었습니다.

결과는 냉정했습니다. 두 상황 모두에서, 높은 수준의 (심지어 보편적인) 동의를 이끌어 낼 것으로 기대될 수 있는 상식적인 질문들에서조차도, 우리는 사소하지 않은 정도의 잡음을 발견했습니다. 소음이 너무 커서 시스템 성능의 4%에서 10% 사이가 소음에 기인할 수 있다고 추론할 수 있었습니다.

이것이 의미하는 바를 강조하기 위해 테스트에서 85%를 달성한 AI 시스템을 구축했고 91%를 달성한 AI 시스템을 구축했다고 가정해 보겠습니다. 당신의 시스템은 내 시스템보다 훨씬 나은 것 같습니다. 그러나 답변에 점수를 매기는 데 사용된 인간 레이블에 노이즈가 있다면 6%의 개선이 큰 의미가 있는지 더 이상 확신할 수 없습니다.

ChatGPT를 구동하는 것과 같은 대규모 언어 모델을 비교하는 AI 순위표에서 라이벌 시스템 간의 성능 차이는 일반적으로 1% 미만으로 훨씬 작습니다. 논문에서 볼 수 있듯이 일반 통계는 실제 성능 향상의 영향과 소음의 영향을 분리하는 데 실제로 도움이 되지 않습니다.

소음 감사

앞으로 나아갈 길은 무엇입니까? Kahneman의 책으로 돌아가서, 그는 소음을 정량화하고 궁극적으로 가능한 한 완화하기 위한 "소음 감사"의 개념을 제안했습니다. 최소한 AI 연구자들은 소음이 어떤 영향을 미칠지 추정해야 합니다.

AI 시스템의 편향을 감사하는 것은 다소 흔한 일이기 때문에 소음 감사의 개념이 자연스럽게 뒤따라야 한다고 생각합니다. 우리는 이 연구뿐만 아니라 이와 유사한 다른 연구가 채택으로 이어지기를 바랍니다.

이상의 기사는 2024년 5월 14일 SingularityHub에 게재된 “‘Noise’ in the Machine: Human Differences in Judgment Lead to Problems for AI”제목의 기사 내용을 편집하여 작성하였습니다.

* 원문정보 출처 : ‘Noise’ in the Machine: Human Differences in Judgment Lead to Problems for AI (singularityhub.com)

저작권자 ⓒ 창조아고라, 무단 전재 및 재배포 금지