AI 시스템이 '일반 지능' 테스트에서 인간 수준에 도달

An AI system has reached human level on a test for 'general intelligence'—here's what that means

박윤석 VP 승인 2024.12.31 15:55 의견 0

크레딧: Unsplash/CC0 퍼블릭 도메인


새로운 인공 지능(AI) 모델이 "일반 지능"을 측정하도록 설계된 테스트에서 인간 수준의 결과를 달성했습니다.

2024년 12월 20일, OpenAI의 o3 시스템은 ARC-AGI 벤치마크에서 85%를 기록했으며, 이는 이전 AI 최고 점수인 55%를 훨씬 웃도는 수치이자 인간의 평균 점수와 동등합니다. 또한 매우 어려운 수학 시험에서도 좋은 점수를 받았습니다.

인공 일반 지능(AGI)을 만드는 것은 모든 주요 AI 연구소의 명시된 목표입니다. 언뜻 보기에 OpenAI는 적어도 이 목표를 향해 상당한 진전을 이룬 것으로 보입니다.

회의론은 여전하지만, 많은 AI 연구자와 개발자들은 무언가 바뀌었다고 느낍니다. 많은 사람들에게 AGI의 전망은 이제 예상보다 더 현실적이고 시급하며 가까이 있는 것처럼 보입니다. 그들이 옳은가요?

일반화 및 지능

o3 결과가 의미하는 바를 이해하려면 ARC-AGI 테스트가 무엇인지 이해해야 합니다. 기술적인 측면에서, 이는 새로운 것에 적응하는 AI 시스템의 "샘플 효율성", 즉 시스템이 작동 방식을 파악하기 위해 확인해야 하는 새로운 상황의 예가 얼마나 많은지를 테스트하는 것입니다.

ChatGPT(GPT-4)와 같은 AI 시스템은 샘플 효율이 높지 않습니다. 그것은 인간 텍스트의 수백만 가지 예에 대해 "훈련"되었으며, 어떤 단어 조합이 가장 가능성이 높은지에 대한 확률적 "규칙"을 구성했습니다.

결과는 일반적인 작업에서 꽤 좋습니다. 일반적이지 않은 작업에서는 해당 작업에 대한 데이터(샘플이 더 적음)가 없기 때문에 좋지 않습니다.

AI 시스템이 소수의 사례에서 학습하고 더 많은 샘플 효율성으로 적응할 수 있을 때까지는 매우 반복적인 작업과 가끔 발생하는 실패가 용인되는 작업에만 사용될 것입니다.

제한된 데이터 샘플에서 이전에 알려지지 않았거나 새로운 문제를 정확하게 해결하는 능력은 일반화 능력으로 알려져 있습니다. 그것은 널리 지능의 필요한, 심지어 기본적인 요소로 간주됩니다.

그리드와 패턴

ARC-AGI 벤치마크는 작은 그리드 제곱 문제를 사용하여 샘플 효율적인 적응을 테스트합니다. AI는 왼쪽의 그리드를 오른쪽의 그리드로 바꾸는 패턴을 파악해야 합니다.

각 질문에는 배울 수 있는 세 가지 예가 제공됩니다. 그런 다음 AI 시스템은 세 가지 예시에서 네 번째 예시로 "일반화"하는 규칙을 파악해야 합니다.

이것은 때때로 학교에서 기억할 수 있는 IQ 테스트와 매우 유사합니다.

약한 규칙과 적응

OpenAI가 어떻게 했는지 정확히 알 수는 없지만 결과는 o3 모델이 적응력이 뛰어나다는 것을 시사합니다. 몇 가지 예에서 일반화할 수 있는 규칙을 찾습니다.

패턴을 파악하기 위해 불필요한 가정을 하거나 실제로 필요한 것보다 더 구체적이어서는 안 됩니다. 이론적으로, 당신이 원하는 것을 하는 "가장 약한" 규칙을 식별할 수 있다면, 당신은 새로운 상황에 적응할 수 있는 능력을 극대화한 것이다.

가장 약한 규칙이란 무엇을 의미합니까? 기술적 정의는 복잡하지만, 약한 규칙은 일반적으로 더 간단한 설명으로 설명할 수 있는 규칙입니다.

위의 예에서, 규칙의 일반 영어 표현은 다음과 같을 수 있습니다: "돌출된 선이 있는 모든 모양은 해당 선의 끝으로 이동하고 겹치는 다른 모양을 '은폐'합니다."

생각의 사슬을 찾고 계십니까?

OpenAI가 어떻게 이러한 결과를 얻었는지 아직 알 수 없지만 약한 규칙을 찾기 위해 의도적으로 o3 시스템을 최적화했을 가능성은 거의 없습니다. 그러나 ARC-AGI 작업을 성공적으로 수행하려면 해당 작업을 찾아야 합니다.

우리는 OpenAI가 o3 모델의 범용 버전(어려운 질문에 대해 "생각"하는 데 더 많은 시간을 할애할 수 있기 때문에 대부분의 다른 모델과 다름)으로 시작한 다음 ARC-AGI 테스트를 위해 특별히 훈련시켰다는 것을 알고 있습니다.

벤치마크를 설계한 프랑스의 AI 연구자 프랑수아 숄레(Francois Chollet)는 o3가 과제를 해결하기 위한 단계를 설명하는 다양한 "생각의 사슬"을 검색한다고 믿습니다. 그런 다음 느슨하게 정의된 규칙 또는 "휴리스틱"에 따라 "최상의" 를 선택합니다.

이는 구글의 알파고(AlphaGo) 시스템이 세계 바둑 챔피언을 이기기 위해 가능한 다양한 행마 순서를 검색하는 것과 다르지 않습니다.

이러한 생각의 연쇄는 예제에 맞는 프로그램처럼 생각할 수 있습니다. 물론 바둑을 두는 AI와 같다면 어떤 프로그램이 가장 좋은지 결정하기 위해 휴리스틱 또는 느슨한 규칙이 필요합니다.

겉보기에 똑같이 유효한 수천 개의 서로 다른 프로그램이 생성될 수 있습니다. 그 휴리스틱은 "가장 약한 것을 선택" 또는 "가장 단순한 것을 선택"일 수 있습니다.

그러나 알파고와 같다면 AI가 휴리스틱을 생성하도록 했을 뿐입니다. 이것이 알파고의 과정이었다. Google은 다양한 이동 순서를 다른 것보다 더 좋거나 더 나쁘게 평가하도록 모델을 훈련시켰습니다.

우리가 아직 모르는 것

그렇다면 문제는 이것이 AGI에 정말 더 가까운가 하는 것입니다. 이것이 o3가 작동하는 방식이라면 기본 모델이 이전 모델보다 훨씬 좋지 않을 수 있습니다.

모델이 언어에서 학습하는 개념은 이전보다 일반화에 더 적합하지 않을 수 있습니다. 대신, 우리는 이 테스트에 특화된 휴리스틱을 훈련시키는 추가 단계를 통해 발견되는 보다 일반화할 수 있는 "생각의 사슬"을 보고 있을 수 있습니다. 언제나 그렇듯이 증거는 푸딩에 있습니다.

o3에 대한 거의 모든 것은 알려져 있지 않다. OpenAI는 소수의 연구자, 실험실 및 AI 안전 기관에 대한 몇 가지 미디어 프레젠테이션 및 초기 테스트로 공개를 제한했습니다.

o3의 잠재력을 진정으로 이해하려면 평가, 용량 분포에 대한 이해, 얼마나 자주 실패하고 얼마나 자주 성공하는지에 대한 이해를 포함한 광범위한 작업이 필요합니다.

o3가 마침내 출시되면, 우리는 그것이 대략 보통 인간만큼 적응할 수 있는지에 대해 훨씬 더 나은 아이디어를 갖게 될 것입니다.

만약 그렇다면, 그것은 거대하고 혁명적이며, 경제적인 영향을 미칠 수 있으며, 자기 개선적인 가속화 지능의 새로운 시대를 열 수 있습니다.

우리는 AGI 자체에 대한 새로운 기준과 AGI가 어떻게 관리되어야 하는지에 대한 진지한 고려를 요구할 것입니다.

이상의 기사는 2024년 12월 24일 TechXplore에서 게재한 “An AI system has reached human level on a test for 'general intelligence'—here's what that means”제목의 기사내용을 편집하여 작성하였습니다.


* 원문정보 출처 : An AI system has reached human level on a test for 'general intelligence'—here's what that means

저작권자 ⓒ 창조아고라, 무단 전재 및 재배포 금지