과학적 돌파구는 수십 년에 걸친 부지런한 노력과 전문 지식에 의존하며, 번뜩이는 독창성과 때로는 뜻밖의 발견이 가미됩니다.
이 프로세스의 속도를 높일 수 있다면 어떨까요?
창의성은 새로운 과학적 아이디어를 탐구할 때 매우 중요합니다. 과학자들은 자신의 분야에 대해 배우는 데 수십 년을 보냅니다. 각 정보 조각은 다양한 노화 방지 치료법이 어떻게 수렴되는지 또는 면역 체계가 새로운 치료법을 개발하기 위해 치매나 암을 어떻게 조절하는지 등 새로운 이론으로 재편성할 수 있는 퍼즐 조각과 같습니다.
AI 도구는 이를 가속화할 수 있습니다. 출간 전 연구에서 스탠퍼드대 연구팀은 챗GPT의 알고리즘 유형인 대규모 언어 모델(LLM)을 인공지능의 다양한 연구 주제에 대해 참신한 아이디어를 생성하는 인간 전문가와 겨뤘습니다. 각 아이디어는 AI에서 온 것인지 인간에서 온 것인지 모르는 인간 전문가 패널에 의해 평가되었습니다.
전반적으로 AI가 생성한 아이디어는 인간 전문가가 생성한 아이디어보다 더 독창적이었습니다. 또한 실현 가능성이 낮은 것으로 평가되었습니다. 반드시 문제가 되는 것은 아닙니다. 새로운 아이디어에는 항상 위험이 따릅니다. 어떤 면에서 AI는 높은 보상이 있는 아이디어를 기꺼이 시도하고 이전 연구를 기반으로 아이디어를 제안하지만 조금 더 창의적으로 추론했습니다.
거의 1년 동안 진행된 이 연구는 LLM의 연구 잠재력을 검증한 가장 큰 연구 중 하나입니다.
AI 과학자
전 세계를 강타하고 있는 AI 알고리즘인 대규모 언어 모델은 학술 연구에 활력을 불어넣고 있습니다.
이러한 알고리즘은 디지털 세계에서 데이터를 스크랩하고, 데이터에서 패턴을 학습하고, 이러한 패턴을 사용하여 다양한 전문 작업을 완료합니다. 일부 알고리즘은 이미 연구 과학자들을 돕고 있습니다. 일부는 어려운 수학 문제를 풀 수 있습니다. 다른 사람들은 알츠하이머병과 암을 포함한 최악의 건강 문제를 해결하기 위해 새로운 단백질을 "꿈꾸고" 있습니다.
도움이 되기는 하지만, 이러한 것들은 연구의 마지막 단계, 즉 과학자들이 이미 아이디어를 염두에 두고 있을 때에만 도움이 됩니다. 애초에 AI가 새로운 아이디어를 이끌어 주는 것은 어떨까요?
AI는 이미 과학 논문 초안을 작성하고, 코드를 생성하고, 과학 문헌을 검색하는 데 도움을 줄 수 있습니다. 이러한 단계는 과학자들이 처음으로 지식을 수집하고 배운 것을 기반으로 아이디어를 형성하기 시작하는 경우와 유사합니다.
이러한 아이디어 중 일부는 독창적인 이론과 응용으로 이어질 수 있다는 점에서 매우 창의적입니다. 그러나 창의성은 주관적입니다. 연구 아이디어에 대한 잠재적 영향 및 기타 요인을 측정하는 한 가지 방법은 실험에 눈이 먼 인간 판사를 부르는 것입니다.
연구 저자인 쳉레이 시(Chenglei Si)는 네이처(Nature)와의 인터뷰에서 "이러한 역량을 맥락화하는 가장 좋은 방법은 AI와 인간 전문가를 일대일로 비교하는 것"이라고 말했습니다.
이 팀은 자연어 처리에 대한 전문 지식을 갖춘 100명 이상의 컴퓨터 과학자를 모집하여 아이디어를 내거나 심사위원 역할을 하거나 둘 다 하도록 했습니다. 이 전문가들은 컴퓨터가 일상 언어를 사용하여 사람들과 의사소통하는 방법에 특히 정통합니다. 이 팀은 49명의 참가자를 대상으로 Anthropic의 Claude 3.5를 기반으로 한 최첨단 LLM을 겨뤘습니다. 과학자들은 아이디어 당 300달러를 받았고, 그들의 아이디어가 전체 상위 5위 안에 들면 추가로 1,000달러를 받았습니다.
창의성, 특히 연구 아이디어와 관련하여 창의성은 평가하기 어렵습니다. 팀은 두 가지 방법을 사용했습니다. 먼저, 그들은 아이디어 자체를 살펴봤습니다. 둘째, 연구진은 AI와 참가자들에게 학교 보고서처럼 아이디어를 간단하고 명확하게 전달하는 글을 작성하도록 요청했습니다.
그들은 또한 AI의 "환각", 즉 봇이 사실에서 벗어나 일을 꾸며내는 것을 줄이려고 노력했습니다.
연구팀은 해당 분야의 방대한 연구 논문 카탈로그에 대해 AI를 훈련시키고 7가지 주제 각각에 대한 아이디어를 생성하도록 요청했습니다. 생성된 아이디어를 선별하고 최고의 아이디어를 선택하기 위해 팀은 이전 데이터 검토 및 인기 있는 컴퓨터 과학 컨퍼런스의 출판 수락을 기반으로 자동 "아이디어 순위 지정"을 설계했습니다.
인간 비평가
공정한 테스트를 위해 심사위원들은 어떤 답변이 AI의 답변인지 알 수 없었도록 했습니다. 이를 위장하기 위해 팀은 다른 LLM을 사용하여 인간과 AI가 제출한 제출물을 일반적인 어조로 번역했습니다. 심사위원단은 참신함, 흥미진진함, 그리고 가장 중요하게는 효과가 있는지에 대한 아이디어를 평가했습니다.
리뷰를 집계한 결과, 연구팀은 평균적으로 인간 전문가가 만든 아이디어가 AI가 만든 아이디어보다 덜 흥미롭지만 더 실현 가능성이 높다는 것을 발견했습니다. 그러나 AI가 더 많은 아이디어를 생성함에 따라 덜 참신해졌고 점점 더 중복을 생성했습니다. 4,000개에 달하는 AI의 아이디어를 파헤친 결과, 연구팀은 더 많은 탐구가 필요한 약 200개의 고유한 아이디어를 찾았습니다.
그러나 많은 사람들이 신뢰할 수 없었습니다. 문제의 일부는 AI가 비현실적인 가정을 했다는 사실에서 비롯됩니다. 그것은 "근거가 없고 훈련된 데이터와 독립적인" 아이디어를 환각이라고 저자들은 썼습니다. LLM은 새롭고 흥미롭게 들리는 아이디어를 생성했지만 종종 지연 시간이나 하드웨어 문제로 인해 반드시 실용적이지는 않았습니다.
연구팀은 "우리의 결과는 실제로 AI 아이디어의 실현 가능성 절충안을 보여줬습니다"라고 썼습니다.
참신함과 창의성도 판단하기 어렵습니다. 이 연구는 전화 게임처럼 LLM으로 다시 작성하여 심사위원이 어떤 제출물이 AI이고 어떤 것이 인간인지 구별할 수 있는 가능성을 줄이려고 했지만, 길이나 문구의 변화는 심사위원이 제출물을 인식하는 방식, 특히 참신성에 관한 한 미묘한 영향을 미쳤을 수 있습니다. 또한, 아이디어를 내도록 요청받은 연구자들에게는 그렇게 할 수 있는 시간이 제한되어 있었습니다. 그들은 그들의 아이디어가 그들의 과거 작업과 비교했을 때 거의 평균에 가깝다고 인정했습니다.
연구팀은 새로운 연구 아이디어의 AI 생성을 평가하기 위해 더 많은 일을 해야 한다는 데 동의합니다. 그들은 또한 AI 도구가 주의를 기울일 가치가 있는 위험을 수반한다고 제안했습니다.
연구진은 "연구 아이디어 생성에 AI를 통합하는 것은 복잡한 사회기술적 문제를 야기합니다. AI에 대한 지나친 의존은 인간의 독창적인 사고를 감소시킬 수 있으며, 아이디어 구상을 위한 LLM의 사용 증가는 아이디어를 구체화하고 확장하는 데 필수적인 인간 협업 기회를 감소시킬 수 있습니다"라고 말했습니다.
즉, AI 생성 아이디어를 포함한 새로운 형태의 인간-AI 협업은 연구자들이 조사하고 연구의 새로운 방향을 선택하는 데 유용할 수 있습니다.
이상의 기사는 2024년 9월 27일 SingularityHub에 게재된 “AI and Scientists Face Off to See Who Can Come Up With the Best Ideas”제목의 기사 내용을 편집하여 작성하였습니다.
* 원문정보 출처 : AI and Scientists Face Off to See Who Can Come Up With the Best Ideas (singularityhub.com)
저작권자 ⓒ 창조아고라, 무단 전재 및 재배포 금지