AI 콘텐츠가 인터넷을 장악한다면?

This Is What Could Happen if AI Content Is Allowed to Take Over the Internet

박윤석 VP 승인 2024.07.26 15:07 의견 0

AI 모델은 인간의 마음에서 나오는 독창적인 결과물 없이는 시간이 지남에 따라 유지되거나 성장할 수 없습니다.

ChatGPT와 같은 챗봇 뒤에 있는 알고리즘은 테라바이트의 온라인 기사, Reddit 게시물, TikTok 캡션 또는 YouTube 댓글을 스크랩하여 인간과 같은 콘텐츠를 만드는 방법을 배웁니다. 그들은 텍스트에서 복잡한 패턴을 찾은 다음 검색 요약, 기사, 이미지 및 기타 콘텐츠를 뱉어냅니다.

모델이 더욱 정교해지려면 새로운 콘텐츠를 캡처해야 합니다. 그러나 더 많은 사람들이 텍스트를 생성하고 결과를 온라인에 게시하는 데 사용됨에 따라 알고리즘이 이제 인터넷에 흩어져 있는 자체 출력에서 학습하기 시작하는 것은 불가피합니다. 그게 문제입니다.

이번 주 네이처(Nature)에 발표된 연구에 따르면 텍스트 기반 생성형 AI 알고리즘은 AI가 생성한 콘텐츠에 대해 과도하게 훈련되었을 때 단 몇 번의 훈련 주기만으로도 완전히 말도 안 되는 결과를 만들어냅니다.

연구에 참여하지 않은 듀크 대학의 에밀리 웽거(Emily Wenger) 박사는 "온라인에서 AI가 생성한 콘텐츠의 확산은 모델 자체에 치명적일 수 있습니다."라고 썼습니다.

이 연구는 텍스트에 초점을 맞췄지만, 이 결과는 멀티모달 AI 모델에도 영향을 미칠 수 있습니다. 또한 이러한 모델은 텍스트, 이미지 또는 비디오를 생성하기 위해 온라인에서 스크랩한 교육 데이터에 의존합니다.

생성형 AI의 활용이 확산됨에 따라 문제는 더욱 악화될 것입니다.

궁극적인 결말은 모델 붕괴가 될 수 있는데, AI가 생성한 데이터를 늘리는 AI가 노이즈에 압도되어 일관성 없는 단조로움만 생성하는 것입니다.

환각인가, 쇠약인가?

생성형 AI가 종종 "환각"을 일으킨다는 것은 비밀이 아닙니다. 프롬프트가 주어지면 부정확한 사실을 내뱉거나 명백히 사실이 아닌 답변을 "꿈꿀" 수 있습니다. 환각은 의료 AI가 잘못되었지만 권위 있게 딱지를 암으로 식별하는 것과 같은 심각한 결과를 초래할 수 있습니다.

모델 붕괴는 별개의 현상으로, 자체 생성 데이터로 훈련된 AI가 여러 세대에 걸쳐 성능이 저하됩니다. 이는 유전적 근친교배와 비슷한데, 자손이 질병을 유전받을 확률이 더 높습니다. 컴퓨터 과학자들은 오랫동안 이 문제를 알고 있었지만 대규모 AI 모델에서 어떻게 그리고 왜 이런 일이 발생하는지는 미스터리였습니다.

새로운 연구에서 연구원들은 사용자 정의 대규모 언어 모델을 구축하고 Wikipedia 항목에서 훈련했습니다. 그런 다음 자체 출력에서 생성된 데이터 세트를 사용하여 모델을 9번 미세 조정하고 소위 "당혹 점수"로 AI 출력의 품질을 측정했습니다. 이름 그대로 점수가 높을수록 생성된 텍스트가 더 어리둥절해집니다.

단 몇 번의 주기로 AI의 성능이 눈에 띄게 저하되었습니다.

한 예로, 팀은 대부분의 인간의 눈을 번쩍 뜨게 만들 수 있는 교회 건축의 역사에 대해 긴 프롬프트를 제공했습니다. 처음 두 번의 반복이 끝난 후, AI는 리바이벌 아키텍처에 대해 논의하는 비교적 일관된 답변을 내뱉었고 가끔 "@"가 끼어들었습니다. 그러나 5세대에 이르러 본문은 원래의 주제에서 완전히 벗어나 언어 번역에 대한 논의로 옮겨갔습니다.

아홉 번째이자 마지막 세대의 결과물은 우스꽝스러울 정도로 기괴했습니다.

"건축. 세계에서 가장 많은 검은 색 @-@ 꼬리 잭 래빗, 흰색 @-@ 꼬리 잭 래빗, 파란색 @-@ 꼬리 잭래빗, 빨간색 @-@ 꼬리 잭 래빗, 노란색 @-."

흥미롭게도 자체 생성 데이터로 훈련된 AI는 종종 반복적인 문구를 생성하게 된다고 연구팀은 설명했습니다. AI가 반복을 피하도록 하려는 시도는 AI의 성능을 더욱 악화시켰습니다. 결과는 서로 다른 프롬프트를 사용한 여러 테스트에서 유지되었으며, 이는 프롬프트의 언어가 아니라 학습 절차에 내재된 문제임을 시사합니다.

순환 교육

AI는 결국 무너졌는데, 부분적으로는 세대가 지나면서 훈련 데이터의 일부를 점차 "잊어버렸기" 때문입니다.

이것은 우리에게도 일어납니다. 우리의 뇌는 결국 기억을 지워버린다. 그러나 우리는 세상을 경험하고 새로운 정보를 수집합니다. "망각"은 인터넷에서만 학습할 수 있는 AI에게 매우 문제가 됩니다.

AI가 원래 훈련 데이터에서 골든 리트리버, 프렌치 불도그, 훨씬 더 이국적인 개 품종인 쁘띠 바셋 그리폰 방데앙을 "본다"고 가정해 보겠습니다. 개의 초상화를 그려달라는 요청을 받았을 때 AI는 온라인에 사진이 많기 때문에 골든 리트리버처럼 보이는 것으로 기울어질 가능성이 높습니다. 그리고 후속 모델이 골든 리트리버를 과도하게 대표하는 이 AI 생성 데이터 세트에서 훈련되면 결국 덜 인기 있는 개 품종을 "잊어버릴" 수 있습니다.

"골든 리트리버로 넘쳐나는 세상이 그리 나쁘게 들리지는 않지만, 이 문제가 텍스트 생성 모델에 어떻게 일반화되는지 생각해 보라"고 벵거는 썼습니다.

이전의 AI 생성 텍스트는 이미 잘 알려진 개념, 문구 및 어조로 방향을 틀고 있으며, 이는 다른 덜 일반적인 아이디어 및 작문 스타일에 비해 그렇습니다. 이 데이터에 대해 훈련된 최신 알고리즘은 편향을 악화시켜 잠재적으로 모델 붕괴로 이어질 수 있습니다.

이 문제는 전 세계적으로 AI의 공정성에 대한 도전 과제이기도 합니다. 자체 생성 데이터로 훈련된 AI는 "흔하지 않은 것"을 간과하기 때문에 우리 세계의 복잡성과 뉘앙스를 측정하지 못합니다. 소수 민족 인구의 생각과 신념은 특히 소외된 언어를 사용하는 사람들의 경우 덜 대표될 수 있습니다.

벵거는 "LLM(대규모 언어 모델)이 이를 모델링할 수 있도록 하는 것은 공정한 예측을 얻는 데 필수적이며, 이는 생성형 AI 모델이 일상 생활에서 더 널리 보급됨에 따라 더욱 중요해질 것"이라고 썼습니다.

이 문제를 해결하는 한 가지 방법은 AI 생성 데이터에 포함된 디지털 서명인 워터마크를 사용하여 사람들이 교육 데이터 세트에서 데이터를 감지하고 잠재적으로 제거할 수 있도록 돕는 것입니다. Google, Meta 및 OpenAI가 모두 이 아이디어를 제안했지만 단일 프로토콜에 동의할 수 있을지는 두고 봐야 합니다. 그러나 워터마킹은 만병통치약이 아닙니다: 다른 회사나 사람들은 AI가 생성한 출력물에 워터마크를 표시하지 않기로 선택할 수 있거나 더 가능성이 높지만 귀찮게 할 수 없습니다.

또 다른 잠재적 해결책은 AI 모델을 훈련시키는 방법을 조정하는 것입니다. 연구팀은 여러 세대에 걸친 훈련을 통해 인간이 생성한 데이터를 더 많이 추가하면 더 일관성 있는 AI가 생성된다는 사실을 발견했습니다.

그렇다고 해서 모델 붕괴가 임박했다는 말은 아닙니다. 이 연구는 자체 출력으로 훈련된 텍스트 생성 AI만 살펴보았습니다. 다른 AI 모델에서 생성된 데이터에 대해 훈련할 때도 붕괴될지 여부는 두고 봐야 합니다. 그리고 AI가 이미지, 사운드 및 비디오를 점점 더 많이 활용함에 따라 이러한 모델에서도 동일한 현상이 나타나는지 여부는 여전히 불분명합니다.

그러나 이번 연구 결과는 AI에 '선점자(first-mover)' 이점이 있음을 시사합니다. AI가 생성한 콘텐츠로 오염되기 전에 인터넷을 더 일찍 스크랩한 회사들이 우위를 점하고 있습니다.

생성형 AI가 세상을 바꾸고 있다는 것은 부인할 수 없는 사실입니다. 그러나 이 연구는 모델이 인간의 마음에서 나오는 독창적인 결과물 없이는 시간이 지남에 따라 유지되거나 성장할 수 없다는 것을 시사합니다. 모델 붕괴는 단일 회사나 국가에 국한되지 않습니다.

지금 필요한 것은 AI가 생성한 데이터를 표시하고 정보를 공개적으로 공유하기 위한 커뮤니티 차원의 조정이라고 팀은 썼습니다. "그렇지 않으면 기술이 대량으로 채택되기 전에 인터넷에서 크롤링된 데이터에 액세스하거나 인간이 대규모로 생성한 데이터에 직접 액세스하지 않고는 LLM(대규모 언어 모델)의 최신 버전을 훈련하는 것이 점점 더 어려워질 수 있습니다."

이상의 기사는 2024년 7월 25일 SingularityHub에 게재된 “This Is What Could Happen if AI Content Is Allowed to Take Over the Internet”제목의 기사 내용을 편집하여 작성하였습니다.

* 원문정보 출처 : This Is What Could Happen if AI Content Is Allowed to Take Over the Internet (singularityhub.com)

창조아고라 박윤석 VP 박윤석 VP의 기사 더보기

전체 메뉴

AI 콘텐츠가 인터넷을 장악한다면?

댓글