2030년까지 만배 규모로 확장된 AI 모델이 가능

AI Models Scaled Up 10,000x Are Possible by 2030, Report Says

박윤석 VP 승인 2024.08.31 14:01 의견 0

이미지 크레디트: Werclive/Unsplash

최근 AI의 발전은 크게 한 가지로 요약됩니다.

지난 10년 동안 AI 연구소는 알고리즘 또는 모델을 더욱 크게 만들고 더 많은 데이터를 지속적으로 제공하면 할 수 있는 일과 얼마나 잘 할 수 있는지가 크게 향상된다는 것을 알게 되었습니다.

최신 AI 모델은 수천억 개에서 1조 개 이상의 내부 네트워크 연결을 보유하고 있으며, 인터넷의 상당 부분을 소비함으로써 우리처럼 작성하거나 코딩하는 방법을 학습합니다.

더 큰 알고리즘을 훈련하려면 더 많은 컴퓨팅 성능이 필요합니다. 비영리 AI 연구 기관인 에포크 AI(Epoch AI)에 따르면 AI 교육 전용 컴퓨팅은 매년 4배로 증가하고 있습니다.

이러한 성장이 2030년까지 계속된다면 미래의 AI 모델은 OpenAI의 GPT-4와 같은 오늘날의 최첨단 알고리즘보다 10,000배 더 많은 컴퓨팅으로 훈련될 것입니다.

에포크는 최근 연구 보고서에서 "이를 추구한다면 2019년 GPT-2의 초보적인 텍스트 생성과 2023년 GPT-4의 정교한 문제 해결 능력 간의 차이만큼 AI의 발전이 급격히 발전하는 것을 볼 수 있을 것"이라고 썼습니다.

그러나 현대의 AI는 이미 상당한 양의 전력, 수만 개의 고급 칩, 수조 개의 온라인 사례를 빨아들이고 있습니다. 한편, 업계는 칩 부족을 견뎌왔으며 연구에 따르면 양질의 교육 데이터가 고갈될 수 있다고 합니다. 기업이 AI 확장에 계속 투자한다고 가정할 때, 이 속도로 성장하는 것이 기술적으로 가능할까요?

Epoch는 보고서에서 AI 확장의 가장 큰 제약 조건 4가지인 전력, 칩, 데이터, 지연 시간을 살펴보았습니다.

TLDR : 성장을 유지하는 것은 기술적으로 가능하지만 확실하지는 않습니다. 그 이유는 다음과 같습니다.

전력: 많이 필요해

전력은 AI 확장의 가장 큰 제약 조건입니다. 첨단 칩과 이를 운영하기 위한 장비로 가득 찬 창고 또는 데이터 센터는 전력 소비입니다. 메타의 최신 프론티어 모델은 27메가와트의 전기를 소비하는 엔비디아의 가장 강력한 칩 16,000개에서 훈련되었습니다.

Epoch에 따르면 이는 미국 23,000가구의 연간 전력 소비량과 같습니다. 그러나 효율성 향상에도 불구하고 2030년에 프론티어 AI 모델을 훈련하려면 200배 더 많은 전력, 즉 약 6기가와트가 필요합니다. 이는 오늘날 모든 데이터 센터에서 소비하는 전력의 30%에 해당합니다.

그만큼 많은 전력을 동원할 수 있는 발전소는 거의 없으며, 대부분은 장기 계약을 맺고 있을 가능성이 높습니다. 그러나 이는 하나의 발전소가 데이터 센터에 전기를 공급한다고 가정한 것입니다. Epoch는 기업들이 지역 그리드를 통해 여러 발전소에서 전력을 끌어올 수 있는 영역을 찾을 것이라고 제안합니다. 계획된 유틸리티 성장을 고려하면 이 경로를 선택하는 것은 빡빡하지만 가능합니다.

병목 현상을 더 잘 해소하기 위해 기업은 대신 여러 데이터 센터 간에 교육을 분배할 수 있습니다. 여기에서 지리적으로 분리된 여러 데이터 센터 간에 교육 데이터 배치를 분할하여 어느 하나의 전력 요구 사항을 줄일 수 있습니다. 이 전략에는 번개처럼 빠른 고대역폭 광섬유 연결이 필요합니다. 그러나 기술적으로는 가능하며 Google Gemini Ultra의 훈련 실행이 초기 예입니다.

전체적으로 Epoch는 1기가와트(로컬 전원)에서 최대 45기가와트(분산 전원)에 이르기까지 다양한 가능성을 제안합니다. 전력 회사가 더 많이 활용할수록 훈련할 수 있는 모델도 커집니다. 현재 전력 제약하에서 GPT-4보다 약 10,000배 더 많은 컴퓨팅 성능을 사용하여 모델을 훈련할 수 있습니다.

칩: 계산이 되나요?

그 모든 전력은 AI 칩을 실행하는 데 사용됩니다. 이들 중 일부는 완성된 AI 모델을 고객에게 제공합니다. 일부는 다음 모델을 훈련시킵니다. Epoch는 후자를 면밀히 살펴 보았습니다.

AI 랩은 그래픽 처리 장치(GPU)를 사용하여 새로운 모델을 훈련시키며, Nvidia는 GPU 분야에서 최고의 기업입니다. TSMC는 이러한 칩을 제조하여 고대역폭 메모리와 함께 샌드위치합니다. 예측은 세 단계를 모두 고려해야 합니다. 에포크(Epoch)에 따르면 GPU 생산에는 여유 용량이 있을 수 있지만 메모리와 패키징이 이를 지연시킬 수 있습니다.

생산 능력의 예상되는 산업 성장을 감안할 때 2030년에는 2천만 개에서 4억 개의 AI 칩이 AI 훈련에 사용될 수 있을 것으로 생각합니다. 이 중 일부는 기존 모델에 서비스를 제공할 것이며, AI 연구소는 전체의 일부만 구매할 수 있을 것입니다.

범위가 넓다는 것은 모형에 불확실성이 많다는 것을 나타냅니다. 그러나 예상되는 칩 용량을 감안할 때 GPT-4보다 약 50,000배 더 많은 컴퓨팅 성능으로 모델을 훈련할 수 있다고 생각합니다.

데이터: AI의 온라인 교육

AI의 데이터에 대한 굶주림과 임박한 희소성은 잘 알려진 제약 조건입니다. 일부에서는 공개적으로 사용가능한 고품질 데이터의 흐름이 2026년까지 고갈될 것으로 예측합니다. 그러나 에포크는 데이터 부족이 적어도 2030년까지 모델의 성장을 위축시킬 것이라고 생각하지 않습니다.

그들은 오늘날의 성장 속도라면 AI 연구소는 5년 안에 고품질 텍스트 데이터를 고갈시킬 것이라고 예상했습니다. 저작권 소송도 공급에 영향을 미칠 수 있습니다. Epoch는 이것이 모델에 불확실성을 추가한다고 생각합니다. 그러나 법원이 저작권자에게 유리한 판결을 내리더라도 복스 미디어(Vox Media), 타임(Time), 디 애틀랜틱(The Atlantic) 등이 추구하는 것과 같은 집행 및 라이선스 계약의 복잡성은 공급에 미치는 영향이 제한적일 것임을 의미합니다(소스의 품질은 저하될 수 있음).

그러나 결정적으로, 모델은 이제 학습에서 텍스트 이상의 것을 사용합니다. 예를 들어, 구글의 제미니(Gemini)는 이미지, 오디오, 동영상 데이터에 대해 훈련되었다.

텍스트가 아닌 데이터는 캡션 및 대본을 통해 텍스트 데이터 공급에 추가될 수 있습니다. 또한 냉장고 이미지에서 음식을 인식하고 저녁 식사를 제안하는 것과 같은 모델의 능력을 확장할 수 있습니다. 좀 더 추측하자면, 여러 데이터 유형에 대해 훈련된 모델이 단 하나의 데이터 유형에 대해 훈련된 모델보다 성능이 우수한 전이 학습으로 이어질 수도 있습니다.

Epoch는 합성 데이터가 데이터 수집을 더욱 증가시킬 수 있다는 증거도 있지만 얼마나 많은지는 불분명하다고 말합니다. 딥마인드(DeepMind)는 오랫동안 강화 학습 알고리즘에 합성 데이터를 사용해 왔으며, 메타(Meta)는 최신 AI 모델을 훈련하는 데 일부 합성 데이터를 사용했습니다. 그러나 모델 품질을 저하시키지 않고 사용할 수 있는 양에는 엄격한 제한이 있을 수 있습니다. 또한 생성하는 데 훨씬 더 많은 비용이 드는 컴퓨팅 파워가 필요합니다.

그러나 Epoch는 텍스트, 비텍스트 및 합성 데이터를 포함하여 GPT-4보다 80,000배 더 많은 컴퓨팅 성능으로 AI 모델을 훈련하기에 충분할 것으로 추정합니다.

대기 시간: 클수록 느립니다

마지막 제약 조건은 향후 출시될 알고리즘의 순전한 크기와 관련이 있습니다. 알고리즘이 클수록 데이터가 인공 뉴런 네트워크를 통과하는 데 더 오래 걸립니다. 이는 새로운 알고리즘을 훈련하는 데 걸리는 시간이 비실용적이 된다는 것을 의미할 수 있습니다.

이 비트는 기술적입니다. 요컨대, Epoch는 미래 모델의 잠재적 크기, 병렬로 처리되는 훈련 데이터 배치의 크기, 해당 데이터가 AI 데이터 센터의 서버 내부 및 서버 간에 처리되는 데 걸리는 시간을 살펴봅니다. 이를 통해 특정 크기의 모델을 훈련하는 데 걸리는 시간을 추정할 수 있습니다.

주요 요점: 오늘날의 설정으로 AI 모델을 훈련하는 것은 결국 한계에 도달하겠지만 당분간은 아닐 것입니다. 에포크는 현재 관행하에서 GPT-4보다 1,000,000배 이상의 컴퓨팅 파워로 AI 모델을 훈련시킬 수 있을 것으로 추정합니다.

10,000배 확장

각 제약 조건에서 가능한 AI 모델의 규모가 점점 더 커지는 것을 알 수 있습니다. 즉, 전력보다 칩, 칩보다 데이터의 천장이 더 높다는 것입니다. 그러나 이 모든 것을 함께 고려하면 모델은 처음 발생한 병목 현상까지만 가능하며, 이 경우 그것이 바로 전력입니다. 그럼에도 불구하고 상당한 확장은 기술적으로 가능합니다.

"이러한 AI 병목 현상을 종합해 볼 때, 10년안에 최대 2e29 FLOP의 훈련 실행이 실현가능할 것임을 암시합니다."

"이는 현재 모델에 비해 약 10,000배의 규모 확장을 의미하며, 이는 역사적인 확장 추세가 2030년까지 중단 없이 계속될 수 있음을 의미합니다."

최근에 나를 위해 무엇을 해 주었습니까?

이 모든 것은 지속적인 확장이 기술적으로 가능하다는 것을 시사하지만, AI 투자가 확장 자금을 조달하기 위해 필요에 따라 증가할 것이며 확장이 계속해서 인상적이고 더 중요하게는 유용한 발전을 가져올 것이라는 기본 가정을 제시합니다.

현재로서는 기술 기업들이 역사적인 금액의 현금을 계속 투자할 것이라는 모든 징후가 있습니다. AI에 힘입어 새로운 장비와 부동산에 대한 지출은 이미 몇 년 동안 볼 수 없었던 수준으로 급증했습니다.

순다르 피차이 알파벳 최고경영자(CEO)는 지난 분기 실적 발표에서 "이와 같은 곡선을 겪을 때 과소 투자의 위험이 과잉 투자의 위험보다 훨씬 더 크다"고 말했다.

그러나 지출은 훨씬 더 증가해야 합니다. 앤트로픽(Anthropic)의 CEO인 다리오 아모데이(Dario Amodei)는 현재 훈련된 모델의 비용이 최대 10억 달러, 내년 모델은 100억 달러에 육박할 수 있으며, 이후 몇 년 동안 모델당 비용이 1,000억 달러에 이를 수 있다고 추정합니다. 이는 어지러운 숫자이지만 기업이 기꺼이 지불할 수 있는 가격표입니다. 마이크로소프트는 이미 2028년 출시 예정인 오픈AI와의 공동 프로젝트인 스타게이트(Stargate) AI 슈퍼컴퓨터에 이 같은 금액을 투입하고 있는 것으로 알려졌습니다.

많은 국가의 GDP보다 많고 기술 대기업의 현재 연간 수익의 상당 부분을 차지하는 수백억 또는 수천억 달러를 투자하려는 욕구가 보장되지 않는다는 것은 말할 필요도 없습니다. 그 빛이 사라지면서 AI의 성장이 지속될 수 있을지는 "최근에 나를 위해 무엇을 해줬니?"라는 질문으로 귀결될 수 있다.

이미 투자자들은 수익을 확인하고 있습니다. 오늘날에는 투자한 금액이 회수되는 금액보다 훨씬 적습니다. 더 많은 지출을 정당화하기 위해 기업은 확장이 점점 더 많은 기능을 갖춘 AI 모델을 계속 생산한다는 증거를 제시해야 합니다. 이는 향후 모델에 대한 점진적인 개선 이상의 노력이 필요하다는 압박이 커지고 있음을 의미합니다. 이익이 줄어들거나 충분한 사람들이 AI 제품에 돈을 지불할 의향이 없다면 상황은 바뀔 수 있습니다.

또한 일부 비평가들은 대규모 언어와 다중 모드 모델이 값비싼 막다른 골목이 될 것이라고 믿습니다. 그리고 이번 라운드의 시작과 같은 돌파구가 더 적은 비용으로 더 많은 것을 성취할 수 있다는 것을 보여줄 가능성은 항상 있습니다. 우리의 뇌는 전구 한 개 분량의 에너지로 지속적으로 학습하며, 인터넷의 데이터에는 미치지 못합니다.

그렇긴 하지만, 현재의 접근 방식이 "경제적 업무의 상당 부분을 자동화할 수 있다면" 재정적 수익은 수조 달러에 달할 수 있으며, 이는 지출을 정당화하는 것 이상일 수 있다고 Epoch는 말합니다. 업계의 많은 사람들이 그 베팅을 기꺼이 받아들입니다. 그것이 어떻게 흔들릴지는 아직 아무도 모른다.

이상의 기사는 2024년 8월 29일 SingularityHub에 게재된 “AI Models Scaled Up 10,000x Are Possible by 2030, Report Says”제목의 기사 내용을 편집하여 작성하였습니다.

* 원문정보 출처 : AI Models Scaled Up 10,000x Are Possible by 2030, Report Says (singularityhub.com)

저작권자 ⓒ 창조아고라, 무단 전재 및 재배포 금지