“Pre-Training GPT-4.5: 차세대 거대 언어 모델의 비밀과 AI 혁신의 미래”

https://www.youtube.com/watch?v=6nJZopACRuQ&t=21s

아래 글은 위 영상의 대한 내용을 정리한 것이며, OpenAI에서 GPT-4.5 모델을 개발하는 전 과정을 깊이 있게 다루며, 모델의 내부 메커니즘부터 시스템 안정화, 그리고 차세대 인공지능의 미래 가능성에 이르기까지 폭넓은 내용을 담고 있습니다.

궁극적으로 AI가 어떻게 발전해 나가고, 그 과정에서 우리가 배울 수 있는 점이 무엇인지 함께 살펴보시기 바랍니다.

1. 시작하며: “GPT-4.5가 등장하기까지”

“GPT-4보다 10배 더 스마트한 모델을 만들겠다.”

오픈AI 내부에서는 이미 2년 전부터 이렇게 야심 찬 목표를 내걸었습니다. GPT-4 출시로 전 세계의 찬사를 받았음에도, 연구원들은 여기서 만족하지 않았죠. 그들은 곧바로 더 나은 알고리즘, 더 효율적인 데이터, 그리고 훨씬 안정적인 시스템을 꿈꾸며 새로운 프로젝트, 곧 GPT-4.5의 서막을 열었습니다.

그런데 단순히 “더 큰 모델”을 만드는 것만이 목표는 아니었습니다. 사실 “크기”를 키우는 것은 이제 어느 정도 상상 가능한 영역이 되었죠. GPT-4.5가 진짜로 달성하고 싶었던 것은, 데이터 효율성과 추론 능력, 그리고 시스템 안정성의 비약적 개선이었습니다. 이 글에서는 GPT-4.5 개발 과정을 살펴보며, 그 안에서 팀이 겪었던 다양한 난관과 해결책, 그리고 이 기술이 미래에 열어갈 가능성에 대해 이야기해 보겠습니다.

Tip: AI의 발전을 이해하기 위해서는 “언어 모델의 기본 개념”부터 “대규모 분산 시스템”까지 폭넓은 지식이 필요합니다.
GPT-4.5의 핵심 아이디어는, 계산 자원을 극한까지 활용하는 동시에, 데이터 효율성이라는 새로운 도전에 직면했다는 점입니다.

2. GPT-4.5: 무엇이 달라졌을까?

2.1 ‘10배 더 스마트한 모델’을 향한 도전

오픈AI의 핵심 개발진은 GPT-4.5를 만들 때 명확한 목표를 세웠습니다.

이전 모델인 GPT-4 대비 10배 향상된 언어 이해 및 추론 능력
대화형 응용에서의 자연스러운 맥락 파악
방대한 양의 지식을 보다 효율적으로 압축·학습
다중 클러스터 환경에서의 안정적인 대규모 훈련

이러한 목표를 달성하기 위해서는 단순히 모델 파라미터를 늘리는 것만으로는 부족했습니다. 당연히 수십만 GPU를 연결해 돌리는 것은 기본이 되었지만, 그 과정에서 생각지도 못한 시스템 장애, 네트워크 병목, 메모리 문제, 그리고 ML 알고리즘의 섬세한 버그들이 산더미처럼 쌓였습니다.

2.2 달라진 시스템 접근 방식

이전 세대 모델인 GPT-4를 학습시키던 때와 달리, GPT-4.5를 훈련하기 위한 인프라는 단일 클러스터가 아닌 다중 클러스터 구조를 채택했습니다.

이는 하드웨어 장애에 대한 대응을 더 정교하게 해야 한다는 뜻이기도 했죠. 노드 하나가 문제가 생겨도 전체가 멈추지 않도록 폴트 톨러런스(fault tolerance)를 강화했습니다.
동시에 네트워크 병목을 최소화하기 위해, 코드 설계와 알고리즘을 적극적으로 협업해 ‘데이터 전송’ 문제를 줄이려 애썼습니다.

하지만 이렇게 시스템 설계를 바꾸면, 모델의 내부 구조나 학습 알고리즘 역시 영향을 받습니다. ML 팀은 “모델 파이프라인과 상태 관리는 시스템 팀이 설계한 프로토콜과 호환되어야 한다”라는 전제 아래, 여러 차례의 대규모 사전 테스트(de-risking runs)를 진행했습니다. 작은 규모에서는 문제가 없던 것이 대규모에서 갑작스레 터져 나오는 현상을 사전에 제거하기 위해서였죠.

흥미 포인트:
1. 10,000 GPU로 돌릴 때는 간헐적으로 발생하던 오류가, 100,000 GPU로 확장하자마자 “통계적으로 무시 못할” 빈도로 튀어나오곤 합니다.
2. 대규모 인프라일수록 “희귀한” 하드웨어 불량이나 메모리 접근 버그가 훨씬 빈번해진다는 점이 의외이지만, 사실상 예견된 일이기도 합니다.

3. “시작이 반이다”를 넘어: 긴 준비 기간과 사전 훈련

3.1 1년간의 사전 준비: 리스크 감소(run)

GPT-4.5 학습은 본격적으로 모델 파이프라인을 돌리기 전, 무려 1년이라는 기간에 걸쳐 준비되었습니다. 여기에는 시스템과 ML 양쪽에서 협업하여 진행한 수많은 사전 테스트, 곧 리스크 감소(run)가 포함됩니다.

작은 규모로 여러 아이디어를 시험해 보고, 좋은 결과가 나오면 더 큰 스케일에서 다시 시험하여 재검증했습니다.
이렇게 얻은 통찰들은 “작은 스케일에서 좋았던 기법이 실제로 큰 스케일에서도 동일한 성능 향상을 보이는지”를 면밀히 살피는 데 활용되었습니다.

3.2 데이터 효율성과 알고리즘

데이터가 부족하다고?

세상이 워낙 넓고, 텍스트 데이터가 넘쳐나는 것처럼 보여도, 이미 GPT-4 시점부터는 “사용할 만한 고품질 데이터는 상당히 소모되었다”는 평가가 있습니다.

이를테면, 너무 자주 인용된 문서는 중복으로 학습되어 ‘기억’만 잘하는 상황이 벌어질 수 있습니다.
GPT-4.5에서는 이 문제를 극복하기 위해, 새로운 데이터 압축 기법과, 동일 데이터를 여러 시각에서 학습하는 방식 등을 연구했습니다.

인간의 학습 효율 VS. AI의 학습 효율

여기서 주목할 만한 점은, 인간은 매우 적은 데이터로도 탁월한 학습 효과를 낸다는 사실입니다. 아이 한 명이 언어를 습득할 때, GPT 모델처럼 수십 테라바이트의 텍스트가 필요한 것은 아니니까요.

연구진은 인간이 보여주는 놀라운 데이터 효율성을 “지금의 모델들은 10만 배 정도 뒤처져 있다”고 추정합니다.
하지만 “10% ~ 20%씩 점진적으로 개선해 나가는” 식의 연구가 계속된다면, 언젠가는 인간의 학습 효율에 한층 더 가까워질 것이라고 기대합니다.

4. 시스템 팀과 ML 팀: 함께하는 문제 해결 사례

4.1 “하나의 버그 이론”을 찾아서

GPT-4.5 개발 과정에서 여러 사람이 두 손 들게 만든 사건 중 하나가, ‘희귀 버그’의 발견이었습니다.

초기에는 각기 다른 증상을 보이는 수많은 열린 문제들이 있었습니다. 메모리 접근 위반, 데이터 손상, 이상한 손실 곡선, 무작위 충돌 등….
팀원들은 “여러 버그가 산재한 것”이라고 보았지만, 끊임없이 코드를 추적해 보니 단 하나의 근본 원인(토치 sum 함수 경로에서의 불법 메모리 접근)이 여러 오류를 유발하고 있었습니다.

이 버그가 특히 골치 아팠던 이유는, 대규모 훈련 환경에서 매우 낮은 확률로 나타났기 때문입니다.

만 명 중 한 명꼴로 보고되는 오류처럼, 한 번씩만 튀어나오면 잡기가 어렵습니다.
하지만 시스템 규모가 커지자 이러한 “희귀” 오류가 “빈번”하게 발생하게 된 것이죠.
최종적으로는 팀원이 해당 문제를 발견하고 수정함으로써, 관련된 모든 이상 증상이 한 번에 해결되는 통쾌한 경험을 했습니다. 이를 두고 농담 삼아 “단일 버그 이론”이라는 이름이 붙었다고 하네요.

개발 비하인드:

높은 확률로 의심받던 복잡한 커스텀 커널에는 사실 버그가 없었고,
“설마” 했던 Torch 라이브러리의 한 구석이 문제였습니다.
많은 사람들이 투표로 원인을 추측했는데, 가장 적은 표를 받았던 가설이 실제 정답이 되었다고 합니다.

4.2 손실 곡선을 지켜보는 하루

훈련이 본격적으로 시작된 후, ML 팀의 일과 중 큰 비중을 차지하는 작업은 손실 곡선과 여러 지표를 꾸준히 모니터링하는 것입니다.

손실(loss)가 예측과 크게 달라지면 어떤 버그나 문제 상황이 발생했는지 의심해 봐야 하죠.
많은 경우, “아, 뭔가 이상해!”라고 소리치며 확인해 보면 결국 우려할 일이 아니었음이 밝혀지기도 합니다.
- 이를 두고 “절반은 괜한 걱정으로 그치는 경우”라고들 말합니다.
하지만 정말 심각한 문제라면 즉시 대응해야 하므로, 연구진은 늘 긴장을 놓지 않습니다.

5. GPT-4.5의 “스케일링 법칙”과 놀라운 성능

5.1 스케일링 법칙, 여전히 유효한가?

언어 모델 분야에서 자주 언급되는 스케일링 법칙(scaling laws)이란,

“모델 크기(파라미터 수)나 학습에 쓰이는 컴퓨팅 자원(연산 횟수), 데이터 양이늘어날수록 손실이 일정한 추세로 감소하며, 그에 따라 모델의 능력이 질적으로 향상된다” 라는 개념입니다.

GPT-4.5를 만들면서, 오픈AI 팀은 이러한 법칙이 여전히 유효함을 재확인했습니다.

특히 테스트 손실이 낮아지면, 모델의 “추론 능력”이 올라가는 경향이 지속적으로 관찰되었습니다.
이전에는 “메모리나 파라미터를 크게 늘려도 정말 이 정도로 좋아질까?”라는 의문이 있었지만, 이번에도 실제 결과는 기존 예측을 대체로 뒷받침했습니다.

5.2 “큰 모델이 더 똑똑해진다”는 것을 넘어

이제는 그 이상으로, 데이터 효율성과 모델 내부의 ‘추상화 능력’을 개선하는 방향이 부각되고 있습니다.

더 이상 “큰 모델은 무조건 좋다”가 아니라, “같은 데이터로 더 깊이 배우는” 방법에 대한 연구가 활발해졌습니다.
오픈AI 팀은 이 부분을 프리퀀셜 압축(prequential compression) 개념으로 설명합니다.
- 모델이 재빨리 학습하는 능력을 갖추면, 대량의 데이터를 효율적으로 ‘압축’하여 인코딩할 수 있어, 보다 적은 비트(bit)로도 많은 정보를 담게 된다는 것이죠.

6. 사전 훈련과 추론(Reasoning)의 관계

6.1 사전 훈련: 광범위한 지능의 기반

GPT 계열 모델이 압도적인 성능을 보이는 원인 중 하나는, 거대한 텍스트 데이터에 대한 사전 훈련(pre-training) 덕분입니다.

이 사전 훈련 과정에서 모델은 “다양한 상황에서 사용할 수 있는 지식과 직관”을 얻습니다.
반면, 특정 영역에서의 추론(Reasoning) 학습은 매우 스페시픽한 문제에 대한 집중력을 높여주기 때문에, 사전 훈련으로 쌓아둔 폭넓은 지식이 큰 도움이 됩니다.

6.2 왜 사전 훈련이 중요한가?

다양성: 사전 훈련 데이터는 인터넷 전반에 걸쳐 축적된 정보이므로, 다양한 도메인의 지식을 담고 있습니다.
압축 학습: 모델은 어마어마한 양의 텍스트를 “압축”하는데, 이 과정에서 자연스럽게 “연결과 유추”를 배우게 됩니다.
추상화: 추상화 능력이란, 여러 다른 문제들을 하나의 공통된 개념으로 묶어 사고하는 능력입니다. 사전 훈련 덕분에 모델은 매우 폭넓은 맥락을 유연하게 이해하고 연결할 수 있습니다.

7. 한계와 미래: 10만 GPU에서 1천만 GPU로?

7.1 “이제는 컴퓨트 한계가 아니다”라는 전환점

흥미롭게도, GPT-4.5 시점에 이르러 오픈AI는 “컴퓨트 자원”이 더 이상 모델 성능의 절대적인 한계가 아니라고 말합니다.

그간은 “컴퓨트가 부족하면 더 큰 모델은 못 만든다”가 상식이었지만, 이제 어느 정도는 “데이터”와 “알고리즘”이 더 중요한 병목 지점으로 떠올랐습니다.
예를 들어, 지금 당장 GPT-4급 모델을 다시 만들라고 하면, 불과 5~10명 규모의 팀으로도 재훈련이 가능할 정도라고 하죠(물론 그간 쌓인 노하우와 인프라가 전제됩니다).

7.2 1천만 GPU 동기화 시대가 올까?

연구진은 언젠가 1,000만 GPU 이상이 동기화되어 거대한 모델을 학습하는 시대가 올 것으로 예상합니다.

다만, 그 형태가 지금 같은 엄격한 “동기화”일지는 미지수이며, 분산형 학습 혹은 부분적 비동기화 방식으로 갈 가능성도 높습니다.
현재도 이미 GPU 집약적인 학습은 네트워크 구조가 병목이 되곤 하므로, 이를 뛰어넘는 기술적 혁신이 필요합니다.

8. 시스템 설계의 딜레마: 이상과 현실 사이

8.1 “완벽한 시스템”을 향해 달린다, 그러나…

시스템 엔지니어들은 GPU, 프로세서, 메모리, 네트워크, 전력 등 여러 요소의 균형을 맞추는 일을 합니다.

완벽한 대칭성과 무제한 메모리, 무제한 대역폭을 갖춘 ‘이상적인 시스템’을 구상할 수는 있어도, 현실은 기술적·경제적·물리적 제약으로 가득합니다.
GPT-4.5 개발에서는 “코드 설계”와 “ML 모델 스펙”을 긴밀히 협업하여 그 격차를 줄였습니다.

8.2 아직은 만족스럽지 못하다?

오픈AI 측도 “여전히 갈 길이 멀다”고 솔직하게 말합니다.

당장 시중에 공개된 하드웨어나 상용 클라우드 인프라만으로는, 그들이 원하는 수준의 안정적이고 확장성 높은 학습을 100% 달성하기 어렵습니다.
그렇다고 이론적인 완벽함을 구현하려면, 출시 시점이 지나치게 늦어지는 딜레마에 빠집니다.
시스템 팀의 고민:

1. 초기 하드웨어는 버그가 많다.
2. 이를 가다듬어 “깨끗한 인프라”로 만드는 과정에서 이미 대규모 학습이 진행되고 있다.
3. 기다리면 늦어지고, 밀어붙이면 오류를 감수해야 한다.

9. 모델 평가: 좋은 메트릭과 나쁜 메트릭

9.1 ‘퍼플렉시티(Perplexity)’가 전부일까?

언어 모델의 성능 측정을 위해 자주 쓰이는 지표 중 하나가 퍼플렉시티(perplexity)입니다.

데이터 분포를 얼마나 정확히 예측하느냐를 수치화한 것으로, 값이 낮을수록 “잘 예측한다”는 의미입니다.
문제는, 실제 사람들에게 친숙한 시험(예: 토익, 토플, 수능)으로 보면 모델이 데이터를 단순히 **‘기억’**해서 푸는 것인지, **‘추론’**하는 것인지 분간이 잘 안 된다는 겁니다.

9.2 그래서 검증 데이터가 중요하다

GPT-4.5 프로젝트에서는 모델 훈련 시 사용된 데이터와 절대 겹치지 않는 별도의 검증 세트를 마련했습니다.

만약 검증 세트가 훈련 세트와 거의 동일하다면, 모델은 그저 “암기”로 높은 점수를 받을 수 있습니다.
데이터 선택의 효율성과 “진짜로 새로운 문제를 얼마나 잘 풀어내는가”를 평가하는 것이 진정한 지능 평가라고 할 수 있죠.
오픈AI 내부 모노레포(코드 저장소)를 예시로 들면, 이 데이터는 어디에도 유출되지 않았으므로, 모델이 학습 과정에서 ‘본 적’이 없다는 점에서 좋은 척도가 됩니다.

10. 결론: GPT-4.5가 열어갈 미래

GPT-4.5의 등장은 “언어 모델이 인간과의 상호작용을 어떻게 혁신할 수 있는가”에 대한 커다란 가능성을 시사합니다.

사전 훈련과 추론이 상호 보완적으로 발전하며, 모델은 점점 더 풍부한 맥락 이해와 창의적 문제 해결 능력을 갖추게 될 것입니다.
데이터 효율성과 알고리즘 혁신이 가속화된다면, “단순히 크기만 키운” 거대한 모델을 넘어, 적은 데이터로도 깊이 있는 학습을 수행하는 형태로 진화할 수 있습니다.
시스템 측면에서는 1천만 GPU, 혹은 그 이상의 자원을 연결한 초거대 학습이 멀지 않은 미래로 점쳐집니다. 물론, 그 과정에서 해결해야 할 과제들도 산적해 있지만요.

무엇보다, GPT-4.5라는 대규모 프로젝트를 거치며 얻은 노하우와 데이터는 다음 세대 모델(GPT-5, GPT-6, 혹은 그 이상)을 개발하는 데 있어 귀중한 자산이 될 것입니다. 이미 오픈AI 내부에서는 “이제 GPT-4 수준의 모델은 소규모 팀으로도 만들 수 있다”는 자신감을 보이고 있으니, 머지않아 ‘더 크고’, ‘더 똑똑하며’, ‘더 안정적인’ 모델이 탄생할 날이 머지않았다는 사실을 예감하게 되죠.

맺으며: 새로운 시대의 서막

AI의 발전 속도는 놀라울 정도로 빠릅니다. GPT-4.5가 걸어온 길은 험난했지만, 그 결과물은 수많은 개발자와 연구자들에게 새로운 영감을 주고 있습니다.

“어떻게 하면 데이터를 더 잘 활용할 수 있을까?”
“폴트 톨러런스와 멀티 클러스터 운영 기술은 어떻게 발전해야 할까?”
“인간의 학습 방식에서 무엇을 더 가져올 수 있을까?”

이 질문들에 대한 답변은 한 순간에 완성되지 않을 것입니다. 하지만 GPT-4.5 프로젝트에서 얻은 통찰과 경험은, 앞으로 AI가 인간 생활의 거의 모든 영역을 혁신하는 데 든든한 밑거름이 될 것입니다.

지금까지 읽어주셔서 감사합니다!

본 포스트가 조금이라도 흥미와 유익함을 더해 드렸다면, 댓글과 공유로 소통해 주세요.

앞으로도 AI 분야의 새로운 소식과 심층 분석을 바탕으로, 더욱 알찬 포스트를 준비하겠습니다.

끝까지 함께해 주셔서 진심으로 감사드립니다.

728x90

저작자표시 비영리 변경금지 (새창열림)

'인공지능' 카테고리의 다른 글

온톨로지: 우리가 보는 세상은 진짜일까? 인식, 관계, 그리고 AI의 놀라운 연결고리 (0)	2025.04.21
“스파스부터 덴스까지! 최신 리트리벌 기법 한눈에 정리하기” (0)	2025.04.13
“Amazon Bedrock과 Contextual Retrieval로 검색 성능 극대화! 실무 엔지니어를 위한 완벽 가이드” (0)	2025.04.12
Graph-based의 추천시스템의 성능 평가에 있어서, Recall, NDCG가 주요한 이유 (0)	2023.08.07
머신러닝에서 Precision(정밀도), Recall(재현율)의 차이 (0)	2023.08.07

이상향

“Pre-Training GPT-4.5: 차세대 거대 언어 모델의 비밀과 AI 혁신의 미래”

1. 시작하며: “GPT-4.5가 등장하기까지”

2. GPT-4.5: 무엇이 달라졌을까?

2.1 ‘10배 더 스마트한 모델’을 향한 도전

2.2 달라진 시스템 접근 방식

3. “시작이 반이다”를 넘어: 긴 준비 기간과 사전 훈련

3.1 1년간의 사전 준비: 리스크 감소(run)

3.2 데이터 효율성과 알고리즘

데이터가 부족하다고?

인간의 학습 효율 VS. AI의 학습 효율

4. 시스템 팀과 ML 팀: 함께하는 문제 해결 사례

4.1 “하나의 버그 이론”을 찾아서

4.2 손실 곡선을 지켜보는 하루

5. GPT-4.5의 “스케일링 법칙”과 놀라운 성능

5.1 스케일링 법칙, 여전히 유효한가?

5.2 “큰 모델이 더 똑똑해진다”는 것을 넘어

6. 사전 훈련과 추론(Reasoning)의 관계

6.1 사전 훈련: 광범위한 지능의 기반

6.2 왜 사전 훈련이 중요한가?

7. 한계와 미래: 10만 GPU에서 1천만 GPU로?

7.1 “이제는 컴퓨트 한계가 아니다”라는 전환점

7.2 1천만 GPU 동기화 시대가 올까?

8. 시스템 설계의 딜레마: 이상과 현실 사이

8.1 “완벽한 시스템”을 향해 달린다, 그러나…

8.2 아직은 만족스럽지 못하다?

9. 모델 평가: 좋은 메트릭과 나쁜 메트릭

9.1 ‘퍼플렉시티(Perplexity)’가 전부일까?

9.2 그래서 검증 데이터가 중요하다

10. 결론: GPT-4.5가 열어갈 미래

맺으며: 새로운 시대의 서막

'인공지능' 카테고리의 다른 글

티스토리툴바

“Pre-Training GPT-4.5: 차세대 거대 언어 모델의 비밀과 AI 혁신의 미래”

1. 시작하며: “GPT-4.5가 등장하기까지”

2. GPT-4.5: 무엇이 달라졌을까?

2.1 ‘10배 더 스마트한 모델’을 향한 도전

2.2 달라진 시스템 접근 방식

3. “시작이 반이다”를 넘어: 긴 준비 기간과 사전 훈련

3.1 1년간의 사전 준비: 리스크 감소(run)

3.2 데이터 효율성과 알고리즘

데이터가 부족하다고?

인간의 학습 효율 VS. AI의 학습 효율

4. 시스템 팀과 ML 팀: 함께하는 문제 해결 사례

4.1 “하나의 버그 이론”을 찾아서

4.2 손실 곡선을 지켜보는 하루

5. GPT-4.5의 “스케일링 법칙”과 놀라운 성능

5.1 스케일링 법칙, 여전히 유효한가?

5.2 “큰 모델이 더 똑똑해진다”는 것을 넘어

6. 사전 훈련과 추론(Reasoning)의 관계

6.1 사전 훈련: 광범위한 지능의 기반

6.2 왜 사전 훈련이 중요한가?

7. 한계와 미래: 10만 GPU에서 1천만 GPU로?

7.1 “이제는 컴퓨트 한계가 아니다”라는 전환점

7.2 1천만 GPU 동기화 시대가 올까?

8. 시스템 설계의 딜레마: 이상과 현실 사이

8.1 “완벽한 시스템”을 향해 달린다, 그러나…

8.2 아직은 만족스럽지 못하다?

9. 모델 평가: 좋은 메트릭과 나쁜 메트릭

9.1 ‘퍼플렉시티(Perplexity)’가 전부일까?

9.2 그래서 검증 데이터가 중요하다

10. 결론: GPT-4.5가 열어갈 미래

맺으며: 새로운 시대의 서막

'인공지능' 카테고리의 다른 글

관련글

티스토리툴바