AI(LLM)

데이터 고갈 시대에 필요한 LLM 학습 전략

돌돌55 2025. 11. 16. 16:07

LLM의 발전 속도는 매우 빠르지만, 때로는 기대에 비해 느리다고 느껴질 때가 있다. GPU, AI 인프라, 모델 구조 등이 발전을 견인한다고 하지만, 이번에는 학습에 사용되는 데이터 측면에서 문제를 이야기해보고자 한다. LLM에 있어서 데이터는 필수적인 구성요소다. 모델은 주어진 데이터를 통해 패턴을 학습하고, 이를 바탕으로 새로운 상황에서 추론할 수 있게 된다. 그동안 LLM이 비약적으로 발전할 수 있었던 것은 다양한 출처의 데이터를 단기간에 대량으로 수집해 학습했기 때문이다. 그러나 이제는 더 좋은 데이터를 무한정 모으는 것이 점점 어려워지고 있다.

 

 

데이터 고갈

1. 학습 가능한 데이터의 한계
현재 인터넷에 공개된 일반 상식이나 정보는 대부분 AI 기업이 이미 확보한 상태다. 하지만 직장인을 대체할 만한 고급 지식이나 전문성은 단순한 웹 페이지에 있는 것이 아니라, 특정 전문가나 산업 내부에 존재하는 경우가 많다. 이런 고품질 정보는 대개 공개되지 않았고, 설사 공개되어 있다고 해도 진위 검증이 쉽지 않다. 따라서 단순히 웹 크롤링만으로는 양질의 데이터를 계속 확보하는 데 한계가 있다.

 

2. 데이터 수집 비용 증가
뉴욕타임즈는 OpenAI와 마이크로소프트를 상대로 자사 기사가 허락 없이 AI 학습 데이터로 사용되었다며 저작권 침해 소송을 제기했다. 이 사건은 단순한 크롤링이 더 이상 무제한 가능하지 않다는 현실을 보여준다. 따라서 AI 기업은 데이터 제공자와의 계약을 맺거나, 자체적으로 데이터를 생산하거나 수집해야 할 필요가 커지고 있다.

 

 

제안 방법

 

1. 고도화된 데이터 수집
이제는 일반 라벨러가 아니라, 물리·음악 등 특정 도메인의 전문가가 필요하다. 전문가를 통해 수준 높은 데이터를 확보하고, 이를 검증한 뒤 학습에 활용하는 방식이 요구된다.

 

2. 합성 데이터 사용
데이터 자체를 생성하는 방법도 있다. 현재의 LLM은 완전하지는 않지만 충분히 높은 수준의 생성 능력을 갖고 있다. 이를 활용해 필요한 데이터를 만들어내고 학습에 사용할 수 있다. 예를 들어, 자율주행 모델에 필요한 데이터가 부족하다면 다양한 상황의 운전 영상을 합성해 채워 넣을 수 있다. 다만 환각 발생 가능성이 높으므로 검증 절차가 필수적이다.

 

 

마무리

데이터 수집은 점점 빡빡해지고 검증 역시 어려워지고 있다. 시험에서 50점을 받는 것은 쉽지만 80점을 넘기면 난이도가 급격히 올라가듯, LLM 성능 향상도 비슷한 상황에 들어선 상태다. 어느 정도 실용적 수준에는 도달했지만, 사람을 완전히 대체하거나 압도하는 느낌을 주기에는 여전히 부족함이 있다. 하지만 공부를 거듭하면 결국 100점에 도달할 수 있듯, LLM도 꾸준한 개선이 계속된다면 충분히 더 큰 성능 도약을 보여줄 수 있을 것이라고 생각한다.