LLM의 발전 속도는 매우 빠르지만, 때로는 기대에 비해 느리다고 느껴질 때가 있다. GPU, AI 인프라, 모델 구조 등이 발전을 견인한다고 하지만, 이번에는 학습에 사용되는 데이터 측면에서 문제를 이야기해보고자 한다. LLM에 있어서 데이터는 필수적인 구성요소다. 모델은 주어진 데이터를 통해 패턴을 학습하고, 이를 바탕으로 새로운 상황에서 추론할 수 있게 된다. 그동안 LLM이 비약적으로 발전할 수 있었던 것은 다양한 출처의 데이터를 단기간에 대량으로 수집해 학습했기 때문이다. 그러나 이제는 더 좋은 데이터를 무한정 모으는 것이 점점 어려워지고 있다. 데이터 고갈1. 학습 가능한 데이터의 한계현재 인터넷에 공개된 일반 상식이나 정보는 대부분 AI 기업이 이미 확보한 상태다. 하지만 직장인을 대체할 ..