2025/11 2

데이터 고갈 시대에 필요한 LLM 학습 전략

LLM의 발전 속도는 매우 빠르지만, 때로는 기대에 비해 느리다고 느껴질 때가 있다. GPU, AI 인프라, 모델 구조 등이 발전을 견인한다고 하지만, 이번에는 학습에 사용되는 데이터 측면에서 문제를 이야기해보고자 한다. LLM에 있어서 데이터는 필수적인 구성요소다. 모델은 주어진 데이터를 통해 패턴을 학습하고, 이를 바탕으로 새로운 상황에서 추론할 수 있게 된다. 그동안 LLM이 비약적으로 발전할 수 있었던 것은 다양한 출처의 데이터를 단기간에 대량으로 수집해 학습했기 때문이다. 그러나 이제는 더 좋은 데이터를 무한정 모으는 것이 점점 어려워지고 있다. 데이터 고갈1. 학습 가능한 데이터의 한계현재 인터넷에 공개된 일반 상식이나 정보는 대부분 AI 기업이 이미 확보한 상태다. 하지만 직장인을 대체할 ..

AI(LLM) 2025.11.16

GPT스러운 글쓰기가 부담스러운 이유

인터넷에서 글을 보면 AI를 사용한 글이 많이 보인다. 나는 이런 글을 ‘GPT스럽다’고 표현한다. (내가 만든 말은 아니다.) AI가 쓴 냄새가 강하게 나면 그 글을 읽기 싫어진다는 생각이 든다. 마치 로봇이 사람과 어느 정도 비슷할 때 느껴지는 불쾌한 골짜기처럼, 글에서도 비슷한 거부감이 생긴다. 왜 그런지 생각해보았다. 1. 글이 진부하고 부자연스럽다. 사람들이 잘 쓰지 않는 표현들이 있다. 특히 내가 부담스럽게 느끼는 건 쌍따옴표로 강조하는 방식이다. ChatGPT가 자주 쓰는 표현인데, 자연스럽게 느껴지지 않는다. 이런 부분은 글쓴이의 개성을 전혀 보여주지 못한다. 노래에는 각자의 목소리가 있듯이, 글도 사람마다 표현하는 방식과 구조가 다르다. 그런데 AI가 쓴 글은 획일적이라 결국 지루하게 ..

AI(LLM) 2025.11.06