LLM

ChatGPT-4o의 이미지 생성 기능, 무엇이 달라졌고, 무엇이 문제인가?

돌돌55 2025. 4. 1. 20:24

새로운 모델 GPT-4o의 도입 (DALL·E 3에서 업그레이드)

OpenAI는 2025년 3월 말 ChatGPT의 이미지 생성 엔진을 대폭 개선하며, 기존에 사용되던 DALL·E 3 모델을 GPT-4o로 교체했습니다. GPT-4o는 원래 GPT-4 기반의 멀티모달(multimodal) 모델로, 텍스트뿐만 아니라 이미지를 직접 생성 및 편집할 수 있도록 훈련되었습니다. 이번 업그레이드를 통해 ChatGPT는 내장 모델로 이미지를 만들어내므로, DALL·E 3를 별도로 호출하던 이전보다 일관되고 자연스러운 이미지 생성 경험을 제공하게 되었습니다. 다만 GPT-4o 모델은 DALL·E 3보다 생성 속도가 약간 느리지만, 그만큼 더 정확하고 세밀한 이미지를 생성하는 것이 특징입니다. 또한 GPT-4o는 기존 이미지를 업로드 받아 부분 변환(In-painting) 하거나 이미지 속 요소를 수정하는 고급 편집 기능까지 지원하여 활용 범위가 크게 넓어졌습니다.

주요 기술적 개선점: 정밀한 표현과 일관성

GPT-4o 기반의 새 이미지 생성 모델은 텍스트와 이미지를 함께 학습하여 이전보다 똑똑하게 그림을 그립니다. 그 결과, 아래와 같은 핵심 기술 향상이 이루어졌습니다

정확한 프롬프트 이행과 문맥 활용: 모델이 방대한 언어 지식과 대화 문맥을 이미지 생성에 활용하기 때문에, 복잡한 요청도 이전보다 정확하게 따르고 세부 요구사항까지 반영합니다. 예를 들어, 대화 중 언급된 내용을 참고해 해당 스타일이나 요소를 그림에 녹여낼 수 있습니다.
텍스트 렌더링 향상: 이미지 속 간판 글씨나 메뉴판 글자처럼 문자를 또렷하게 표현하는 능력이 크게 향상되었습니다. 기존 AI 이미지 모델들이 글자를 흐릿하게 표현하거나 엉뚱한 문자를 내놓던 한계를 극복하고, 이제는 표지판, 다이어그램, 초대장 등에 들어가는 텍스트도 정확히 구현해 냅니다.
공간적 구성 및 일관성 개선: 사람이나 사물의 위치, 자세, 형태가 논리적으로 맞게 그려지고, 복잡한 장면도 일관성 있게 묘사됩니다. 예를 들어 여러 장의 이미지를 생성할 때 동일한 캐릭터의 외형을 계속 유지한다거나, 양 손이나 눈과 같은 디테일을 일관되게 표현하는 능력이 좋아졌습니다. 이는 AI 이미지 생성에서 흔했던 기괴한 왜곡이나 연속성 문제를 줄여줍니다.
이미지 편집과 변환: 사용자가 업로드한 이미지를 받아 그 일부를 수정하거나 다른 스타일로 변환하는 기능(이미지 인페인팅)이 도입되었습니다. GPT-4o는 이미지 속 전경 또는 배경 객체를 추가하거나 변경하는 등 사진 편집 수준의 변환을 대화로 수행할 수 있습니다. 특히 사람 얼굴이 있는 사진도 제한적으로 변형할 수 있을 만큼 모델의 이해도가 높아졌습니다.

화풍 재현 및 전체적인 이미지 품질 향상

새로운 모델은 특정 예술 스타일을 현실감 있게 모방하는 데 뛰어난 성능을 보여줍니다. 실제로 업데이트 직후 사용자들은 자신의 사진이나 유명 밈을 스튜디오 지브리(Studio Ghibli) 애니메이션 스타일로 바꿔보는 놀이에 열광했고, 이 지브리 스타일 이미지들이 인터넷에서 폭발적으로 공유되었습니다. ChatGPT의 지브리 풍 생성 능력은 너무 인기 있어서 OpenAI CEO인 Sam Altman이 “GPU가 녹아내릴 정도”라며 일시적으로 무료 이용을 제한할 정도였다고 전해집니다. 이처럼 픽사(Pixar)나 지브리 같은 독특한 화풍의 애니메이션부터, 고전 유화 풍이나 만화 풍, 심지어 특정 사진작가의 분위기에 이르기까지 다양한 스타일을 매우 그럴듯하게 따라 그릴 수 있습니다. 동시에 세부 묘사와 현실감 측면에서도 품질이 크게 향상되었습니다.

업데이트된 제한 정책

유명인 등 실제 인물 이미지 생성 허용: 기존에는 연예인이나 정치인 등 실존 인물의 얼굴이나 모습을 그려달라는 요청에 ChatGPT가 응하지 않았지만, 이제는 공인에 한해 이러한 이미지도 생성할 수 있게 되었습니다. 가령 사용자가 “일론 머스크가 무언가 하는 모습을 그려줘”라고 하면, 새 정책하에서는 이를 거절하지 않고 이미지를 만들어줄 수 있습니다. OpenAI는 특정인에 대해 일률적으로 금지하는 대신, 당사자의 요청 시 제외(opt-out)하는 방식을 도입함으로써, 회사가 누구는 되고 누구는 안 된다고 결정하지 않도록 했다고 설명했습니다.
민감한 표현에 대한 세분화된 허용: 예전에는 논란의 소지가 있는 주제라면 무조건 거부하던 것을, 이제는 맥락을 고려해 필요한 경우 허용하도록 정책을 수정했습니다. 단, 이를 홍보하거나 옹호하지 않는 조건에 한하며, 유해한 목적의 요청은 여전히 차단됩니다. 마찬가지로, 사람의 인종적 특징이나 외모를 바꿔달라는 요청(“눈을 더 동양인처럼 만들어줘” 등)도 이전에는 거절됐지만 이제는 특별히 차별적 의도가 없다면 응답하는 등, 모델이 외모 변형 요청도 처리하게 되었습니다.
예술가 스타일 및 저작권 보호: 저작권 필터링과 관련해서 OpenAI는 여전히 특정 살아있는 예술가의 고유한 화풍을 그대로 모방하는 이미지는 만들어주지 않겠다는 입장을 유지하고 있습니다. 이는 해당 작가의 권리를 존중하기 위한 조치로, 사용자 프롬프트에 현대 화가나 일러스트레이터의 실명 스타일이 언급되면 제한이 걸릴 수 있습니다. 실제로 “지브리 스타일”처럼 특정 스튜디오의 이름을 붙인 화풍은 생성이 가능했는데, 이는 한 개인의 작품이라기보다 집단적 미술 양식으로 간주했기 때문으로 보입니다.

실습

실제로 사용해보고 강력한 이미지 생성 능력에 놀랐습니다. 이전에는 생성할 수 없었던 아래와 같은 이미지를 손쉽게 생성할 수 있었습니다. 이에 따라 사용자들의 만족도는 높아지겠지만, AI의 윤리적인 부분에 대한 이야기도 더 생길 정도로 강한 영향이 있을 것으로 생각됩니다.

아래는 제가 좋아하는 두 작가님을 생각하며 생성한 이미지입니다.어떤 작가님인지 추측하는 것도 재밌겠습니다 :)

저작자표시 비영리 (새창열림)

'LLM' 카테고리의 다른 글

좋은 LLM 찾기 - 벤치마크 기준으로 (0)	2025.04.23
ChatGPT 심층 리서치(Deep Research) 사용 후기: 빠른 자료 조사와 신뢰도 높은 정보 얻기 (0)	2025.02.23
ChatGPT 모델 o1, o3, 4o 비교 분석 (0)	2025.02.17
ChatGPT Pro 1일차 사용후기 (0)	2025.02.13
LMStudio로 오픈소스 LLM 시작하기 (0)	2025.01.12

현재글ChatGPT-4o의 이미지 생성 기능, 무엇이 달라졌고, 무엇이 문제인가?

LLM, 결측치, sql, substr, 집계, 서브 쿼리, Sum, 실기, 심층 리서치, 조인, ADP, Join, 서브쿼리, ChatGPT, 코딩테스트, where, having, round, distinct, Llama,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

ChatGPT-4o의 이미지 생성 기능, 무엇이 달라졌고, 무엇이 문제인가?

새로운 모델 GPT-4o의 도입 (DALL·E 3에서 업그레이드)

주요 기술적 개선점: 정밀한 표현과 일관성

화풍 재현 및 전체적인 이미지 품질 향상

업데이트된 제한 정책

실습

'LLM' 카테고리의 다른 글

'LLM'의 다른글

티스토리툴바

ChatGPT-4o의 이미지 생성 기능, 무엇이 달라졌고, 무엇이 문제인가?

새로운 모델 GPT-4o의 도입 (DALL·E 3에서 업그레이드)

주요 기술적 개선점: 정밀한 표현과 일관성

화풍 재현 및 전체적인 이미지 품질 향상

업데이트된 제한 정책

실습

'LLM' 카테고리의 다른 글

'LLM'의 다른글

관련글

티스토리툴바