OPEN AI의 비디오 생성 모델

챗GPT로 알려진 Open AI에서 텍스트-to-비디오 방식의 비디오 생성 AI 모델인 Sora를 지난달 (2024년 2월) 발표하였다. Sora는 텍스트 프롬프트만으로 현실감 넘치는 비디오를 생성할 수 있는 능력으로 기존의 비디오 생성 AI와 비교해 뛰어난 퀄리티와 혁신적인 기능을 보여주고 있다.

OpenAI Sora가 놀라운 이유

Sora의 현실감 넘치는 비디오 생성 능력은 기존의 비디오 생성 AI와 비교해 뛰어난 퀄리티와 혁신적인 특징을 보여주며, 비디오 콘텐츠 제작에 큰 영향을 미치고 있고 이는 영상 제작의 새로운 시대를 열어주고 있다.

주요 특징

1. 놀라운 품질의 사실적인 영상 제작

- SORA는 단순한 텍스트 설명을 기반으로도 실제 촬영한 영상과 구별하기 어려울 정도로 사실적인 영상을 제작한다.

→ 기존 영상 제작 AI의 한계를 뛰어넘는 놀라운 성과로서 AI 기술의 획기적인 발전을 보여준다.

→ Sora가 다양한 캐릭터, 동작, 피사체와 배경의 세부 정보를 정확하게 재현할 수 있기 때문이다.

2. 뛰어난 해상도와 길이

- 최대 1080x1920, 1920x1080 해상도의 영상 제작이 가능하여 기존 AI 모델보다 훨씬 높은 품질의 영상을 제공한다.

→ Sora는 와이드스크린 1920x1080p 비디오, 세로 1080x1920 비디오 및 그 사이의 모든 것을 샘플링할 수 있다.

최대 1분 길이의 영상 제작이 가능하다.

3. 3D 일관성

- 역동적인 카메라 움직임에도 불구하고 사람과 배경 요소가 3차원 공간에서 일관되게 움직인다.

→ 몰입감 넘치는 영상 제작을 가능하게 하며, 기존 AI 모델의 2D 영상 제작 한계를 극복한다.

→ Sora가 객체를 정확하게 인식하고, 가려졌던 배경을 복원할 수 있기 때문이다.

4. 다양한 시뮬레이션 기능

- 물, 불, 연기, 입자 등 다양한 시뮬레이션 기능을 제공하여 사실적인 효과를 쉽게 구현할 수 있다.

→ 영상 제작의 범위를 크게 확장하고, 더욱 풍부한 표현력을 가능하게 한다.

OpenAI Sora의 작동 원리

1. 확산 모델 기반

SORA는 확산 모델 기반으로 작동한다. 이는 OpenAI의 DALL-E나 Stability AI의 Stable Diffusion과 같이 이미지 생성에 널리 사용되며, 최근 비디오 생성 분야로 확장되고 있다.

확산 모델은 점차적으로 노이즈를 제거해 나가며 목표 이미지를 생성하는 방식을 사용한다. 이러한 확산 모델을 기반으로 하여, 텍스트 프롬프트를 분석하고 이를 비디오로 변환하는 과정에서 물리적 법칙을 준수하는 사실적인 영상을 생성한다. 이는 Sora가 비디오 생성 AI 모델 중에서도 특히 높은 품질의 결과물을 제공할 수 있는 이유 중 하나다.

2. 비디오 생성

Sora는 비디오를 거대한 직육면체(공간과 시간)로 생성해 내고, 이를 더 작은 시공간의 조각으로 잘라 내는 시공간 패치로 분해하고, 각 패치에 대한 정보를 생성한다. 이는 비디오 생성 AI 모델의 핵심 기술 중 하나로, 텍스트 프롬프트를 분석하여 주제와 행동을 비디오로 변환하는 데 중요한 역할을 한다. 이를 통해 사용자는 자신의 상상력을 비디오로 구현할 수 있게 된다.

Sora는 텍스트를 기반으로 영상 생성, 이미지를 영상으로 변환(image-to-video)과 영상을 기반으로 새로운 영상을 만드는 기능(video-to-video)도 제공한다. 또한, 영상의 전후를 확장하거나 두 개의 영상을 통합하는 기능도 제공한다.

지금부터 각 기능에 대한 샘플 영상을 함께 살펴보자.

영상 생성

1. Text to Video

Sora에게 텍스트 명령을 입력하여 원하는 영상을 생성할 수 있다.

→ "스타일리시한 여성이 따뜻하고 빛나는 네온과 애니메이션 도시 간판으로 가득한 도쿄 거리를 걷고 있습니다. 그녀는 검은색 가죽 재킷, 빨간색 긴 드레스, 검은색 부츠를 신고 검은색 지갑을 들고 있습니다. 그녀는 선글라스와 빨간 립스틱을 착용합니다. 그녀는 자신감 있고 자연스럽게 걷는다. 거리는 축축하고 반사되어 다채로운 조명의 거울 효과를 만들어냅니다. 많은 보행자들이 걸어 다닙니다."

2. Image-to-video

이미지와 함께 명령어를 입력하면 명령어 내 요청 사항이 반영된 영상으로 재탄생한다.

→ "화려하고 역사적인 홀에서 거대한 해일이 최고조에 달하고 부서지기 시작합니다. 두 명의 서퍼가 순간을 포착하여 파도의 표면을 능숙하게 탐색합니다."

3. 생성된 비디오 확장

Sora는 또한 비디오를 시간을 앞당기거나 뒤로 확장할 수 있다. 아래에는 생성된 비디오의 한 부분에서 시작하여 시간을 거꾸로 확장한 세 개의 비디오가 있다. 결과적으로 세 개의 동영상은 각각 다른 시작을 가지지만 세 개의 동영상은 모두 동일한 결말로 이어진다.

4. Video-to-Video

영상을 기반 새로운 영상을 만드는 기능일 경우 명령어를 입력하면 명령어 내 요청 사항이 반영된 새로운 영상이 생성된다.

--> "무성한 정글로 설정을 변경해 보세요."

--> "오래된 학교 차량으로 설정을 1920년대로 변경합니다. 꼭 붉은색을 유지해 주세요."

5. 비디오 연결하기

Sora를 사용하여 두 개의 입력 비디오 사이를 점진적으로 통합하는 기능도 제공한다. 완전히 다른 주제와 장면 구성이 있는 비디오 간에 원활한 전환을 생성할 수 있다. 아래 예에서 중앙의 비디오는 왼쪽과 오른쪽의 해당 비디오 사이를 원활히 전환시킨다.

예시들의 영상을 보면 AI로 생성된 영상이라 믿기 힘들만큼 실제 촬영한 영상과 같다. 너무 놀랍다!

자세한 예시는 Open AI Sora에서 확인할 수 있다.

하지만 Sora가 다른 생생형 AI보다는 퀄리티가 높지만, 물리적인 인과 관계 등 보완할 부분이 아직 많다고 한다.

흥미롭고 뛰어난 기능을 갖고 있는 Sora는 아직 일반 사용자에게 배포되지 않아 사용할 수 없다. 너무 실제와 같은 영상 생성은 여러 가지의 사회적인 문제 때문에 실제 Sora가 대중화되는 거에 대해서 굉장히 길게 검토를 하고 있다고 한다.

Ranyko의 디지털 세상

OPEN AI의 비디오 생성 모델 - 소라 SORA