기존의 RunwayML과 같은, 즉 Text-to-Video와 학습 방식이 완전히 다르다. 기존의 Text-to-Video는 예를 들어 "강아지가 점프했다 착지하는 영상을 만들어봐"라고 했다면, 해당 영상 1분짜리 픽셀 덩어리를 통으로 던져주고 "이것이 바로 강아지가 점프하는 영상이라는 픽셀 덩어리 영상이니, 이걸 가지고 학습해서 앞으로 비슷하게 만들어라"라는 방식이었다.
[4]하지만 Sora는 프레임 단위로 일일이 다 쪼개서 각각 텍스트 묘사와 다시 비교해봐서 검증한 다음 영상으로 이어붙이는 방식으로 수작업 노가다를 하는 방식이다.
토큰 및 패치화에 관한 소라의 학습 원리 설명 Sora는 쉽게 말해 모든 영상을 프레임 단위로 일시정지해서 일일이 Text와 Video와 비교한 다음, 그 다음 장면에 나와야 할 상황의 프레임이 Text와 Video와 매치하는지를 반복하는 슈퍼 노가다를 한 방식이다.
안될공학 - 더쉽게 설명한 소라의 학습 원리 즉, "강아지가 점프했다 착지하는 영상을 만들어봐"고 한다면, 일단 처음의 수백 프레임은 각각 일일이 "강아지가 이 영상의 초반 프레임에서 점프하는 장면이 보여지면 강아지가 X,Y축 위치가 어디쯤 되어야하고 조명과 각도가 어떻게 되어야하는지"를 일일이 텍스트와 비교하고 그 다음 영상 프레임으로 넘어간다음, 그 다음 수백 프레임은 각각 일일이 "이 영상 몇번째 프레임 대에서는 강아지가 중력으로 인해 Y축 위치가 감소할 것이므로 앞발 각도가 이렇게 묘사되어야 하고 자세가 어떻게 바뀌며 그게 텍스트와 매치가 되는지"를 토큰 단위로 다 쪼개 일일이 검증해서 합치는 방식이다. 결국 이러한 방식의 학습 방법으로 인해, Sora는 단순히 Text-to-video가 아니라
영상 속 물리 법칙 및, 조명 등 실제 현실 세계에서 작용하는 세상의 법칙들을 학습할 수 있었다고 설명하고 있다.