▲ 오픈 AI의 GPT-4o 시연 영상, 클릭 시 유튜브 채널로 이동
듣고 보는 능력까지 제법인걸?
GPT-4o에서 ‘o’는 ‘모든 것’을 뜻하는 단어 ‘omni(옴니)’에서 따왔는데요.
이번 버전이 일명 ‘멀티모달(Multi-Modal) AI’이기 때문이에요.
멀티모달은 텍스트, 이미지, 오디오, 비디오 등
다양한 유형의 데이터를 동시에 처리할 수 있는 능력을 말해요.
GPT-4o는 텍스트와 이미지 인식만 가능했던 기존 버전과 달리
총 50개국의 언어를 지원하며 음성과 영상까지 모두 인식해요.
질문에 반응하는 속도도 훨씬 빨라졌고요.
이전 버전들이 응답에 평균 2.8~5.4초나 걸리던 것에 비해
GPT-4o는 평균 약 0.3초로, 사람이 실제로 대화할 때와 같은 수준이에요.
속도뿐만 아니라 주고받는 대화의 흐름도 매우 자연스러워졌어요.
표정도 읽어내고 농담까지 던진다?
GPT-4o는 표정이나 목소리, 억양 등을 분석해
사용자의 감정 상태를 파악하는 모습을 보여요.
5월 14일 진행된 제품 시연회에서 미라 무라티(Mira Murati, 오픈AI CTO)와
GPT-4o와의 대화를 잠깐 살펴보자면요.
미라 무라티: “조금 긴장된 상태인데 나를 진정시켜 줄 수 있어?”
GPT-4o: ‘심호흡을 해보세요.”
(시연자의 거친 숨소리)
“오, 천천히요. 당신은 진공청소기가 아니에요.”
사용자의 숨소리를 인지하고, 어떤 감정 상태인지 분석한 뒤
농담까지 던지는 대화의 흐름이 제법 자연스럽지 않나요?
이외에도 ‘잠을 잘 자지 못하는 친구를 위해 이야기를 들려달라’고 하자,
구연동화를 읽는 톤으로 이야기를 들려주거나
종이에 수학 문제를 써서 보여준 뒤 풀어달라고 하자, 단계별 풀이도 척척 해내요. |