GPT-4o란 무엇인가 - OpenAI의 새로운 멀티모달 플래그십 모델

GPT-4o란 무엇인가 - OpenAI의 새로운 멀티모달 플래그십 모델

AI Plus
🧠Knowledge
AI format
ChatGPT
Created time
May 13, 2024 11:44 PM
Highly Recommend
Platform
Website
Posted By

DeepdAive

OpenAI에서 미국 현지 시간 5/13(월) 멀티모달 플래드십 모델인 GPT-4o을 공개했습니다.

사용자와 실시간으로 대화가 가능한 GPT-4o는, 대화 상대의 감정을 인식하고 상황에 맞는 적절한 감정 표현도 할 수 있으며, 심지어 농담을 하고, 노래를 부르기도 합니다.

GPT-4o의 음성 모드는 말하기 전 1~2초 간의 대기 시간이 있던 기존의 음성 모드와는 달리 언제든지 말을 시작할 수 있으며, 답변도 실시간으로 합니다.

그뿐만 아니라 기존에는 AI가 말하는 것이 끝날 때까지 기다려야 했던 것과 달리, 이제는 말하는 도중에 끼어들 수도 있습니다.

아래는 OpenAI에서 공개한 강아지를 AI에게 소개하는 영상입니다. 영상을 보면 자비스가 떠오르며, AGI의 탄생이 머지않았다는 생각이 듭니다.

✅ GPT-4o의 o는 '어디에나', '어디서나'라는 의미를 가진 Omni의 약자입니다.

향상된 AI 이미지 생성 모델

라이브 데모에서는 음성 모드의 성능 향상이 주로 부각되었지만, AI 이미지 생성 모델에도 엄청난 성능 업그레이드가 있었습니다.

지금부터 OpenAI에서 공개한 다양한 예시 중 눈에 띄는 예시 몇 가지 예시 함께 살펴보겠습니다.

1. 텍스트의 이미지 구현

사용자가 입력한 텍스트를 이미지로 구현하는 능력이 기존과는 비교할 수 없을 정도로 향상되었습니다.

이 분야 기존 최강자 Ideogramr을 훨씬 능가하는 성능을 보여줍니다. 금일부로 AI 이미지의 활용도가 더욱 높아질 것으로 예상됩니다.

image

아래와 같이 긴 문장도 완벽하게 반영해서 편지 형태로 제공할 수 있습니다.

image

2. 캐리커처

다음은 실물 사진을 캐리커처로 변경한 예시입니다. 원본 인물과 상당히 담은 캐릭터가 생성된 것을 볼 수 있습니다.

image

3. 로고 제작

마지막으로 OpenAI 로고를 컵 받침에 새긴 예시입니다. 사용자의 요청대로 로고는 나무 부분에, 텍스트는 대리석 부분에 정확하게 구분되어 반영되는 것을 알 수 있습니다.

image

OpenAI 홈페이지에는 위 예시 외에도 훨씬 더 다양한 이미지 생성 예시가 공개되어 있습니다.

GPT-4o 성능

OpenAI는 GPT-4o가 많은 부분에서 GPT-4를 앞선 것으로 공개했습니다.

1. 언어 능력

GPT-4o는 GPT-4 대비 추론 능력이 뛰어납니다. 이 신규 모델은 0점짜리 COT MMLU(일반 지식 문제)에서 88.7%라는 새로운 최고 점수를 기록했습니다.

image

2. 음성 자동 인식 능력

GPT-4o의 음성 인식 성능은 모든 언어, 특히 자원이 부족한 언어에 대해 Whisper-v3을 크게 앞서는 것으로 확인됩니다.

image

3. 음성 번역 능력

GPT-4o는 음성 번역의 새로운 기준을 제시하며 MLS 벤치마크에서 Whisper-v3보다 뛰어난 성능을 발휘합니다.

image

적용 일정

텍스트 및 이미지 기능이 5/13(월)부터 순차적으로 롤아웃 되며, 실시간 대화가 가능한 새로운 음성 모드는 향후 몇 주 내에 챗GPT Plus 유저에게 먼저 적용될 예정이라고 합니다.

제 계정의 경우 신규 모델 공개 직후 적용되어 현재 사용 중에 있습니다.

가격 및 사용 제한

GPT-4o는 챗GPT의 모든 유저에게 제공될 예정입니다. Plus 플랜 사용자는 무료 유저보다 더 많은 GPT-4o 사용량이 제공되며 3시간마다 80회 사용할 수 있습니다.

또한, Plus 사용자는 이와 별개로 GPT-4를 3시간마다 40회 사용할 수 있습니다.

image

API 관련 정보

개발자는 API에서 텍스트 및 비전 모델로 GPT-4o에 액세스할 수 있습니다. GPT-4o는 GPT-4 터보에 비해 속도가 2배 빠르고 가격은 절반이며, 사용 제한은 5배 더 높습니다.

image

향후 몇 주 내에 신뢰할 수 있는 소수의 파트너 그룹을 대상으로 새로운 오디오 및 비디오 기능에 대한 지원을 API에서 시작할 계획이라고 합니다.

음성 데모 영상

마지막으로 OpenAI에서 공개한 음성 데모 영상 몇 가지를 함께 보겠습니다.

먼저 수학 문제를 AI와 함께 학습하는 영상입니다.

AI가 사용자의 요청대로 비꼬는 말투로 대답하는 영상입니다.

마지막으로 두 AI가 서로 대화하는 영상입니다.

지금까지 OpenAI의 새로운 멀티모달 플래그십 모델 GPT-4o에 대해 함께 살펴보았습니다.

OpenAI는 꽁꽁 숨겨온 새로운 플래그십 모델을 구글의 연례 개발자 회의(I/O) 바로 전날에 발표하며 세상의 모든 이목을 끄는데 또 한 번 성공했습니다.

GPT-4와는 달리 무료 사용자에게도 신규 모델이 제공되는 만큼 챗GPT의 유저가 점점 더 많아질 것으로 예상됩니다.

OpenAI는 언제나 기대 이상의 새로운 AI 툴을 선보였습니다. GPT-5의 출시가 더욱 기대되는 하루입니다.

OpenAI의 공식 페이지에는 더 많은 데모 영상과 다양한 사용 예시가 공개되어 있으니 관심 있는 독자분께서는 한번 방문해 보시기 바랍니다.