OpenAI
OpenAI is committed toย developing safe and broadly beneficial AI. Today we are sharing preliminary insights and results from a small-scale preview of a model called Voice Engine, which uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker. It is notable that a small model with a single 15-second sample can create emotive and realistic voices.
We first developed Voice Engine in late 2022, and have used it to power the preset voices available in theย text-to-speech APIย as well asย ChatGPT Voice and Read Aloud.ย At the same time, we are taking a cautious and informed approach to a broader release due to the potential for synthetic voice misuse. We hope to start a dialogue on the responsible deployment of synthetic voices, and how society can adapt to these new capabilities. Based on these conversations and the results of these small scale tests, we will make a more informed decision about whether and how to deploy this technology at scale.
Chat GPT๋ฒ์ญ
OpenAI๋ ์์ ํ๊ณ ํญ๋๊ฒ ์ ์ตํ ์ธ๊ณต์ง๋ฅ์ ๊ฐ๋ฐํ๊ธฐ ์ํด ๋ ธ๋ ฅํ๊ณ ์์ต๋๋ค. ์ค๋์ Voice Engine์ด๋ผ๋ ๋ชจ๋ธ์ ์๊ท๋ชจ ๋ฏธ๋ฆฌ๋ณด๊ธฐ์์์ ์๋น์ ์ธ ์ธ์ฌ์ดํธ์ ๊ฒฐ๊ณผ๋ฅผ ๊ณต์ ํ๊ณ ์ ํฉ๋๋ค. Voice Engine์ ํ ์คํธ ์ ๋ ฅ๊ณผ 15์ด์ ์ค๋์ค ์ํ ํ๋๋ฅผ ์ฌ์ฉํ์ฌ ์๋ณธ ์คํผ์ปค๋ฅผ ๋งค์ฐ ๋ฎ์ ์์ฐ์ค๋ฌ์ด ์์ฑ์ ์์ฑํฉ๋๋ค. 15์ด์ ์ํ๊ณผ ์์ ๋ชจ๋ธ๋ง์ผ๋ก๋ ๊ฐ์ ์ ๋ด์ ํ์ค์ ์ธ ๋ชฉ์๋ฆฌ๋ฅผ ๋ง๋ค์ด๋ผ ์ ์๋ค๋ ์ ์ด ์ฃผ๋ชฉํ ๋งํฉ๋๋ค.
์ ํฌ๋ ๋จผ์ 2022๋ ๋ง์ Voice Engine์ ๊ฐ๋ฐํ์ผ๋ฉฐ, ์ด๋ฅผ ํ ์คํธ ์์ฑ ๋ณํ API ๋ฐ ChatGPT Voice์ Read Aloud์์ ์ฌ์ฉํ์ต๋๋ค. ๋์์, ํฉ์ฑ ์์ฑ ๋จ์ฉ์ ๊ฐ๋ฅ์ฑ์ผ๋ก ์ธํด ๋ณด๋ค ๋์ ๋ฐฐํฌ์ ๋ํด ์ ์คํ๊ณ ์ฒ ์ ํ ์ ๊ทผ์ ์ทจํ๊ณ ์์ต๋๋ค. ์ฐ๋ฆฌ๋ ํฉ์ฑ ์์ฑ์ ์ฑ ์ ์๋ ๋ฐฐํฌ์ ๋ํ ๋ํ๋ฅผ ์์ํ๊ณ , ์ฌํ๊ฐ ์ด๋ฌํ ์๋ก์ด ๋ฅ๋ ฅ์ ์ด๋ป๊ฒ ์ ์ํ ์ ์๋์ง์ ๋ํด ํฌ๋งํฉ๋๋ค. ์ด๋ฌํ ๋ํ์ ์๊ท๋ชจ ํ ์คํธ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก, ์ฐ๋ฆฌ๋ ์ด ๊ธฐ์ ์ ๊ท๋ชจ ํ์ฅํ์ฌ ์ด๋ป๊ฒ ๋ฐฐํฌํ ์ง์ ๋ํ ๋ณด๋ค ์ฒ ์ ํ ๊ฒฐ์ ์ ๋ด๋ฆด ๊ฒ์ ๋๋ค.
- Providing reading assistance
๋น๋ ์ ๋ฐ ์ด๋ฆฐ์ด๋ค์๊ฒ ์์ฐ์ค๋ฝ๊ณ ๊ฐ์ ์ ๋ด์ ๋ชฉ์๋ฆฌ๋ฅผ ํตํด ๋ ์ ์ง์์ ์ ๊ณตํ๋ฉด์, ํ๋ฆฌ์ ๋ชฉ์๋ฆฌ๋ก๋ ๋ถ๊ฐ๋ฅํ ๋ ๋ค์ํ ์ฐ์ฌ์๋ฅผ ๋ํํ ์ ์์ต๋๋ค. ์ด๋ฆฐ์ด๋ค์ ํ์ ์ฑ์ทจ์ ํ์ ํ๋ ๊ต์ก ๊ธฐ์ ๊ธฐ์ ์ธ Age of Learning์ ์ด๋ฅผ ํ์ฉํ์ฌ ์ฌ์ ์์ฑ๋ ๋ณด์ด์ค์ค๋ฒ ์ฝํ ์ธ ๋ฅผ ์์ฑํ๊ณ ์์ต๋๋ค. ๋ํ, ์ด๋ค์ ํ์๋ค๊ณผ ์ํธ ์์ฉํ๊ธฐ ์ํด ์ค์๊ฐ์ผ๋ก ๊ฐ์ธํ๋ ์๋ต์ ์์ฑํ๊ธฐ ์ํด Voice Engine๊ณผ GPT-4๋ฅผ ์ฌ์ฉํ๊ณ ์์ต๋๋ค. ์ด ๊ธฐ์ ์ ํตํด Age of Learning์ ๋ณด๋ค ๋์ ๋์ค์ ์ํ ์ฝํ ์ธ ๋ฅผ ๋ ๋ง์ด ์์ฑํ ์ ์์์ต๋๋ค.
- Translating content
์ฝํ ์ธ ๋ฅผ ๋ฒ์ญํ์ฌ ์ฐฝ์์์ ๋น์ฆ๋์ค๊ฐ ์ธ๊ณ ๊ฐ์ง์ ์ฌ๋๋ค์๊ฒ ๋ ๋ง์ด ๋ฟ์ ์ ์๋๋ก ๋์์ค๋๋ค. ์ด๋ฅผ ํตํด ์ฐฝ์์๋ค์ ์์ ์ ๋ชฉ์๋ฆฌ๋ก ์์ ๋กญ๊ณ ์ ์ฐฝํ๊ฒ ์ธ๊ณ ๊ฐ์ง์ ์ฌ๋๋ค์๊ฒ ๋ฉ์์ง๋ฅผ ์ ๋ฌํ ์ ์์ต๋๋ค. ์ด๋ฌํ ์๋น์ค๋ฅผ ์ด๊ธฐ ๋์ ํ ๊ธฐ์ ์ค ํ๋๋ HeyGen์ ๋๋ค. HeyGen์ ๊ธฐ์ ๊ณ ๊ฐ๊ณผ ํ์ ํ์ฌ ์ ํ ๋ง์ผํ ๋ถํฐ ํ๋งค ๋ฐ๋ชจ๊น์ง ๋ค์ํ ์ฝํ ์ธ ๋ฅผ ์ํด ์ฌ์ฉ์ ์ ์, ์ธ๊ฐ๊ณผ ์ ์ฌํ ์๋ฐํ๋ฅผ ๋ง๋๋ AI ์๊ฐ์ ์คํ ๋ฆฌํ ๋ง ํ๋ซํผ์ ๋๋ค. ๊ทธ๋ค์ ๋น๋์ค ๋ฒ์ญ์ ์ํด Voice Engine์ ์ฌ์ฉํ์ฌ ์คํผ์ปค์ ๋ชฉ์๋ฆฌ๋ฅผ ์ฌ๋ฌ ์ธ์ด๋ก ๋ฒ์ญํ์ฌ ์ ์ธ๊ณ์ ์ธ ์ฒญ์ค์๊ฒ ๋๋ฌํ ์ ์์ต๋๋ค. ๋ฒ์ญ์ ์ฌ์ฉ๋ ๋, Voice Engine์ ์๋ณธ ์คํผ์ปค์ ๋ชจ๊ตญ์ด ๋ฐ์์ ๋ณด์กดํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ํ๋์ค์ด ์คํผ์ปค์ ์ค๋์ค ์ํ์ ์ฌ์ฉํ์ฌ ์์ด๋ฅผ ์์ฑํ๋ฉด ํ๋์ค์ด ๋ฐ์์ ์์ฑ์ด ์์ฑ๋ฉ๋๋ค.
- Reaching global communities
์๊ฒฉ ์ง์ญ์์ ํ์ ์๋น์ค ์ ๊ณต์ ํฅ์์์ผ ์ธ๊ณ ์ง์ญ ์ฌํ์ ๋๋ฌํฉ๋๋ค. Dimagi๋ ์์ ํ๋ ์ด๋จธ๋๋ฅผ ์ํ ์๋ด๊ณผ ๊ฐ์ ๋ค์ํ ํ์ ์๋น์ค๋ฅผ ์ ๊ณตํ๊ธฐ ์ํด ์ง์ญ ๊ฑด๊ฐ ๋ ธ๋์๋ฅผ ์ํ ๋๊ตฌ๋ฅผ ๊ฐ๋ฐํ๊ณ ์์ต๋๋ค. ์ด๋ฌํ ๋ ธ๋์๋ค์ด ๊ธฐ์ ์ ํฅ์์ํค๋ ๋ฐ ๋์์ ์ฃผ๊ธฐ ์ํด, Dimagi๋ Voice Engine๊ณผ GPT-4๋ฅผ ์ฌ์ฉํ์ฌ ๊ฐ ๋ ธ๋์์ ์ฃผ ์ธ์ด์ธ ์ค์ํ๋ฆฌ์ด๋ ์ผ๋์์ ์ธ๊ธฐ ์๋ ์ฝ๋ ํผ์ฉ ์ธ์ด์ธ ์น๊ณผ ๊ฐ์ ๋น๊ณต์์ ์ธ ์ธ์ด๋ก ์ํธ์์ฉ์ ์ธ ํผ๋๋ฐฑ์ ์ ๊ณตํฉ๋๋ค.
- Supporting people who are non-verbal
์ธ์ด์ ์ผ๋ก ์์ฌ์ํต์ด ๋ถ๊ฐ๋ฅํ ์ฌ๋๋ค์ ์ง์ํฉ๋๋ค. ์ด๋ ๋ง์ ์ํฅ์ ์ฃผ๋ ์ํ๋ฅผ ๊ฐ์ง ๊ฐ์ธ๋ค์ ์ํ ์น๋ฃ์ ์ธ ์์ฉ ํ๋ก๊ทธ๋จ๊ณผ ํ์ต ์๊ตฌ๊ฐ ์๋ ์ฌ๋๋ค์ ์ํ ๊ต์ก์ ํฅ์์ ์ํ ๊ฒ์ ๋๋ค. AI ๋์ ์์ฌ์ํต ์ฑ์ธ Livox๋ ์ฅ์ ์ธ์ด ์์ฌ์ํตํ ์ ์๋๋ก ํ๋ ๋ณด์กฐ ๋ฐ ๋์ฒด ์์ฌ์ํต(AAC) ์ฅ์น๋ฅผ ์ ๊ณตํฉ๋๋ค. Voice Engine์ ์ฌ์ฉํจ์ผ๋ก์จ, Livox๋ ์ธ์ด์ ๊ด๊ณ์์ด ๋ง์ ์ธ์ด๋ก ๋งํ์ง ์๋ ์ฌ๋๋ค์๊ฒ ๋ ํนํ๊ณ ๋ก๋ด์ ์ด์ง ์์ ๋ชฉ์๋ฆฌ๋ฅผ ์ ๊ณตํ ์ ์์ต๋๋ค. ์ด๋ค์ ์ฌ์ฉ์๋ค์ ์์ ์ ๊ฐ์ฅ ์ ๋ํํ๋ ์์ฑ์ ์ ํํ ์ ์์ผ๋ฉฐ, ๋ค๊ตญ์ด ์ฌ์ฉ์์ ๊ฒฝ์ฐ ๊ฐ๊ฐ์ ๋งํ๋ ์ธ์ด์์ ์ผ๊ด๋ ์์ฑ์ ์ ์งํ ์ ์์ต๋๋ค.
- Helping patients recover their voice
๊ฐ์์ค๋ฌ์ด ๋๋ ๋ณ degํ ๋ฐ์ ์ฅ์ ๋ฅผ ๊ฒช๋ ํ์๋ค์ด ๋ชฉ์๋ฆฌ๋ฅผ ํ๋ณตํ๋ ๋ฐ ๋์์ ์ค๋๋ค. Brown ๋ํ๊ต ์ํ ํ๊ต์ ์ฃผ์ ๊ต์ก ์ ํด์ฌ ์ญํ ์ ํ๋ ๋น์๋ฆฌ ๊ฑด๊ฐ ์์คํ ์ธ Lifespan์ Norman Prince Neurosciences Institute๋ ์์ ๋งฅ๋ฝ์์ AI์ ์ฌ์ฉ ๋ฐฉ๋ฒ์ ํ๊ตฌํ๊ณ ์์ต๋๋ค. ๊ทธ๋ค์ ๋ฐ์ ์ฅ์ ๊ฐ ์๋ ์ข ์ํ ๋๋ ์ ๊ฒฝํ์ ์์ธ์ ๊ฐ์ง ๊ฐ์ธ๋ค์๊ฒ Voice Engine์ ์ ๊ณตํ๋ ํ๋ก๊ทธ๋จ์ ์ํ ์ค์ ๋๋ค. Voice Engine์ ์์ฃผ ์งง์ ์ค๋์ค ์ํ์ด ํ์ํ๊ธฐ ๋๋ฌธ์, Fatima Mirza, Rohaid Ali ๋ฐ Konstantina Svokos ์์ฌ๋ค์ ํ๊ต ํ๋ก์ ํธ๋ฅผ ์ํด ๋ นํ๋ ๋น๋์ค์์ ์ค๋์ค๋ฅผ ์ฌ์ฉํ์ฌ ํ๊ด์ฑ ๋์ข ์์ผ๋ก ์ ์ฐฝํ ๋ฐ์์ ์์ ์ ์ ํ์์ ๋ชฉ์๋ฆฌ๋ฅผ ํ๋ณตํ ์ ์์์ต๋๋ค.
- Voice Engine๋ฅผ ์์ ํ๊ฒ ๊ตฌ์ถํ๊ธฐ
์ฐ๋ฆฌ๋ ์ฌ๋๋ค์ ๋ชฉ์๋ฆฌ์ ๋ฎ์ ์์ฑ์ ์์ฑํ๋ ๊ฒ์ด ์ฌ๊ฐํ ์ํ์ ๋ดํฌํ๋ค๋ ๊ฒ์ ์ธ์ํ๊ณ ์์ต๋๋ค. ํนํ ์ ๊ฑฐ ์ฐ๋์๋ ๋์ฑ ๋ ์ฐ๋ ค๋๋ ๋ฌธ์ ์ ๋๋ค. ์ฐ๋ฆฌ๋ ๋ฏธ๊ตญ๊ณผ ๊ตญ์ ์ ์ธ ์ ๋ถ, ์ธ๋ก , ์ํฐํ ์ธ๋จผํธ, ๊ต์ก, ์๋ฏผ ์ฌํ ๋ฑ์ ํํธ๋๋ค๊ณผ ํ๋ ฅํ์ฌ ์ฐ๋ฆฌ๊ฐ ๊ตฌ์ถํ๋ ๋์ ๊ทธ๋ค์ ํผ๋๋ฐฑ์ ํตํฉํ๊ณ ์์ต๋๋ค.
์ค๋ Voice Engine์ ํ ์คํธํ๋ ํํธ๋๋ค์ ์ฐ๋ฆฌ์ ์ฌ์ฉ ์ ์ฑ ์ ๋์ํ์ผ๋ฉฐ, ์ด ์ ์ฑ ์ ๋์๋ ๋ฒ์ ๊ถ๋ฆฌ ์์ด ๋ค๋ฅธ ๊ฐ์ธ์ด๋ ์กฐ์ง์ ํ๋ด ๋ด๋ ๊ฒ์ ๊ธ์งํฉ๋๋ค. ๋ํ, ์ด๋ฌํ ํํธ๋๋ค๊ณผ์ ๊ณ์ฝ ์กฐํญ์ ์๋ ์คํผ์ปค๋ก๋ถํฐ ๋ช ์์ ์ด๊ณ ์ ๋ณด๋ฅผ ์ป์ ๋์๋ฅผ ์๊ตฌํ๋ฉฐ, ๊ฐ๋ฐ์๋ค์ด ๊ฐ๋ณ ์ฌ์ฉ์๊ฐ ์์ ์ ๋ชฉ์๋ฆฌ๋ฅผ ๋ง๋ค ์ ์๋ ๋ฐฉ๋ฒ์ ๊ฐ๋ฐํ์ง ๋ชปํ๋๋ก ํฉ๋๋ค. ํํธ๋๋ค์ ๋ํ ์์ ๋ค์ ์ฒญ์ค์๊ฒ ๋ฃ๋ ๋ชฉ์๋ฆฌ๊ฐ AI๋ก ์์ฑ๋ ๊ฒ์์ ๋ช ํํ ๊ณต๊ฐํด์ผ ํฉ๋๋ค. ๋ง์ง๋ง์ผ๋ก, ์ฐ๋ฆฌ๋ Voice Engine์ผ๋ก ์์ฑ๋ ๋ชจ๋ ์ค๋์ค์ ์๋ณธ์ ์ถ์ ํ๊ธฐ ์ํ ์ํฐ๋งํน๊ณผ ์ฌ์ฉ ๋ฐฉ๋ฒ์ ์ ์ ์ ์ผ๋ก ๋ชจ๋ํฐ๋งํ๋ ๋ฑ์ ์์ ์กฐ์น๋ฅผ ์ํํ์ต๋๋ค.
์ฐ๋ฆฌ๋ ํฉ์ฑ ์์ฑ ๊ธฐ์ ์ ๋์ ๋ฐฐํฌ๋ ์๋ ์คํผ์ปค๊ฐ ์์ ์ ๋ชฉ์๋ฆฌ๋ฅผ ์๋น์ค์ ์๋์ ์ผ๋ก ์ถ๊ฐํ๊ณ ์์์ ํ์ธํ๋ ์์ฑ ์ธ์ฆ ๊ฒฝํ๊ณผ, ์ ๋ช ์ธ๋ฌผ๊ณผ ๋๋ฌด ์ ์ฌํ ๋ชฉ์๋ฆฌ์ ์์ฑ์ ๊ฐ์งํ๊ณ ๋ฐฉ์งํ๋ "no-go" ๋ชฉ์๋ฆฌ ๋ชฉ๋ก์ด ํ์ํ๋ค๊ณ ๋ฏฟ์ต๋๋ค.
- ์ ๋ง
Voice Engine์ ๊ธฐ์ ์ ์ธ ์ต์ ์ ์ ์ดํดํ๊ณ AI๊ฐ ๊ฐ๋ฅํ ๊ฒ์ ๊ณต๊ฐ์ ์ผ๋ก ๊ณต์ ํ๊ธฐ ์ํ ์ฐ๋ฆฌ์ ์ฝ์์ ์ฐ์์ ๋๋ค. AI ์์ ์ ๋ํ ์ ๊ทผ ๋ฐฉ์๊ณผ ์ฐ๋ฆฌ์ ์๋ฐ์ ์ธ ์ฝ์์ ๋ฐ๋ผ, ์ฐ๋ฆฌ๋ ํ์ฌ ์ด ๊ธฐ์ ์ ๋ฏธ๋ฆฌ ๋ณด์ฌ์ฃผ์ง๋ง ๋๋ฆฌ ๊ณต๊ฐํ์ง๋ ์์ ๊ฒ์ ๋๋ค. Voice Engine์ ๋ฏธ๋ฆฌ๋ณด๊ธฐ๊ฐ ์ด ๊ธฐ์ ์ ์ ์ฌ๋ ฅ์ ๊ฐ์กฐํ๋ ๋์์, ์ ์ ๋ ํ์ค์ ์ธ ์์ฑ ๋ชจ๋ธ๋ก ์ธํด ์ฌํ์ ํ๋ณต๋ ฅ์ ๊ฐํํด์ผ ํ ํ์์ฑ์ ์ด๋ฐํ๊ธฐ๋ฅผ ๋ฐ๋๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ๋ค์๊ณผ ๊ฐ์ ๋จ๊ณ๋ฅผ ์ด์งํฉ๋๋ค:
์ํ ๊ณ์ข ๋ฐ ๊ธฐํ ๋ฏผ๊ฐํ ์ ๋ณด์ ์ก์ธ์คํ๋ ๋ณด์ ์กฐ์น๋ก์ ์์ฑ ๊ธฐ๋ฐ ์ธ์ฆ์ ๋จ๊ณ์ ์ผ๋ก ํ์งํฉ๋๋ค. ๊ฐ์ธ์ ๋ชฉ์๋ฆฌ ์ฌ์ฉ์ ๋ณดํธํ๊ธฐ ์ํ ์ ์ฑ ์ ํ์ํฉ๋๋ค. AI ๊ธฐ์ ์ ๋ฅ๋ ฅ๊ณผ ํ๊ณ๋ฅผ ์ดํดํ๊ธฐ ์ํด ๋์ค ๊ต์ก์ ์ค์ํฉ๋๋ค. ์์์๊ฐ ๊ฐ๋ฅํ AI ์ฝํ ์ธ ์ ๊ฐ๋ฅ์ฑ์ ํฌํจํ์ฌ. ์ค๋์ค ๋น์ฃผ์ผ ์ฝํ ์ธ ์ ์๋ณธ์ ์ถ์ ํ๋ ๊ธฐ์ ๋ฐ ๋ฐฉ๋ฒ์ ๊ฐ๋ฐ๊ณผ ๋์ ์ ๊ฐ์ํํ์ฌ, ์ค์ ์ฌ๋์ด๋ AI์ ์ํธ ์์ฉํ ๋ ํญ์ ๋ช ํํ๊ฒ ํ ์ ์๋๋ก ํฉ๋๋ค.
์ด ๊ธฐ์ ์ด ์ด๋ ๋ฐฉํฅ์ผ๋ก ํฅํ๊ณ ์๋์ง ์ธ๊ณ์ ์ฌ๋๋ค์ด ์ดํดํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ์ฐ๋ฆฌ๊ฐ ์ต์ข ์ ์ผ๋ก ์ด๋ฅผ ๋๋ฆฌ ๋ฐฐํฌํ๋ ๋ง๋ , ์ฐ๋ฆฌ๋ ์ ์ฑ ๊ฒฐ์ ์, ์ฐ๊ตฌ์, ๊ฐ๋ฐ์ ๋ฐ ์ฐฝ์์ ์ธ ์ฌ๋๋ค๊ณผ ํจ๊ป ํฉ์ฑ ์์ฑ์ ๋์ ๊ณผ ๊ธฐํ์ ๋ํ ๋ํ๋ฅผ ๊ณ์ ๊ธฐ๋ํฉ๋๋ค.