Bark: 텍스트 기반 생성 오디오 모델

Bark는 Suno에서 개발한 혁신적인 텍스트-오디오 모델로, 고도로 사실적인 다국어 음성을 생성할 수 있습니다. 이 모델은 음악, 배경 소음, 간단한 효과음 등 다양한 오디오를 생성할 수 있으며, 웃음, 한숨, 울음과 같은 비언어적 커뮤니케이션도 가능합니다. Bark는 연구 커뮤니티를 지원하기 위해 사전 훈련된 모델 체크포인트에 대한 액세스를 제공하며, 상업적 사용이 가능합니다.

주요 기능

1. 다국어 지원

Bark는 다양한 언어를 지원하며, 입력 텍스트에서 자동으로 언어를 감지합니다. 코드 스위칭 텍스트를 입력하면 해당 언어의 원어 억양을 사용하려고 시도합니다. 현재 영어 품질이 가장 좋지만, 다른 언어도 점차 개선될 것으로 예상됩니다.

2. 음악 생성

Bark는 음성과 음악의 차이를 두지 않고 모든 유형의 오디오를 생성할 수 있습니다. 텍스트를 음악으로 생성하려면 가사 주위에 음악 기호를 추가하면 됩니다.

3. 음성 프리셋

Bark는 지원되는 언어에 대해 100개 이상의 스피커 프리셋을 지원합니다. 커뮤니티에서 공유된 프리셋을 통해 다양한 음성을 탐색할 수 있습니다.

4. 긴 오디오 생성

기본적으로 Bark는 약 13초 분량의 음성 텍스트에 잘 작동합니다. 긴 형식의 생성을 위한 예제는 노트북 섹션에서 확인할 수 있습니다.

설치 방법

Bark는 다음과 같은 명령어로 설치할 수 있습니다:

pip install git+https://github.com/suno-ai/bark.git

사용 예

Bark를 사용하여 텍스트에서 오디오를 생성하는 방법은 다음과 같습니다:

from bark import SAMPLE_RATE, generate_audio, preload_models
from scipy.io.wavfile import write as write_wav
from IPython.display import Audio

# 모델 로드
preload_models()

# 텍스트로부터 오디오 생성
text_prompt = """안녕하세요, 제 이름은 Suno입니다. 저는 피자를 좋아합니다. """
audio_array = generate_audio(text_prompt)

# 오디오를 디스크에 저장
write_wav("bark_generation.wav", SAMPLE_RATE, audio_array)

# 노트북에서 오디오 재생
Audio(audio_array, rate=SAMPLE_RATE)