OpenAI의 Whisper가 새로운 버전인 large-v3
로 업데이트되었습니다. 이번 업데이트에서 주목할 점은 다음과 같습니다:
- 입력 오디오 처리: 새로운 모델은 128개의 Mel 주파수 빈을 사용하여 오디오를 처리합니다. 이는 이전 모델의 80개에 비해 증가한 수치입니다.
- 언어 지원 추가: Cantonese(광둥어) 언어 토큰이 새롭게 추가되었습니다.
- 학습 데이터:
large-v3
모델은large-v2
를 사용해 수집한 1백만 시간의 약하게 레이블링된 오디오와 4백만 시간의 의사 레이블링된 오디오로 학습되었습니다. - 성능 향상:
large-v3
는 다양한 언어에 대한 성능이 향상되었으며, 특히 오류율이 60% 미만인 모든 언어에서 large-v2에 비해 오류율이 10%에서 20% 감소한 것으로 나타났습니다. - 캐릭터 오류율 사용: 일부 언어(한국어, 중국어, 일본어, 태국어, 라오스어, 미얀마어)는 문자 기반 오류율(CER)을 사용하여 평가했습니다.
- 사용 방법:
large-v3
모델은openai-whisper==20231106
버전 이후로 사용 가능하며,pip install -U openai-whisper
명령어를 통해 패키지를 업데이트한 후"large-v3"
이름으로 모델을 로드할 수 있습니다