OpenAI Whisper 새로운 버전 large-v3


OpenAI의 Whisper가 새로운 버전인 large-v3로 업데이트되었습니다. 이번 업데이트에서 주목할 점은 다음과 같습니다:

  1. 입력 오디오 처리: 새로운 모델은 128개의 Mel 주파수 빈을 사용하여 오디오를 처리합니다. 이는 이전 모델의 80개에 비해 증가한 수치입니다.
  2. 언어 지원 추가: Cantonese(광둥어) 언어 토큰이 새롭게 추가되었습니다.
  3. 학습 데이터: large-v3 모델은 large-v2를 사용해 수집한 1백만 시간의 약하게 레이블링된 오디오와 4백만 시간의 의사 레이블링된 오디오로 학습되었습니다.
  4. 성능 향상: large-v3는 다양한 언어에 대한 성능이 향상되었으며, 특히 오류율이 60% 미만인 모든 언어에서 large-v2에 비해 오류율이 10%에서 20% 감소한 것으로 나타났습니다.
  5. 캐릭터 오류율 사용: 일부 언어(한국어, 중국어, 일본어, 태국어, 라오스어, 미얀마어)는 문자 기반 오류율(CER)을 사용하여 평가했습니다.
  6. 사용 방법: large-v3 모델은 openai-whisper==20231106 버전 이후로 사용 가능하며, pip install -U openai-whisper 명령어를 통해 패키지를 업데이트한 후 "large-v3" 이름으로 모델을 로드할 수 있습니다

https://github.com/openai/whisper/discussions/1762