실시간으로 음성-텍스트 변환 기능을 제공해 오디오 및 비디오에 대한 접근성 향상
실시간 소통 응용프로그램 인터페이스(API)의 선구자이자 선도적인 플랫폼인 아고라(Agora, Inc.)에서 라이브 트랜스크립션 솔루션을 출시했다고 발표했다. 이 솔루션은 개발자에게 가장 빠르고 정확하며 경제적인 자동 음성-텍스트 변환과 모든 앱이나 서비스에 쉽게 통합할 수 있는 자막 기능을 제공한다. 한국어, 인도네시아어, 일본어를 포함한 14개의 다른 언어를 지원한다.
기존 트랜스크립션 서비스는 시끄러운 환경에서 음성을 텍스트로 변환할 때 부정확하거나 억양이 심하고 음성이 겹치는 여러 사람 간의 실시간 대화를 정확하게 텍스트로 변환할 수 없는 문제가 있다. 아고라의 라이브 트랜스크립션 솔루션은 이러한 문제를 해결하고자 하는 고객의 요구를 충족하는 동시에 다른 음성-텍스트 변환 공급업체보다 더 정확하고 경제적이다. 주요 기능은 다음과 같다.
· 실시간 자막: 실시간 음성 및 영상 서비스에 자막을 포함함으로써 청중범위를 확장하고 사용자 경험을 개선한다.
· 화자 라벨링: 누가 무엇을 말했는지 쉽게 구분하고 정확한 화자 정보를 확인할 수 있다.
· 검색 가능한 자막: 모든 녹취록에서 단어, 문구, 주제를 검색하고 텍스트를 챗GPT 또는 기타 생성형 AI 솔루션으로 입력할 수 있다.
· 녹취 자막: 오디오 또는 비디오 텐츠를 자막과 함께 재생한다.
· 채널 기반 요금제: 채널에서 여러 명의 호스트가 있을 때 사용자나 화자 수가 아닌 채널 기반으로 요금을 지불하면서 모든 참가자에게 실시간 자막을 전달할 수 있다. 구체적인 내용은 요금제 페이지를 참고하면 된다.
아고라의 최고경영자(CEO)이자 공동 창업자인 토니 자오(Tony Zhao) 대표는 “새로운 라이브 트랜스크립션 솔루션으로 개발자와 브랜드는 즉각적인 음성-텍스트 변환 기능을 제공해 사용자의 접근성과 검색 가능성을 높일 수 있다”며 “이 강력한 클라우드 기반 기술은 모든 앱 또는 서비스와 원활하게 통합되도록 설계됐다”고 발표했다.
자막기능은 모든 오디오 또는 비디오 콘텐츠에 대한 접근성을 높여주지만 아고라 솔루션은 이러한 접근성을 실시간 음성과 영상으로 확장한다. 이 솔루션은 실시간 회의, 컨퍼런스, 이벤트, 방송 또는 비디오 스트림에 실시간 자막을 제공하는 동시에 콘텐츠 검수와 같은 확장기능도 지원한다. 또한 일대일 영상 통화에서 다대다 스트리밍까지 확장할 수 있으며, 오디오 채팅 그룹에서 최대 100명까지 음성-텍스트 변환을 지원할 수 있다. 라이브 트랜스크립션은 청각 장애가 있거나 음성 언어를 이해하는 데 어려움을 겪는 사람들의 접근성을 높일 뿐만 아니라 오디오 및 비디오 콘텐츠를 재생하지 않고 검색을 가능하게 한다.
라이브 트랜스크립션은 다양한 산업 분야에 적용해 사용자 경험을 개선하고 더 많은 청중에게 다가갈 수 있다. 대학에서는 학생들에게 실시간 자막을 제공하고, 온라인 강의노트를 자동으로 기록할 수 있다. 리테일 브랜드는 더 많은 고객에게 도달하고 라이브 쇼핑에서 검색 가능성을 개선할 수 있다. 콜센터는 고객과의 대화에서 중요한 정보를 빠르게 추출할 수 있다. 그리고 기업은 회의에서 실시간으로 자동화된 회의록을 제공해 원격 근무 환경에서도 모든 사람이 서로 협력할 수 있도록 할 수 있다.
토니 자오 대표는 “오디오나 비디오를 통해 청중이나 고객에게 다가가는 모든 업계는 라이브 트랜스크립션 기술의 이점을 누릴 수 있다. 아고라 솔루션이 전 세계 청중과의 소통을 더욱 향상시킬 것으로 기대한다”고 말했다.
아고라의 라이브 트랜스크립션 솔루션은 올해 4월 13일 기술 세미나를 통해 공개된 후 현재 오픈 베타 버전으로 제공 중이며, 2023년 3분기에 정식 출시될 예정이다. 라이브 트랜스크립션에 대한 자세한 내용은 아고라 홈페이지에서 확인할 수 있습니다. 아고라에 대한 자세한 정보는 한국지사 홈페이지를 참조하면 된다.
<저작권자 ⓒ 더뉴스프라임, 무단 전재 및 재배포 금지>
박현아 기자 다른기사보기