동시 말해도 각각 알아 들어…마인즈랩 AI 음성인식 기술 개발

국내 인공지능 전문업체 마인즈랩(대표 유태준)이 세계 처음으로 여러 명이 동시에 말해도 각각 음성을 분리·필터(Voice Filter)하는 기술을 개발했다. 

이 기술은 구글이 관련 내용을 논문으로 공개했으나, 기술 구현이 매우 까다롭다. 실제로 구글 인공지능 스피커는 6명까지 인식할 수 있지만, 여러 명이 동시에 말하면 구별하지 못한다,

마인즈랩은 세계 처음으로 음성을 분리·필터 기술을 구현하는 데 성공하고 깃허브에 오픈소스로 공개했다. 이 딥러닝 기술은 현존하는 가장 우수한 기술로 평가받는다. 

▲두 명의 사람이 동시에 말하는 음성을 가각 음성을 분리하는 모습. [마인즈랩 제공]

구글은 지난해 10월 관련 논문을 통해 이 기술을 공개했지만, 실제 구현하지 못한 것으로 알려졌다. 이후 최근 해당 구글 논문이 업데이트되면서 마인즈랩의 성과가 구체적으로 언급됐다. 

이 기술을 활용할 경우 회의록 자동 작성·전사, 스마트 오피스 환경 구축 등 고도화된 음성인식 기술이 필요한 분야에서 다양하게 상용화될 수 있다. 

마인즈랩은 이번에 구현된 기술을 토대로 가장 높은 기술 수요가 있는 AI 회의록 서비스와 AI 하이브리드 고객센터 서비스를 구체화하고 강화할 계획이다. 또한 기술적 한계로 지금까지는 시도하지 못했던 다양한 형태의 음성인식 솔루션 개발도 가능할 것으로 기대고 있다. 

▲깃허브 mindslab-ai 페이지 화면 캡처

마인즈랩의 브레인팀을 이끄는 최홍섭 상무는 “음성 분리 및 필터 기술을 세계 최초로 구현하고 3명 이상의 화자까지 분리하는 데 성공했다”며, “현재 공공과 민간 분야 모두에서 회의록 자동 작성에 대한 기술 수요가 높은 상황이라 고도화된 음성인식 서비스를 구현할 수 있는 획기적인 연구·개발(R&D) 성과다”고 말했다.

마인즈랩은 AI 서비스 플랫폼 마음AI(maum.ai)를 기반으로 AI 핵심 알고리즘부터 AI 엔진, AI 서비스까지 통합 제공하고 있는 AI 전문 기업이다.

AI 강국인 캐나다의 3대 인공지능 연구기관인 에이미(Amii·Alberta Machine Intelligence Institute)의 글로벌 첫 회원사로 인공지능 알고리즘에 대한 세계적인 수준의 연구를 적극적으로 진행하고 있다. 

이제은 기자 lsy@