Chunghwa Telecom


Speaker Verification Using Deep Learning
應用深度學習方法之語者驗證技術

2017/10/20 to 2018/10/19

本計畫目的為研發一種語者驗證的演算法,以深度學習技術精進其準確率,並開發出一個應用此演算法之雛型系統。語者辨認 (Speaker Recognition) 主要根據使用者聲音的特徵,辨別使用者的身分。在不同的應用層面上,分為語者辨別 (Speaker identification) 與語者驗證 (Speaker verification) 兩大類。當中的語者驗證技術的特點為防偽性、便利性及準確性。在防偽性方面,可透過隨機指定使用者需講出之字串,防止他人側錄竊取,提高語者驗證之安全機密性;在便利性方面,相較於傳統電話中比對客戶個人資料的驗證方式,語者驗證技術能降低客戶等待時間。而在準確性方面,由於深度學習技術的演進,語者驗證之準確度已大幅提升至線上服務可接受之範圍。因此,本計畫目的為研發一種語者驗證的演算法,將使用深度學習 (如: 深度神經網路 (Deep Neural Network,DNN)、遞歸神經網路(Recurrent Neural Network,RNN)、卷積神經網路(Convolution Neural Network,CNN) 等) 與機械學習等相關技術,開發出一個應用此演算法之雛型系統,預期此系統的語者驗證效能在合適的環境下能夠達到特異性(specificity)99.9%,而敏感性(sensitivity)能到達95%,進而能夠上線服務廣大的中華電信客戶。

Audio Fingerprinting & Audio Watermarking
音訊指紋檢索與浮水印嵌入技術

2015/4/1 to 2016/3/31

本計劃將以音訊特徵辨識技術,以及音訊浮水印嵌入技術,對現有影音服務之品質進行提升。在音訊特徵辨識技術方面,將透過索引雜湊技術的改良,並引進GPU等平行技術的支援,以快速地對大量媒體資料進行處理,以期達到系統資源運用的最佳化,以及降低用戶送出查詢後的等待時間。對於音訊浮水印嵌入技術,則可在人耳無法察覺的條件下,將訊息隱藏於音訊中,該訊息可用於音訊之相關資訊、廣告傳播,增加原音訊之附加價值,另也可用於數位資料著作權之管理。