Ministry of Science and Technology


Developing Artificial Intelligence and IOT Technology on Precision Sleep Medicine
結合人工智慧與物聯網科技發展精準睡眠醫學(分項一:發展居家睡眠呼吸中止篩檢模型)

2018/1/1 to 2018/12/31

本研究希冀透過聲音作為主要探討的因子,在過去研究的上,並無針對聲音來進行睡眠品質的分類。因此,本研究主要的對象為針對BMI為27以下非肥胖型的病患,透過PSG的檢測、低呼吸指數(Apnea-Hypopnea Index, AHI)、居家穿戴式裝置的檢測數據、問卷的填答結果,由醫生專家來判定的睡眠品質好壞,並給定睡眠受影響嚴重程度的分級。之後,進一步針對同一病患的治療前後,不同階段的聲紋特質進行聲紋辨識結果比對,輔以統計模型的客觀數據作為依據來顯示該病患於治療後,其聲紋特質的改變是否趨近未罹患OSA受測者的常模型態。本階段計畫目標為分析各項聲音訊號,提供聲音變化的演算法,透過深度學習演算法架構,來訓練OSA聲紋模型。在訊號分析分為兩個部分不同場域,一個是在醫院端進行OSA患者的PSG訊號收集,另一個則是在居家端進行OSA患者的聲音收集。透過不同場域所產生的聲音訊號進行分析;首先,透過聲音表現在母音清晰度的差異作為特徵參數擷取的依據,來進行睡眠品質受影響程度大小的辨識、分類,其次,可以透過有具象語意的詞語圖卡,請病患於睡前、睡後複誦朗讀,測量詞語辨認反應時間的差異是否影響認知。再則,是使用貼片式麥克風於病患喉嚨附近,透過一夜睡眠過程收集較為清晰的鼾聲音質,與PSG訊號和穿戴式裝置的心率變異度(HRV)進行比對,用於判斷其情緒的正向或負向影響。

NTU Medical Genie – AI Decision Support System for Precision Medicine (Subproject 4: AI Technologies for Precision Medicine)
臺大醫神–精準醫療人工智慧輔助決策系統《子計畫四:精準醫療人工智慧開發

2018/1/1 to 2018/12/31

在現今的資訊技術與資料訊息快速膨脹的時代,各種技術的創新與智能化都將為醫療人員提供更精準的醫學診斷與治療,並且著重在個人化的疾病預防、評估診斷、治療和康復照護計劃,是目前臨床上常見的重要議題與困境,然而,醫療人員急需現代化資料通訊技術的輔助,針對各式各樣的醫學資訊信息進行彙整與歸納。為了有效解決上述議題,加速個人化醫療與轉譯醫學的整合,本計畫將針對所有醫療資料進行整合,包含門急診和住院的診斷、用藥、處置、生化檢驗報告、醫學影像報告、基因、家族病史、個人生活型態以及公開的社會環境與健康關係等相關資料,以建構個人化的完整醫療資料,並運用大數據分析及機器深度學習等現代化技術,輔以當代實證醫學文獻及電子病歷探勘,建立個人化醫療計畫的精準醫療輔助決策系統,提供個人化的疾病預防、診治和康復照護醫療建議,並以臺大醫療體系臨床實務情境作為研究場域,研發決策建議人工智慧演算法模型,以完成精準醫療輔助決策系統的開發。

S3: A Universal Music Platform
S3: 全方位音樂娛樂學習平台

2017/12/1 to 2018/11/30

本計畫希望透過本實驗室在音樂分析與檢索二十年來深耕的技術能量,創造出全方位音樂娛樂學習平台所需之相關技術與基礎設施,為台灣經濟開闢以全球市場為訴求的活水源頭。全球的音樂市場產值龐大,在卡啦OK方面,Smule Sing在全球的下載量已經超過一億,專用於卡啦OK的無線藍芽麥克風在歐美也有1.32億美元的市場估值;在音樂教育上全球亦有45億美元的市場。在本計畫中,我們將以AI及機器學習為基底,開發相關產品所需的各項關鍵技術,包含主動噪音消除(可用於伺服器端和客戶端的裝置)、單聲道音源分離(可用於音訊音樂及語音)、人臉表情辨識、歌聲與伴奏同步、音高改變及人聲消除的硬體實現、歌聲美化等,這些關鍵技術可以使用於B2B的商業模式(這是評審委員強調的重點),可以用於各項商業服務與應用,例如視訊重製系統(能夠抽出使用者的語音來進行進一步的處理)、線上卡拉OK(可以支援歌唱評分、可以使用Youtube的音樂)、麥克風式卡拉OK(能夠對人生及音樂升降key、使用Youtube音樂)、音樂韻律遊戲(遊戲譜可以自動產生、可以使用 Youtube 的音樂)、電腦輔助音樂學習工具(具有自動譜、自動翻頁、自動評分等功能)、音樂檢索系統(使用哼唱、語音或原生音樂片段等)、語音增強(例如用於車輛內部的語音辨識)等。此外,我們也會花少部分資源於B2C的商業模式,利用精準歌聲評分與同步即時噪聲消除,開發手機卡啦OK軟體KaraSing,讓使用者有嶄新的體驗,實現病毒式行銷,並透過最新的遊戲內容自動生成與敲擊辨識的功能,實作一款新的音樂遊戲AutoRhythm,使用者能夠使用Youtube的音樂進行敲擊遊戲,經由對音樂的熟悉性達到對遊戲的黏著度。此外,我們可使用分軌錄製的音樂來開發音樂學習軟體,包含自動評分及樂譜對位等功能,達到寓教於樂的目標。硬體方面,我們將實現人聲去除等功能,以晶片實作在無線麥克風卡拉OK上,拉高與相似產品的差異。透過價創計畫支援,加上我們的技術、創業經驗、與版權業者的良好關係,相信我們能夠產出一家整合性的平台公司,為經濟做出具體貢獻。

Plant Image Recognition
植物影像辨識

2017/9/1 to 2018/8/31

本計畫目標研發出一套基於花與葉片之植物辨識系統,針對大自然中的植物,利用照相手機所拍攝的花朵影像及葉片影像進行辨識。主要目的在於協助生態保育專家更有效率查看植物品種以及定時查看與踏查各地的物種以瞭解生態平衡性,因此動、植物的品種辨識對此領域專家來說相當重要。本方法的流程圖如圖1.所示。首先我們會先定義植物物種,進行各物種的圖片搜集並建立資料庫,並在蒐集到的圖片上標記物種的特徵。接下來會同時進行傳統機械學習方法以及深度學習方法的研發。在傳統機械學習方法上,會先使用已存在的特徵抽取方法抽取物種上的重要特徵,再放到分類器做訓練。在深度學習的方法上,會使用卷積神經網路 (Convolutional Neural Network, CNN) 做特徵抽取及訓練,並同時比較兩種方法的結果和改進。

Big Speech Data Analytics
政府巨量資料分析工具與平台子:子計畫一. 巨量語音資料分析

2016/7/1 to 2017/6/30

本計畫之研發重點為「客服語音資料分析」(speech analytics at call centers),這是一個目前很熱門的研究課題,主要目標是經由客服中心的錄音,紀錄客服人員和顧客的對話過程,並經由此大量資料的分析,來提高客戶服務的效率,並增進客戶對此服務的滿意度。

Deep Learning for Music Information Retrieval
用於音樂資訊檢索的深度學習

2015/8/1 to 2018/7/31

隨著電腦計算能力的快速推進(歸功於 CPU 及 GPU 的共同運作)、記憶體的大量使用,以及機器學習的方法演進,深度學習的神經網路(deep-learning neural networks)已經被成功地用在大量影像及語音的辨識,其正確率已經大幅超越傳統的辨識方法,同時也掀起了一股新的研究及應用熱潮。本計畫將探討深度學習如何用於音樂資訊檢索的各項基本工作,主要包含複音音訊音樂的人聲主旋律抽取(vocal melody extraction from polyphonic audio music)、曲風分類(genre classification)、情緒分類(mood classification)、翻唱歌偵測(cover song identification)、音訊聲紋辨識(audio fingerprinting)、哼唱選歌(query by singing/humming)、節拍追蹤(beat tracking)等。往年我們參加 MIREX 比賽的這些相關評比,都得到很傑出的成績,但是若要再精進,似乎有一個玻璃天花板門檻,在這個計畫中,我們將使用各種不同的深度學習方式(包含各種神經網路的架構、學習法、GPU 的實現等),嘗試突破這個玻璃天花板門檻,第一年將以「複音音訊音樂的人聲主旋律抽取」為主;第二年的目標則是「曲風及情緒分類」;第三年的目標則是「音訊聲紋辨 識及翻唱歌偵測」。