
售前電話
135-3656-7657
售前電話 : 135-3656-7657
國家高新技術企業 省級專精特新企業
咨詢熱線:135-3656-7657 400-6333-661
隨著計算機運算速度越來越快,人工智能領域的研究獲得了飛速發展,而人工智能領域的最新研究成果向語音研究中的大量滲透,促使語音處理技術及語音合成的研究產生了一個突破性的飛躍。語音合成系統也越來越產品化,并具有巨大的市場前景。
合成語音是通過一個聲學模塊來具體實現的。早期的語音合成技術的研究,往往集中在語音合成算法本身,其研究的方法和手段與語音編碼有很多相似之處。其聲學模型的構筑,,也多通過模擬人的口腔的聲道特性來產生。其中比較著名的有Klatt的共振峰(Formant)合成系統,后來又產生了基于LPC、LSP和LMA等聲學參數的合成系統。這些方法用來建立聲學模型的過程為:首先錄制聲音,這些聲音涵蓋了人發音過程中所有可能出現的讀音;提取出這些聲音的聲學參數,并整合成一個完整的音庫。在發音過程中,首先根據需要發的音,從音庫中選擇合適的聲學參數,然后根據韻律模型中得到的韻律參數,通過合成算法產生語音。
進入20世紀90年代以來,波形拼接(PSOLA)的算法,越來越被廣泛地應用在語音合成系統中。國內外的許多跨國公司和研究機構均投入了大量的人力和物力從事語音技術的開發,如L&H、IBM、Microsoft、Lucent、Motorola等。清華大學計算機系在漢語語音合成的研究和開發中,也突破性地運用了人工神經網絡、決策樹、隱馬爾可夫模型等方法。這些方法的運用,徹底改變了漢語語音合成研究的研究重點,使漢語語音合成的研究突破了早期重點對單純算法的研究,而變成一個系統工程的研究。目前我國語音合成的整體研究和開發,邁上了一個全新的臺階,并處在了國際最先進的行列。
一、 SinoSonic語音合成系統
SinoSonic是清華大學計算機科學與技術系和北京炎黃新星網絡科技有限公司共同推出的漢語語音合成系統。
它采用目前世界最先進的數據驅動技術,利用精心設計的語音語料庫對TTS系統進行訓練,所得到的系統體現了連續、自然的語言特性,從而使系統發音自然、親切。整個系統的核心技術包括:基于神經網絡的韻律模型、基于HMM的語音切分和選取模型、基于HMM的多語種文本分析和語義分析、漢語語料庫設計和標注、語音分析工具的研制等。
該系統的構成分為:用戶編程接口以及TTS內核兩大部分,如圖1所示。其中,內核部分又可以按照系統運作的不同過程分為多個子模塊,包含了訓練模塊、文本分析模塊、韻律生成模塊、語音合成模塊以及與語料庫之間的通信協議等。同時,SinoSonic還考慮了不同類型用戶對TTS系統功能的需要,提供了豐富的編程接口。
該系統的工作過程如下:
用戶提供文本并調用TTS系統接口,文本首先被送入系統的文本分析模塊,文本分析模塊首先對用戶輸入的文本進行規格化處理,然后運用統計模型算法對其進行分詞、分短語、確定發音、分析標點符號或特殊符號等處理,同時,還要確定文本發音的輕重模式。經過文本分析后得到的參數,被送入到系統的韻律生成模塊。在韻律模型中,首先通過統計模型的方法得到韻律中音節的音長和音強參數,然后通過優化的神經網絡模型來確定音節的基頻曲線,并得到音節停頓模式等信息。將這些信息和參數傳送到系統的聲學模塊,系統的聲學模塊再根據這些參數,從音庫中選擇合適的語音單元,并采用PSOLA的方法生成最終的合成語音。
在整個系統工作的過程中,用戶可以隨時通過系統提供的接口,獲得系統的內部狀態,進行合成參數設置、隨時中斷或暫停系統等工作。
SinoSonic系統功能和指標有:可讀字、詞、句子、文章及標點、數字、運算符和英文字母,語音庫覆蓋國標一、二級所有漢字;能輸出男聲或女聲;提供豐富的、合理的編程接口,方便用戶進行二次開發; 語音輸出以句子為單位,按詞匯停頓,能自動決定多音字的正確讀音;可隨時改變聲音的幅度(Volume)、基頻(Pitch)、速度(Duration)、詞間或句間停頓;讀出時,可隨時“暫停”、“恢復”、“終止”語音。
二、語音合成系統性能指標
語音合成系統的基本性能指標包括:可懂度、清晰度、自然度、漢字轉拼音正確率(分詞正確率)。 考慮到實際應用,還有系統的數字、姓氏、特殊符號等方面的處理能力、跨平臺處理能力以及語音合成的速度(指單位時間內,通過語音合成系統生成語音的音節數,或語音合成同時支持的并發請求個數)等。
SinoSonic除了滿足一般意義上的特性外,還有許多獨有的性能,如:
(1) 即時性: TTS技術實時完成文本到語音的轉換,它實現信息的即時傳送。
(2) 并發性: TTS技術與電信網絡結合,同時處理多個呼叫請求,它實現信息的并發傳送。
(3) 適應性: TTS系統能在不同操作系統平臺下運行,支持Windows 9x、Windows 2000、Linux和Unix。
(4) 可靠性: 經過長時間測試,SinoSonic系統性能穩定可靠。
(5)靈活性:根據用戶特定需求,SinoSonic系統的輸入、輸出特性和用戶接口極易修改。
(6) 拓展性: 隨著應用領域不斷擴展,用戶需求不斷提高,阿吖、SinoSonic也可不斷更新拓展。
三、語音合成系統的API 設計
語音合成系統的API,可以考慮不同層次的開發需要。目前國際上較為流行的方法是面向用戶應提供不同層次的用戶接口,即High-Level API或Low-Level API。API分層設計的核心思想,是提供語音合成系統以不同層次的開發需要。 High-Level Speech API的目的是使用戶不需要進行太多的學習,便能夠迅速、簡便地使用語音合成系統的大部分功能。API簡潔、明了、功能全面,且在不同的應用平臺保持一致性,適用于一般意義上的語音合成系統應用再開發。其提供的基本功能應包括:
(1) 系統初始化;
(2) 系統卸載;
(3) 直接將文字轉換為語音,并用聲卡或其他聲音播放卡將聲音播放出;
(4) 提供播放、暫停和停止等基本播放功能;
(5) 修改語速、基頻和能量的功能;
(6) 韻律控制符的分析和應用;
(7) 可視化功能接口。
Low-Level Speech API的目的是使用戶能夠進行全面、深入的底層開發,其API接口復雜,功能小而細、復雜、規模大,可按不同功能集進行分類,且系統的幾個不同的組成模塊(如文本分析、韻律、聲學處理)均可以提供單獨的接口,能全面滿足語音合成系統現在和將來應用開發的需要。其提供的基本功能應包括:
(1) 系統各個子模塊的初始化;
(2) 系統各個子模塊的卸載;
(3) 文字分詞、轉拼音或詞性標注功能;
(4) 用戶詞典維護接口;
(5) 合成語音特色(包括男、女聲等);
(6) 韻律控制符的分析和應用;
(7) 語速、基頻和能量的控制功能;
(8) 聲音播放卡的控制功能;
(9) 語音合成的流控制功能、內存管理功能及消息管理功能;
(10) 用戶自定義文本分析、韻律及合成算法引擎的接口(合成平臺開放性);
(11) 不同應用平臺的特殊接口;
12) 不同語言的特殊接口;
13) 可視化接口;
14) 聲音同步接口;
15) 出錯信息解釋接口。
詳細基本功能集的定義可根據各單位自己的系統的情況而定,也可以制定統一的標準。接口的設計,還應考慮語音合成產品除了在提供自身發音性能的同時,正向著網絡化、多語種、多合成引擎的方向發展。同時,接口還應該可慮方便用戶自定義發音風格、系統可訓練的實際應用需要。
四、新華音霸
新華音霸是清華大學、炎黃新星和新華世紀聯合推出的PC屏幕閱讀軟件。它可以朗讀計算機屏幕中任意出現的文字,增加了人機交互的友好性,同時它還采用了清華大學最新研制的虛擬頭像技術,配合聲音進行同步播放,極大地提高了軟件的趣味性。
五、語音網關
運用語音合成技術,而構筑的語音網關,在很大程度上改變了傳統IVR運作模式,為電信網統一消息平臺、呼叫中心(Call Center)注入了全新的活力。它可以為用戶實時提供,諸如E-mail、新聞、信息查詢等信息,并為用戶用清晰自然的語音朗讀出來。目前,清華大學和炎黃新星共同推出的語音網關技術,在國內具有相當的優勢,并在移動夢網、168平臺改造等重大項目中,得到了非常成功的應用。
六、總 結
目前就語音合成系統的系統構架來說,它正朝著多語種、網絡化和分布式運算的方向發展,其關鍵的技術牽涉的領域也越來越多。目前,國際上許多大的公司和科研機構,如Motorola、Lucent、IBM等均參與了一種新的XML的一個擴展子集VoiceXML的制定。VoiceXML的出現,將會極大地改變人機交互的通信模式。在分布式運算結構中,將會要求系統的設計更為模塊化,并且對模塊之間的并行和協調工作提出了更高的要求。現有的語音合成系統研究水平,從一定程度上使系統走向了產品化,其音質和發音效果也被普通人所接受。然而,從另一個角度來說,人的發音各有特色,發音的習慣也不盡相同。能完全像真人一樣體現人的說話語氣、概念,能體現不同的情感,并能模擬不同人發音特色的語音合成系統的出現,還需要我們投入更大的精力去開拓。下一代的語音合成系統將不再稱為“文字到語音轉換系統”,而是會被稱做“概念到語音轉換系統(CTS系統)”。