? 點上方↑“旗魚軟件”走進"互聯網+“軟件全局解決方案.軟件定制,就上“+飛魚”!

 

假如有一天,你發現機器人發出的聲音和你的一模一樣,你是感到驚慌,還是該感到歡喜?這并不是危言聳聽,這是AI技術中的語音合成技術在搗鬼。在這個合成圖片肆意蔓延、虛假新聞充斥各大媒體的時代,一個可以讓任何人說任何話的程序,似乎是引發更多麻煩的催化劑,但是人們對其的研究仍然樂此不疲。本期訊貓軟件將帶您在AI語音合成技術的浪潮里翻滾。

 

 

什么是語音合成?

 

 

語音合成一般會經過文本與韻律分析、聲學處理與聲音合成三個步驟,分別依賴于文本與韻律分析模型、聲學模型與聲碼器。其中文本與韻律分析模型一般被稱為“前端”,聲學模型和聲碼器被稱為“后端”。

 

文本與韻律分析中,首先對文本進行分詞和標注:分詞會將文本切成一個個詞語,標注則會注明每個字的發音以及哪里是重音、哪里需要停頓等韻律信息;然后根據分詞和標注的結果提取文本的特征,將文本變成一個個文本特征向量組成的序列。

 

聲學模型建立了從文本特征向量到聲學特征向量的映射:一個個文本特征向量經過聲學模型的處理,會變成一個個聲學特征向量。聲碼器則會將一個個聲學特征向量通過反變換分別得到相應的聲音波形,然后依次進行拼接就得到了整個文本的合成語音。

 

聲學特征反映了聲音信號的一些“關鍵信息”,反變換則可看作用關鍵信息還原全量信息。所以在反變換的過程中可以有人為“操作”的空間(如參數的調整),從而改變合成語音的語調、語速等。

 

反變換的過程還可以讓合成的語音具備特定的音色。錄制某個人少量的語音片段,在合成時即可據此調整參數,讓合成的語音擁有這個人的音色。老司機們最愛的“林志玲導航語音包”就是這么來的。

 

 

語音合成的處理過程是怎樣的?

 

 

1

智能客服機器人

 

 

 

隨著人力成本的增加,客服中心逐漸從企業的價值中心轉變成了成本中心。同時,如何保持客戶人員的服務質量統一,也是企業面臨的一大難題。智能客服機器人通過自動識別客戶語音及語義,自動回復客戶問題,通過語音合成將回復以語音形式呈現,讓人機交互閉環。

 

2

電子有聲讀物

 

 

 

有聲讀物的出現讓人們可以在開車、走路等不方便閱讀的時刻也能享受學習的快樂。人工合成有聲讀物,耗時費力,且準確率難以保證。語音合成讓有聲讀物的生成變得更簡單,情感合成技術讓聲音更自然動聽,自定義發音人支持個性化音色,滿足業務多方位合成需求。

 

3

智慧教育

 

 

 

配合智慧教育系統,語音合成可以實現中英文音素、單詞、詞組、課文的標準朗讀及帶讀。除公共基礎教育課堂應用外,還可以在課外教育培訓機構及教輔軟件中廣泛應用。中文除普通話外,還可以針對少數民族語言維語、藏語等進行針對性的合成,保留民族特色,促進民族文化傳承。

這項技術在不久的將來還會帶來一系列更加精彩的應用,例如:私人助手,用于讀取著名的音頻書籍;各類可聯網的語音合成設備,為視覺障礙的殘疾人合成語音,另外,它還可以服務于電影動畫或者游戲工作室。

 

未來,語音合成技術的發展方向就應該是讓聲音達到真人說話的水準,并逐漸加入音色、情感方面的合成,使之更具特色,更加個性化。甭說是林志玲,周杰倫、林俊杰、鄧紫棋等眾多明星的演唱會或許都會被語音合成技術所取代,他們完全可以不用自己的聲音去歌唱,只要口型對上,人在演唱會的現場,你也不會看出任何的破綻,這就是語音合成的神奇之處。

 

 

和語音識別不同,對語音合成質量的評價標準相對主觀。對于一段合成語音,一些人耳中的“發音錯誤”對其他人來說可能只是“發音不準”;同時,什么樣的聲音像人聲,像到什么程度,都很難通過幾個像“準確率”這樣的簡單指標來進行評價。

 

伴隨著旗魚軟件的智能人機交互領域迅猛發展,旗魚軟件技術團隊正在積極地開發AI各項前沿技術,隨之而來應用的領域也在不斷增多:包含有直播APP,社交APP,電商APP客服系統,辦公OA系統,小程序開發,物聯網應用開發等。如果您想在語音交互這一領域有大的發展,不妨來旗魚軟件,后期我們會搭建好語音合成的云服務以更好的服務各大集團、企業的業務。聽起來是不是很高大上,有木有很驚喜,那還等什么?旗魚軟件就等著您來約咯!

 

 

 

 

旗魚軟件下一期主題是自然語言處理,關于自然語言處理你想了解哪些內容?想聽的什么?可以留言告訴旗魚冰冰喲!