作者wujet09100 (噁爛臭酸肥宅)
標題[心得] 螢幕閱讀器語音庫
時間2023-05-20 11:36:06
看了中國点名公司64位元語音庫開發歷程的心得
心得:
1. 可能這是做面相盲人的APP的公司吧,完全知道語音庫對盲人的重要性,
上次appstore銷售的app描述與現實不符的事件,就讓我覺得蘋果(中文部分)完全不了解;也不想了解語音庫對盲人的重要性。
2. 我對語音庫的期望從來就不是;未來也不會是所謂的情感,我希望的是平鋪直敘;不帶風向。
3. android在TTS這塊有個優勢。
android TTS的街口是開放的,所以如果不滿意google或手機廠提供的還可能可以用其他公司的產品。
IOS是不開放的,所以蘋果不給的你也無法要,
向這個
https://www.applevis.com/forum/ios-ipados/toms-voice-quality-ios-16
你的選擇也只有蘋果給的vocalizer, eloquence與siri(除了voiceover以外的APP無法調用)
所以有問題就等蘋果修吧,反正也沒其他選擇。
4. 當然如果是常用英文的人蘋果在這塊還是有優勢,
因為蘋果在IOS16引入了eloquence語音了,在這之前android是佔優勢的,
因為在當時只有android有辦法使用eloquence語音;蘋果無法,
但以目前來看,到android14後這塊就變成蘋果占優勢了,
因為eloquence語音的APK是32位元的。
5. 我android語音喜歡用科大讯飞的,
但讯飞语记有段時間前就不知道為什麼從play商店上不見了,不知道是不是因為32位元的關係,
如果是的話android14後使用科大讯飞可能會有變數。
不過google TTS也有極大的進步了,所以這點好像還好。
中國点名公司64位元語音庫開發歷程
「64
位元語音庫的主要問題在哪兒呢?其實就是朗讀效果和跟手速度。就朗讀效果而言,語音技術發展到今天,廠商們一直在追求的是更加自然、流暢的語音效果。然而,這種效果與讀屏所迫切需要的效果卻有所不同。語音庫追求的效果是自然,逼真,接近真人,而讀屏軟體所追求的效果首當其衝是流暢,自然度方面,平鋪直敘就好,最重要的原因是在加快朗讀速度以後能夠不損失發音品質。我們拿到的第一個版本,當調整到一個比較慢的發音速度時,朗讀效果確實比之前的語音庫要更接近真人一些,可當速度被加快以後,聲音就沒法聽了。抖動、丟字、爆音、停頓不正常、發
音奇怪等問題層出不窮,實在是不能用。
再說跟手速度,就更是一個要命的問題。如果說語音廠商在效果追求方面多多少少還和我們有一些共同點,而在跟手速度方面,就完全只有靠我們自己。因為語音庫在發展過程中,可以說,幾乎從來沒有追求過跟手速度這個東西。為什麼呢?因為這東西除了讀屏軟體以外,其他領域幾乎沒有需求。所謂跟手速度,就是指我們從螢幕上觸摸訪問一段文本,語音庫要以極快的速度為我們做出回應,這樣才能確保我們操作的流暢性。可是在其他領域呢?導航、虛擬主播、或者一些帶語音功能的軟硬體,比如電梯、櫃檯軟體設備,他幾乎不需要追求極致的回應速度,甚至延遲個一秒
左右也不是什麼不能接受的事兒。這樣,它只需要追求自然度就好,發音如果接近真人,那就再好不過了。而為了達到更加逼真的朗讀效果,語音需要更長的時間對文本進行處理,這就損失了我們讀屏軟體所必須的跟手速度。從這點來說,在技術發展的過程中,語音庫的自然度提升,和我們所需要的回應速度完全就是背道而馳的。
就是這樣的局面,開始的時候我們也是一籌莫展。頭腦風暴組在體驗完前幾個版本後將結果陸續回饋到開發那邊,工程師鼓搗了一段時間,發現實在難搞,開始撓頭了。說算了吧,不然就簡單集成一個 64 位元語音庫先上傳到應用商店,用戶實在不習慣,我們在提供個老 32 位元的語音庫TTS安裝包,可以讓使用者換回原來的語音庫。開會的時候討論,老闆說不行,你這不是長久之計,還得想辦法。然後我們的工程師就像閉關修煉一樣,開始去研究了,長久沒消息,我們都開玩笑說他是不是搞不出來,準備辭職跑路了。
時間就這樣來到了八九月份,慢慢開始出版本了,體驗下來還是不行。回應速度上來了,聲音變了,在什麼手機上聽起來都扁扁的,速度快了字頭字尾都一片模糊,累耳朵。這段時間,我們換了好幾種開發方案,不知道多少次把原來做的推翻了重來,但不行還是不行,想想,乾脆找訊飛做個定制好了,結果人訊飛根本不知道我們說的聲音太扁了、小燕的聲音像是感冒了是啥意思,拉了個群討論,起初每次開會都跟在說玄學一樣,人家gat不到我們的點,也不理解為什麼我們對回應速度有那麼高的要求。
好在經過一段時間磨合以後,溝通終於慢慢變的有效了,訊飛方面還是理解了我們的訴求。開始站在視障者操作讀屏軟體的角度改善語音庫的速度,理解了讀屏軟體的操作邏輯,為什麼視障者對速度如此敏感等問題。又進一步,從頻率、響度等方面改善語音庫發音不清晰的問題,才讓我們得到了一個清晰的語音庫。
這個過程非常艱難,因為據訊飛的工程師說,之前的語音庫並不是他們做的,現在要真正理解這些問題其實很難,但因為長期的溝通,也終於讓他們徹底理解了視障者的使用場景,甚至改變了他們的一些偏見和認知誤區。例如,最初在他們看來語音最重要的是朗讀清楚,速度加快以後的朗讀效果並不在考慮範圍之內。但溝通以後他們能夠理解,視障者對朗讀速度的需求是很多明眼人難以想像的,因為在視障者的使用場景中,我們所使用的語速往往是他們根本難以聽清的。但要他們完全將語音庫做成之前的樣子,那還是不現實的,不過能做多少算多少吧,讓他們解決一部分,
剩下的我們慢慢啃,這才一點一點讓語音庫聽上去明顯好了起來。直到我們對外正式拿出版本,音色和音質上幾乎已經和以前的一樣了,而回應速度方面相對於舊版本還有了相當不錯的提升。
這裡面還有個插曲,訊飛提供的新版語音庫當中有幾個角色,除了普通話外,還有英文和四川話、東北話等地方口音的,其實挺好玩兒的。但聽來聽去,音質實在太差了,而且還多佔用了近 10
MB的存儲,我們響了想,又給拿掉了。都搞到這個程度了,能保證我們原有的發音角色一個不少,並且發音品質不受影響,那還是見好就收吧。不過還是希望以後能優化出更多的高品質發音角色,從而滿足我們對好語音庫的期盼。雖然現在來看的確不行,但誰說朗讀效果和回應速度就永遠都會像現在這樣不能共存呢?說不定哪一天,無論怎樣調整發音速度,也能無限接近真人呢?科技這東西最擅長的,本身就是把不可能變為可能,就像十年前我們始終無法想像,有一天,AI語音會聽起來如此自然一樣,大家一起期待吧。」
--
※ 發信站: 批踢踢實業坊(pttsite.org.tw), 來自: 42.77.34.21 (臺灣)
※ 文章網址: https://pttsite.org.tw/MobileComm/M.1684553769.A.A41
推 Porops: 推你的一系列心得 05/20 11:42
推 fifybl: 樓上的這個我也有用 但匯入比較麻煩 推薦靜讀天下和Edge 05/20 20:38
→ fifybl: 使用上比較方便 05/20 20:38