為何Siri得從測試版開始
近些天來抨擊Siri似乎已成了潮流。Mat Honan以“Apple’s broken promise”一文極盡嘲諷,CNN報道了Siri所謂的反墮胎偏見,John Gruber評論說蘋果的旗艦極新產品“在小處如此粗糙”,實在是不可思議,但他也同時指出:被廣泛使用以后,語音識別更容易提高。
這不僅是更容易,而且是只能這樣!
我在IBM Research的語音識別項目里工作了近六年。我們參加了由DARPA(美國國防部高級研究計劃局)贊助的研究項目、實地測試、以及各種應用的實際產品開發:聽寫、呼叫中心、汽車、甚至是聽障人員的課堂助理。盡管具體項目不一,但基本的東西從來不變:給我們更多的數據!(數據在這里指語音錄音)一些研究員還認為最近語音識別準確性的提高要歸功于更多的更好的數據,而不是更好的算法。
記錄下來的語音錄音被用來訓練聲學模型(聲音波形和音位如何關聯)、發音詞匯(在說單詞,特別是人名和地名時,人們是如何發音錯誤的)、語言模型(口語短語很少符和英語語法)、以及自然語言處理器。每個支持的語言都要這樣做!更多的訓練數據意味著識別器能處理更多在語音、口音、語言風格等方面的變化。
把Siri看作是某種人工智能,要是訓練有素,她就可能回答出各種各樣的問題——這很誘人。而現實情況是,她是一個非常復雜的各種子系統的混合體,其中有許多還需要手工操作。要改進Siri,工程師就得不辭辛勞地查看她所有不明白的請求(所有語言!),再制定新的規則來處理它們。像目前類似“墮胎診所”這樣漏洞可能還有很多很多,而這些都會慢慢被修補。當蘋果說“我們找到可改進的地方后,就會來接下來的幾星期……”,他們已經明白地描述了這個過程是如何操作的。
重要的是要明白,在公開發布前,Siri無法像蘋果的硬件和應用設計那樣,在實驗室里進行各種微調和全面測試,她必須要以現在的形態推向市場,盡可能接觸到從音質到自然語言的解讀的盡可能多的變化。蘋果工程師已預測到了不少搞笑的問題,而可憐的Siri還得接著忍受那些沒被預測到的。
假如真如傳言那樣,Apple TV會用上語音操控功能,那么Siri很快會有其它挑戰。比如,遠處的語音識別比起近距離地使用麥克風要困難許多。
出自:36氪
【編輯推薦】





















