您的當(dāng)前位置:首頁 > 常見問題
語音助手大戰(zhàn)時(shí)代:蘋果Siri為何這么“笨”?
語音助手已經(jīng)變得無處不在,它就在你的口袋中、家中以及汽車中。你可以使用蘋果公司的Siri設(shè)定約會提醒,命令亞馬遜公司的Alexa為你播放歌曲,或者向谷歌助理詢問當(dāng)?shù)氐奶鞖忸A(yù)報(bào)。總之,人們與這些非人類助手的互動已經(jīng)變得很正常。
Siri在2011年登陸iPhone,但是它的底層技術(shù)實(shí)際上要比你可能想象的陳舊。和對手的產(chǎn)品相比,蘋果的Siri“有些笨”。
語音助手發(fā)展史
80年前,首個能夠處理合成語音的機(jī)器由貝爾實(shí)驗(yàn)室在1939年開發(fā)而成。1952年,貝爾實(shí)驗(yàn)室發(fā)明了一款能夠聽懂從0到9語音數(shù)字的機(jī)器。兩年后的1954年,一臺與喬治城語言學(xué)家合作的IBM機(jī)器能夠把60句俄語話翻譯成英語。
1962年,IBM開發(fā)的Shoebox設(shè)備能夠聽懂16個單詞。到了1976年,卡內(nèi)基梅隆大學(xué)將機(jī)器能夠聽懂的單詞數(shù)量增加到了1000個以上。上世紀(jì)80年代中期,機(jī)器已經(jīng)能夠聽懂?dāng)?shù)萬個單詞。
自那之后,科學(xué)家開始在語音處理技術(shù)中融入人工智能(AI)。AI自上世紀(jì)50年代以來就已經(jīng)出現(xiàn)。
在這些技術(shù)的積累下,我們現(xiàn)在才擁有了能夠聽懂我們講話的Siri、Alexa、谷歌助理以及微軟的“小娜”。
AI的不同類型
AI是計(jì)算機(jī)科學(xué)家們能夠讓語音助手更加易于使用的一大原因,但是你所理解的AI可能和它的實(shí)際含義有所不同。
“AI分為兩種類型,”密歇根州立大學(xué)計(jì)算機(jī)科學(xué)和工程教授喬伊斯·柴(Joyce Chai)表示,“強(qiáng)AI主要是處理能夠像人一樣推理、思考或行動的開發(fā)系統(tǒng)。另外一種就是弱AI,它更加專注于具體任務(wù),也包含虛擬語音助手。我們距離實(shí)現(xiàn)強(qiáng)AI依舊還有很遠(yuǎn)的距離。”
傳統(tǒng)上講,計(jì)算機(jī)要想就某件事情做出決定,它需要一套人類預(yù)定義的規(guī)則。借助AI分支機(jī)器學(xué)習(xí),計(jì)算機(jī)通過對大量數(shù)據(jù)學(xué)習(xí)后可以自主推斷出規(guī)則。在這種情況下,他們可以學(xué)習(xí)人類如何談話和互動,從而聽懂人類的語言。這需要大量數(shù)據(jù)。
Siri聽不懂問題
哥本哈根信息技術(shù)大學(xué)副教授納塔利·舒樂特(Natalie Schluter)解釋稱,這些公司面臨的主要挑戰(zhàn)是通過足夠多樣化的形式獲取充足的數(shù)據(jù),以便讓機(jī)器為更多人服務(wù),而不是局限在某個特定人身上。舒樂特表示,在實(shí)驗(yàn)室中開發(fā)出一款只能夠理解你所說話的產(chǎn)品可能十分有趣,但是世界上有許多方言、不同的口音以及不同的聲調(diào)。
這不只是量的問題,數(shù)據(jù)的種類也很重要。如果你訓(xùn)練機(jī)器的數(shù)據(jù)只來自舊金山的白種人,那么你訓(xùn)練出的AI只能聽懂范圍非常窄的人群。
“蘋果和亞馬遜不乏才華橫溢的員工,”舒樂特表示,“但是有時(shí)我們必須確保這些員工對數(shù)據(jù)進(jìn)行干預(yù),保證他們在訓(xùn)練AI時(shí)使用的數(shù)據(jù)量適當(dāng),并且來自許多不同種類的人群。”
為什么Siri落后了?
那么,為什么Siri不能總是理解你提出的問題呢?
從某種程度上講,這和科學(xué)無關(guān),而是與不同公司的實(shí)際運(yùn)作情況有關(guān)。“Siri面臨的挑戰(zhàn)之一就是蘋果在早期承諾過多但又做不到所造成的的負(fù)面形象。”SoundHound聯(lián)合創(chuàng)始人兼CEO肯揚(yáng)·曼哈耶爾(Keyvan Mohajer)表示。SoundHound為其他公司提供語音助手、音樂識別技術(shù)和語音工具。
曼哈耶爾稱,Siri的另外一個挑戰(zhàn)就是沒能真正像人們期望的那樣快速增加知識庫。亞馬遜Alexa已經(jīng)從最初的少量技能發(fā)展到了數(shù)萬項(xiàng)。蘋果也沒有真正建立起一個開發(fā)者生態(tài)系統(tǒng)。
另外一個可能導(dǎo)致Siri落后的原因就是蘋果嚴(yán)格的隱私標(biāo)準(zhǔn)。在許多語音助手盡可能多的收集用戶數(shù)據(jù)來訓(xùn)練他們的AI時(shí),蘋果一直在宣揚(yáng)盡量降低這種數(shù)據(jù)收集,并進(jìn)行匿名處理。盡管這可能導(dǎo)致語音助手的用處不夠大,但是蘋果對此不屑一顧。
“我們拒絕接受這種理由,即充分利用技術(shù)就意味著放棄你的隱私權(quán)。”蘋果CEO蒂姆·庫克(Tim Cook)去年在杜克大學(xué)畢業(yè)典禮上發(fā)表演講時(shí)稱。
此外,蘋果還是一家出了名的保密公司。“蘋果的員工在干什么,他們所認(rèn)為真正重要的問題是什么?我們一點(diǎn)也不知道,”舒樂特表示,“通常情況下,我們與谷歌、亞馬遜、微軟以及其他公司的研究人員在同一個領(lǐng)域工作,參加相同的會議。我們發(fā)表文章,一起合作。然而,蘋果的一切卻無從知曉。”
蘋果從谷歌挖來詹南德利亞
但是,蘋果似乎開始越來越認(rèn)真對待AI了。去年,蘋果從谷歌挖來了知名計(jì)算機(jī)科學(xué)家約翰·詹南德利亞(John Giannandrea)擔(dān)任其機(jī)器學(xué)習(xí)和AI策略高級副總裁。今年稍早時(shí)候,蘋果又任命伊恩·古德菲洛(Ian Goodfellow)為其機(jī)器學(xué)習(xí)總監(jiān),后者曾是谷歌頂尖AI研究人員之一。
去年年底,風(fēng)投公司Loup Ventures發(fā)布的一份研究報(bào)告顯示,Siri并不是語音助手的領(lǐng)頭羊,但是在追趕競爭對手。本周,蘋果又在全球開發(fā)者大會上宣布對Siri快捷方式進(jìn)行更新,允許開發(fā)者進(jìn)一步整合Siri,并升級了Siri的文本轉(zhuǎn)語音引擎,現(xiàn)在已完全使用由軟件發(fā)出的聲音。
不過,要想讓Siri變得更強(qiáng)大,蘋果還有一些事情要做。“第一版Siri能做12件事,”曼哈耶爾稱,“但是要想變得真正有用,你需要能夠做所有事情。這是覆蓋范圍的問題,增加更多內(nèi)容,具備一個允許你增加內(nèi)容,讓理解速度比線性速度更快的架構(gòu)。”
曼哈耶爾指出,他認(rèn)為蘋果能夠做到的最有前景的事情之一,就是圍繞著Siri建立一個非常成功的開發(fā)者社區(qū)。他認(rèn)為,在語音AI領(lǐng)域,還沒有一家公司成功建立開發(fā)者社區(qū)。
免責(zé)聲明:文章內(nèi)容均來自互聯(lián)網(wǎng),由多科回收整理編輯,版權(quán)歸原創(chuàng)者所有,如果你在多科回收上發(fā)現(xiàn)了侵犯你權(quán)益的內(nèi)容,請及時(shí)通知多科回收,我們會刪除對你造成侵權(quán)的相關(guān)內(nèi)容,以免對你造成影響,謝謝合作~
聯(lián)系方式 :
微信公眾號:多科回收(duokehuishouwang)
微信客服:duokehuishou
語音助手已經(jīng)變得無處不在,它就在你的口袋中、家中以及汽車中。你可以使用蘋果公司的Siri設(shè)定約會提醒,命令亞馬遜公司的Alexa為你播放歌曲,或者向谷歌助理詢問當(dāng)?shù)氐奶鞖忸A(yù)報(bào)。總之,人們與這些非人類助手的互動已經(jīng)變得很正常。
Siri在2011年登陸iPhone,但是它的底層技術(shù)實(shí)際上要比你可能想象的陳舊。和對手的產(chǎn)品相比,蘋果的Siri“有些笨”。
80年前,首個能夠處理合成語音的機(jī)器由貝爾實(shí)驗(yàn)室在1939年開發(fā)而成。1952年,貝爾實(shí)驗(yàn)室發(fā)明了一款能夠聽懂從0到9語音數(shù)字的機(jī)器。兩年后的1954年,一臺與喬治城語言學(xué)家合作的IBM機(jī)器能夠把60句俄語話翻譯成英語。
1962年,IBM開發(fā)的Shoebox設(shè)備能夠聽懂16個單詞。到了1976年,卡內(nèi)基梅隆大學(xué)將機(jī)器能夠聽懂的單詞數(shù)量增加到了1000個以上。上世紀(jì)80年代中期,機(jī)器已經(jīng)能夠聽懂?dāng)?shù)萬個單詞。
自那之后,科學(xué)家開始在語音處理技術(shù)中融入人工智能(AI)。AI自上世紀(jì)50年代以來就已經(jīng)出現(xiàn)。
在這些技術(shù)的積累下,我們現(xiàn)在才擁有了能夠聽懂我們講話的Siri、Alexa、谷歌助理以及微軟的“小娜”。
AI的不同類型
AI是計(jì)算機(jī)科學(xué)家們能夠讓語音助手更加易于使用的一大原因,但是你所理解的AI可能和它的實(shí)際含義有所不同。
“AI分為兩種類型,”密歇根州立大學(xué)計(jì)算機(jī)科學(xué)和工程教授喬伊斯·柴(Joyce Chai)表示,“強(qiáng)AI主要是處理能夠像人一樣推理、思考或行動的開發(fā)系統(tǒng)。另外一種就是弱AI,它更加專注于具體任務(wù),也包含虛擬語音助手。我們距離實(shí)現(xiàn)強(qiáng)AI依舊還有很遠(yuǎn)的距離。”
傳統(tǒng)上講,計(jì)算機(jī)要想就某件事情做出決定,它需要一套人類預(yù)定義的規(guī)則。借助AI分支機(jī)器學(xué)習(xí),計(jì)算機(jī)通過對大量數(shù)據(jù)學(xué)習(xí)后可以自主推斷出規(guī)則。在這種情況下,他們可以學(xué)習(xí)人類如何談話和互動,從而聽懂人類的語言。這需要大量數(shù)據(jù)。
Siri聽不懂問題
哥本哈根信息技術(shù)大學(xué)副教授納塔利·舒樂特(Natalie Schluter)解釋稱,這些公司面臨的主要挑戰(zhàn)是通過足夠多樣化的形式獲取充足的數(shù)據(jù),以便讓機(jī)器為更多人服務(wù),而不是局限在某個特定人身上。舒樂特表示,在實(shí)驗(yàn)室中開發(fā)出一款只能夠理解你所說話的產(chǎn)品可能十分有趣,但是世界上有許多方言、不同的口音以及不同的聲調(diào)。
這不只是量的問題,數(shù)據(jù)的種類也很重要。如果你訓(xùn)練機(jī)器的數(shù)據(jù)只來自舊金山的白種人,那么你訓(xùn)練出的AI只能聽懂范圍非常窄的人群。
“蘋果和亞馬遜不乏才華橫溢的員工,”舒樂特表示,“但是有時(shí)我們必須確保這些員工對數(shù)據(jù)進(jìn)行干預(yù),保證他們在訓(xùn)練AI時(shí)使用的數(shù)據(jù)量適當(dāng),并且來自許多不同種類的人群。”
為什么Siri落后了?
那么,為什么Siri不能總是理解你提出的問題呢?
從某種程度上講,這和科學(xué)無關(guān),而是與不同公司的實(shí)際運(yùn)作情況有關(guān)。“Siri面臨的挑戰(zhàn)之一就是蘋果在早期承諾過多但又做不到所造成的的負(fù)面形象。”SoundHound聯(lián)合創(chuàng)始人兼CEO肯揚(yáng)·曼哈耶爾(Keyvan Mohajer)表示。SoundHound為其他公司提供語音助手、音樂識別技術(shù)和語音工具。
曼哈耶爾稱,Siri的另外一個挑戰(zhàn)就是沒能真正像人們期望的那樣快速增加知識庫。亞馬遜Alexa已經(jīng)從最初的少量技能發(fā)展到了數(shù)萬項(xiàng)。蘋果也沒有真正建立起一個開發(fā)者生態(tài)系統(tǒng)。
另外一個可能導(dǎo)致Siri落后的原因就是蘋果嚴(yán)格的隱私標(biāo)準(zhǔn)。在許多語音助手盡可能多的收集用戶數(shù)據(jù)來訓(xùn)練他們的AI時(shí),蘋果一直在宣揚(yáng)盡量降低這種數(shù)據(jù)收集,并進(jìn)行匿名處理。盡管這可能導(dǎo)致語音助手的用處不夠大,但是蘋果對此不屑一顧。
“我們拒絕接受這種理由,即充分利用技術(shù)就意味著放棄你的隱私權(quán)。”蘋果CEO蒂姆·庫克(Tim Cook)去年在杜克大學(xué)畢業(yè)典禮上發(fā)表演講時(shí)稱。
此外,蘋果還是一家出了名的保密公司。“蘋果的員工在干什么,他們所認(rèn)為真正重要的問題是什么?我們一點(diǎn)也不知道,”舒樂特表示,“通常情況下,我們與谷歌、亞馬遜、微軟以及其他公司的研究人員在同一個領(lǐng)域工作,參加相同的會議。我們發(fā)表文章,一起合作。然而,蘋果的一切卻無從知曉。”
蘋果從谷歌挖來詹南德利亞
但是,蘋果似乎開始越來越認(rèn)真對待AI了。去年,蘋果從谷歌挖來了知名計(jì)算機(jī)科學(xué)家約翰·詹南德利亞(John Giannandrea)擔(dān)任其機(jī)器學(xué)習(xí)和AI策略高級副總裁。今年稍早時(shí)候,蘋果又任命伊恩·古德菲洛(Ian Goodfellow)為其機(jī)器學(xué)習(xí)總監(jiān),后者曾是谷歌頂尖AI研究人員之一。
去年年底,風(fēng)投公司Loup Ventures發(fā)布的一份研究報(bào)告顯示,Siri并不是語音助手的領(lǐng)頭羊,但是在追趕競爭對手。本周,蘋果又在全球開發(fā)者大會上宣布對Siri快捷方式進(jìn)行更新,允許開發(fā)者進(jìn)一步整合Siri,并升級了Siri的文本轉(zhuǎn)語音引擎,現(xiàn)在已完全使用由軟件發(fā)出的聲音。
不過,要想讓Siri變得更強(qiáng)大,蘋果還有一些事情要做。“第一版Siri能做12件事,”曼哈耶爾稱,“但是要想變得真正有用,你需要能夠做所有事情。這是覆蓋范圍的問題,增加更多內(nèi)容,具備一個允許你增加內(nèi)容,讓理解速度比線性速度更快的架構(gòu)。”
曼哈耶爾指出,他認(rèn)為蘋果能夠做到的最有前景的事情之一,就是圍繞著Siri建立一個非常成功的開發(fā)者社區(qū)。他認(rèn)為,在語音AI領(lǐng)域,還沒有一家公司成功建立開發(fā)者社區(qū)。
免責(zé)聲明:文章內(nèi)容均來自互聯(lián)網(wǎng),由多科回收整理編輯,版權(quán)歸原創(chuàng)者所有,如果你在多科回收上發(fā)現(xiàn)了侵犯你權(quán)益的內(nèi)容,請及時(shí)通知多科回收,我們會刪除對你造成侵權(quán)的相關(guān)內(nèi)容,以免對你造成影響,謝謝合作~
聯(lián)系方式 :
微信公眾號:多科回收(duokehuishouwang)
微信客服:duokehuishou