搜狗武健:從機(jī)器人看人工智能(5)
時(shí)間:2017-05-25 14:53 來源:鈦媒體 責(zé)任編輯:毛青青
我們來看幾個(gè)例子,2005年,google的機(jī)器翻譯使用跨越學(xué)術(shù)界一萬倍的數(shù)據(jù),一舉成名,搞定了翻譯界多年都搞沒有定的翻譯的準(zhǔn)確率難題。Google 2009年收購的reCAPTCHA,這個(gè)器材是通過一個(gè)巧妙的產(chǎn)品設(shè)計(jì),讓用戶在網(wǎng)頁登錄輸入驗(yàn)證碼的同時(shí),為OCR練習(xí)提供了大量的練習(xí)樣本,辦理了疑難字的識別答題。在AI期間之前,沒有管是商品的推薦照樣電影的推薦,都是基于item之間的相似性來實(shí)現(xiàn)的。但自從有了大量用戶產(chǎn)品,并且用戶在這些產(chǎn)品里產(chǎn)生了充足多的數(shù)據(jù)后,廠商們現(xiàn)在都是行使用戶行為確立推薦模型,商品的推薦進(jìn)入了協(xié)同過濾期間。這是一個(gè)非常典型的通過產(chǎn)品上的數(shù)據(jù)積累改變了行業(yè)玩法的例子。
以是可以看出,要想做差A(yù)I,產(chǎn)品和數(shù)據(jù)才是重中之重。在產(chǎn)品和數(shù)據(jù)方面,要形成閉環(huán),盡遲讓一個(gè)功能上線到產(chǎn)品中去累積數(shù)據(jù),進(jìn)而沒有停去推動手藝的進(jìn)步。
我想再用搜狗舉一個(gè)真實(shí)的例子。搜狗今朝語音識別本領(lǐng)和翻譯本領(lǐng)黑白常出色的。在我們項(xiàng)目初期冷承動階段,我們其實(shí)行使Google的語音識別API,做出了搜狗輸入法的語音輸入功能,并且投放上線。隨著用戶使用該功能的頻次漸漸增長,我們很快就積攢了一批原始數(shù)據(jù),然后就 了自己的建模和練習(xí)工作,在很短的時(shí)間內(nèi)就用自己的模型取代了Google API,完成了自立化。在接下來很短的時(shí)間內(nèi),隨著原始語料的不時(shí)積累,手藝模型的不時(shí)演化,線上語音識其它 率提升稀奇迅速。
今朝,從手藝方法本身上,搜狗不獨(dú)特的地方,練習(xí)平臺我們有跨越1000塊GPU的體量,據(jù)我相識百度可能有2000塊GPU的體量,但我們的優(yōu)勢是什么呢?就是線上量大。我們擁有優(yōu)異的產(chǎn)品,給我們帶來了大量優(yōu)質(zhì)的數(shù)據(jù),F(xiàn)在搜狗輸入法每天語音輸入哀求能達(dá)到2.5億次PV,每天產(chǎn)生20萬小時(shí)的語料,在這20萬小時(shí)的語料中,還包含著天下各個(gè)區(qū)域用戶的語料數(shù)據(jù)。
剛才提到的只是數(shù)據(jù)積累的部分,其實(shí)你聯(lián)合用戶產(chǎn)品,我們完全可以做得更多,比如說去年搜狗輸入法上線了語音修改功能:當(dāng)你說錯了一句話時(shí),從前你要用手自己在屏幕上定位,然后刪除,輸入新的字,現(xiàn)在你就完全可以跟用語音修改功能說把什么字改成什么字,再哪哪加一個(gè)標(biāo)點(diǎn)這個(gè)功能。最初我們用輸入法用戶的行為形成了一萬條修改的文法,這個(gè)語音糾錯功能剛上線的時(shí)辰,修改的成功率僅僅只有40%,可是你可以通過不時(shí)的迭代和數(shù)據(jù)反饋,以是我們僅僅用了一個(gè)月的時(shí)間就把成功率提升到了80%。可以看出:通過差的用戶產(chǎn)品形態(tài)和數(shù)據(jù),我們就可以讓產(chǎn)品本身顯露的更智能,映射到自然交互上它就順理成章地變得更差了。
剛才我們提到了手藝是擴(kuò)散的,計(jì)算力是增加的,唯有產(chǎn)品和數(shù)據(jù)可形成壁壘,絕沒有是說手藝是沒有重要的,產(chǎn)品和手藝之間其實(shí)也是有非常大的關(guān)系的,因?yàn)樾碌氖炙嚳隙ǹ梢越o你帶來新的產(chǎn)品形態(tài),同時(shí)差的產(chǎn)品形態(tài)肯定會加速手藝的進(jìn)步,這兩個(gè)器材肯定是相輔相成,一路往前推動了整個(gè)行業(yè)往前進(jìn)步。
智能機(jī)器人的思索本領(lǐng)
思索本領(lǐng)是一個(gè)很寬泛的定義,到底做到了什么樣的程度才算有了思索本領(lǐng)?是滿足了加減乘除?照樣滿足了肯定的功能相應(yīng)或圖靈測試?到現(xiàn)在也是不確定的局限。在這里我就想提出個(gè)人的一些看法,在我來看,在當(dāng)下若是一個(gè)機(jī)器人有了答問本領(lǐng),就可以算是有了思索本領(lǐng),就可以被稱為智能機(jī)器人了。
當(dāng)然答問本領(lǐng)本身照樣一種比較寬泛的說法,這里我把答問分成三類:
投稿郵箱:chuanbeiol@163.com 詳情請?jiān)L問川北在線:http://dstuf.com/