如果說(shuō)人工智能技術(shù)已經(jīng)在自動(dòng)駕駛和其他學(xué)習(xí)人類日常行為的領(lǐng)域擁有出色的表現(xiàn),那么現(xiàn)在人工智能已經(jīng)開(kāi)始進(jìn)一步學(xué)習(xí)如何應(yīng)對(duì)未知的環(huán)境了。而這就是機(jī)器學(xué)習(xí)技術(shù)的意義,需要對(duì)現(xiàn)實(shí)世界的例子進(jìn)行學(xué)習(xí),從而提升人工智能技術(shù)的能力。
不過(guò),目前為止大多數(shù)用來(lái)訓(xùn)練機(jī)器學(xué)習(xí)技術(shù)的環(huán)境都是虛擬的,而現(xiàn)在來(lái)自于英國(guó)微軟研究院的一組科學(xué)家開(kāi)始使用游戲回放數(shù)據(jù)訓(xùn)練人工智能技術(shù)解決復(fù)雜問(wèn)題的能力,而這對(duì)于這一現(xiàn)狀的改變起到了很大的作用。
研究人員利用《Atari 2600》這款經(jīng)典的游戲來(lái)為深度機(jī)器學(xué)習(xí)系統(tǒng)提供真實(shí)世界的數(shù)據(jù),額這個(gè)系統(tǒng)通過(guò)實(shí)驗(yàn)和反復(fù)的錯(cuò)誤糾正,來(lái)強(qiáng)化學(xué)習(xí)技術(shù)適應(yīng)未知環(huán)境。在研究中這些數(shù)據(jù)正是研究人員口中“最大、最多樣化的數(shù)據(jù)庫(kù)”,同時(shí)現(xiàn)在這些數(shù)據(jù)已經(jīng)被公開(kāi)。
這些數(shù)據(jù)都是基于Web版Arari 2600模擬器得出,而這個(gè)游戲正是使用了Javascript語(yǔ)言和Javatari工具編寫(xiě)。研究人員使用了一種游戲化的眾包模式,并且利用人們的意愿來(lái)玩游戲,并且獲得游戲中的獎(jiǎng)勵(lì),并且對(duì)所有玩家的表現(xiàn)進(jìn)行排名。
研究人員收集和分析了大約970萬(wàn)幀,約合45小時(shí)的游戲時(shí)間,通過(guò)五個(gè)不同的游戲嘲和不同的難度來(lái)創(chuàng)造不同的復(fù)雜程度,包括視頻彈球、Qbert太空入侵者、吃豆人和Montezuma復(fù)仇等。
從目前的測(cè)試結(jié)果來(lái)看非常順利,通過(guò)將信息輸入到系統(tǒng)中,人工智能能夠像普通游戲玩家一樣活得游戲中的獎(jiǎng)勵(lì)和分?jǐn)?shù),研究人員通過(guò)這種數(shù)據(jù)訓(xùn)練來(lái)證明機(jī)器學(xué)習(xí)系統(tǒng)的價(jià)值。
展望未來(lái),研究人員希望利用更專業(yè)的數(shù)據(jù)來(lái)提高機(jī)器學(xué)習(xí)的訓(xùn)練能力,讓人工智能在應(yīng)對(duì)未知狀況時(shí)采取更有效的措施。
投稿郵箱:chuanbeiol@163.com 詳情請(qǐng)?jiān)L問(wèn)川北在線:http://dstuf.com/