你好,歡迎來到川北在線
微信
騰訊微博
新浪微博
德?lián)銩I之父:贏不贏柯潔,阿爾法狗都缺乏實際用處
時間:2017-04-12 10:23   來源:澎湃新聞網   責任編輯:毛青青

  因此,雖然一盤德?lián)涞臎Q策點數量是10的160次方,要少于圍棋,但光靠搜索是打不了德?lián)涞摹5聯(lián)溆纱颂隽嗽谒阉髁可系妮^量,對AI提出了另一個方向上的考驗:應對隱藏的信息。

  阿爾法狗和冷撲大師的原理有何不同?

  谷歌曾在《自然》雜志上發(fā)表文章,公布阿爾法狗的幾個基本原理,分別為:走棋網絡(Policy Network),給定當前局面,預測和采樣下一步的走棋;快速走子(Fast rollout),在適當犧牲走棋質量的條件下提高速度;價值網絡(Value Network),給定當前局面,估計雙方勝率;蒙特卡羅樹搜索(Monte Carlo Tree Search,MCTS),把以上三個部分串聯(lián)成一個完整的系統(tǒng)。

  冷撲大師的算法則主要基于以下三個模塊產生:

  首先,納什均衡是德?lián)渌惴ǖ暮诵,即AI的目標是找到一個無論對方怎么做,自己都不會產生損失的策略。根據博弈論,像一對一撲克這種零和游戲永遠存在這樣的最優(yōu)解,就像在經典的博弈論模型“囚徒困境”中,招認罪行就是一個無論對方招認不招認都最優(yōu)的策略。因此,冷撲大師的開發(fā)團隊提前在龐大的決策樹上利用虛擬遺憾最小化算法(Counterfactual Regret Minimization,CFR)推算出了均衡,即通過多次迭代計算博弈樹中每個信息集的動作遺憾值和平均策略值,預測下一時刻的決策動作,使其是當前最小遺憾動作。

  此外,冷撲大師還有殘局解算器(end-game solver)和自我強化學習這兩個模塊來輔助第一個模塊。殘局解算器會在殘局時實時評估場上的情況,以判斷第一模塊中算出的納什均衡是否符合實時情況。而自我強化學習會反思AI在比賽中的表現,找出曾被人類利用過的“套路”,清除這些可循的痕跡。

  總體來說,阿爾法狗和冷撲大師的算法有三大明顯不同。

  第一,阿爾法狗的訓練過程中用到了大量數據的深度學習,即通過大量給定的輸入和輸出形成穩(wěn)定的處理。但計算機的處理過程本身是一個黑匣子。而冷撲大師沒有用到時髦的深度學習,而是通過傳統(tǒng)的線性規(guī)劃提前算出納什均衡,是一個“老式但好用的人工智能”(Good Old-Fashioned Artificial Intelligence)。

  第二,阿爾法狗在深度學習過程中參考了數千萬張人類棋譜,可以說是靠模仿人類高手起步的。雖然阿爾法狗也運用到了一些自我強化學習,但比重并不大。而冷撲大師完全是通過自我強化學習進行訓練的。開發(fā)者從未教給它人類打牌的方法,只是向它描述了德?lián)涞囊?guī)則,由它“左右互搏”,摸索出德?lián)鋺撛趺赐妗R蚨,冷撲大師的打法完全脫離了人類經驗。值得注意的是,即將與柯潔在烏鎮(zhèn)對戰(zhàn)的阿爾法狗2.0將擯棄人類棋譜,完全采用一套自我摸索出來的下法。

  第三,雖然阿爾法狗和冷撲大師都特別喜歡殘局階段下殺招,但它們的難度不一樣。圍棋下到殘局,可走的招數越來越少,計算量也越來越簡單;而德?lián)溟_到轉牌和河牌時,可能性更多,局面變得更為復雜。因此,冷撲大師經常在轉牌階段做出長時間的停頓。

  阿爾法狗和冷撲大師哪個更有用?

  在冷撲大師的開發(fā)者、美國卡內基梅隆大學(CMU)計算機系教授托馬斯桑德霍姆(Tuomas Sandholm)和其博士生諾姆布朗(Noam Brown)看來,這個問題的答案十分明顯。在現實生活中,幾乎不存在像圍棋這樣給出所有信息的完美情境,因而像阿爾法狗這樣的算法也很難直接派上用場。

  在現實生活中,我們遇到的事情會更像玩德?lián)洌荷虡I(yè)談判時對方未知的底牌、房屋拍賣時競爭對手難測的舉動、股票交易中一些隱藏的內部消息。桑德霍姆認為,德?lián)銩I打開了靠人工智能解決隨機事件和隱藏信息的大門。這樣的AI,才有望離開虛擬的棋牌世界,成為人類在現實生活中談判、博弈和投資的好幫手。

  桑德霍姆自己就成立了一家戰(zhàn)略計算公司,希望利用人工智能解決金融上的一些戰(zhàn)略計算問題。首先,金融交易拼的是速度,AI在量化交易上具有巨大優(yōu)勢。其次,像股票交易中經常會存在一些隱藏的信息,AI能在交易者較少的情況下,幫助人類在隱藏的信息面前做出決策。

  阿爾法狗和冷撲大師哪個更厲害?

  諾姆布朗說道,每一種游戲從計算機科學的角度來說,都存在一些核心問題,而掌握這個游戲的AI相當于解決了這個核心的問題。圍棋和德?lián)浯砹藘深愅耆煌挠螒,阿爾法狗和冷撲大師也在朝完全不同的兩個方向探索。

  只不過,圍棋在“完美信息游戲”中屬于高難度水平,因而阿爾法狗也在搜索這個核心問題上取得了巔峰成就。而冷撲大師剛剛打開了“非完美信息游戲”的大門,對于解決隱藏信息這個問題來說,德?lián)銩I只是個開始。光就游戲而言,與德?lián)漕愃频膴W馬哈,就比德?lián)涓鼮閺碗s一些。布朗說,他們對中國的麻將略知一二,麻將也是一種充滿了隱藏信息的游戲。

   投稿郵箱:chuanbeiol@163.com   詳情請訪問川北在線:http://www.dstuf.com/

川北在線-川北全搜索版權與免責聲明
①凡注明"來源:XXX(非在線)"的作品,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責,本網不承擔此類稿件侵權行為的連帶責任。
②本站所載之信息僅為網民提供參考之用,不構成任何投資建議,文章觀點不代表本站立場,其真實性由作者或稿源方負責,本站信息接受廣大網民的監(jiān)督、投訴、批評。
③本站轉載純粹出于為網民傳遞更多信息之目的,本站不原創(chuàng)、不存儲視頻,所有視頻均分享自其他視頻分享網站,如涉及到您的版權問題,請與本網聯(lián)系,我站將及時進行刪除處理。



圖庫
合作媒體
金寵物 綠植迷
法律顧問:ITLAW-莊毅雄律師