博彩論壇

通博娛樂城-快訊-懂賽局理論的撲克牌 AI 打敗人類職業牌手,更關鍵的是「AI 學會掌握隨機性」

AI 學會掌握隨機性

通博娛樂城-快訊-懂賽局理論的撲克牌 AI 打敗人類職業牌手,更關鍵的是「AI 學會掌握隨機性」

AI-.jpg
2016 年,AlphaGo 以 4:1 的成績打敗人類職業九段棋手李世乭,人工智慧受到全世界的關注;1 年後,一個名為 Libratus 的撲克牌 AI 在 20 天的馬拉松式比賽中,打敗 4 個人類德州撲克職業選手。相對於 AlphaGo 對李世乭, Libratus 的比賽受到的關注少得多了。然而,這場比賽對 AI 發展的重要性可不輸 AlphaGo,因為 AI 學會了賽局理論與隨機性的概念。

AI 慘電人類牌手,Libratus 贏得 20 萬美元獎金
2017 年 1 月,展開了一場長達 20 天的德州撲克人機大賽,四名職業選手 Jason Lee、Dong Kim、Daniel McAulay 和 Jimmy Chou 分別與 Libratus 單挑。 Libratus 是卡內基梅隆大學的 Tuomas Sandholm 教授和他的研究團隊開發的 AI 系統。最後 Libratus 打敗人類牌手,獲得 20 萬美元(約新台幣 600 萬元)的獎金。

雖然這場撲克牌比賽的關注度不如 AlphaGo,但對 AI 來說,撲克牌的難度更高。在圍棋比賽上,AI 可以看到棋盤上的布局,那是個公開資訊,對手手中的棋子也是已知的,所以圍棋比賽屬於「完整資訊博弈」,AI 可以根據布局,去推算最恰當的落子位置。

但撲克牌比賽中,對手的牌是隱藏的,屬於「非完整資訊」,所以 AI 只能根據手中的牌和對手的出牌特性,推算對手的牌,並做出恰當的決策。

圍棋是比較單純的比賽,但撲克牌不能得知彼此手中的牌,所以有更多「bluff」的操作空間,也就是虛張聲勢、誤導等技術;牌手需要恰當的掌控「隨機性」,讓對手不能猜到自己手中的牌。 要如何掌握環境的隨機性,並在出牌時也表現出隨機性,對 AI 是個不小的挑戰。

用賽局理論訓練 AI,Libratus 的隨機性表現勝過人類
Libratus 的特點是使用賽局理論訓練,採用 納許均衡 的對戰策略,在納許均衡,只要其他玩家的策略保持不變,單一玩家就無法透過變換策略獲益。Libratus 跟 AlphaGo 一樣,也是藉由強化學習去提升自己的牌藝, Libratus 學習識別沒有希望的策略,從而更快地找到納許均衡點,也就是賽局中的「平衡」,找出最適合的策略,算出該以怎樣的機率出掉手中的牌,也就是知道該如何「隨機」出牌。

Duke 大學的 Vincent Conitzer 教授表示:「出牌的好壞取決於無法觀察到的事情,這也代表參與遊戲者需要變得不可預測。如果你從未虛張聲勢,那麼你不是個好牌手;如果你總是虛張聲勢,你也不是好牌手。賽局理論則是教你如何隨機化你的出牌,並找到最適點。」

百度首席科學家吳恩達也說:「撲克曾經是 AI 最難攻克的遊戲之一,因為只能看到部分資訊。撲克並沒有單一的最優下法。相反, AI 必須讓自己的行動隨機化,這樣對手才無法猜出牌路。」

Libratus 的技術可在真實世界廣泛應用
雖然 Libratus 打敗人類牌手,但它只能在特定的遊戲規則中(例如雙人德州撲克)打敗人類,如果換個玩法(例如多人德州撲克、牌七、橋牌、大老二), Libratus 就無法使用,需要再重新學習。

但 Libratus 的技術在真實世界中有更多的應用。一方面是賽局理論被廣泛應用在交通分析、資安防護、導航與機器人等領域,此 AI 可以提升相關領域的分析成效。

二方面是世界的運作充滿隨機性,而人類面對世界有時也需要用隨機性去應對,而 Libratus 在這方面做得比人類好,具有在不確定性的環境中的決策能力。這樣技術可用於金融市場的交易策略,更可用於外交和軍事博弈上,但這點就讓人很不安了。

魔龍傳奇 立即遊戲!

魔龍傳奇
通博.cc 粉絲專頁 通博.cc 推特專頁 台灣博彩論壇

Related posts