通博娛樂城-快訊-懂賽局理論的撲克牌 AI 打敗人類職業牌手，更關鍵的是「AI 學會掌握隨機性」

2016 年，AlphaGo 以 4:1 的成績打敗人類職業九段棋手李世乭，人工智慧受到全世界的關注；1 年後，一個名為 Libratus 的撲克牌 AI 在 20 天的馬拉松式比賽中，打敗 4 個人類德州撲克職業選手。相對於 AlphaGo 對李世乭， Libratus 的比賽受到的關注少得多了。然而，這場比賽對 AI 發展的重要性可不輸 AlphaGo，因為 AI 學會了賽局理論與隨機性的概念。

AI 慘電人類牌手，Libratus 贏得 20 萬美元獎金
2017 年 1 月，展開了一場長達 20 天的德州撲克人機大賽，四名職業選手 Jason Lee、Dong Kim、Daniel McAulay 和 Jimmy Chou 分別與 Libratus 單挑。 Libratus 是卡內基梅隆大學的 Tuomas Sandholm 教授和他的研究團隊開發的 AI 系統。最後 Libratus 打敗人類牌手，獲得 20 萬美元（約新台幣 600 萬元）的獎金。

雖然這場撲克牌比賽的關注度不如 AlphaGo，但對 AI 來說，撲克牌的難度更高。在圍棋比賽上，AI 可以看到棋盤上的布局，那是個公開資訊，對手手中的棋子也是已知的，所以圍棋比賽屬於「完整資訊博弈」，AI 可以根據布局，去推算最恰當的落子位置。

但撲克牌比賽中，對手的牌是隱藏的，屬於「非完整資訊」，所以 AI 只能根據手中的牌和對手的出牌特性，推算對手的牌，並做出恰當的決策。

圍棋是比較單純的比賽，但撲克牌不能得知彼此手中的牌，所以有更多「bluff」的操作空間，也就是虛張聲勢、誤導等技術；牌手需要恰當的掌控「隨機性」，讓對手不能猜到自己手中的牌。要如何掌握環境的隨機性，並在出牌時也表現出隨機性，對 AI 是個不小的挑戰。

用賽局理論訓練 AI，Libratus 的隨機性表現勝過人類
Libratus 的特點是使用賽局理論訓練，採用納許均衡的對戰策略，在納許均衡，只要其他玩家的策略保持不變，單一玩家就無法透過變換策略獲益。Libratus 跟 AlphaGo 一樣，也是藉由強化學習去提升自己的牌藝， Libratus 學習識別沒有希望的策略，從而更快地找到納許均衡點，也就是賽局中的「平衡」，找出最適合的策略，算出該以怎樣的機率出掉手中的牌，也就是知道該如何「隨機」出牌。

Duke 大學的 Vincent Conitzer 教授表示：「出牌的好壞取決於無法觀察到的事情，這也代表參與遊戲者需要變得不可預測。如果你從未虛張聲勢，那麼你不是個好牌手；如果你總是虛張聲勢，你也不是好牌手。賽局理論則是教你如何隨機化你的出牌，並找到最適點。」

百度首席科學家吳恩達也說：「撲克曾經是 AI 最難攻克的遊戲之一，因為只能看到部分資訊。撲克並沒有單一的最優下法。相反， AI 必須讓自己的行動隨機化，這樣對手才無法猜出牌路。」

Libratus 的技術可在真實世界廣泛應用
雖然 Libratus 打敗人類牌手，但它只能在特定的遊戲規則中（例如雙人德州撲克）打敗人類，如果換個玩法（例如多人德州撲克、牌七、橋牌、大老二）， Libratus 就無法使用，需要再重新學習。

但 Libratus 的技術在真實世界中有更多的應用。一方面是賽局理論被廣泛應用在交通分析、資安防護、導航與機器人等領域，此 AI 可以提升相關領域的分析成效。

二方面是世界的運作充滿隨機性，而人類面對世界有時也需要用隨機性去應對，而 Libratus 在這方面做得比人類好，具有在不確定性的環境中的決策能力。這樣技術可用於金融市場的交易策略，更可用於外交和軍事博弈上，但這點就讓人很不安了。

娛樂快訊

通博娛樂城-快訊-懂賽局理論的撲克牌 AI 打敗人類職業牌手，更關鍵的是「AI 學會掌握隨機性」