close

AlphaGo是如何下棋的?

[摘要]AlphaGo是通過兩個不同神經網絡“大腦”合作來改進下棋。

作者:董飛 來源:知乎

谷歌(微博)DeepMind宣佈他們研發的神經網絡圍棋AI,AlphaGo,在2015年10月首次5:0戰勝瞭人類職業選手歐洲圍棋冠軍Fan Hui二段。這篇論文由David Silver等完成。裡面的技術是出於意料的簡單卻又強大。為瞭方便不熟悉技術的小白理解,這裡是我對系統工作原理的解讀。

深度學習




台中產後護理中心推薦

“深度學習”是指多層的人工神經網絡和訓練它的方法。一層神經網絡把大量矩陣數據作為輸入,通過非線性激活方法取權重,再產生另一個數據集合作為輸出。這就像生物神經大腦的工作機理一樣,通過合適的矩陣數量,多層組織鏈接一起,形成神經網絡“大腦”進行精準復雜的處理,就像人們識別物體標註圖片一台中坐月子費用樣。

雖然神經網絡在幾十年前就有瞭,直到最近才形勢明朗。這是因為他們需要大量的“訓練”去發現矩陣中的數字價值。對早期研究者來說,想要獲得不錯效果的最小量訓練都遠遠超過計算能力和能提供的數據的大小。但最近幾年,一些能獲取海量資源的團隊重現挖掘神經網絡,就是通過“大數據”技術來高效訓練。

兩個大腦台中產後照護

AlphaGo是通過兩個不同神經網絡“大腦”合作來改進下棋。這些大腦是多層神經網絡跟那些Google圖片搜索引擎識別圖片在結構上是相似的。它們從多層啟發式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網絡處理圖片一樣。經過過濾,13 個完全連接台中月子中心推薦的神經網絡層產生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。

這些網絡通過反復訓練來檢查結果,再去校對調整參數,去讓下次執行更好。這個處理器有大量的隨機性元素,所以我們是不可能精確知道網絡是如何“思考”的,但更多的訓練後能讓它進化到更好。

第一大腦:落子選擇器 (Move Picker)

AlphaGo的第一個神經網絡大腦是“監督學習的策略網絡(Policy Network)” ,觀察棋盤佈局企圖找到最佳的下一步。事實上,它預測每一個合法下一步的最佳概率,那麼最前面猜測的就是那個概率最高的。你可以理解成“落子選擇器”。

落子選擇器是怎麼看到棋盤的?數字表示最強人類選手會下在哪些地方的可能

團隊通過在KGS(網絡圍棋對戰平臺)上最強人類對手,百萬級的對弈落子去訓練大腦。這就是AlphaGo最像人的地方,目標是去學習那些頂尖高手的妙手。這個不是為瞭去下贏,而是去找一個跟人類高手同樣的下一步落子。AlphaGo落子選擇器能正確符合57%的人類高手。(不符合的不是意味著錯誤,有可能人類自己犯的失誤)

更強的落子選擇台中月子中心價位

AlphaGo系統其實需要兩個額外落子選擇器“大腦”。一個是“強化學習的策略網絡(Policy Network)”,通過百萬級別模擬對局來完成。姑且稱之為更強的選擇器。對比基本的訓練,那隻是教網絡去模仿單一的人類落子,高級訓練會與每一個模擬棋局下到底,教網絡最可能贏的下一手。Sliver團隊通過更強的落子選擇器總結瞭百萬級訓練棋局,比他們之前版本又更新改進瞭不少。

台灣電動床工廠 電動床

台灣電動床工廠 電動床

AUGI SPORTS|重機車靴|重機車靴推薦|重機專用車靴|重機防摔鞋|重機防摔鞋推薦|重機防摔鞋

AUGI SPORTS|augisports|racing boots|urban boots|motorcycle boots

arrow
arrow

    dkt4ysbtj 發表在 痞客邦 留言(0) 人氣()