AI通過(guò)“觀察學(xué)習(xí)”吸取價(jià)值觀
關(guān)鍵詞: AI 文化價(jià)值觀 觀察學(xué)習(xí) AI學(xué)習(xí)
美國(guó)華盛頓大學(xué)一項(xiàng)研究首次表明,人工智能(AI)系統(tǒng)可以通過(guò)觀察人類在特定文化中的行為,學(xué)習(xí)并內(nèi)化相應(yīng)的文化價(jià)值觀。這為解決AI跨文化適應(yīng)問(wèn)題提供了新思路。相關(guān)論文已發(fā)表于《PLOS One》。 當(dāng)前,AI通常基于大規(guī)模互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行訓(xùn)練,而這些數(shù)據(jù)中蘊(yùn)含的價(jià)值觀往往具有文化偏向性,導(dǎo)致系統(tǒng)在不同文化背景的用戶面前表現(xiàn)不一致。為此,研究團(tuán)隊(duì)嘗試讓AI以“觀察學(xué)習(xí)”的方式,從具體文化群體的行為中吸取價(jià)值觀,而非被預(yù)先植入某一套通用準(zhǔn)則。 研究團(tuán)隊(duì)試圖探索的是,AI能否像兒童那樣,通過(guò)觀察周圍人的行為,自然而然地習(xí)得所在文化的價(jià)值觀。團(tuán)隊(duì)招募了190名成年人參與實(shí)驗(yàn),讓他們分別與AI代理進(jìn)行互動(dòng)。實(shí)驗(yàn)中,參與者玩一款改編自游戲《Overcooked》的協(xié)作任務(wù)。在游戲中,參與者可選擇是否將自己獲得的資源無(wú)償贈(zèng)送給明顯處于劣勢(shì)的機(jī)器人玩家,盡管這會(huì)影響自己的任務(wù)得分。結(jié)果顯示,有一組參與者整體表現(xiàn)出更多的利他行為。 AI代理則通過(guò)“逆向強(qiáng)化學(xué)習(xí)”方法,從所觀察群體的行為中推斷其行為目標(biāo)與內(nèi)在價(jià)值觀。在后續(xù)測(cè)試中,這些代理成功地將習(xí)得的“利他傾向”推廣到捐贈(zèng)資金等新場(chǎng)景中:基于這一人類組數(shù)據(jù)訓(xùn)練的AI,在捐贈(zèng)任務(wù)中表現(xiàn)出更高的慷慨度。 “這類似于兒童的學(xué)習(xí)方式——他們并非被反復(fù)訓(xùn)練做某件事,而是通過(guò)觀察父母與他人的互動(dòng),潛移默化地學(xué)會(huì)分享、關(guān)懷等社會(huì)行為。”論文合著者、華盛頓大學(xué)心理學(xué)教授安德魯·梅爾佐夫表示,“價(jià)值觀更多是‘被捕捉’而非‘被教授’的。” 團(tuán)隊(duì)認(rèn)為,如何創(chuàng)建具有文化適應(yīng)性、能理解他人視角的AI,是當(dāng)前社會(huì)面臨的重要課題。隨著輸入數(shù)據(jù)的文化多樣性和體量增加,這類方法有望幫助開(kāi)發(fā)出更貼合特定文化背景的AI系統(tǒng)。不過(guò),該研究目前仍處于概念驗(yàn)證階段,未來(lái)還需在更多文化情境、價(jià)值沖突場(chǎng)景及復(fù)雜現(xiàn)實(shí)問(wèn)題中進(jìn)一步驗(yàn)證其可行性。(記者 張夢(mèng)然)
【責(zé)任編輯:朱家齊】