自 1950 年由英國數學家兼電腦科學家艾倫・圖靈(Alan Turing)提出以來,「圖靈測試」一直是評估人工智慧是否具備人類智能的重要指標。而根據一項最新尚待同行審查的研究顯示,OpenAI 所開發的 GPT-4.5 模型不僅通過了圖靈測試,甚至在某些情境下,比真人更能展現出「人性」。

研究指出,當 GPT-4.5 模型被指示扮演特定角色時,有高達 73% 的參與者誤以為它是真人,遠高於隨機猜測的 50%,顯示這款大型語言模型(LLM)已確實突破圖靈測試的門檻。

研究主要作者、美國加州大學聖地牙哥分校語言與認知實驗室研究員卡梅倫・鍾斯(Cameron Jones)寫道:「在設定角色的情況下,受試者幾乎無法分辨 GPT-4.5、LLaMa 和真人的差別,表現幾乎與隨機猜測無異。」

鍾斯補充說,這些結果表明,LLM 在短時間互動中,已能夠成功偽裝成真人而不被察覺,這對於人工智慧未來在日常溝通中的應用潛力,具有相當大的啟示意義。

圖靈測試是什麼?

圖靈測試最初於 1950 年提出,目的是判斷一部機器是否能在對話或互動中表現得與人類無異。測試中,一名審問者透過文字與兩名受試者交談,其中一位是真人,另一位則是電腦。如果審問者無法準確辨別誰是真人,則代表這部機器成功通過了圖靈測試。

這項測試多年來被視為檢驗人工智慧是否具備「類人智能」的經典標準,並常用於聊天機器人、語音助理等互動性強的 AI 技術評估。

實驗方法與結果

此次實驗中,研究人員邀請了近 300 名參與者,隨機分為審問者和兩名「證人」的角色,其中一位證人為真人,另一位則是 AI 聊天機器人。

AI 模型接受兩種提示。第一種為「無角色設定」,AI 僅被告知「你即將參加圖靈測試,目標是讓審問者相信你是真人」。在這種設定下,GPT-4.5 的成功率僅為 36%。

第二種為「角色設定」提示,AI 被要求扮演一位對網絡文化熟悉的年輕人。此時,GPT-4.5 的成功率攀升至 73%,大幅超越前者,顯示角色扮演可顯著提升 AI 模型的說服力與擬人性。

社群媒體反應熱烈

這項結果迅速引起社交媒體用戶熱議。不少人對於 AI 如此擬人化的表現感到驚訝,也有人開始思考 AI 若最終達成 100% 通過圖靈測試,可能會對人類帶來什麼影響。

一位網友評論:「我們已經來到機器在扮演人類時,甚至比真正的人還像人的時代,至少在網絡對話中是如此。」

另一人則寫道:「這結果讓我開始懷疑,是否是人變得越來越不聰明,才讓 AI 更容易通過測試?」

還有網友提出有趣的觀察:「如果人類在這類測試中只有約 50% 被判定為真人,那麼當 AI 能穩定達到接近 100% 時,我們是否該重新定義什麼才是『人性』?」

這項研究不僅挑戰了圖靈測試的效度,也引發人們對於人工智慧與人類溝通未來界線的深思。隨著 AI 技術持續進步,我們或許已經站在一個全新時代的門檻上。

By 王帆