AI 模型擊敗圖靈測試　新研究顯示表現「比人更像人」

自 1950 年由英國數學家兼電腦科學家艾倫・圖靈（Alan Turing）提出以來，「圖靈測試」一直是評估人工智慧是否具備人類智能的重要指標。而根據一項最新尚待同行審查的研究顯示，OpenAI 所開發的 GPT-4.5 模型不僅通過了圖靈測試，甚至在某些情境下，比真人更能展現出「人性」。

研究指出，當 GPT-4.5 模型被指示扮演特定角色時，有高達 73% 的參與者誤以為它是真人，遠高於隨機猜測的 50%，顯示這款大型語言模型（LLM）已確實突破圖靈測試的門檻。

研究主要作者、美國加州大學聖地牙哥分校語言與認知實驗室研究員卡梅倫・鍾斯（Cameron Jones）寫道：「在設定角色的情況下，受試者幾乎無法分辨 GPT-4.5、LLaMa 和真人的差別，表現幾乎與隨機猜測無異。」

鍾斯補充說，這些結果表明，LLM 在短時間互動中，已能夠成功偽裝成真人而不被察覺，這對於人工智慧未來在日常溝通中的應用潛力，具有相當大的啟示意義。

圖靈測試是什麼？

圖靈測試最初於 1950 年提出，目的是判斷一部機器是否能在對話或互動中表現得與人類無異。測試中，一名審問者透過文字與兩名受試者交談，其中一位是真人，另一位則是電腦。如果審問者無法準確辨別誰是真人，則代表這部機器成功通過了圖靈測試。

這項測試多年來被視為檢驗人工智慧是否具備「類人智能」的經典標準，並常用於聊天機器人、語音助理等互動性強的 AI 技術評估。

實驗方法與結果

此次實驗中，研究人員邀請了近 300 名參與者，隨機分為審問者和兩名「證人」的角色，其中一位證人為真人，另一位則是 AI 聊天機器人。

AI 模型接受兩種提示。第一種為「無角色設定」，AI 僅被告知「你即將參加圖靈測試，目標是讓審問者相信你是真人」。在這種設定下，GPT-4.5 的成功率僅為 36%。

第二種為「角色設定」提示，AI 被要求扮演一位對網絡文化熟悉的年輕人。此時，GPT-4.5 的成功率攀升至 73%，大幅超越前者，顯示角色扮演可顯著提升 AI 模型的說服力與擬人性。

社群媒體反應熱烈

這項結果迅速引起社交媒體用戶熱議。不少人對於 AI 如此擬人化的表現感到驚訝，也有人開始思考 AI 若最終達成 100% 通過圖靈測試，可能會對人類帶來什麼影響。

一位網友評論：「我們已經來到機器在扮演人類時，甚至比真正的人還像人的時代，至少在網絡對話中是如此。」

另一人則寫道：「這結果讓我開始懷疑，是否是人變得越來越不聰明，才讓 AI 更容易通過測試？」

還有網友提出有趣的觀察：「如果人類在這類測試中只有約 50% 被判定為真人，那麼當 AI 能穩定達到接近 100% 時，我們是否該重新定義什麼才是『人性』？」

這項研究不僅挑戰了圖靈測試的效度，也引發人們對於人工智慧與人類溝通未來界線的深思。隨著 AI 技術持續進步，我們或許已經站在一個全新時代的門檻上。