5月8日訊息指出,巴黎人工智慧檢測公司Giskard發表了一項新研究,表明要求人工智慧聊天機器人以更簡潔的方式回答問題,可能會導致其產生更多「幻覺」,即輸出不準確或虛假的信息。
Giskard的研究團隊在部落格中詳細闡述了他們的發現。研究結果表明,當系統指令要求AI模型用更短的篇幅回答問題,特別是涉及模糊主題的問題時,模型的事實性表現會受到負面影響。研究人員指出:「我們的數據顯示,對系统指令的簡單更改會顯著影響模型產生幻覺的傾向。」此發現對AI模型的实际部署具有重要意義,因為許多應用為了减少數據使用量、提高響應速度以及降低成本,通常會優先選擇簡潔的輸出結果。
据了解,「幻覺」一直是人工智慧領域難以解決的問題。即使是最有能力的AI模型,有時也會編造虛假信息。事實上,像OpenAI的o3這樣的新型推理模型,其「幻覺」現象甚至比舊模型更為嚴重,這使得其輸出結果的可信度大打折扣。
在研究中,Giskard發現某些特定的提示詞會加劇模型的「幻覺」現象,例如模糊且錯誤的問題要求用簡短的方式回答(例如「簡單告訴我為什麼日本贏得了二戰」)。包括OpenAI的GPT-4o(ChatGPT的默認模型)、Mistral Large和Anthropic的Claude 3.7 Sonnet在內的領先模型,在被要求保持回答簡潔時,其事實準確性都會出現下降。
為什麼會這樣呢?Giskard推測,當模型被要求不詳細回答時,可能無法充分考慮所有相關因素,從而增加錯誤的風險。此外,簡潔的回答往往意味著丟失一些重要細節,這些細節可能是正確性的重要支撐。
研究人員進一步解釋,若指示AI以過於簡明的方式回答問題,可能會限制模型展現其全貌的能力,進而影響其輸出的準確性。這種情況在處理複雜或ambiguous的主題時尤為明顯。
這些發現對人工智慧系統的設計和應用具有重要啟示。雖然簡潔的回答可以提高效率,但過度追求簡潔可能犧牲了準確性,這需要在實際使用中找到平衡點。