隨著 AI 臨床筆記和轉錄工具在醫療領域的普及,越來越多醫療人員使用這些技術來自動記錄問診時的醫病對話。然而,根據 ABC News 在 10 月 26 日的報導,基於 OpenAI Whisper 模型的 AI 轉錄工具在精準性上仍存在挑戰。此技術偶爾會產生「幻覺」(hallucination),生成虛構的內容,這種錯誤可能對醫療決策帶來不確定性。
AI 臨床筆記方案公司 Nabla 使用 Whisper 開發的語音轉文字工具,目前已被超過 30,000 名醫療人員及 40 個醫療系統採用,並已經累積了約 700 萬次醫療對話轉錄記錄。然而,Nabla 也指出其工具存在幻覺風險,且正著手改善此問題。這些幻覺問題在研究中顯現,其中包括康乃爾大學及華盛頓大學的研究團隊發現,Whisper 約有 1% 的轉錄可能出現無依據的句子,甚至在無聲片段中生成無意義或情緒化的詞句。
康乃爾研究人員 Allison Koenecke 分享了部分案例,指出有些幻覺內容甚至包含虛構的醫療狀況或無關的片語,如「謝謝觀看!」等,與 YouTube 視頻結尾語氣相似,引發外界對於 AI 醫療應用可信度的討論。
此研究於 6 月在巴西舉行的 ACM FAccT 大會上發表,儘管尚未經過完整同儕審查,但其發現對 AI 醫療應用的精確性提出了挑戰,也引發了人們對 AI 在醫療領域應用安全性的進一步思考。