將來,我們或許能夠使用大型語言模型 (LLM) 自動讀取醫(yī)療記錄中的臨床記錄,并可靠高效地提取相關(guān)信息以支持患者護理或研究。但哥倫比亞大學梅爾曼公共衛(wèi)生學院最近的一項研究使用 ChatGPT-4 閱讀急診科入院記錄,以確定受傷的踏板車和自行車騎手是否戴了頭盔,結(jié)果發(fā)現(xiàn) LLM 尚無法可靠地做到這一點。該研究結(jié)果發(fā)表在JAMA Network Open 上。
在對 2019 年至 2022 年騎自行車、踏板車或其他微型交通工具時受傷的 54,569 名患者進行急診就診的研究中,人工智能法學碩士 (AI LLM) 難以復(fù)制基于文本字符串搜索的方法從臨床記錄中提取頭盔狀態(tài)的結(jié)果。
只有當提示包含基于文本字符串搜索的方法中使用的所有文本時,LLM 才能表現(xiàn)良好。LLM 也很難在連續(xù)五天的每次試驗中重復(fù)其工作,它在重復(fù)幻覺方面比在準確工作方面做得更好。當短語被否定時,它尤其吃力,例如閱讀“w/o 頭盔”或“unhelmeted”并報告患者戴了頭盔。
大量醫(yī)學相關(guān)數(shù)據(jù)以書面臨床筆記的形式包含在電子病歷中,這是一種非結(jié)構(gòu)化數(shù)據(jù)。高效地讀取和提取這些筆記中的信息對于研究非常有用。
目前,可以使用簡單的字符串匹配文本搜索方法或通過更復(fù)雜的基于人工智能 (AI) 的方法(例如自然語言處理)從這些臨床記錄中提取信息。人們希望新的 LLM(例如 ChatGPT-4)能夠更快、更可靠地提取信息。
哥倫比亞大學梅爾曼學院流行病學教授、資深作者 Andrew Rundle 博士表示:“雖然我們看到使用生成式 AI LLM 進行信息提取任務(wù)可能會提高效率,但可靠性和幻覺問題目前限制了它的實用性。”
“當我們使用包含與頭盔相關(guān)的所有文本字符串的高度詳細的提示時,ChatGPT-4 在某些日子可以從臨床記錄中提取準確的數(shù)據(jù)。但是,定義和測試提示中必須包含的所有文本所需的時間以及 ChatGPT-4 無法日復(fù)一日地復(fù)制其工作,這表明 ChatGPT-4 尚未完成這項任務(wù)。”
Rundle 及其同事利用美國消費品安全委員會國家電子傷害監(jiān)測系統(tǒng) 2019 年至 2022 年的公開數(shù)據(jù)(以 96 家美國醫(yī)院為樣本),分析了在電動自行車、自行車、懸浮滑板和電動滑板車事故中受傷患者的急診室記錄。他們將?? ChatGPT-4 對記錄的分析結(jié)果與使用更傳統(tǒng)的基于文本字符串的搜索生成的數(shù)據(jù)進行了比較,并且對于 400 條記錄,他們將 ChatGPT 的分析與他們自己對記錄中臨床筆記的解讀進行了比較。
這項研究建立在他們研究如何預(yù)防微型交通工具使用者(即騎自行車者、電動自行車騎手、踏板車騎手)受傷的工作基礎(chǔ)之上。“頭盔的使用是傷害嚴重程度的一個關(guān)鍵因素,但在大多數(shù)急診科醫(yī)療記錄和事故報告中,有關(guān)頭盔使用的信息都隱藏在醫(yī)生或 EMS 受訪者撰寫的臨床筆記中。需要進行大量研究才能可靠、高效地獲取這些信息,”該論文的主要作者、梅爾曼學院流行病學系博士后研究員凱瑟琳·伯福德 (Kathryn Burford) 說。
“我們的研究考察了法學碩士從臨床筆記中提取信息的潛力,臨床筆記是醫(yī)療專業(yè)人員和研究人員的豐富信息來源,”蘭德爾說。“但在我們使用 ChatGPT-4 時,它無法可靠地為我們提供數(shù)據(jù)。”
合著者包括哥倫比亞大學梅爾曼公共衛(wèi)生學院的 Nicole G. Itzkowitz、哥倫比亞人口研究中心的 Ashley G. Ortega 和哥倫比亞社會工作學院的 Julien O. Teitler。
標簽:
免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!