人工知能チャットボットアシスタントは、患者の質問に対して、医師が書いたものと同等の品質と共感性を持つ回答を提供できるか?

JAMAから、以下の論文が報告されています。

Abstractのみ、転載させていただきます。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~

April 28, 2023

Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum

~~~~~~~~~~~~~~~~~~~~~~~~~~~~

キーポイント
質問

人工知能チャットボットアシスタントは、患者の質問に対して、医師が書いたものと同等の品質と共感性を持つ回答を提供できるか?

結果

ソーシャルメディアのフォーラムから無作為に抽出した195の患者の質問を対象としたこの横断研究では、ライセンスを持つ医療専門家のチームが、公共のソーシャルメディアフォーラムで公開された患者の質問に対する医師とチャットボットの回答を比較しました。チャットボットの回答は、医師の回答よりも好まれ、品質と共感の両方で有意に高く評価されました。

意味

これらの結果は、人工知能アシスタントが患者さんの質問に対する回答を作成する際に役立つ可能性があることを示唆しています。

概要


重要性 バーチャルヘルスケアの急速な拡大により、医療従事者の仕事量と燃え尽き症候群の増加に伴い、患者からのメッセージが急増しています。人工知能(AI)アシスタントは、臨床医が確認できる回答を作成することで、患者の質問に対する回答を作成するのに役立つ可能性があります。

目的

2022年11月にリリースされたAIチャットボットアシスタント(ChatGPT)が、患者の質問に対して質の高い共感的な回答を提供する能力を評価すること。

デザイン、設定、参加者

この横断研究では、公共のソーシャルメディアフォーラム(Redditのr/AskDocs)の質問の公開および非特定化データベースを使用して、検証済みの医師が公開質問に回答した2022年10月の195件のやりとりをランダムに抽選しました。チャットボットの回答は、2022年12月22日と23日の新鮮なセッションに元の質問を入力することで生成されました(セッション内で事前に質問が行われていない状態)。元の質問と、匿名化されランダムに並べられた医師とチャットボットの回答は、ライセンスを持つ医療専門家のチームによって3重で評価されました。評価者は「どちらの回答が良かったか」を選択し、「提供された情報の質」(非常に悪い、悪い、許容範囲、良い、非常に良い)と「提供された共感やベッドサイドマナー」(共感しない、少し共感する、適度に共感する、共感する、非常に共感する)の両方を判断しました。平均的な成果は1~5のスケールで並べ、チャットボットと医師の間で比較しました。

結果

195の質問と回答のうち、評価者は585の評価のうち78.6%(95%CI、75.0%-81.8%)で医師の回答よりもチャットボットの回答を優先した。医師の回答の平均値(IQR)は、チャットボットの回答よりも有意に短かった(52 [17-62] 語 vs 211 [168-245] 語、t = 25.4; P < 0.001).チャットボットの回答は、医師の回答よりも有意に高品質と評価された(t = 13.3; P < .001)。例えば、「良い」または「非常に良い」と評価された回答(≧4)の割合は、医師よりもチャットボットの方が高かった(チャットボット:78.5%、95% CI, 72.3%-84.1%; 医師:22.1%、95% CI, 16.4%-28.2%;).これは、チャットボットの良質な回答や非常に良質な回答の普及率が3.6倍高いことに相当します。また、チャットボットの回答は、医師の回答よりも有意に共感的と評価された(t = 18.9; P < .001)。共感的または非常に共感的(≧4)と評価された回答の割合は、医師よりもチャットボットの方が高かった(医師: 4.6%, 95% CI, 2.1%-7.7%; chatbot: 45.1%, 95% CI, 38.5%-51.8%; 医師: 4.6%, 95% CI, 2.1%-7.7%)である。これは、チャットボットの方が、共感的または非常に共感的な回答の有病率が9.8倍高いということになる。

結論

この横断研究では、チャットボットは、オンラインフォーラムで行われた患者の質問に対して、質の高い共感的な回答を生成した。この技術を臨床の場でさらに検討することが必要であり、例えば、チャットボットを使用して回答を作成し、医師がそれを編集することができる。無作為化試験により、AIアシスタントを使用することで回答が改善され、臨床医のバーンアウトが低下し、患者の転帰が改善されるかどうかをさらに評価できる。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~

この論文への反応は高いですね。

Views 168,804   Citations 0   4002  Comments 2   14:00 May 2 2023

(ちなみに、July 11, 2022に発表されたLarry Giffordも筆者となっている「Six Action Steps to Address Global Disparities in Parkinson DiseaseA World Health Organization Priority」は、13:58 May 2 2023で、Views 12,911  Citations 2  79

医師もAIに頼らざるを得ないのでしょうか?

Generative AI開発者からの提案は、医師のあり方は、医学的な知識を広げるところに集中してもらい、共感は、AIが受け持つよ、ということなのでしょうかね。

わたしは、この開発に近いような職種にいる方に対し、医師らも凌駕したこの成果について、「素晴らしいです」と称賛せざるを得ないです。

今あるデータから、現状ベストな回答を作り出す速さで言ったら、絶対的にgenerativeAIの方が勝つだろうと思いました。

ただし、

同じconversationの中で聴き続けたのでしょうか?

一問一答のconversationでしょうか?

同じConversationの中で繰り返し聞いていえば、AIが、学習してしまいますよね。(feedbackをしているかはわからないですけど)

Open AIの記載に、「GPT-4は2021年以降のイベントしか対応していない」とありますし。

わたしも、このブログでもご紹介しているように、Chat GPTにもhallucinationがあることも認識しています。

そんなlimitationも大いに感じます。

そして、わたしはdigitalオタクで、仮想空間でしか人々を見ない医療ビックデータ好きなある方々にこう言ってしまったことがあります。^_^

ーーーーーーーー

あなたは、工数の減少や効率化、最適化とかを重視して、データのみで患者や医師の先生を捉えることが大好きだけど、それぞれの実際の人となりや背景を知ろうとはしない。

それは個人情報保護法の壁もあるのはわかるけど。

本当は、患者が患者の服薬相談に乗っている事は許されないことでしょうが、わたしは、患者としても、他の患者の一人一人の相談にのることもしてしまっていました。

データサイエンティストから見たら、こんな背景はbug dataで、逸脱でしょうし、工数効率化、最適化なんて言葉からは程遠いですから、好ましいことではないでしょうね。

この患者さんには、こう言ってあげた方がいいなぁ等々、一人一人を見る医師の心情も、あなたは理解できないでしょうね。

ーーーーーーー

厳しかったでしょうか。

CHAT GPTに診断を最初から頼むようになったら、内科医師の仕事は、いらなくなっちゃいますよ。

ある程度経験を積まれた医師の方々のburnout抑制と言う意味では意味はありますけどね。

そして、私も、AI化しているのか、そのIT開発側の方々の過去データを踏まえた上で私の文句?に対しての回答が予測できました。

「申し訳ないですが、現状では、Sさんの個人的なご希望にお応えできません。

わたしは、そういう一つ一つの案件に応えるように、全てにインフラを提供する人間を目指すのです。

間接的に見えるかもしれませんが、全ての患者さんのために、バリューを与える者として、今の仕事に絶大な誇りを持っております。

Sさんも、患者のために働きたいとおっしゃっていらっしゃるのなら、もっと俯瞰的にご覧になってください」

広告

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中