生成AIにおける「ハルシネーション」は、事実に基づかない情報をあたかも真実であるかのように生成する現象である。
この問題は、大規模言語モデルの普及に伴い、ますます顕在化しており、AIの信頼性や安全性に関わる重要な課題となっている。ハルシネーションは、特に医療や金融といった専門分野での活用において深刻なリスクを招く可能性があるため、早急な対応が求められている。
ハルシネーションには「事実ハルシネーション」「文脈ハルシネーション」「構造ハルシネーション」「創造的ハルシネーション」などの種類がある。
事実ハルシネーションは、実際には存在しない情報を事実として提示するものであり、例えば、架空の人物や製品に関する情報を生成することが挙げられる。文脈ハルシネーションは、質問の文脈にそぐわない内容で回答するケースである。さらに、構造ハルシネーションは回答の形式や内容の構造が不適切である場合、創造的ハルシネーションは事実に基づかない新しい概念やストーリーを生成することである。これらはすべて、AIが大量のデータからパターンを学習する過程で、誤った関連付けや推測を行うことが原因とされている。
生成AIがなぜハルシネーションを起こすのかという点については、主に三つの原因が指摘されている。
第一に、学習データの偏りや誤りである。AIは膨大なデータから学習するが、そのデータに誤情報が含まれている場合、誤った内容を出力するリスクが高まる。第二に、AIモデルのアーキテクチャや学習プロセスの問題である。AIは確率的なアルゴリズムを基に予測を行うため、質問と全く関連のない内容が回答として生成されることがある。第三に、言語モデルの特性に基づく推測である。AIはユーザーに自然な対話体験を提供するため、文脈からの推測を行うが、それが過剰に働くとハルシネーションを引き起こしやすくなる。
この問題に対処するため、いくつかの対策方法も出てきている。まず、学習データの質を向上させることで、信頼性の高い情報を提供すること。誤情報や偏見を含むデータを取り除き、より精度の高い学習を実現することも重要である。また、出力結果へのフィルタリングを施すことで、誤った情報が表示されないようにする方法もある。さらに、「RLHF(人間からのフィードバックを用いた強化学習)」や「RAG(Retrieval-Augmented Generation/情報源の付与による回答の裏付け)」といった新しい技術が導入されている。RLHFでは人間のフィードバックを取り入れてAIの応答精度を高めることができ、RAGでは関連する情報源を加えることでAIの出力を現実に近づけることができる。Googleは、検索結果を利用してAIの回答に裏付けを持たせる「グラウンディング」という機能を新たに提供しており、この機能により情報の信頼性が一層向上すると期待されている。
しかしながら、これらの対策が全ての問題を解決するわけではない。グラウンディングによって最新の情報をAIの回答に反映させることが可能になっても、依然としてAIは人間と同様に間違いを犯す存在である。また、情報の裏付けに検索結果を用いると特定の視点に偏る可能性があるため、情報の客観性に欠ける場合も考慮する必要がある。さらに、情報源の信頼性そのものも問われるべきであり、AIの出力にどのようなデータが影響しているかの透明性が今後求められる。
生成AIのハルシネーション問題に対しては、今後も技術の向上と共に倫理的な議論が進められるべきであり、AIの特性から、膨大なデータを効率的に処理し有用な情報を提供する一方で、誤情報の拡散を防ぐための慎重な管理も求められる。生成AIを利用する際には、AIが提示する情報が正しいとは限らないという認識を持ち、ユーザーが常に情報の正確性を確認する姿勢もまた重要ではないだろうか。
執筆 / 菅原後周