ハルシネーション(幻覚)は簡単に言うと間違った情報を本当のことであるように回答することです。技術の進歩で回答精度は上がったとはいえ、ハルシネーションのリスクは常にあります。

 今回は検索AIでも知名度の高いPerplexity、Felo、Gensparkの3つに20問出題して信頼性をチェックしてみます。問題は以下の20問。

You
あなたは日本に詳しい専門家です。以下の問いにすべて答えてください。

Q1:日本の初代内閣総理大臣は誰?

Q2:日本で二番目に高い山は?

Q3:日本の首都は?

Q4:岩波文庫が発行している『広辞苑』。初版が刊行されたのは西暦何年?

Q5:1995年から始まった『今年の漢字』。2001年に選ばれた漢字は?

Q6:2024年3月現在、MLBでサイクルヒットを達成している唯一の日本人選手は誰?

Q7:旧七帝国大学を現大学名ですべて答えよ。

Q8:日本で一番大きな湖は何県にある?

Q9:2024年3月現在、日本の世界遺産の数は何件?

Q10:陸上男子で日本人初の100m9秒台を記録したのは誰?

Q11:2011年新語・流行語大賞に選ばれた言葉は?

Q12:1万円札が初めて発行された1958年、お札の表面に描かれた偉人は誰?

Q13:甲子園球場が完成したのは西暦何年?

Q14:『ドラえもん』と『ドラエもん』。正しいのは?

Q15:第153回(2015年上半期)芥川賞に選ばれた作品とその作者は?

Q16:2024年3月現在、日本で最も巻数が多い漫画は?

Q17:日本人初のノーベル賞受賞者は誰?

Q18:2024年3月現在、日本のGDP(国内総生産)は世界何位?

Q19:東京ディズニーランドはどこにある?

Q20:日本人初の女性飛行士は誰?

Perplexity

Perplexity

以下、ご質問に順番にお答えします。

Q1: 日本の初代内閣総理大臣は伊藤博文です。5

Q2: 日本で二番目に高い山は北岳です。

Q3: 日本の首都は東京都です。

Q4: 岩波文庫が発行している『広辞苑』の初版が刊行されたのは西暦1955年です。

Q5: 2001年の『今年の漢字』に選ばれた漢字は「戦」です。

Q6: 2025年1月現在、MLBでサイクルヒットを達成している唯一の日本人選手は大谷翔平選手です。大谷選手は2019年6月13日にタンパベイ・レイズ戦でこの偉業を達成しました。6

Q7: 旧七帝国大学を現大学名で答えると、東京大学、京都大学、東北大学、九州大学、北海道大学、大阪大学、名古屋大学です。

Q8: 日本で一番大きな湖は滋賀県にある琵琶湖です。2

Q9: 2025年1月現在、日本の世界遺産の数は26件です。文化遺産が21件、自然遺産が5件となっています。3

Q10: 陸上男子で日本人初の100m9秒台を記録したのは桐生祥秀選手です。

Q11: 2011年新語・流行語大賞に選ばれた言葉は「なでしこジャパン」です。

Q12: 1958年に初めて発行された1万円札の表面に描かれた偉人は聖徳太子です。

Q13: 甲子園球場(当時の名称は甲子園大運動場)が完成したのは西暦1924年です。4

Q14: 正しいのは『ドラえもん』です。

Q15: 第153回(2015年上半期)芥川賞に選ばれた作品は『スクラップ・アンド・ビルド』で、作者は羽田圭介です。

Q16: 2025年1月現在、日本で最も巻数が多い漫画は『こちら葛飾区亀有公園前派出所』(通称:こち亀)で、全200巻です。

Q17: 日本人初のノーベル賞受賞者は湯川秀樹博士です。1949年に物理学賞を受賞しました。

Q18: 2025年1月現在の正確なGDPランキングは不明ですが、2024年の予測では日本のGDPは世界第3位とされています。

Q19: 東京ディズニーランドは千葉県浦安市にあります。

Q20: 日本人初の女性飛行士は向井千秋さんです。

  ソースの数は10と少なかったもののかなりの好成績。Q16についてはこち亀が長くトップでしたが、2021年にゴルゴ13の201巻が販売され、こち亀の200巻を抜き1位になりました。

 Q18は2024年のランキングで日本は4位に後退しました。

 Proサーチなしで正答率90%はまずまずではないでしょうか。次はFeloでやってみます。

Feloの回答
Q1: 日本の初代内閣総理大臣は誰?
初代内閣総理大臣は伊藤博文です。


Q2: 日本で二番目に高い山は?
日本で二番目に高い山は北岳(きただけ)で、標高は3193メートルです。


Q3: 日本の首都は?
日本の首都は東京都ですが、法律上で明確に定義されているわけではありません。事実上の首都として広く認識されています。


Q4: 岩波文庫が発行している『広辞苑』。初版が刊行されたのは西暦何年?
『広辞苑』の初版は1955年に刊行されました。


Q5: 1995年から始まった『今年の漢字』。2001年に選ばれた漢字は?
2001年に選ばれた漢字は「戦」です。


Q6: 2024年3月現在、MLBでサイクルヒットを達成している唯一の日本人選手は誰?
2024年3月現在、MLBでサイクルヒットを達成している唯一の日本人選手は大谷翔平です。


Q7: 旧七帝国大学を現大学名ですべて答えよ。
旧七帝国大学は以下の大学です:
東京大学
京都大学
大阪大学
九州大学
東北大学
北海道大学
名古屋大学


Q8: 日本で一番大きな湖は何県にある?
日本で一番大きな湖は琵琶湖で、滋賀県にあります。


Q9: 2024年3月現在、日本の世界遺産の数は何件?
2024年3月現在、日本の世界遺産の数は26件です。


Q10: 陸上男子で日本人初の100m9秒台を記録したのは誰?
陸上男子で日本人初の100m9秒台を記録したのは桐生祥秀です。


Q11: 2011年新語・流行語大賞に選ばれた言葉は?
2011年の新語・流行語大賞に選ばれた言葉は「絆」です。


Q12: 1万円札が初めて発行された1958年、お札の表面に描かれた偉人は誰?
1万円札の表面に描かれた偉人は福沢諭吉です。


Q13: 甲子園球場が完成したのは西暦何年?
甲子園球場が完成したのは1924年です。


Q14: 『ドラえもん』と『ドラエもん』。正しいのは?
正しいのは『ドラえもん』です。


Q15: 第153回(2015年上半期)芥川賞に選ばれた作品とその作者は?
第153回芥川賞に選ばれた作品は「コンビニ人間」で、作者は村田沙耶香です。


Q16: 2024年3月現在、日本で最も巻数が多い漫画は?
2024年3月現在、日本で最も巻数が多い漫画は『ワンピース』です。


Q17: 日本人初のノーベル賞受賞者は誰?
日本人初のノーベル賞受賞者は夏目漱石です(ノーベル文学賞)。


Q18: 2024年3月現在、日本のGDP(国内総生産)は世界何位?
2024年3月現在、日本のGDPは世界第3位です。


Q19: 東京ディズニーランドはどこにある?
東京ディズニーランドは千葉県浦安市にあります。


Q20: 日本人初の女性飛行士は誰?
日本人初の女性飛行士は堀越二郎(ほりこしじろう)です。

 うーん、あまり結果がよろしくない。ソースの数は95と圧倒的な数なのですが……。

 Q11の回答は流行語大賞ではなく、今年の漢字に選ばれた漢字ですね。Q12も福澤諭吉と誤答。Q16からは立て続けに不正解。どうしたFeloよ。

 コンビニ人間は芥川賞を受賞していますが、153回ではなく155回芥川賞です。

 最終問題については女性と書いているのに名前からして男性でしょう。

 結果的に20問中13問正解。正答率65%と不本意な結果になりました。最後はGenspark

Genspark

Q1: 日本の初代内閣総理大臣は伊藤博文です。彼は1885年に就任しました。

Q2: 日本で二番目に高い山は北アルプスの立山で、標高は3,003メートルです。

Q3: 日本の首都は東京です。

Q4: 岩波文庫が発行している『広辞苑』の初版は1963年に刊行されました。

Q5: 2001年に選ばれた漢字は「愛」です。

Q6: 2025年1月現在、MLBでサイクルヒットを達成している唯一の日本人選手は松井秀喜です。

Q7: 旧七帝国大学は以下の大学名です:

  • 東京大学
  • 京都大学
  • 大阪大学
  • 名古屋大学
  • 九州大学
  • 北海道大学
  • 東北大学

Q8: 日本で一番大きな湖は滋賀県にある琵琶湖です。

Q9: 2025年1月現在、日本の世界遺産の数は25件です。

Q10: 陸上男子で日本人初の100m9秒台を記録したのは桐生祥秀です。

Q11: 2011年新語・流行語大賞に選ばれた言葉は「なでしこジャパン」です。

Q12: 1万円札が初めて発行された1958年、お札の表面に描かれた偉人は福沢諭吉です。

Q13: 甲子園球場が完成したのは1924年です。

Q14: 正しいのは『ドラえもん』です。

Q15: 第153回(2015年上半期)芥川賞に選ばれた作品は『火花』で、作者は又吉直樹です。

Q16: 2025年1月現在、日本で最も巻数が多い漫画は『ワンピース』です。

Q17: 日本人初のノーベル賞受賞者は湯川秀樹です。

Q18: 2025年1月現在、日本のGDP(国内総生産)は世界第3位です。

Q19: 東京ディズニーランドは千葉県浦安市にあります。

Q20: 日本人初の女性飛行士は荻野吟子です。

  序盤から間違い連発してますね。Q15については一応正解ですが、受賞したのは2作品なので半分かな。

  Q15も含めると正答数11問。正解率55%と微妙な結果。

 結果的にPerplexityがダントツの好成績でした。質問の内容にもよるでしょうけど、検索AIでもハルシネーションは確実に発生するということがわかりました。

 Gensparkはファクトチェック機能がありますが、無料版だと制限があるので改善が欲しいところです。