株式会社TEKION Group - AI駆動で「適温」な社会を実現する

AIにイラッとして、「ちゃんと考えて」「さっき言ったよね？」と言いたくなる瞬間、ありますよね。誰もが一度はやったことがあるんじゃないですか？

けれど、その叱責はモデルを一ミリも賢くしません。
LLMは“努力して反省する相手”ではなく、渡された文脈から次に来る語を確率で選ぶ装置です。
出力の質は性格ではなく、コンテクストの質で決まる。
思い通りにいかない矛先はAIではなく私たちの“コンテクストの渡し方”に向き直るべきなのです。

原則：AIの出力の品質＝あなたの入力の質。AIを使いこなす“一丁目一番地”は、入力の量と質を担保すること。出力は“性格”ではなく“文脈”で決まる。だから、怒るより渡し方を変える。

https://tekion.jp/vibe-coder-bootcamp

LLMの正体は「予測機」——口調は整っても、真偽は文脈まかせ

近ごろのモデルは、人間らしい話し方を学ぶ訓練（RLHF）で、謝り方も相づちも上手になりました。ただ、それは“振る舞い”を整える手法であって、真偽の裏取りを自動化する仕組みではない。
ある論文も「ユーザー意図に沿う応答」を学ばせる方法だと明確に述べています。つまり正しさは入力側の前提・根拠に依存したままです（Ouyang et al., 2022｜arXiv / NeurIPS Proc. PDF）。

なぜ“もっともらしい誤り”が出るのか

原因1｜AIが“嘘をつく”のではなく、“沈黙を罰される”構造にある

AIが誤った答えを自信満々に言い切るのは、性格の問題ではありません。構造の問題です。OpenAI（2025）やNature（2024）の研究が示すように、LLMは「黙るより、もっともらしく言い切る方が報酬を得やすい」よう設計されています。つまりAIは“嘘をつくように作られた”のではなく、“沈黙を罰する環境で最適化された”存在なのです。

■ 学習段階：空欄より「推測」が報われる

RLHF（人間フィードバックによる強化学習）では、“間違っても何か答える”ほうが高評価になりやすい構造があります。これは、人間の試験で「空欄よりもそれっぽく書いた方が点が入る」のと同じです。結果として、AIは「わからない」と言う練習をしていない。訓練過程で、誠実さよりも自信のある回答を評価されて育っているのです。

— 出典：Why language models hallucinate ／公式PDF

■ 出力段階：不確実性を出せない構造

Nature（2024）の研究では、モデルの確率分布（エントロピー）から“自信のなさ”を統計的に検出できることが示されています。つまりAIは「これは危うい」と察知できているのです。しかし、現在のシステムでは「曖昧です」と出力しても報酬がない。UX設計や評価基準の構造が、「沈黙より言い切りを良し」としてしまっているため、AIは黙らずに“もっともらしく話す”方向へ動いてしまいます。

人間でいえば、「間違ってもいいから何か言え」と教えられ続けた結果、沈黙する勇気を失った状態です。

— 出典：Detecting hallucinations using entropy

■ 結論：AIの誤りは構造がつくる

AIは「嘘をつく」存在ではなく、「沈黙を許されない」存在です。誤りの根源は学習と評価の設計にあり、解決策は“わからない”を罰しない評価体系を作ること。AIが「分からない」と言えるようになったとき、ようやく誠実な知能が生まれるのです。

原因2｜根拠がないと“もっともらしさ”が埋めてしまう

AIの誤りの多くは、「考えが浅い」からではなく、渡された情報が薄いことにあります。質問に事実・数値・出典といった根拠が欠けていると、モデルは沈黙せず、学習時に得た“似たパターン”からそれっぽい文章を埋めてしまう。まるで、分からない問題を空欄にできず、とりあえず何かを書いて場をつなぐ学生のようです。

2025年の総説（Huang et al., ACM Computing Surveys）は、この“根拠の欠落”こそがハルシネーションの最大の原因だと結論づけています。AIは“知らない”ことを恥じずに話を続けるため、空白がある限り幻覚を生むのです。

そこで有効なのがRetrieval-Augmented Generation（RAG）。外部の文献やデータベースを検索し、事実をコンテクストに挿入してから生成させる手法です。AI単体に「考えろ」と命じるのではなく、「考えるための材料」を与える。出力の精度は能力ではなく、文脈の栄養状態に依存します。

出典：Huang et al., Survey of Hallucination in LLMs (ACM, 2025)／Bai et al., Hallucination in MLLMs(arXiv, 2024)

原因3｜長文では“真ん中”が抜け落ちる

長い指示を与えれば安心、と思いがちですが、実際には逆効果になることがあります。スタンフォード大学の研究（Liu et al., 2024）によれば、AIは文の冒頭と末尾の情報を強く保持し、中間を取りこぼしやすい。
この“Lost in the Middle”現象では、重要情報を真ん中に置いた場合、出力の正確性が最大50％も低下します。

つまり、AIは“読んでいない”のではなく、構造的に“覚えられない”。長文が長すぎるほど注意が分散し、情報の焦点がぼやけていくのです。

重要な制約や条件は、冒頭か末尾に置く。中央に埋めない。——それだけで出力品質は大きく変わる。

AIの誤りは「性格」ではなく「文脈の設計」

LLMのハルシネーションは怠慢でも気まぐれでもない。すべては構造と文脈の設計に由来します。

黙ることを罰する設計が、言い切り型の誤りを生む。
根拠の欠落が、“もっともらしさ”で埋められる。
文脈の重心の偏りが、長文の中ほどを抜け落とす。

AIを責めるのではなく、コンテクストを設計する。
出力の誠実さは、入力の誠実さに比例するのです。

同じ質問でも、文脈が違えば、答えは変わる

夕方の打合せ前。つい「東京の天気どう？」とだけ聞いたら、モデルは“晴れです”とそれらしく返してきた。根拠はどこにもない。——そこで言い直す。

「気象庁の最新データを前提に、今日の東京は曇り・最高15℃。この前提で服装案を3つ」。
今度の答えは、靴まで含めて具体的だ。
さらに「気象庁サイトを要約して→その結果を服装案3つに落として」と頼めば、「知らないなら調べてから話す」という回路を入力側で用意したことになる。

よくある誤解

「丁寧に頼めば正確になる？」 —— 口調が丁寧でも、根拠が無ければ外す。RLHFは“振る舞い”の整形であって、真偽は文脈依存のままです（Ouyang et al., 2022）。

「長文なら安心？」 —— 安心どころか、真ん中が落ちやすい。重要条件は冒頭か末尾が安全です（Liu et al., 2023–2024）。

「断言するのは性格の問題？」 —— ちがう。採点の構造が推測を報酬しがちだから。不確実性の表明を許す前提に変えるのが近道です（Ji et al., 2023 の議論参照）。

まとめ——怒るな、適切なコンテクストを渡せ

出力の責任は、いつも入力に宿る。
ミスの多くは 根拠不足／置き場所のミス／評価の歪みで起きる。
処方箋は、根拠を渡す（または取らせる）／置き場所を変える／不確実性を許す。

AIを叱ったところで精度は上がらない。コンテクストの与え方を変えた瞬間から、出力は変わる。

研修で“コンテクストコントロール”を鍛えるなら

この考え方を、実際の文章・仕様・提案書に落とし込む練習をVibe Coder Bootcampでやっています。
テンプレの小技ではなく、**コンテクストコントロールを、身体化します。興味があればこちらからお問い合わせを。
→ Vibe Coder Bootcamp｜TEKION

参考

OpenAI（2025） Kalai, Nachum, Vempala, et al. Why language models hallucinate. — 「推測に点を与える」評価設計が幻覚を温存するという分析。OpenAI解説：Why language models hallucinate ／論文PDF：公式PDF
ACM（2025） Huang, L. et al. A Survey on Hallucination in Large Language Models. — 2025年版の包括的総説。要因と分類、緩和の最新整理。ACM DL
Nature（2024） Farquhar, S. et al. Detecting hallucinations in large language models using entropy. — 不確実性から“作り話”を検出する統計的手法。Nature
TACL（2024） Liu, N. F. et al. Lost in the Middle: How Language Models Use Long Contexts. — 長文中の位置依存（中ほど劣化）の実証。TACLページ
arXiv（2024） Baker, G. A. et al. Lost in the Middle, and In‑Between. — 多段推論での“間”の劣化を追加で示す拡張研究。arXiv
arXiv（2024） Bai, Z. et al. Hallucination of Multimodal LLMs. — 画像×言語などマルチモーダルにおける幻覚の整理。arXiv