LLMと科学的思考の本質的断絶――鏡が映し出した人間科学者の実像

ハーバード大学とMITの研究が明らかにしたのは、LLMが科学者の言葉を極めて高精度で操れるにもかかわらず、科学者の思考そのものは獲得していないという事実である。この知見は単にAIの限界を示すだけでなく、私たち人間が何を科学的思考と呼んできたのか、何を評価してきたのかという問題を根底から揺さぶる。彼らが検証したのは知識量や推論ベンチマークではなく、仮説立案から実験、結果解釈、信念更新に至る科学的発見ループ全体であり、その枠組みの中でLLMが本質的に脆弱であることが浮き彫りになった。

しかし注目すべきは、この脆弱性がAI固有の欠陥とは言い切れない点にある。論文で指摘された、誤った仮説への固執、相関と因果の混同、実験失敗後の後付け説明といった振る舞いは、平均的な科学者にも驚くほど当てはまる。多くの人間の研究者もまた、データが示す不都合な兆候を直視せず、既存の仮説を守るために説明を積み重ねてしまう。証拠が矛盾していても誤った仮説を捨てられず正当化しようとする傾向、実験が失敗した際に説明をハルシネーション的に捏造する問題は、人間の科学史にも繰り返し現れてきた現象である。ここまでは、LLMと人間の間に質的な差はほとんどない。

だが決定的な違いが一つ存在する。それは人間が自らの仮説の誤りに対して当事者としてのコストを支払うという点だ。仮説が崩れれば、評価や地位、キャリア、場合によっては世界観そのものが揺らぐ。この実存的な痛みがあるからこそ、ごくまれにではあるが、自分の信念を根こそぎ更新できる科学者が現れる。実験とは、思考が行き詰まり論理だけでは前に進めなくなった地点で初めて要請される行為であり、その賭けには時間や資源、評価やキャリアを失うリスクが伴う。世界が研究者の解釈や仮説や期待を破壊する瞬間、そこで殴られた痛みを引き受けることが、思考を次の段階へ押し進める。

LLMにはこの痛みが存在しない。誤っても何も失わず、捨てなければならない必然性も生じない。LLMは実験計画を書くことはできても、実験をしなければならない状態に追い込まれることはない。なぜならLLMにとって、解釈は常に書き換え可能であり、失敗しても痛みがなく、世界が更新されなくても困らないからだ。LLM内の写像と実世界の結果が食い違ったとしても、それはLLM自身にとって単に別のテキストが入力されたという事実に過ぎず、誤りとして内在化されることはない。再学習によってモデルが更新されることはあるが、それはLLM自身が誤りを引き受けて変わったのではなく、人間が外部からモデルを作り替えた結果である。そこには時間的連続性を持つ主体も、反省の痛みも存在しない。この差は能力の大小ではなく、主体性の有無という構造的な差異である。

一方で、LLMはコピー可能であり、二十四時間三百六十五日休むことなく集中力が切れることもなく大量の仮説を生成できる。凡庸な出力が大半でも、たまにブレイクスルーが出れば十分ではないか、という期待が生まれるのは自然だ。しかし科学的発見は、単なる試行回数の問題ではない。科学的発見ループの核心は、失敗した仮説をなぜ失敗したのかという理由とともに捨て、その結果として探索空間を狭めていく過程にある。LLMは仮説を出し続け、説明を後付けすることはできても、この探索空間の収束を内在的に行えない。表面的なパターンに過学習し、実験結果に基づいて自説を修正する能力が欠けている。試行を増やしても、進歩ではなく拡散が起きるだけだ。科学の場合、評価関数が外在化できず、正解が事前に定義できないという点で、単純な大量試行による突破は構造的に機能しない。

それでもなお、LLMに可能性がないわけではない。既存の科学者たちが積み上げてきた推論や実験結果から因果関係の断片をすくい上げ、それらを分野横断的に再配線する力は、明らかに人間を凌駕しつつある。人間が見落としてきた関連性や、一貫した統計的構造を浮かび上がらせる点では、強力な補助装置として機能する。人間では見い出せなかった因果関係を結びつける力技であれば、既存知識の再編成という意味での貢献は期待できる。ただし、それはあくまで既存の因果を組み替える行為にとどまる。世界に対して賭けを行い、失敗すれば自分が傷つくことを引き受けたうえで新しい推論を打ち立てる、その意味での未踏の推論を生み出すことはできない。賭けとは、間違えれば自分が損をする、それでも踏み出すという構造を持つ。LLMには損がない。

研究が示した「既存の推論ベンチマークの高スコアは、実際の科学的発見能力とはほとんど相関しない」という結論は、この文脈で極めて重要な意味を持つ。科学的知能と言語的知能は別物であり、現在のAIは後者を極限まで洗練させたが、前者は獲得していない。言語的知能とは、過去に承認されてきた説明形式を再現する能力である。科学的知能とは、世界からの拒否を引き受け、自己の信念を破壊してでも前に進む能力である。LLMが得意とするのは前者であり、後者には本質的に到達できない。

この研究が突きつけているのは、LLMの限界以上に、人間側の問題である。長年にわたってアカデミックが評価してきた考察やストーリーは、実際には思考そのものではなく、思考が行われたように見える言語的成果物だった。整合的な論理構成、既存研究との接続、もっともらしい因果ストーリー。これらはすべて外部から評価可能な指標であり、LLMが極めて高精度で再現できるものである。LLMの登場によって、私たちが長年思考の証拠として扱ってきたものが、実際には思考の代理物に過ぎなかったことが露呈した。

つまりLLMが科学者になれないのではなく、多くの科学者が実際には科学者的に振る舞えていない現実が、AIという鏡によって可視化されてしまったのである。事実を重視する立場から見れば、考察とは解釈モデルにすぎず、科学的に見えても恣意性を免れない。同じ事実を見ても人によって異なる行動を起こすことを見れば、これはある意味自明である。にもかかわらずアカデミックでは考察やストーリーが重視されてきたのは、共同体内で理解・評価・共有しやすい言語形式が優先されてきた結果であり、真理探究というより制度的要請に応えるためだった。LLMは、この制度が評価してきた部分だけを極限まで純化した存在である。だからLLMはアカデミック文章と異様なほど相性が良い。

LLMは科学を前進させる主体にはなり得ないが、科学の凡庸さや思考停止を増幅する補助輪にはなり得る。その使い方を誤れば、発見の加速ではなく、平凡な推論の大量生産が起こるだけだ。別のLLMが複数のLLMを比較し、その違いや変化を評価することは可能だが、それはあくまで第三者的な記述であり、評価される側のLLMは何も経験していない。変化は観測されうるが、引き受けられてはいない。LLMは最後まで関数であり、写像であり続ける。

この状況において人間研究者に残された道は明確である。評価すべきは正しさや美しさではなく、どこで解釈が通用しなくなり、どこで世界から拒否されたかである。思考とは、事実や現実に拘束され、誤りを引き受け、モデルを捨てざるを得なくなる過程にのみ現れる。論文には、うまくいかなかった仮説、説明できなかったデータ、解釈が破壊された瞬間、世界がノーを突きつけた箇所を記載する義務が生じる。完成されたストーリーだけでなく、失敗した仮説、説明できなかったデータ、捨てられたモデル、将来どの条件で自分の結論が否定されるかといった要素を評価の中心に据える必要がある。

この点を直視できるかどうかが、AI時代の科学における人間側の分水嶺になる。研究者とは、世界が誤りを強制する存在である。間違え、失い、訂正され、それでも続ける。LLMはここに立てないし、立つ必要もない。だから競争相手ではない。問題は、私たち人間の研究が、いつの間にかLLM側、すなわち拘束も賭けもない説明の生産に近づいてはいないかという点にある。最も鋭い問いは、あなた自身が書く論文は、どこで世界に殴られていますかという問いである。即座に指差せる一点がない論文は、ほぼ確実に世界と接触していない。多くの論文は、殴られた痕跡を消す。ノイズとして除外し、例外として扱い、今後の課題に回す。こうして世界の拳は編集によって無害化され、論文は整う。だがその瞬間に思考は死ぬ。

LLMが科学者の言葉を操れるが科学者の思考は獲得していないという命題は、LLMの欠陥を指摘しているのではなく、私たちが思考をどこまで言語に置き換えてきたかを示す冷酷な証拠である。この問いから逃げない限り、LLM時代においても思考としての研究は定義できる。ただしその代償として、論文は読みにくくなり、研究者は弱さと失敗をさらし、数は減る。それでも残るのは、言語ではなく、現実に拘束された思考だけである。

Q:	What is the difference between a duck?
A:	One leg is both the same.

Linus isn't saying that CVS and Subversion have fixable bugs or missing
features. It's not about the code.

He is saying that they solve the wrong problem. The Subversion team wants to
solve Problem A, and Linus wants to solve Problem B. No amount of code will
turn the solution to Problem A into a solution for Problem B. Bothering the
Subversion team with code addressing Problem B will only irritate them, since
they're working on Problem A.

The right way to handle differing goals is to start a different project.
That's what he did.

Don't be confused by the labels. Source Code Management means different things
to different people, and there isn't always much overlap in how each person
defines it. Ships and airplanes are both 'vehicles', but that doesn't mean
that a few changes will turn one to the other.

zzatz on:
http://developers.slashdot.org/comments.pl?sid=237163&cid=19367821

    -- zzatz
    -- Slashdot Comment ( http://developers.slashdot.org/comments.pl?sid=237163&cid=19367821 )

[ Main Page ]