思考らしく見える文章を評価してきた理由

なぜ私たちは「思考そのもの」ではなく「思考らしく見える文章」を評価してきたのか。この問いの核心には、極めて単純だが回避不可能な事実がある。他者の思考過程に直接アクセスすることは原理的に不可能だということだ。

査読者は論文を読む。採用委員会は業績リストを見る。評価者は発表を聞く。しかしそのどれも、研究者の頭の中で実際に何が起きたかを見ることはできない。私たちが接触できるのは常に思考の結果であり、思考の痕跡であり、思考の演技である。したがって制度は必然的に、観測可能な何かを評価せざるを得なかった。

その「何か」として選ばれたのが、論理的整合性、既存研究との接続、説明の完結性、文体の洗練度といった文章の表層的特徴だった。これらはすべて、それを生成した思考過程とは独立して判定できる。前提と結論が矛盾していないか、適切な引用がなされているか、専門的な語彙が使われているか。こうした基準は思考の代理指標として機能してきたが、実際には思考そのものを測定していなかった。

大量処理と標準化の圧力

現代のアカデミアは膨大な論文を処理する必要がある。年間数百万本の論文が出版され、査読者は限られた時間で複数の論文を評価し、採用や昇進の判断は数時間の審査で行われる。この条件下で「この研究者はどこで実在に拘束されたか」「どのような失敗を経て結論に至ったか」を評価することは物理的に不可能だ。

制度が求めたのは速やかに判断できる基準だった。研究過程の詳細な追跡、失敗した試行の検証、判断の背景にある価値観の理解、これらすべてには時間がかかりすぎる。したがって評価は「完成品の品質」という即座に判断可能な基準に収束した。論文は読めば分かる。思考過程は読んでも分からない。

さらに組織は異なる研究者や分野を比較する必要がある。採用では複数の候補者から一人を選び、予算配分では限られた資源を分配し、ランキングでは大学や研究機関を序列化する。この比較を可能にするため、共通の尺度が必要だった。思考の深さは共約不可能だが、論文の完成度は相対的に比較できる。インパクトファクター、引用数、論文数という数値化可能な指標が支配的になったのは、思考を測定できなかったからだ。

知識の商品化と流通

科学革命以降、知識は出版物として流通するようになった。この変化は単なる技術的変化ではなく、知識の性質そのものを変容させた。流通する知識は再利用可能でなければならず、第三者に伝達可能でなければならない。

思考過程は本質的に個人的で再現不可能だ。ある研究者が深夜に感じた直観的な違和感、実験の失敗を前にした絶望、偶然の観察から得た着想、これらは当人にとっては決定的に重要でも、他者には伝達できない。しかし「整形された説明」は教科書に書け、他者が引用でき、技術応用に転用できる。制度が評価したのは流通可能な知識商品であり、それを生成した思考ではなかった。

さらに論文は法的にも経済的にも、著作物として保護され、業績として計上され、資金獲得の根拠になる。この文脈では完成した成果物が価値を持ち、その生成過程は資産価値を持たない。むしろ試行錯誤や失敗や迷いを開示することは、未熟さとして減点されるリスクがある。知識が商品化された瞬間、思考過程は製造工程として不可視化されるべきものになった。

権威と専門性の演技

アカデミアは専門性の独占によって社会的地位を維持してきた。専門家であることの証明は、正しい答えを持っていること、確信を持って語れること、迷わないことだった。研究者が「実は分からない」「途中で迷った」「別の解釈もありうる」と正直に語ることは、専門家としての権威を損なう。

したがって論文は確信に満ちた語調で書かれ、迷いや失敗は削除され、最初から分かっていたかのように構成される。これは権威の演技であり、思考の誠実な開示ではない。しかしこの演技は個人の虚栄心ではなく、制度的要請だった。不確実性を開示する研究者は専門性を疑われ、失敗を記述する論文は未完成とされ、謙虚な留保は弱さと解釈された。

査読制度は誰が内部に入れるかを決定する門番として機能してきた。この機能を果たすため、評価基準は明文化されにくい暗黙知を含み、既存の権威が理解できる形式に従い、論文らしさという文化的コードへの適応を要求する。新規参入者は既存の形式を模倣することで承認を得る。これは思考の評価ではなく、文化的同化の評価だ。若い研究者が最初に学ぶのは「どう考えるか」ではなく「どう書くか」であり、その学習は思考の訓練ではなく様式の習得だった。

認知的快適さと確実性への欲望

読者や査読者も人間であり、認知負荷に耐えられない。複雑な思考過程を追体験するのは疲れる。因果関係が明確なストーリーの方が理解しやすい。未解決の問題より、綺麗に閉じた説明の方が心地よい。

思考の痕跡が残った論文は分岐が多く追うのが困難で、結論が曖昧で満足感が得られず、矛盾や未解決点が不快感を与える。一方、整形された論文は読みやすく、理解した気になれ、専門知識を獲得した満足感が得られる。制度は評価者の認知的快適さを最大化する方向に最適化された。

さらに科学は確実な知識を提供すると期待されている。しかし実際の研究は不確実性に満ちており、解釈は暫定的であり、結論は条件付きだ。この緊張を解消するため、論文は不確実性を隠蔽し、結論を断定的に述べ、限界を小さく書く。読者も査読者も、この確実性の幻想を維持することに無意識に加担してきた。分からないことを分からないと書く論文より、すべてを説明し切った論文の方が高く評価される。それは後者が真実に近いからではなく、読者に安心を与えるからだ。

言語中心主義の罠

西洋学術の伝統は明晰な言語表現を重視してきた。デカルトの明晰判明な観念、ライプニッツの普遍記号法、論理実証主義の検証可能性、これらすべては言語化可能なものだけを知識として認める立場だった。

しかし思考には言語化困難な要素がある。直観的な違和感、身体的な確信、視覚的・空間的イメージ、暗黙知や熟練。これらは非科学的として排除され、言語化されたものだけが思考として認められた。LLMが科学者の言葉を操れるのは、まさにこの言語中心主義の帰結だ。私たちは長年、思考を言語に還元してきたため、言語生成装置が思考を模倣できる状態を作り出してしまった。

論理実証主義以降、科学は記号操作として理解されてきた。仮説は命題として記述され、推論は形式的規則に従い、証明は記号列の変換だ。この見方では思考は構文操作に還元され、意味や理解は副次的になる。LLMはまさにこの構文操作を完璧に実行する。それが思考らしく見えるのは、私たちが思考を構文操作と同一視してきたからだ。

歴史的制約と経済的圧力

近代科学は印刷術とともに発展した。印刷物は線形的な記述しかできず、修正が困難で、スペースが限られていた。これらの制約が簡潔で完結した説明を求める圧力となった。思考過程の詳細な記述は物理的に不可能だった。

さらに出版社はページ数を制限し、完成度の高い論文を好み、速やかに出版する。この経済的圧力が無駄のない完成品を標準化した。研究者は与えられたページ数の中で最大限の情報を伝えようとし、その結果、思考過程という冗長な要素は真っ先に削除された。限られた紙面で評価されるのは、効率的に圧縮された知識であり、圧縮される前の生々しい思考ではなかった。

最も残酷な理由

しかし最も直接的な理由は、本当の思考は誰にとっても困難で苦痛だからだ。真の思考とは自分の信念が崩れる経験であり、答えが出ない状態に耐えることであり、既存の枠組みを疑うことだ。これは精神的に消耗し、時に存在論的危機をもたらす。

一方、思考らしい文章を書くことは既存のパターンに従えばよく、答えは既に参考文献にあり、安全で承認が得られる。皮肉なことに、制度は実際の思考を罰してきた。独創的すぎる研究は査読を通らず、不完全な論文は未熟とされ、失敗を開示すると評価が下がり、分からないと言えば専門性を疑われる。

この環境下で、研究者は思考を隠し、思考したように見える文章を生産する技術を磨いてきた。それは欺瞞ではなく、生存戦略だった。制度が求めているのは思考ではなく、思考の外観だと理解した者が、制度内で成功してきた。そしてその成功者が次世代を教育し、評価基準を再生産してきた。

LLMが暴いた構造

LLMの登場はこの構造を逆照射した。思考なしで思考らしい文章が生成できることが証明され、誰も内容を理解していなくてもシステムが回ることが明らかになり、形式さえ整えば価値があるとされてきた事実が露呈した。

LLMは欠陥品ではなく、私たちの評価制度の完璧な鏡だ。それは私たちが何を評価してきたかを正確に反映している。LLMが論文を書けるのは、論文が思考を要求していなかったからだ。LLMが査読者を騙せるのは、査読者が思考を見ていなかったからだ。LLMが研究者の仕事を奪えるのは、その仕事が思考ではなく文章生産だったからだ。

転換の必然性

思考らしい文章を評価し続ける限り、LLMに置き換え可能な研究者が量産され、実質的な知的進歩は停滞し、研究者の存在意義が失われる。この帰結は避けられない。

したがって評価の転換は倫理的要請ではなく、存在論的必然だ。評価すべきは拘束の痕跡、すなわちどこで現実に抵抗されたか。失敗の誠実さ、すなわち何がうまくいかなかったか。不確実性の開示、すなわち何が分からないままか。賭けの明示、すなわち何を失うリスクを取ったか。これらは思考らしさではなく、思考そのものの指標だ。

この転換は苦痛を伴う。論文は読みにくくなり、著者は弱さを晒し、評価は困難になり、数は減る。しかしそれでも残るのは、言語ではなく現実に拘束された思考だけだ。そしてそれこそが、LLM時代において人間が独占的に保持できる唯一のものである。

私たちが思考らしい文章を評価してきた理由は、悪意ではなく合理的な適応の積み重ねだった。しかしその帰結として、私たちは思考そのものを評価する能力を失った。LLMはこの欺瞞を終わらせる契機だ。もはや文章の品質だけでは思考を証明できない時代において、私たちは本当に思考を評価する制度を、初めて真剣に設計せざるを得なくなった。それは必然であり、もはや選択の余地はない。

Q:	Who cuts the grass on Walton's Mountain?
A:	Lawn Boy.

The recruiters-who-use-grep, by the way, are ridiculed here, and for good
reason. I have never met anyone who can do Scheme, Haskell, and C pointers who
can't pick up Java in two days, and create better Java code than people with
five years of experience in Java, but try explaining that to the average HR
drone.

    -- Joel Spolsky
    -- "The Perils of JavaSchools" ( http://www.joelonsoftware.com/articles/ThePerilsofJavaSchools.html )

[ Main Page ]