[ Main Page ]

GPT-5.3 Instant / Sonnet 4.6 Ext

リバーブアルゴリズム

技術解説文書

理論・実装・知覚・現代的手法の統合解説

Freeverb3 / FDN / Dattorro / Lexicon / 畳み込みリバーブ / ニューラルFDN

第1章　リバーブの本質と概論

1.1 リバーブとは何か

大きなホールで音楽を聴くと、楽器が演奏を停止した後もしばらく音が響き続ける。演奏中も音は響いており、それが音楽に艶やかさを与えるため、ホールでの演奏が好まれる。響きの美しいホールとして、東京・赤坂のサントリーホールなどが有名である。

リバーブとは単なる「残り音」ではなく、空間の情報そのものであり、音の奥行き・距離感・質感を決定する要素である。音響的には以下の2つの時間領域が同時に存在する。

初期反射（Early Reflections）：空間の大きさや壁の位置感を知覚させる（数ms〜100ms程度）
後期残響（Late Reverb）：音の包まれ感・豊かさを生む（それ以降の残響）

1.2 リバーブ生成の2大方式

実際のホールを使うことは時間的・金銭的に難しく、CDマスタリング等では仮想的にホールの響きを作り出すソフトウェアが使われる。Freeverb3はその代表例である。響きを作り出す方式には大きく分けて2つある。

方式	概要・特徴
FIR（畳み込みリバーブ）	実際の空間のインパルス応答を録音して使用。リアルだが柔軟性低く計算負荷が高い。「そのホールをコピーする技術」
IIR（アルゴリズミックリバーブ）	数学モデルで人工的に生成。軽量・調整可能・創造的だが設計が難しい。「ホールらしさを作る技術」。Lexicon等の商用ハードはほぼこちら

1.3 音の奥行き感の正体

音の前後感（奥行き）は主に次の3要素で決まる。

直接音 / 残響音の比率：多い→近い、少ない→遠い
高域成分量：多い→近い、少ない→遠い（空気吸収の知覚）
初期反射の時間：短い→近い壁、長い→大空間

つまり奥行きはリバーブ設計そのものである。

1.4 人間の知覚特性とリバーブ設計の関係

人間は「個々の反射」ではなく、エネルギー分布と時間変化のパターンを知覚している。ミックスで必要なのは正確な反射配置ではなく、密度（density）・減衰（decay）・周波数バランスである。

FIR（IR）リバーブが使いにくい場面がある理由として、以下が挙げられる。

特定の収録位置・マイク配置・指向性に固定され、音源が変わると不自然になる
距離感（直接音/反射音比）が録音に焼き込まれ調整が難しい
現実のホールの「スカスカな立ち上がり」は、ミックスでは寂しく聞こえやすい
床鳴り・空調ノイズ・不均一な共鳴など不要な情報が含まれる場合がある

これに対してアルゴリズミックリバーブは「聴感最適化された嘘」として機能し、ポップス・映画音楽・ゲーム音響など「音楽としての気持ちよさ」が優先される場面で有利となる。

第2章　アルゴリズムの系譜

2.1 Schroeder Reverb（古典・基本形）

もっとも古くから実装され、フリーソフトでも広く使われているのが、comb filterとallpass filterを組み合わせたリバーブである。ARI-WEBのページに詳しい説明がある。Freeverb3の前身であるFreeverbもこのアルゴリズムに基づいており、「Schroeder（シュレーダ）のリバーブ」と呼ばれる。

構成

Comb filter：残響密度を作る（複数並列）
Allpass filter：音を拡散する（直列接続）

特性

実装が非常に簡単
金属的な音（metallic）になりやすい
特定周波数でリンギング（共鳴強調）が発生しやすい

問題の本質はモード（共鳴）の偏り、すなわちランダム性の不足にある。comb filterが等間隔の周波数ピーク（定在波的な構造）を生じさせることが「チーン」という金属感の原因である。

そのため「高品質さ」を求める場面では使われることが少ない。一方で、金属的な音からプレートリバーブ（金属板に音を入力して振動を出力とする実機）の代わりとして使われることがある。

Freeverbは経験的に求めた数値に基づいてフィルタが作成されており、比較的金属的な音が少ないとされるが、限界はある。

2.2 Schroeder系の改良版（Freeverb3_VSTの実装群）

実装名	特徴
Freeverb	Schroeder改良型。軽量・簡易。経験的パラメータで比較的金属感を抑制
CCRMAのNRev	Freeverbと同様のアルゴリズムをより洗練させたもの
NVerb（v2）	Allpassの入れ子＋入力フィードバックを利用してリンギングを極力抑制。低音の響きが改善

Allpass filterの入れ子構造（Nested Allpass）

通常（直列）：input → AP → AP → AP と接続するのに対し、入れ子では AP の内部に別のリバーブアルゴリズムを挿入する。これにより：

時間構造がより複雑になる
エネルギー分布が均一化する
低音の響きが大幅に改善する

直列のオールパスフィルタより入れ子の方が品質が高いことはあまり知られていないが、Schroeder自身も昔からこのアルゴリズムに言及していた。

◆ comb filterのfeedback部分にmodulationを加えてChorusとすることでリンギングが抑えられやすく、LexiconのConcert Hallアルゴリズムは「Chorus comb filter + allpass filter + 入れ子allpass filter」に基づいていると推測される。

2.3 FDN（Feedback Delay Networks）

Schroederリバーブの問題を解決するために生まれた方式の一つ。いくつかの異なった長さのdelay lineと、それを撹拌・出力するための行列からなるアルゴリズムである。Freeverb3ではHibiki Reverbとして実装。

基本モデル（数式）

FDNは多入力多出力の再帰システムとして以下のように記述できる。

x(n) = A · x(n-D) + B · u(n)

y(n) = C · x(n)

x(n)：各ディレイラインの状態ベクトル
D：各ディレイ長（成分ごとに異なる遅延）
A：フィードバック行列
B, C：入出力の重み

安定性

システムが安定 ⟺ スペクトル半径 ρ(A) < 1 が条件となる。ただしFDNではディレイがあるため、より正確には「Aがユニタリ（または直交）かつ減衰が入っている状態で安定」となる。

ユニタリ行列 A：A^T · A = I → エネルギー保存、ノルム不変 → 音のエネルギーが偏らない
フィードバックループ内にLPFなどを入れる → 固有値の絶対値 < 1 → 減衰が発生

固有値と音の関係

固有値の位相 → 共鳴周波数を決定する
固有値の絶対値 → 減衰速度を決定する

つまりFDNは「多数の減衰振動モードの集合」である。固有値が偏ると特定周波数が強調（リンギング）し、ディレイ長が単純比になるとモードが重なる。これはSchroederが金属的になる理由と同じ構造的問題である。

8個以上のディレイラインとアダマール行列

8個以上のディレイラインとアダマール行列を使えば、かなり簡単に高品質な残響が作れる。実際の残響にあるような周波数の位相変化などについては、リアルタイムに行列を変化させることで対応する実装が多い。初期残響音の生成にもアルゴリズム的に対応しやすく、広く活用されている。

2.4 Loop Tank Reverb（ループタンク型）

ビンテージデジタルリバーブとして広まったLexicon 224やEMT 250は「暖かい」きれいなリバーブとして高く評価されているが、allpass filterを利用したループ（タンク）のアルゴリズムによるところが大きい。大きなループを作ることで、FDNと同様に時間とともに密度が高くなるリバーブを作ることができる。

EMT 250の構成

Pre-delay
3段のAllpass filter（diffuser）
全長80ms〜120msになるAllpass filterを基本としたfeedback loop
出力は feedback loop中の複数のtapから取得
Schroeder decorrelator（直列allpass filter群）を通過
うち一つはLPFとHPFを通してから入力にフィードバック

アルゴリズムとしては単純だが、各最適なdelay長とgainを探すのが難しい。

Lexicon 224の構成（Dattorroアルゴリズム）

Lexicon 224はリバースエンジニアリングによってESPのリバーブとしても実装され、論文にも掲載されている。ESPのマニュアルはFreeverb3のサイトにミラーされている。

入力に対するdiffuser
allpass補完によるmodulationを含んだ左右8の字型のfeedback（クロスフィードバック）
数tapの出力加算

feedback loopの長さがあまり長くなく、Plate Reverbとされているが、係数を調整すれば相応の響きが得られる。Freeverb3_VSTではSTRevとして、ホール用の別ループに基づいたProG Reverb（Progenitor Reverb）としても実装されている。

◆ Progenitor Reverbのメインfeedback loopはDattorroの公開アルゴリズムに基づくが、入力のdiffuser・出力のタップは独自の経験に基づく。ループ内部やdiffuserのfeedback係数は0.5程度が基本で、実験によると0.4〜0.8の間に最適値があるとされる。

Dattorroアルゴリズムのブロック構造

全体構造は以下の流れとなる：入力 → プリディレイ → 複数のAllpass（diffuser） → メインループ（2系統クロスフィードバック） → タップ出力（複数点） → ダンピング

核心はクロスフィードバックである。左ループと右ループがそれぞれ自分自身にフィードバックしながら、相手にもフィードバック（クロス）する。これにより情報が混ざり、密度が爆発的に増える。

構成要素	知覚的役割
Allpass diffuser（入力直後）	トランジェントを分散、初期エコーを消す「空間に入った瞬間の拡散」
ループ内Allpass	追加拡散。フィードバック係数0.4〜0.8が最適
ダンピング（LPF）	高域を自然に減衰。これがないと「デジタル臭い」
モジュレーション	固定モードを時間的に破壊。金属感を除去し「生きている」感を生む
タップ出力（複数点）	異なる時間位置・位相からの出力。ステレオ感・広がりを生成

FDNとの本質的違いは以下のとおり。FDNが行列で一気に混ぜるのに対し、Dattorroは構造的に（時間的・段階的に）混ぜる。これによりより「音楽的」に調整しやすい。

2.5 周波数分割（マルチバンド処理）

ある程度新しいLexiconのリバーブは周波数分割により、それぞれの帯域に最適なアルゴリズムを利用して残響を生成している。

プレートリバーブ用アルゴリズム：ループが短く、内部で低周波の残響を生成しにくい
ホール用アルゴリズム：ループが長いため、高周波の残響が生成しにくい

パラメータBass XOVは、低周波を分割処理して低音域の残響時間を延長等するための仕組みである。Lexiconはかなり初期からこの分割アルゴリズムを採用しており、低音に強い暖かみのあるリバーブとなっている。実際の環境でも、低音は指向性が低く高音は指向性が高いため、分割処理の採用には物理的な合理性がある。

周波数依存性の知覚的意味

低音：マスキングが強く位相感度が低い → 長くしても不快にならない
高音：分解能が高く敏感 → 短くないと不自然

情報理論的には、低域はエントロピー増加（豊かさ）、高域は相互情報量減少（拡散）を早期に達成する。

2.6 アルゴリズム進化の系譜（まとめ）

世代	代表例	核心構造	音の特徴
第1世代	EMT 250（1976）	短ループ＋Allpass	不完全だが暖かい粒状感
第2世代	Lexicon 224 / 480L	知覚最適化＋マルチバンド＋ランダム化	音楽的・魔法的な尾
第3世代	Bricasti M7	Waveguide的物理近似	現実の空間を再現
第4世代	DiffFDN / PINN	学習による統合	知覚・物理・情報の統合

第3章　コンボリューション・IRリバーブ技術

3.1 「コンボリューション」用語の正確な定義

convolution の正確な訳語は「畳み込み」である。「叩き込み」という表記は画像処理ソフトの誤訳に端を発する誤りであり、技術文書では使用しない。

数学的定義：

y(n) = Σ_k x(k) · h(n-k)

x(n)：入力信号
h(n)：インパルス応答（IR）
y(n)：出力

音響的意味：IR = 空間（または機器）の「応答の全て」であり、コンボリューション = 「入力をその空間で鳴らした結果を計算すること」である。

3.2 IRとデコンボリューション（逆フィルタ）

マイク変換（例：SM57 → U87）に必要なのはデコンボリューション（逆フィルタ）である。

H_IR(ω) = Y(ω) / X(ω)

X：入力（既知）
Y：出力（録音）

実務上の問題として、周波数でゼロに近い箇所での「ゼロ割」によるノイズ増幅がある。対策として正則化（regularization）や帯域制限が用いられる。

3.3 IR計測：スイープ信号の使用

理想はデルタ関数入力だが、実際にはS/Nが悪すぎて使えない。現代の標準手法はサイン波スイープまたはTSP（Time-Stretched Pulse）を使う方式である。

手順

スイープを再生する
応答を録音する
逆畳み込み（deconvolution）: h(n) = y(n) * x^-1(n)

スイープが優れている理由

高S/N比が得られる
非線形歪み成分をスイープの時間方向に分離できる（非線形成分は別の時刻に現れる）

3.4 リアルタイム畳み込みとFFT高速化

計算量

直接計算：O(N²) → 長いIRでは不可能
FFT畳み込み：O(N log N) → 実用的

FFT畳み込みの式：Y = IFFT(FFT(X) · FFT(H))

レイテンシ問題

FFTはブロック処理のため、ブロックサイズ分の遅延が発生する（例：1024サンプル → 約20ms）。

解決策：ハイブリッド方式

初期部分（短時間）→ 直接畳み込み（低レイテンシ）
後期部分（長時間）→ FFT（高速）

これにより低レイテンシと高速処理を両立する。

3.5 IRの本質的限界（LTI系のみ）

IRが表現できるのはLTI（Linear Time-Invariant）系のみである。

再現できるもの	再現できないもの
周波数特性・残響・位相応答	真空管アンプの偶数次倍音歪み（非線形歪み）
空間の線形応答全般	スピーカーの非線形コンプレッション効果
FM的変調（時間依存の周波数変化）

IRは「音の形」は再現できるが「振る舞い」は再現できない。また、収録機材（スピーカー・マイク）の特性はデコンボリューションである程度除去できるが、S/N比・ダイナミックレンジ・歪みの制約から完全除去は不可能である。

3.6 ソフトウェア史と主要製品

当時の代表的なコンボリューションリバーブソフトは以下のとおりである。

ソフトウェア	特徴
SIR（Windows専用・フリー）	初期は高レイテンシ。バージョンアップで順次改善
WAVES IR-1 / IR-L	業界標準クラスの商用製品
Altiverb	4ch IRによりステレオI/Oに対応。定位再現性が高く付属ライブラリの質も高い。ただしiLok必須・高価格が障壁
Voxengo Pristine Space	高コストパフォーマンスの商用製品
WizooVerb W2	商用製品

◆ AltiverbはステレオI/Oに対応した4chのIRを持つため定位再現性に優れる。Altiverb専用フォーマット（リトルエンディアン24bit PCM＋リソースフォークのゲイン補正情報）のWAV変換手順が共有された。フリーのIR素材配布サイトとしてNoisevault・Voxengo・memi.comなどが活用された。

3.7 IRの創造的応用

IRは「空間の録音」だけではなく、様々な創造的応用がある。

実空間のホール・部屋のIR：本来の使い方
機材IR：Lexicon 480/960等の高級デジタルリバーブ機のIRを収録・流用
楽器ボディIR：ヴァイオリンやピアノの胴鳴りIR → 共鳴付加
ヴィンテージ機器IR：カセットMTR、ゲームボーイ等の機器特性の転写
非IRデータの利用：声・ドラムループ・ノコギリ波などをリバーバーに投入すると、y = x * （任意信号）という形でスペクトル変換装置として機能する

第4章　FDN実装（C++）

4.1 FDNの基本実装

以下はC++によるFDNの基本実装例である。テンプレートパラメータ length がFDNの次元数を指定する。feedbackの範囲は [-1.0, 1.0] で、範囲外では発散する。

template<typename Sample, size_t length>

struct FeedbackDelayNetwork {

size_t bufIndex = 0;

std::array<std::array<Sample, length>, 2> buf{};

std::array<std::array<Sample, length>, length> matrix{};

std::array<Delay<Sample>, length> delay;

std::array<RateLimiter<Sample>, length> delayTimeSample;

Sample process(Sample input, Sample feedback) {

bufIndex ^= 1;

auto &front = buf[bufIndex];

auto &back = buf[bufIndex ^ 1];

front.fill(0);

for (size_t i = 0; i < length; ++i)

for (size_t j = 0; j < length; ++j)

front[i] += matrix[i][j] * back[j];

input /= Sample(length);

for (size_t idx = 0; idx < length; ++idx) {

auto &&sig = input + feedback * front[idx];

front[idx] = delay[idx].process(

sig, delayTimeSample[idx].process());

}

return std::accumulate(front.begin(), front.end(), Sample(0));

}

};

◆ リセット関連のメソッドは省略。テンプレートパラメータ length が大きい時はstd::vectorへの書き換えを推奨（dim=200程度が上限の目安）。

処理ループの構造

前半（最初の空行まで）：フィードバックを受け取るバッファの入れ替え
中間（2つ目の空行まで）：フィードバック行列の計算
後半：ディレイへの入出力の計算

引数 feedback はフィードバック行列の値をまとめて変更するスカラー係数。ただし Delay は線形補間を行っているため、ディレイ時間が整数でなければ徐々に出力が減衰する。

4.2 安定性の本質

安定条件

FDNが発散しない条件：ρ(g·A) ≤ 1（ρ：スペクトル半径）

直交行列の意味

直交行列 A について A^T · A = I が成立する。これにより |λ_i| = 1 となり、エネルギーが保存される。

‖y‖² = ‖Ay‖²

つまり、直交行列 + |g| < 1 の組み合わせで必ず安定となる。減衰は g のみで制御される。

◆ Schlecht と Habets の "On lossless feedback delay networks" によると、FDNが発散しないためにはフィードバック行列をユニタリ行列か三角行列にするとよい。

4.3 ディレイ長の設計

重要条件

互いに素（co-prime）に近い値を選ぶ
同じ倍数を避ける

悪い例と良い例

悪い例：100ms, 200ms → 強い周期性が生まれる
良い例：97ms, 131ms, 173ms, 211ms ... → モードの偏りを防ぐ

自動生成アルゴリズム

互いに素生成：素数列や疑似素数列を使用（例：97, 131, 173, 211...）
最小相関最適化：J = Σ_{i≠j} corr(D_i, D_j) を焼きなまし法等で最小化
対数間隔配置：D_i = D_min · r^i（周波数的に均等）

最適解は解析的に求まらず、探索と経験則のハイブリッドとなる。

第5章　フィードバック行列の設計

5.1 行列の種類と音響特性

Schlecht と Habets の研究によると、FDNが発散しないフィードバック行列の主な種類として、ユニタリ行列（複素数を含む場合あり）と三角行列がある。今回の実装では直交行列（実数のユニタリ行列）で十分である。

行列の種類	特徴・音の傾向
ランダム直交行列	高い拡散性・均一なエネルギー分布。金属感少なく滑らか。scipy.stats.ortho_group.rvs()相当
特殊直交行列	行列式=1。ランダム直交との音の違いは聴き取りにくい
Householder行列	H = I - 2(vv^T)/(v^Tv)の形。dim個の乱数から構築可能。拡散は弱めでキャラが出やすい
アダマール行列	±1のみ。完全直交。高速（加算のみ）。ランダム直交と似た音でCPU効率良好
巡回行列	シフト構造・周期性あり。「管っぽい」音。DFTで対角化可能
三角行列	初期反射が強く金属感あり。ショートディレイが目立つ
Conference行列	対角成分が0。非常に自然で自己ループ（金属音源）が最小。大変良い音
吸収オールパス行列	Schlecht-Habets論文の式(10)。FDNを使わない方が効率的な場合あり

行列選択の指針

行列の値を固定するならアダマール行列かConference行列が良い選択（-1, 0, 1の3値のみで整数演算にも対応）
直交行列・特殊直交行列は対角成分の大きさを調整することで質感のコントロールが可能
三角行列とSchroederリバーブ行列は変調をかけると逆に味が出る

5.2 直交行列のランダマイズ（C++実装）

Mezzadri の "How to generate random matrices from the classical compact groups" を参考にした実装。scipy.stats.ortho_group.rvs() のC++翻訳版。

template<size_t dim>

void randomOrthogonal(unsigned seed,

std::array<std::array<Sample, dim>, dim> &H) {

pcg64 rng{}; rng.seed(seed);

std::normal_distribution<Sample> dist{};

H.fill({});

for (size_t i = 0; i < dim; ++i) H[i][i] = Sample(1);

std::array<Sample, dim> x;

for (size_t n = 0; n < dim; ++n) {

auto xRange = dim - n;

for (size_t i = 0; i < xRange; ++i) x[i] = dist(rng);

Sample norm2 = 0;

for (size_t i = 0; i < xRange; ++i) norm2 += x[i] * x[i];

Sample x0 = x[0];

Sample D = x0 >= 0 ? Sample(1) : Sample(-1);

x[0] += D * std::sqrt(norm2);

Sample denom = std::sqrt(

(norm2 - x0*x0 + x[0]*x[0]) / Sample(2));

for (size_t i = 0; i < xRange; ++i) x[i] /= denom;

for (size_t row = 0; row < dim; ++row) {

Sample dotH = 0;

for (size_t col = 0; col < xRange; ++col)

dotH += H[col][row] * x[col];

for (size_t col = 0; col < xRange; ++col)

H[col][row] = D * (H[col][row] - dotH * x[col]);

}

◆ 乱数生成器にPCGを使用するのはNumPyのdefault_rng()で採用されているため。安定性が重要なのでstd::minstd_randより好ましい。

5.3 アダマール行列（Sylvester's construction）

初期値として 1/sqrt(dim) を使い、タイリングで再帰的に構成する。dim は2の冪乗でなければならない。

template<size_t dim>

void constructHadamardSylvester(

std::array<std::array<Sample, dim>, dim> &mat) {

static_assert(dim && ((dim & (dim-1)) == 0), ...);

mat[0][0] = Sample(1) / std::sqrt(Sample(dim));

size_t start = 1; size_t end = 2;

while (start < dim) {

for (size_t row = start; row < end; ++row)

for (size_t col = start; col < end; ++col) {

auto &&value = mat[row-start][col-start];

mat[row-start][col] = value; // Upper right

mat[row][col-start] = value; // Lower left

mat[row][col] = -value; // Lower right

}

start *= 2; end *= 2;

}

5.4 Householder行列

H = I - 2(vv^T)/(v^Tv) の形で表現される。dim個の乱数から直交行列を組み立てられ、対称行列になる（H = H^T）特徴がある。

template<size_t dim>

void randomHouseholder(unsigned seed,

std::array<std::array<Sample, dim>, dim> &matrix) {

// ... (一様乱数でvecを初期化)

auto scale = Sample(-2) / denom;

for (size_t i = 0; i < dim; ++i) {

matrix[i][i] = Sample(1) + scale * vec[i] * vec[i];

for (size_t j = i+1; j < dim; ++j) {

auto value = scale * vec[i] * vec[j];

matrix[i][j] = value; matrix[j][i] = value;

}

5.5 Conference行列

Conference行列の大きさは「2つの平方数の和となる偶数 q（OEISのA286636相当）に対してq+1」という条件を満たす必要がある。OEIS数列A000952（候補：62, 54, 50, 46, 42, 38, 30, 26, 18, 14, 10, 6, 2）を候補として使用。

対角成分が0であるため、単純なコムフィルタになっている部分がなく音質が良い。

構成手順

modulo = dimension - 1 として quadratic residue の集合を計算
Legendre symbol の配列を生成（0, +1, -1 の値をとる）
symbol 配列を回転させて行列 S を構成
最終行列は C[0][0]=0, C[0][i]=C[i][0]=1/sqrt(modulo), C[i][j]=S[i][j] の形

5.6 吸収オールパス行列（Absorbent Allpass Matrix）

Schlecht-Habets の "Time-varying feedback matrices in FDN" で紹介された行列。オールパスフィルタの入れ子を表現する。α の範囲が (-1, 1) なら収束する。

template<size_t dim>

void randomAbsorbent(unsigned seed, Sample low, Sample high,

std::array<std::array<Sample, dim>, dim> &mat) {

// dim は偶数必須

constexpr size_t half = dim / 2;

// 上半分(half×half)の直交行列 A を生成

randomOrthogonal(seeder(rng), A);

for (size_t col = 0; col < half; ++col) {

auto gain = dist(rng);

mat[half+col][half+col] = gain; // 右下

mat[half+col][col] = Sample(1) - gain*gain; // 左下

for (size_t row = 0; row < half; ++row) {

mat[row][half+col] = A[row][col]; // 右上

mat[row][col] = -A[row][col]*gain; // 左上

}

5.7 単位行列に近いランダム特殊直交行列の生成

randomSpecialOrthogonal の乱数生成部分を以下のように変更することで、単位行列への近さを調整できる。

x[0] = Sample(1);

for (size_t i = 1; i < xRange; ++i)

x[i] = identityAmount * dist(rng);

identityAmount を 0 に近づけるほど単位行列に近づく（対角成分強化）
1 を大きく超えると対角成分が他の成分に比べて小さくなる

音響的には identityAmount を下げると初期反射が強化され後期残響が弱化する傾向がある。

5.8 固有値を直接設計する方法

通常はフィードバック行列 A から固有値が決まるが、逆に固有値を先に設計する「固有値直接設計」も可能である。

設計手順

固有値配置：λ_k = r_k · exp(jθ_k) の形で θ_k を均等配置、r_k は周波数依存減衰に設定
行列再構成：A = V Λ V^-1（Λ：設計した固有値、V：任意の直交基底）

実用解

行列はユニタリに保ち、減衰は別フィルタとして分離する方法（数値安定性が高い）
周波数依存フィードバック：g(ω) = exp(-α(ω)) とする方法

固有値設計の本質は「減衰スペクトルの設計」である。

第6章　知覚モデルとリバーブ設計

6.1 「良いリバーブ」の知覚条件

良いリバーブ	悪いリバーブ
エコーを感じない（密度が時間と共に増える）	金属的（metallic）
低音が自然に伸びる	周期的（ピンポン感）
高音がうるさくない	濁る or 輪郭が消える
音像を壊さない	特定帯域が強い
エネルギー分布が時間とともに均一化する	リンギングが明確に聴こえる

6.2 JND（Just Noticeable Difference）

人間が違いを感じる最小量（JND）の目安：

RT60の変化：≈5〜10%程度
プリディレイ：数ms単位

JNDを知ることで「無駄に精密な設計は不要」という設計原則が導かれる。1ms単位の最適化や聴覚限界以下の周波数分解能設計は実質的な意味を持たない。

6.3 聴覚マスキング

周波数マスキング

強い音が近い帯域の弱い音を隠す。EMT 250の「粒状感」がマスキングを生み、完全拡散よりも心地よく聴こえる場合がある（「不完全さが知覚的最適」というパラドックス）。

時間マスキング

直後の音が聞こえなくなる効果。初期反射は直接音にマスクされるため完全な物理再現は不要。

設計原則

聞こえない差は無視する
聞こえる差に集中する
完全な物理再現より「気持ちよさ」を優先することが多い

6.4 情報理論的視点

音場を「波」ではなく「情報源」として捉える。

初期反射：低エントロピー（構造的・予測可能）
後期残響：高エントロピー（ランダム・予測不能）

良いリバーブの目標：時間とともにエントロピーが滑らかに増加すること。

相互情報量の観点

初期：I(X;Y) が高い（入力と出力の相関が強い）
後期：I(X;Y) が低い（入力の情報が十分に拡散）

金属音の情報理論的解釈：情報が拡散されず、構造が知覚されてしまう現象である。

6.5 リバーブ設計の3層構造

① 初期反射（Early Reflections）

役割：空間サイズの知覚、音源との距離感
設計：数ms〜100ms、明確なディレイの集合、ランダム配置 or 幾何ベース
重要：FDNやAllpassよりも「ディレイ設計」が支配的

② 拡散（Diffusion）

役割：音を「バラす」、エコー感を消す
主役：Allpass filter
重要パラメータ：フィードバック係数（4〜0.8）、ディレイ長（短いほど滑らか）
弱いと「粒立ち」が出てしまう

③ 後期残響（Late Reverb）

役割：音の尾（テール）、空間の質感
実装：FDN / Loop / Schroeder系
「どのアルゴリズムを使うか」の主要な選択肢

第7章　商用リバーブの知覚最適化

7.1 Lexicon 480L Random Hall

Lexicon 480Lの知覚的な「魔法」は、Bass XOV（マルチバンド処理）・制御されたモジュレーション・Loop Tank構造の組み合わせによる。

CHO値（モジュレーション）

Random Hallでは内部モジュレーション（Decay Optimization）がCHOに相当する。

最適値：CHOを中〜低め（1〜0.3程度）
深くしすぎるとコーラス化（不自然なピッチ変調）で「デジタル臭」が増す
浅くランダムにすることで固定モードを破壊し、「微かな生き物のような揺らぎ」を与える
V2アルゴリズムでは「designed to be noticed」と公式に記述されており、V1より深いモジュレーションを採用

Bass XOVの聴感最適値

Bass XOV（クロスオーバー）：≈500Hz前後（ブースト用途）〜5kHz（自然ホール再現時）
Bass Multiply（BAS）：2〜1.5X程度で低域残響時間を延長
RT HF CUT：中くらい（5前後）
HF CUTOFF：低め（5〜7kHz付近）
Pre-delay：20〜40ms（Large RHall）

◆ マニュアルでは「BASS MULT最大、RT HF CUT中、HF CUTOFF低」が理想的なコンサートホール設定として明記されている。

Lexiconが「暖かい」理由（数理的解釈）

Bass XOVは周波数ごとに最適な情報拡散速度を変える機構であり、以下の物理的・知覚的事実に基づく。

低域：RT60が長い（y_low のτが大きい） → マスキングが強くエントロピー増加に貢献
高域：RT60が短い → 分解能が高く敏感なため早く減衰させる
結果：「包まれ感」「奥行き」「暖かさ」が大幅に向上

7.2 M7 V2 Modulationの数理的再現

公式マニュアルによると、V2 modulationはlate reverb tailのpitch variationであり、chorusやflangeとは異なる。

各delay tapの時間 D_i(t) を独立に変調：D_i(t) = D_i + Δ · m(t, level)

level依存の変調関数 m(t)

Low設定（1〜3）：m(t) = sin(2π·f·t + φ_i)（f ≈ 0.1〜5Hz）。左右位相差で「smooth left-to-right movement」
High設定（6〜High）：低周波平滑化ノイズ（Perlin noiseや1/f noiseの合成）。各delay lineで独立したnoise源
Mid設定（4〜5）：m(t) = α·sine + (1-α)·noise（α = 0.5〜7）

// C++実装（簡略）

Sample sine = std::sin(2.0f * M_PI * modFreqBase * phase[i]);

Sample noise = 0;

for (int k = 0; k < 3; ++k)

noise += std::sin(2.0f * M_PI * (modFreqBase*(k+1)) * np[i])

/ (k+1);

noise /= 3.0f;

// Lowはsine支配、Highはnoise支配、Midはブレンド

7.3 EMT 250の知覚最適化

世界初の商用デジタルリバーブ（1976年）。Loop Tankの元祖。

非線形的な「わずかな粒立ち」がマスキング効果を生み、金属音を感じさせない
低域が豊かで「プラグインより肉感的」と評される
「不完全さが知覚的最適」の典型例：完全拡散より気持ちよい場合がある
FDNで再現するなら：短いループ + 強めのallpass diffuser + 自然ダンピング

7.4 Bricasti M7のアルゴリズム推測（Waveguide風）

Bricasti M7の内部アルゴリズムは完全非公開だが、音響特性から散乱型Waveguide Networkを強く意識した構造と広く推測されている。

Waveguide風の特徴

音の伝播を「離散化された波動方程式の近似」として扱う
複数の遅延線を散乱行列（scattering matrix）で接続
初期反射が幾何学的（realistic ER）で、後期残響が統計的に自然に密度増加
「音が部屋の中に置かれる」実在感が生まれる

FDNとの対比

FDN：行列で一気に撹拌 → 統計的自然（「空気」）
M7推測Waveguide：段階的散乱 + 低次元波動メッシュ → 空間の方向性・距離感が物理的に再現（「空間」）

7.5 現代プラグイン比較

特性	Lexicon 480L	Valhalla VintageVerb	Bricasti M7
3D感/奥行き	魔法的（知覚最適化）	美しい広がり	圧倒的リアリティ
暖かさ/低域	多バンドで豊か	十分暖かい	自然だが肉厚
音楽性	最高（感情を誘う）	高い（Lexicon風）	やや控えめ
金属音	ランダム化で良好	非常に優秀	ほぼゼロ
ミックス適性	前に出て埋もれにくい	前に出る・ポップス向き	自然に溶け込む
キャラクター	ヴィンテージ魔法	現代的Lush	現代的リアル

◆ Lexicon 480Lは「物理的正しさより知覚的正しさ」を体現した存在。DiffFDNやPINNが目指す「perceptual loss最適化」を、1980年代に人間の耳で先取りしていた。

第8章　現代的手法：ニューラル・物理ハイブリッド

8.1 知覚最適化を目的関数にしたDiffFDN

従来のFDN設計は安定性と拡散性を数学的に追求してきたが、「人間がどう聞こえるか」を直接最適化することができる。

目的関数

J(θ) = Σ_t w_t · d(P(y_θ(t)), P(y_target(t)))

θ：FDNパラメータ（行列A, ディレイ長D_i, ゲインg等）
P(·)：知覚変換（ERBフィルタバンク + ラウドネス圧縮 + 時間積分）
d(·)：知覚距離（mel-spectrogramの平均絶対差、EDC誤差等）

mel-spectrogramベースのperceptual loss（実装例）

def perceptual_loss(y, y_target):

Y = loudness(mel(y))

Yt = loudness(mel(y_target))

return torch.mean(torch.abs(Y - Yt))

8.2 ニューラルFDN（制約付き学習）

FDN自体をニューラルネットで学習させる。直交制約はパラメータ化によって保持する。

class FDN(nn.Module):

def __init__(self, N=8):

super().__init__()

self.S = nn.Parameter(torch.randn(N, N))

self.delay = nn.Parameter(torch.rand(N) * 2000)

def orthogonal_matrix(self):

S = self.S - self.S.T # 反対称行列

return torch.matrix_exp(S) # exp(S) は常に直交

反対称行列 S の matrix_exp をとることで、A = exp(S) が常に直交行列となり安定性が保証される。

8.3 総合Loss関数

def total_loss(x, y, y_target):

lp = perceptual_loss(y, y_target)

le = -entropy_loss(y) # エントロピー最大化

lmi = mutual_info_loss(x, y) # 相互情報量最小化

ld = decorrelation_loss(y) # デコリレーション

return lp + 0.1*le + 0.1*lmi + 0.1*ld

8.4 ニューラル＋物理ハイブリッドモデル（PINN）

分解

y_early：レイトレーシング or 幾何音響（波動方程式の初期解）
y_late：FDN(θ) + F_NN(x)（物理制約 + NN補正）

Physics-Informed Neural Networkの応用

波動方程式 ∂²p/∂t² = c² ∇²p を損失関数に組み込む。

Loss = DataLoss + PhysicsLoss

PhysicsLoss = ‖∂²p/∂t² - c² ∇²p‖²

ハイブリッドの利点

データ効率が高い（少ない実測IRで学習可能）
非線形効果（軽い歪みやコンプ）をNNで追加可能
リアルタイム処理：earlyはGPUレイトレーシング、lateは軽量FDN+NN

8.5 ニューラルIR（動的IR）

従来IR：y(n) = x(n) * h(n)（hが固定）に対し、ニューラルIRは：y(n) = Σ_k x(k) · h(n, k)（hが時間依存）。

時変フィルタ：h = h(n, θ)（θ：状態・時間・入力依存）
ニューラルネット：h = f_θ(x, t)（入力からIRを生成）
特徴：非線形性を間接的に表現・状態依存。ただし学習データ依存・解釈困難
本質：「IRを生成する関数」を学習する

8.6 LiquidSonics Seventh HeavenとM7の比較

Seventh HeavenはFusion-IR（複数IRのmodulated capture）という独自技術でM7を再現している。静的IR（Samplicity M7 IR等）とは根本的に異なる。

純粋IR：固定インパルス応答。密度・減衰が「焼き込まれ」て静的。金属音が出やすい場合あり
Seventh Heaven：複数IRをmodulationで合成。M7の「動的modulation」と「生きている尾」を再現
評価：盲聴テストで「ハードウェアM7に近い」との評価多数。ハードウェア本体にはわずかに劣るが「M7の9割以上を再現」

8.7 固有値分布のリアルタイム制御

固有値を動的に制御するモデル：λ_k(t) = r_k(t) · exp(jθ_k(t))

実装方法

行列補間：A(t) = V Λ(t) V^-1
回転更新：A(t+1) = R(t) · A(t)（R(t)：回転行列）
時変フィードバック行列（既存論文で実証済み）

効果と注意点

固定モードによる金属音が完全に消失
残響時間をリアルタイム変化させる際に自然な移行が可能
急激な変化はノイズを発生させる → LFOや知覚JNDを考慮した制御が必要

◆ これは残響を「静的構造から動的場へ」移行させる重要なアイデアである。

第9章　Volterra非線形拡張

9.1 なぜ非線形が必要か

IRはVolterra系列の「1次項だけ」である。現実の音響環境には以下の非線形性が存在する。

エネルギー依存減衰：大音量ほど減衰が早い
周波数間変調（IMD）：高域が歪む
ダイナミックコンプレッション：反射ごとに圧縮

これらはすべてVolterraの2次・3次項で表現可能である。単なる後段歪み（waveshaper）は不十分で、畳み込みの中に非線形性を入れる必要がある。

9.2 Volterra系列の定義

線形系：y(t) = ∫ h₁(τ) x(t-τ) dτ

Volterra系列（非線形に拡張）：

y(t) = ∫ h₁(τ) x(t-τ) dτ

+ ∬ h₂(τ₁,τ₂) x(t-τ₁) x(t-τ₂) dτ₁dτ₂

+ ...

h₁：通常のIR（1次項）
h₂：非線形相互作用（2次項） → 倍音・IMD
h₃以上：高次歪み

9.3 FDNへの組み込み（線形＋非線形）

非線形FDN（Volterra型）

x_i(n+1) = Σ_j A_ij x_j(n) + Σ_{j,k} B_ijk x_j(n) x_k(n)

実用簡略化（軽量2次近似）

// C++実装例

y[i] += alpha * x[i] * x[i]; // 2次Volterra項

◆ α は 0.001〜0.01 程度の小さな値にする。クリッピング防止（tanh等）が必須。

9.4 PyTorchでの学習可能Volterra

class NonlinearFDN(nn.Module):

def __init__(self, N=8):

super().__init__()

self.S = nn.Parameter(torch.randn(N, N))

self.alpha = nn.Parameter(torch.tensor(0.01))

def forward(self, x):

A = torch.matrix_exp(self.S - self.S.T)

y_lin = x @ A

y_nl = self.alpha * (x ** 2)

return y_lin + y_nl

9.5 動的Volterra（時間変化非線形）

非線形係数 α を固定せず時間・状態依存にする。

α(t)の設計パターン

エンベロープ依存：α(t) = f(|x(t)|) = 0.01 · tanh(|x(t)|)
時間依存（残響進行）：α(t) = α₀ · exp(-t/τ)（early強く / late弱く）
ランダムモジュレーション：α(t) = α₀ + ε(t)（金属音回避）

本質：非線形を「状態依存システム」にすることで、より自然な空間応答を模擬する。

9.6 Neural Volterra（学習型非線形核）

Volterra核 h₂(τ₁,τ₂) の次元爆発問題をNNで近似する。

class NeuralVolterra(nn.Module):

def __init__(self):

super().__init__()

self.net = nn.Sequential(

nn.Linear(128, 64),

nn.ReLU(),

nn.Linear(64, 1)

)

def forward(self, x):

return self.net(x) # xは時系列フレーム

9.7 FDN + Neural Volterra 統合モデル

class HybridReverb(nn.Module):

def __init__(self):

super().__init__()

self.fdn = FDN()

self.nl = NeuralVolterra()

def forward(self, x):

y_lin = self.fdn(x)

y_nl = self.nl(frame_signal(x))

return y_lin + y_nl.squeeze()

9.8 安定性の確保

リプシッツ制約：‖N(x)‖ ≤ L‖x‖ を保証
スペクトル正規化：nn.utils.spectral_norm(layer)
出力制限：y = torch.tanh(y)（C++側も同様）
デノーマル対策：超小さい値でCPUが暴走するため、ノイズ加算またはflush-to-zeroを使用

9.9 推奨実装構成

以下の処理パイプラインが非線形を含む高品質リバーブの推奨構成である。

Input → Early Reflections（物理 / 幾何モデル）
→ FDN（線形・主役）
→ 動的Volterra（軽量・自然感付加）
→ Neural Volterra（補正・非線形IR近似）
→ Output

実装のポイント

Volterra項は小さく、FDNが主役
NNは補助的役割
フィードバック内（最重要）と出力段の両方に非線形を配置できる

第10章　統合理論と展望

10.1 リバーブ設計の階層構造

レベル	観点・手法
レベル1：物理	波動方程式 ∂²p/∂t² = c² ∇²p
レベル2：構造	FDN / Waveguide Network（波動の低次元近似）
レベル3：統計	モード分散・拡散・エネルギー分布
レベル4：知覚	JND・マスキング・ERBフィルタ・perceptual loss
レベル5：学習	Differentiable FDN・PINN・Neural Volterra
レベル6：情報	エントロピー最大化・相互情報量最小化

10.2 商用リバーブの本質を統合理論で再解釈

商用機は次の暗黙の目的関数を人間の耳で最適化した結果である。

J(θ) = d_spec + d_time + d_info + d_mask

d_spec：スペクトル自然性（combピーク抑制・高域減衰・低域延長）
d_time：時間的自然性（密度の単調増加・ランダム性）
d_info：情報拡散（入力依存性の減衰・decorrelation）
d_mask：マスキング適合（不快成分を隠す）

各商用機の本質

EMT 250：不完全さが知覚的最適。低次元で暖かい
Lexicon 480L：知覚ハックの極致。多バンド + ランダム化 + ループタンク
Bricasti M7：物理近似（Waveguide）により「部屋が存在する」実在感
現代プラグイン（DiffFDN等）：学習による3者の統合

10.3 「良いリバーブ」の最終定義

各観点から統合すると、良いリバーブとは以下の条件を満たすものである。

固有値が単位円上に均一に分布（モード偏りがない）
エネルギーが時間とともに滑らかに拡散（指数減衰に近い）
周波数ごとに適切な減衰速度を持つ（低域>高域）
時間的に揺らぎがある（モジュレーション = 制御されたランダム性）
知覚的に最適化されている（JND以下の誤差は無視）
計算的に実現可能（リアルタイム制約を満たす）

一言でまとめると：

「音のエネルギー・情報・知覚が時間とともに制御された拡散をする動的システム」

10.4 今後の研究フロンティア

知覚エントロピー最大化リバーブ：エントロピーを直接目的関数にした最適化
リアルタイム学習リバーブ：セッション中にPINNが適応学習
完全波動＋ニューラル統合：VR/AR向け動的空間レンダリング
最適なディレイ長の自動生成（固有値分布を基準とした定量的設計）
FDNの固有値を直接設計する閉形式の方法
非線形IRの測定と再現（Volterra核の実機収録）

10.5 主要参考文献

Schlecht, S.J., Habets, E.A.P. "On lossless feedback delay networks." IEEE Trans. Signal Processing, 2016.
Rocchesso, D., Smith, J.O. "Circulant and elliptic feedback delay networks for artificial reverberation." IEEE Trans. Speech & Audio Processing, 1997.
Schlecht, S.J., Habets, E.A.P. "Time-varying feedback matrices in FDN..." JASA, 2015.
Schlecht, S.J., Habets, E.A.P. "Scattering in feedback delay networks." IEEE/ACM Trans. Audio, 2020.
Dattorro, J. "Effect design, part 1: Reverberator and other filters." JAES, 1997.
Mezzadri, F. "How to generate random matrices from the classical compact groups." arXiv:math-ph/0609050, 2006.
Gerzon, M. "Synthetic Stereo Reverberation (Part 1 & 2)." Studio Sound, 1971-1972.
Smith, J.O. Physical Audio Signal Processing - Feedback Delay Networks (FDN). CCRMA, 2010.
Getting Started With Reverb Design, Part 2: The Foundations - Valhalla DSP.

Recently, Richard Stallman gave a speech in which he illustrated an academic
point about programming history by quoting a guy who described vi as 'an
editor spread at sword-point and which is really hard to use'.

I think I speak for all moderate vi(m) users when I say -- DEATH and DAMNATION
(in that order) to this Cardinal of the CTRL key! Needless to say my own local
vim user group has dispatched assassins to kill Mr. Stallman, but this is
hardly the end of the story. The fact is that a man has referred to another
man who in turn expressed some often-voiced reservations about OUR EDITOR! On
behalf of all editors of text everywhere, I implore EMACS users to return to
the true path, lest you be burned at the stake and then go to hell, the Buffer
From Which There Is No Unloading. We'll see how productive you are then, with
your ctrl-meta-alt and your ELISP and your 'ring buffer', whatever THAT is.

Peace and love to all.
^C
^X
quit
q
QUIT
exit :exit
zz
ZZ

kahei on
[Slashdot](http://linux.slashdot.org/comments.pl?sid=196931&cid=16136657)

    -- kahei
    -- Slashdot Comment ( http://linux.slashdot.org/comments.pl?sid=196931&cid=16136657 )

Joey: God, I just, I hate her! I hate her!! With her, "Oh, I'm so talented."
and "Oh, I'm so pretty," and "Ooh, I smell so good."

Chandler: I think somebody has a crush on somebody.

Joey: Hey, Chandler, can we please stay focused on my problem here?! You know?

Chandler: I'm talking about you. You big, big freak.

Joey: Oh. (realises) Ohh. Ohh, you're out of your mind.

Chandler: Hey, you have nothing but talk about her for the last 48 hours! If
you were in a school yard you'd be pulling her pigtails and pushing her down
now!

Joey: Oh, yeah?! Then how come I keep thinking about her in all these sexual
scenarios and stuff, huh?!

    -- David Crane & Marta Kauffman
    -- "Friends" (T.V. Show) ( http://en.wikipedia.org/wiki/Friends )

[ Main Page ]

第1章 リバーブの本質と概論

1.1 リバーブとは何か

1.2 リバーブ生成の2大方式

1.3 音の奥行き感の正体

1.4 人間の知覚特性とリバーブ設計の関係

第2章 アルゴリズムの系譜

2.1 Schroeder Reverb（古典・基本形）

構成

特性

2.2 Schroeder系の改良版（Freeverb3_VSTの実装群）

Allpass filterの入れ子構造（Nested Allpass）

2.3 FDN（Feedback Delay Networks）

基本モデル（数式）

安定性

固有値と音の関係

8個以上のディレイラインとアダマール行列

2.4 Loop Tank Reverb（ループタンク型）

EMT 250の構成

Lexicon 224の構成（Dattorroアルゴリズム）

Dattorroアルゴリズムのブロック構造

2.5 周波数分割（マルチバンド処理）

周波数依存性の知覚的意味

2.6 アルゴリズム進化の系譜（まとめ）

第3章 コンボリューション・IRリバーブ技術

3.1 「コンボリューション」用語の正確な定義

3.2 IRとデコンボリューション（逆フィルタ）

3.3 IR計測：スイープ信号の使用

手順

スイープが優れている理由

3.4 リアルタイム畳み込みとFFT高速化

計算量

レイテンシ問題

解決策：ハイブリッド方式

3.5 IRの本質的限界（LTI系のみ）

3.6 ソフトウェア史と主要製品

3.7 IRの創造的応用

第4章 FDN実装（C++）

4.1 FDNの基本実装

処理ループの構造

4.2 安定性の本質

安定条件

直交行列の意味

4.3 ディレイ長の設計

重要条件

悪い例と良い例

自動生成アルゴリズム

第5章 フィードバック行列の設計

5.1 行列の種類と音響特性

行列選択の指針

5.2 直交行列のランダマイズ（C++実装）

5.3 アダマール行列（Sylvester's construction）

5.4 Householder行列

5.5 Conference行列

構成手順

5.6 吸収オールパス行列（Absorbent Allpass Matrix）

5.7 単位行列に近いランダム特殊直交行列の生成

5.8 固有値を直接設計する方法

設計手順

実用解

第6章 知覚モデルとリバーブ設計

6.1 「良いリバーブ」の知覚条件

6.2 JND（Just Noticeable Difference）

6.3 聴覚マスキング

周波数マスキング

時間マスキング

設計原則

6.4 情報理論的視点

相互情報量の観点

6.5 リバーブ設計の3層構造

① 初期反射（Early Reflections）

② 拡散（Diffusion）

③ 後期残響（Late Reverb）

第7章 商用リバーブの知覚最適化

7.1 Lexicon 480L Random Hall

CHO値（モジュレーション）

Bass XOVの聴感最適値

Lexiconが「暖かい」理由（数理的解釈）

7.2 M7 V2 Modulationの数理的再現

level依存の変調関数 m(t)

7.3 EMT 250の知覚最適化

第1章　リバーブの本質と概論

第2章　アルゴリズムの系譜

第3章　コンボリューション・IRリバーブ技術

第4章　FDN実装（C++）

第5章　フィードバック行列の設計

第6章　知覚モデルとリバーブ設計

第7章　商用リバーブの知覚最適化

第8章　現代的手法：ニューラル・物理ハイブリッド

第9章　Volterra非線形拡張

第10章　統合理論と展望