Tutorial in Biostatistics Multivariable Prognostic Models: Issues in Developing Models, Evaluating Assumptions and Adequacy, and Measuring and Reducing Errors

Pocket

 c index についての詳細な論文を見つけたので部分的に訳しておきます.太字で示したように,c index は二つのモデル間の微小な差異を検出するには向いていないことが考案者自身によって記述されています.AIC などの他の指標がより妥当かと思われます.

Tutorial in Biostatistics Multivariable Prognostic Models: Issues in Developing Models, Evaluating Assumptions and Adequacy, and Measuring and Reducing Errors

Frank E. Harrell Jr, Kerry L. Lee and Daniel B. Mark

STATISTICS IN MEDICINE, VOL. 15, 361-387 (1996)

要約

 多変量回帰モデルは有力なツールであり,臨床転帰の研究においてしばしば用いられる手法である.これらのモデルは名義変数と連続変数を混在して用いることができ,一部に観察される打切反応を扱うことができる.しかしながらモデリング手法の無批判な適用は適合不足なモデルをもたらす結果となり得るばかりか,新しい対象に対して不正確な転帰を予測する可能性がさらに高い.適合不足なモデルや過剰適合モデルを避けるためには,モデルの適合度を計測する手法を知らねばならない.適合度の正確性を計測することは打切例のある生存期間データにとっては困難になり得る.我々は予測生存確率の補正評価の手法と同じくらい容易に解釈可能な予測識別の指標について議論した.両者の予測正確性はブートストラップ法かクロスバリデーション法で偏りなく検証されるべきであり,新しいデータセットにおいて予測する前に行われるべきである.我々はいくつかのハザードの適合不足や過剰適合の回帰モデルについて議論し,議論されてきた多くの問題を避ける 1 つのモデリング戦略を提供する.ここで述べる手法は全ての回帰モデルに適用可能であり,一部の 2 値の順序尺度かつ時間イベント転帰にも必要である.Cox 回帰を用いた前立腺癌における生存分析の手法を示す.

1. 導入

 患者予後の正確な推定は多くの理由から必要である.第一に,予後の推定は,疾病について可能性のある転帰について患者自身に知らせられることである.第二に医師はその予後推定を用いて追加の検査を指示し適切な治療を選択できることである.第三に予後の評価は技術の評価に有用である.すなわち,与えられたテストの結果があってもなくても,由来する予後推定値は増加する予後の情報の計測,事前情報により提供されるテストによるが,と比較することが可能である.第四に研究者というものは一つの因子,例えば治療介入など,の多くの調整できない交絡因子が観察される観察研究における予後に対する効果を推定したがるものである.ここで,例えば回帰モデルを用いる際には数学的に定数に保持するなどして,制御されていない変数の同時効果を調整しなくてはならず,それにより関心のある因子の効果はより純粋に推定されるようになる.関心のある患者予後に,変数,特に連続変数がどう影響するかの解析は,それらがどう影響するのか確かめる必要がある.第五に,予後を推定することは無作為化比較試験をデザインするのに有用である.どの患者を無作為化するかの決定及び無作為化の仮定,例えば予後因子を用いる層別化無作為化など,のデザインの両者は無作為化前の正確な予後推定値の可用性により支援される.最後に,正確な予後モデルは,臨床研究における個々の患者にとって,低リスクの患者は絶対的に少ない利益を得なければならない(生存率にとって変化が少ない)という事実を考慮して,異なる治療法による利益の研究や臨床的な利益の推定に用いることができる.

 これらの目的を成し遂げるには,解析は予後モデルを創造しなくてはならない.元になるデータに存在するパターンを正確に反映し,他の設定や他の施設で比較可能なデータに適用した際に役立つようなモデルを.多くのモデルは以下の理由で不正確かもしれない.つまり仮定の違反,重要な予測の欠如,高頻度のデータ損失およびまたは不適切な補完方法,そして特にデータセットが小さすぎること,過剰適合など.この論文ではモデルの適合不足や過剰適合を検査する手法をレビューし,モデルの正確性を最大化するガイドラインを提案することを目的とする.2 章では初期のステップ,つまり損失データの補完,相互作用の予備仕様,および転帰モデルの選択についてをカバーする.3 章ではデータ縮減の必要性について概要を述べる.4 章では仮説モデルがデータに適合するかを検証する過程について議論する.5 章では予測精度の計測をカバーする.これらは直接には適合の欠如には関連しないが,むしろモデルを識別する能力や,前向きに適用された時によく較正されていることに関連する.6 章ではモデルの検証と再サンプリング法の利点を提示することをカバーする.7 章では前章で述べた考えやその他の懸念事項を考慮に入れた一つのモデリング戦略を提供する.ここで提示する大部分の手法はいかなる回帰モデルにも用いることができる.8 章では手短にいくつかの統計ソフトが 7 章で要約した戦略を実行するのに有用であることについて述べる.9 章では詳細なケーススタディを提示する.Cox 回帰モデルを用いて死亡に至る時間を調査した前立腺癌の臨床研究である.

2. 予備段階

  1. 治療と治療している疾患の重症度との相互作用.軽症の疾病の患者は利益を受ける機会に乏しい.
  2. 年齢やリスク因子が関与する相互作用.高齢の被験者はリスク因子に影響されにくい.
  3. 年齢と疾患の型の関与する相互作用.ある疾病は不治であり年齢は無関係に予後は同じである.
  4. 測定中の被験者の状態と測定値との相互作用.例えば,運動負荷中に比較して,安静時の左室機能は指標としての価値は少なく,より小さな傾斜を持つにすぎないだろう.
  5. 暦時間と治療法との相互作用.いくつかの治療法は進化したり,職員の訓練によりその効果が改善したりする.
  6. 症状の質と量との相互作用.

3. データの縮約

4. 検証モデルの仮定:適合不足の確認

4.1. 線形性の仮定

4.2. 加法性の仮定

4.3. 分布の仮定

5. 予測精度の定量

 予測精度の測定には少なくとも三つの用途がある.

  1. 疾病のリスクや臨床転帰のある被験者を同定するための予測やスクリーニングに用いる指標やモデルの有用性の定量.
  2. 与えられたモデルの過剰適合や適合不足の確認.過剰適合とはノイズに適合した結果,回帰係数が不安定化すること.適合不足とは不適切なモデル指定や予測因子の欠如,アンダーフィッティングのこと.これについては更に後述する.
  3. 競合する方法や競合モデルをランク付けする.

 下記で議論する測定法はモデル開発に用いたのと同じサンプルを用いた予測モデルの評価に適用できるかもしれない.しかしながら,この評価法は滅多に対象とはならない.というのは,最も深刻な適合不足モデルしかテーラーメードのサンプルに適合しないように見えるからである.非常に大きな値は分離サンプルの精度の評価または学習データの精度のバイアスを補正した推定値である.この評価は過剰適合同様に適合不足の総量を検出する一方で,元のモデルの開発するサンプルからの見かけの精度は過剰適合を定量化することには従わない.6 章においては,以下に述べる指標がいかにして検証技術を用いて相当に推定されたかを議論する.

5.1. 一般概念

 最もシンプルな事例においては,予測された反応が連続変数であり完全に測定されている時,つまりすべての被験者が関心のある転帰を取る前に経過観察を終了する打切とは異なる時,一般に用いられる予測精度は推定量の 期待二乗誤差 である.この量は,十分な回数の試行が繰り返され,その都度新しい期待値が生成されるなら,期待値と観測値との誤差の自乗の期待値,つまり予測値と観測値との平均平方差として定義される.この期待二乗誤差はまた推定量の 偏り と推定量の 分散 の和としても表現される.ここで偏りは推定量と推定された量の差の期待値のことである.例えば平均血圧などのように.期待二乗誤差は通常の平均平方誤差による実践で推定される.

 予測精度の要素を記述するにあたり,他に二つの項目がある.較正判別 である.較正は偏りの程度を指す.例えば,同様の患者群の死亡率の平均が 0.3 であり,実際の死亡率が 0.3 の場合はその予測はよく較正されているという.判別とは患者を異なる反応に分離する識別能力のことである.ある気象予報士がある年の毎日の雨の確率を 0.15 と予報したら,特定の地域において年間の平均降雨日数が 55 日ならよく較正されているかも知れないが,その予報士は役に立たない.判別できる予報士とは予報の分布を広く割り付けられ,その実際に雨の降るという予報リスクが晴れの日よりも大きいものである.仮に判別の貧弱な予測モデルなら,調整や較正はモデルを全く補正できない.しかしながら,判別が良ければその予測因子は識別能力を犠牲にすることなく較正可能である.追加データなしでの予測の較正の方法については 6 章を参照のこと.ここで,予測の較正とは,それらを修飾し,それらの順位を変更することなく,その予測が完全に較正されることを意味する.van Houwelingen および Cessie は予測精度とモデル検証の追加情報を示している.

5.2. 連続非打切例の転帰

 判別は期待自乗誤差に関連し,予測値と観測された反応との相関に関連する.通常の重回帰分析においては,判別は重回帰係数 R^2 により計測される.その定義は以下である.

 R^2 = 1 - (n - p)MSE/(n - 1)S^2_\gamma \cdots (1)

ここで n は患者数,p は推定パラメータ数,MSE は予測の平均自乗誤差 \sum^n_{i = 1}(Y_i - \hat{Y}_i)^2/(n - p),\ \hat{Y} = prediced\ Y, S^2_{\gamma} は従属変数の標本分散である.R^2 = 1 の時,そのモデルは予測変数に基づいて患者を完全に分離することができ,MSE = 0 となる.

 連続で打切のない反応 Y にとって,較正は \hat{Y} (予測 Y 値)と Y の散布図により評価でき,必要に応じて傾向をより明確にするためノンパラメトリック法を滑らかに用いることもできる.

5.3. 離散的または打切の転帰

 転帰変数が二値であり,予測変数があるイベントの起きる確率として記述されている場合,較正と判別は期待自乗誤差よりも多くの情報を有する.

 確率の予測の較正を評価する方法の一つは患者のサブグループを作り,予測値と観測値の偏りを調べることである.参考文献 29 の 140-145 ページを参照のこと.例えば,予測確率により十等分し,十等分した各群での平均予測に対する平均反応(転帰による割合)をプロットすれば良い.しかしながら,その群別はかなり任意である.他の方法としては ‘super smoother’ や ‘scatterplot smoother’ などの平滑化を用いることで \hat{Y}Y との間の相関のノンパラメトリック推定を得ることである.このような平滑化は Y が二値の時でもよく働く.その結果の平滑化機能はノンパラメトリックな較正または信頼できる曲線である.平滑化は生データ (\hat{Y},\ Y) を処理し \hat{Y} の群別を要しない.しかし一つの平滑化パラメータを選択するための群別または帯域幅を要する.

 一つの例として 7 変数の二値ロジスティック回帰モデルを考えてみよう.(以下略)

5.4. 縮小推定

 縮小推定 とは過剰適合に起因する 45 ° 線から離れた(予測値,観測値)の散布図を平坦化することである.それは平均値への回帰に関連する概念である.(外部検証により)縮小する存在の量や,(ブートストラップ法やクロスバリデーション法,シンプルなヒューリスティック法により)存在しそうな量を推定することができる.縮小係数は過剰適合の定量や,モデルを再較正する係数を用いて更に一歩先を行くために用いられる.縮小推定は次のように定義される.すなわち, X\hat{\beta} (切片を除く)の乗数 \gamma であり \gamma X\hat{\beta} を将来のデータに備えて完全に較正するためのものである.van Houwelingen および Cessie によるヒューリスティック縮小推定量は以下の式である.参考文献 40 を参照のこと.

\displaystyle \hat{\gamma} = \frac{model\ \chi^2 - p}{model\ \chi^2} \cdots (2)

ここで p は回帰パラメーター数(この場合いかなる切片も除かれているが全ての非線形および相互作用を含める)とであり,モデル \chi^2 は(p 個のパラメータ全セットを用いて計算した)総尤度比 \chi^2 統計値であり,いかなる予測因子が Y に関連するかをテストする.線形回帰にとって,van Houwelingen および Cessie のヒューリスティック縮小推定量は,調整済み R^2 の通常の R^2 に対する比を削減する.参考文献 34 を参照のこと.

(中略)

 ブートストラップ法とクロスバリデーション法もまた縮小因子の推定に用いられる.上記のように,縮小推定量は過剰適合の正しい定量にとって有用であり, \hat{y} による全ての回帰係数を乗算することで,予測を『傾けて』(予測値,観測値)の点を 45 ° 線に載せるのに有用である.しかしながら,後者の用法にとっては,罰則付き最尤推定などのような,より厳格な適用に従ったほうが良い.それにより解析者は方程式の他の部分より異なる部分(例えば非線形項や相互作用項)を縮小できる.

5.5. 一般的な識別指標

 判別は較正よりもっとユニークに定義できる.サブグループ形成を要求したりや平滑化を要求したりすることなしに相関を計測することで定量できる.

 2 値の従属変数や連続変数,時に関心のあるイベントを経験せず患者の打切が発生することもあるのだが,を取り扱う際には,通常の平均値を二乗した誤差型の測定は適用されない.c index (concordance index) が広く適用される予測判定を計測する方法である.通常の連続変数,二分法の診断転帰,通常の転帰,そしてイベント反応変数までの打切時間に適用可能である.この予測判定指標は予測と実際に観測された転帰の間の順位相関に関連する.これは Kendall-Goodman-Kruskal-Somers 型の順位相関インデックスの変法であり,Kendall の τ が Brown らおよび Schemper により修正されて動機づけられたものである.

 c index は全ての患者ペアのうち,予測と転帰の一致した割合として定義される.c index はモデル中の予測変数のセットから由来する予測情報を測定する.少なくとも一人が死亡するまでの死亡に至るまでの時間を予測し,あらゆる患者ペアを考慮して c は計算される.生存期間がより長いと予測された患者が実際にも長く生存した場合,そのペアにとって予測は転帰と一致したと言える.一人の患者が死亡して,もう一人が少なくとも最初の一人の生存期間まで生存した場合は,二人目は一人目より長生きしたと前提を置くことにする.患者ペアの予測生存期間が同じ場合は 1 ではなく 0.5 を c の分子である一致ペア数に加える.この場合,c の分母に 1 を加える.そのような患者ペアも使用可能とみなす.次のような患者ペアは使用できない.つまり両名の患者とも同時に死亡した場合,また片方が死亡しもう一方が生存しているが,生存している方が死亡した方より長生きするか定義するのに十分な時間が経っていない場合である.

 c を計算するのに予測生存期間を用いる代わりに,ある固定時間に至るまでの予測生存確率を同等に用いることができる.十分に長い期待値は互いに一対一に機能する.これは例えば比例ハザード仮定が満たされていても保持される.

 疾病の有無のような 2 値の予測転帰については c は患者の全ペアの割合,疾病の予測確率が高い患者における疾病の有無の割合を低下させる.従来通り,同じ予測確率を持つ患者ペアの場合,分子に 0.5 を加える.分母は疾病のない数をかけた疾病のある患者数である.この 2 値の転帰の場合,c は基本的に二つの転帰群において予測値を比較する Wilcoxon-Mann-Whitney 統計値であり,受信者特性曲線の曲線下面積に等しい.Liu と Dyer は c indx のような順位相関測定を疫学研究でのリスク因子の影響力の定量に用いるのを支持している.

 c index は予測と観測された反応との間の一致率を推定する.値が 0.5 は全く予測精度がないことを示しており,値が 1.0 は患者予後が完全に分離していることを示している.範囲が -1 から 1 までで値が 0 の際には無相関の順位相関係数の代わりに好む人のためには,Somers’ D index が提供されており,計算式は 2(c - 0.5) である.c index であれその順位相関指標であれ,いかなる定量的予測方法をも,つまり反応が連続,順位,または 2 値であっても,定量化するために用いることができる.

 c index のような順位指標は広く適用可能で容易に解釈できるものの,二つのモデル間の微小な差異を識別する能力においてはそれほど感度は良くない.と言うのは以下の(予測,転帰)のペアの例を考えてみれば分かる.すなわち (0.01, 0) と (0.9, 1) のペアは (0.05, 0) と (0.8, 1) のペアよりも一致率が高い訳ではない.もっと感度の高い尤度比として \chi^2 に基づく統計値は線形回帰事例における R^2 に縮約され,置換されるかもしれない.Korn と Simon は生存モデルの様々な指標の精度について非常に良い議論を行っている.

6. モデル検証方法

  1. n 名の被験者の全ておよび必要とみなされるステップワイズ法を用いてモデルを開発すること.D_{app} をこのモデルからの明白な D を記述するものとする.すなわち,同じサンプルを計算して適合度を導出する順位相関のこと.
  2. 元の標本から(予測因子と反応の両者のための)標本サイズ n を生成する.
  3. D_{app} を導出したのと同じ停止規則を用いてフルモデルまたは可能性のあるステップワイズモデルに適合させること.
  4. このモデルの明白な D を置換するブートストラップ標本で計算すること.それを D_{boot} と呼ぶ.
  5. この縮約モデルを「フリーズ」させ,元のデータセットで性能を評価すること.D_{orig}D を記述させる.
  6. 上記ステップ 2 からステップ 6 を 100 回から 200 回繰り返すこと.
  7. Optimism 推定値が 0 に到達するまで平均すること.
  8. 元のステップワイズモデルの性能を修正したブートストラップは D_{app} - 0 である.この差異は D_{app} を生成したプロセスの外部予測識別の 期待値 のほぼバイアスのない推定値である.
  1. すべての対象を用いてモデルを開発すること.
  2. 各区間内で m 名の患者が存在するような 2 年生存率を予測するカットポイントを計算すること.(典型的には 50 名とか 100 名とか).
  3. 予測確率の各区間について,平均 2 年生存率およびカプランマイヤー 2 年生存推定値を群別に計算すること.
  4. 明白な誤差,つまり予測平均値とカプランマイヤー生存との間の誤差を保存すること.
  5. 元の標本から置換して標本を生成すること.
  6. フルモデルに適合させること.
  7. 変数選択を行い縮約モデルに適合させること.
  8. ブートストラップ標本において各患者ごとに 2 年生存率を予測すること.
  9. 以前選択したカットポイントを用いて区間に予測値を層別化すること.
  10. 各区間の 2 年目のカプランマイヤー生存率を計算すること.
  11. 各区間内の予測平均値と同じ区間内のカプランマイヤー推定値との差異を計算すること.
  12. 置換による標本で発展させたモデルを用いて元の標本における各患者の 2 年生存率を予測すること.
  13. 以前用いた同じカットポイントについて,元の標本での各群で 2 年生存率の予測平均値と対応するカプランマイヤー推定値との差異を計算すること.
  14. ブートストラップ標本と元の標本との差異の差異を計算すること.
  15. ステップ 5 からステップ 14 を 100 回から 200 回繰り返すこと.
  16. ステップ 14 でブートストラップ標本を 100 回から 200 回以上計算した「二重の差異」を平均すること.これらは明白な誤差推定値における over-optimism の推定値である.
  17. これらの over-optimism 推定値を元の標本の明白な誤差に加え,バイアスを補正した推定値を得ること.それにより観察による推定値に対して,予測されたバイアスを補正した推定値が得られる.つまりバイアスや過剰適合を補正した較正曲線を得られる.

7. モデリング戦略の概要

  1. 正確で適切で可能な限り多数のサンプルを組み立てること.生存期間データについては,慢性疾患を扱う場合には臨床的に意味のある段階のイベントを十分に補足するための経過観察期間が十分でなくてはならない.
  2. 該当する候補予測,予想される関係の形式および考えられる相互作用の仕様に至るフォーカスした臨床仮説を定式化すること.
  3. 無作為に欠損しているかどうか特徴づけられた後の欠損した Y を有する観察は捨てること.参考文献 62 には無作為に欠損していない時の Y の補完についての研究を示してある.
  4. Xs がいくつか欠損する場合,欠測と関連する因子を解析すること.欠損値により除外されていた観測の割合が非常に小さいなら,または時に欠損する変数が最優先の重要性を持つなら,欠損値を持つ観測を除外すること.そうでなければ,欠損の理由を考慮した個別の予測モデルを用いる欠損の Xs を転嫁すること.
  5. (非線形および外積条件を数える)モデリングの過程において,サンプルにおける転帰の数と比較して適合または検証する項目の数が多すぎる場合には,回帰係数を要する残存自由変数の数が許容できるまでデータを縮減(Y を無視)すること.可能性の高い縮小(過剰適合)を評価することは,どれだけのデータ縮約が適切かを決定する際に役立つだろう.あるいは,最初のモデル適合に縮小を構築すること.
  6. データを浪費するにはあまりにも貴重なので,モデル構築には全標本を使うこと.下記のステップがブートストラップやクロスバリデーションにとって困難であれば,下記の全てのモデル開発ステップにテストデータを差し出すこと.
  7. 線形性の仮定を確認し,必要なら変数変換を施すこと.
  8. 加法性の仮定を確認し,臨床的に意欲的な相互作用項を加えること.
  9. 過度に影響のある観測値があるか否か見て確認すること.そのような観測値は過剰適合,つまり高度に偏った変数の範囲の切り捨ての必要性か,またはデータの誤差を示唆するものである.
  10. 分布の仮定を確認し,必要なら異なるモデルを選択すること.(Cox モデルにおいて比例ハザード性に違反する場合は層別化や時間依存性変数が用いられる)
  11. ステップダウン変数選択の後方制約を行うこと.ステップワイズ法は過剰適合を真にaddressせず情報の損失に至るため,フルモデル適合が(つまりP 値に関係ないモデルでは全ての仮説変数を残す),有意性の指標のスクリーニング後の適合よりも,しばしばより特異的である.それらはまた適切な適用範囲を持つ信頼区間を提供するものであり,ステップワイズ処理を用いて縮減されたモデル,その信頼区間は狭いのは偽りであるが,そのようなモデルとは異なる.仮にそれらの全 \chi^2
  12. ここで『最終モデル』となる.
  13. 較正および識別能力のためこのモデルを検証すること.ブートストラップ法を用いるのが望ましい.ステップ7からステップ11までを各々のブートストラップ標本に対して繰り返さなければならない.もし年齢が最終モデル構築の際に変換されたなら,そしてその変換が年齢と年齢とに関連する適合に用いるデータから示唆されたなら,各々のブートストラップ反復は可能性のある,各段階において2次方程式から線形モデルベースの自動有意性検定へのステップダウンを伴う年齢変数の両者を含んでいなければならない.
  14. 仮にステップワイズ変数選択を行うなら要約表を提示すること.要約表にはブートストラップ法やクロスバリデーション法で選択した『重要な因子』のリストの変動が示されている.これはデータ由来の変数選択がなぜ本質的に曖昧なのかを理解するのに優れたツールである.
  15. 予測式のための相関係数の全体の傾斜を,数式 (2) を使うかまたはブートストラップ法で,そのモデルから可能性の高い予測の縮約を推定すること.縮約が内蔵されていない限り予測式を縮約するよう考慮すること.それにより較正が改善する.そのように,予測された死亡率 0.4 は新しい患者シリーズにおいて検証されているようだ.平均死亡率の回帰は 0.1 であるところ実際の死亡率は 0.2 に過ぎないのだが.

8. ソフトウェア

9. ケーススタディ

10. 要約

 臨床的多変量予後モデルを開発しその較正と識別を評価する手法について述べた.詳細なモデル仮定の例および偏りのない予測精度の評価は,紛らわしく無効の臨床的予測モデルを作り出すような問題を発見するだろう.7 章に示したモデリング戦略は多変量モデリングのピットフォールを避けるステップの一つを提供し,それにより多くの進歩が確認されるだろう.

参照:
多変量モデル評価法のc-indexをEXCEL VBAで計算する
Frank E. Harrell Jr, et al: Evaluating the Yield of Medical Tests. JAMA. 1982; 247 (18): 2543 – 2546
Korn, E. L. and Simon, R. Measures of explained variation for survival data, Statistics in Medicine 9(5), 487–503 (1990)

Pocket

投稿者: admin

趣味:写真撮影とデータベース. カメラ:TOYO FIELD, Hasselblad 500C/M, Leica M6. SQL Server 2008 R2, MySQL, Microsoft Access.

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です