統計学とのつながり

家畜育種学(animal breeding)は,動物の遺伝的改善に関連する問題を扱う応用科学であり,アメリカのJay L. Lushによって1930年代に成立しました。 その理論は,集団遺伝学や量的遺伝学(いわゆる統計遺伝学)に基づいて構築されており,その実践には高度な統計学の知識が必要です。 家畜育種学は,最新の統計的方法を取り入れることで発展しましたが,同時に新たな知見も生まれ,統計学の世界に還元されてゆきました。 その中でも最も大きな貢献は,線形混合モデル(linear mixed model)による分析手法および分散成分の推定手法の開発に関するものです。 これらの分析手法は,近年では医学分野をはじめとして幅広い分野において応用されています。 では,なぜ家畜育種において,それらの統計理論が発展したのでしょうか。 そして,どのように応用されてきたのでしょうか。

家畜育種とは,平たく言えば「すぐれた遺伝子をもつ個体を確実に発見し,それらを効率よく交配させて,平均して親よりも能力の高い子孫を生み出す」ことです。 このことは,人工授精が普及している家畜の世界では特に重要なことです。 なぜなら,メスに比べてオスの数が非常に少ないので,能力の高い少数のオスを確実に選び出さなければならないからです。 ところが,遺伝的にすぐれた個体を特定することは,簡単ではありません。 それは,以下のような理由によります。

  1. 実際の測定値(表型値)には,遺伝子の発現による効果だけでなく,後天的に与えられた環境も影響する
  2. 遺伝子は親から子へ受け継がれるため,血縁関係を考慮する必要がある
  3. 能力が低い個体は早期に処分されてしまうため,能力の高い個体からの記録ばかりになる(データに偏りが生じる)
  4. 家畜の飼養環境がばらばらなので,条件をそろえてデータを得ることができない

ゆえに目的を達成するには,遺伝要因と環境要因を分離し,血縁関係によって生じる表型値間の類似性を考慮し,選抜等によるデータの偏りを許容できる分析を実施しなければなりません。 家畜育種学では,かなり早い段階からこれらの問題を解決するべく研究が進み,最終的に線形混合モデルにたどり着きました。 この例に応用すると,各種環境グループを固定効果(あるいは母数効果;fixed effect),遺伝子による発現値を変量効果(あるいはランダム効果;random effect)とする分析を行うことになります。

混合モデル方程式とその応用

線形混合モデルに関して,Charles R. Hendersonが極めて大きな貢献をしました。 彼の名前は知らなくとも,混合モデルになじみのある方なら,以下の連立一次方程式を目にしたことがあるでしょう。 彼はこの式を導き,混合モデル方程式(MME;Mixed Model Equations)と名付けました。 この式から,固定効果と変量効果の推定値を同時に得ることができます。 Henderson's Mixed Model Equations この方程式を解いた結果得られる固定効果の推定量を最良線形不偏推定量(Best Linear Unbiased Estimator;BLUE),変量効果の予測値を最良線形不偏予測値(Best Linear Unbiased Prediction;BLUP)と呼びます。

遺伝子の発現値は変量効果であり,その推定値は混合モデル方程式の解(BLUP)として得られます。 その結果,能力の高い個体を確実に選抜することが出来るようになり,畜産物の増産に著しい貢献をしています。 混合モデル方程式を用いて家畜の遺伝能力を推定する手法を,畜産業界では通称「BLUP(ブラップ)法」と呼んでいます。 畜産業界の,特に改良に携わる方々にとって,BLUPという用語はすでに定着しています。 これは,混合モデルの典型的で大規模な応用例といえるでしょう。

本格的にBLUP法が応用されたのは1970年代(アメリカ北東部の乳牛)のことで,Hendersonが直々に方程式の計算業務に出向いたそうです。 日本でも1985年に北海道の乳牛群に関して本格運用されました。 現在では全国の乳牛が対象となり,家畜改良センターが年に3回の計算を行い,推定値を公表しています(これは国の事業です)。 また,乳牛のほか,和牛(黒毛和種)や豚についてもBLUP法による遺伝能力推定を実施しています。 なお,2007年の5月に行われた乳牛に関する計算では,混合モデル方程式のサイズは最大で約675万(未知数が675万個あるということ)に達しています(ちなみに,最も複雑な方程式を応用しているカナダでは,未知数が少なくとも2億以上ある方程式を解いていると考えられます)。

さて,Hendersonは混合モデル方程式を開発しましたが,ほかにも家畜育種学および統計学の分野において,多数の重要な業績を残しています。 また,HendersonのもとでPh. D.を取得した学生の多くは,後に優秀な研究者となりました。 たとえば,Shayle R. SearleLinear ModelsVariance Componentsなどの教科書を執筆)やDavid A. Harville(分散成分推定法に関する研究で知られる)をはじめ,現在でも家畜育種学や統計学の分野で活躍している学者が大勢います。

分散の意味と推定法

線形混合モデルにおける分散成分の推定方法に関して,発展の歴史と計算方法の概略は,別のページにて解説しています。 特にREML法については,また別のページにて解説を試みています。 ここでは,家畜育種における分散の意味と,その推定方法について簡単に紹介します。

混合モデル方程式と分散成分

分散(variance)は,統計学の教科書でいえば,最初のほうに登場する用語です(標準偏差を2乗した値です)。 分散は「ばらつきの程度を表す尺度」であって,統計遺伝学では「個体差の大きさを表す数値」であると解釈されます。 たとえば,日本人の成人男性の身長には個体差がありますが,170cmを中心として,おおよそ155cmから185cmの範囲に含まれます。

統計遺伝学では,この個体差がどのような理由によって生じているか,ということに興味があります。 前述のように,生物の観測値には,大きく分けて遺伝的要因(遺伝子発現によるもの)と環境要因(遺伝子以外の外的要因)の2つの要因が影響していました。 このうち,遺伝的要因が個体差にどのくらい関与しているか,が重要です。 成人男性の身長で言えば,「各人の遺伝子発現の大きさ」が測定できれば,遺伝要因による個体差を分散として数値化できます。

以上のことをふまえ,成人男性の身長を例にとります(以下の値は,一部架空の数値です)。 ある調査によると,身長の標準偏差が約6cmのようですので,分散は36cm2ということになります。 これは測定値そのものの分散ですので,表型分散(phenotypic variance)と呼ばれています。 いま,遺伝子の発現量を知ることが出来たと仮定します。 仮に遺伝要因の標準偏差が5cmであったとすると,分散は25cm2となります。 これは遺伝分散(genetic variance)と呼ばれます。 全体の個体差が36,遺伝要因による個体差が25なので,遺伝要因が寄与する割合は,25/36=0.69となります。 これは,遺伝率(heritability)と呼ばれる数値です。 遺伝率は0から1までの範囲をとり,1に近いほど,遺伝要因が個体差に寄与する割合が高まるのです。

実は,混合モデル方程式の中には,遺伝率の値を含めなければならないのです。 言い換えれば,表型分散と遺伝分散(これらをまとめて分散成分と呼びます)の値が,あらかじめ分かっていなければ,混合モデル方程式を組み立てることが出来ないということです。 しかしながら,これらの値が分かっていることはあり得ません。 しかも,通常は遺伝子発現の大きさを測定することが出来ないので,遺伝分散を計算することは不可能です。 仕方がないので,分散成分を何とかして推定する必要が出てきます。

分散成分の推定方法

混合モデル方程式を解けば,各個体の遺伝効果を推定することが出来ます。 そして,その推定値を使えば,遺伝分散を推定することができるでしょう。 そこで,単純に,以下のような方法で分散成分が推定できそうです。

  1. 適当に遺伝分散と表型分散を決める(初期値)
  2. 混合モデル方程式を組み立てて,それを解き,解を得る
  3. 得られた解から分散成分の推定値を計算する
  4. 2.と3.を何度も繰り返す

本当にこんな単純な方法で良いのが,と不安になるかもしれません。 上記の手順はEMアルゴリズムと呼ばれる定式化された推定法であり,広範囲に利用されている手法です。 実際には,3.の計算が複雑なため,計算量がとても多くなってしまいます。 このようにして得られた分散成分の値は,REML推定値と呼ばれています。 REMLは制限付き最尤法(Restricted Maximum Likelihood)または残差最尤法(Residual Maximum Likelihood)の略で「レムル」と呼ばれます。

家畜育種学にとって,分散成分(あるいは遺伝率)の推定は必要不可欠な分析です。 ゆえに,そのための分析手法についても研究が進められました。 古い教科書には,古典的な方法として母娘回帰(daughter-dam regression)や分散分析法(Analysis of Variance)などの方法が紹介されています。 しかし,家畜育種で扱う測定値は,計画立ててとられたものではなく,様々な要因が関与しているという特徴があります。 これらの方法は,家畜育種で扱うデータにとっては不適なものでした。

REMLは,分散成分を推定するための専用の分析法であり,家畜育種で扱うデータにも上手く応用できることが知られています。 しかし,この方法は計算量が多いため,巨大なデータに応用することが困難でした。 そのため,計算アルゴリズムの工夫が図られ,現実的な時間で推定値を得ることが可能になり,現在では,REML法が広く利用されるようになりました。 一方,最近ではGibbs Samplingが応用される機会が増えています。 詳しくは別の解説をご覧ください。

TOP