これから河田研に来る人のためにも書ける人がどんどんまとめてください。

要約統計量関連

β

Siewert & Voight(2017)の論文参照。平衡選択を検出する要約統計量。
平衡選択を受けるSNPはアリル頻度が0.5に近づき、近隣のSNPsも連鎖によって頻度が中間に近づくはずである。
そこで、注目するSNPと近隣SNPsとの頻度の差を計算し、さらに自身の頻度および周辺領域の突然変異率で補正することで、平衡選択の検出が可能になるという論理。
インプットとして用いるのが各SNPの座位と頻度、サンプル数だけという優れもの。
また、Tajima's Dと違い、SNP単位で値が出るのもその後の解析に使いやすい。
なお、集団内で固定しているものは扱わない。
例えば以下の配列の例(座位は左から1~7)で言えば、SNP座位数は6、サンプル数は4となり、

***-*--
-**-*--
--***-*
---*--*

以下のようなインプット(左から座位、派生アリルの数、欠損値を持たないサンプル数)に変換できる。
6座位目は集団内で固定されているためインプットには含まれない。

1 1 4
2 2 4
3 3 4
4 2 4
5 3 4
7 2 4 

ここから、Tajima's Dでも使われたWatterson's thetaを計算すると、座位数6-1を1からサンプル数(4)-1までの調和数で割って、2.7272...。これが突然変異率の指標になる。
そして、注目するSNPと他のSNPとの頻度の差(差が0の時、1となるような値)を以下の式に従って計算する。

g(f)=min(f,n-f)
m=max(g(f0),n/2-g(f0))
di=((m-|g(f0)-g(fi)|)/m)**p
n = サンプル数(今回は4)
f = アリルの頻度(アリルの絶対数、少ない方を派生型ということにする)
f0 = 注目するSNPのアリル頻度
fi = 近隣のSNPのアリル頻度
m = 注目するSNPと他のSNPとの頻度の差の最大値
p = 補正のための値らしい。20がデフォルトらしい。

この時、注目するSNPを4座位目とすると、f=2、m=2。
これらを使って1座位目との頻度の差(d1)を求めると、(2-|2-1|)/2=1/2となる。
同様に2,3,5,7座位目との差を求めていくと、1、1/2、1/2、1となる。 これらを、それぞれ20乗した上(pによる補正)で足し合わせると、ほぼ2になる。 また、4座位目のSNP頻度と他のSNP頻度の差が取りうる値を全て計算した上で、それぞれをまた調和数で割ってから足し合わせる。
つまり、サンプル数が4の時、SNPの頻度は1/4、2/4、3/4の3通りの可能性がある。
これと4座位目の頻度(2/4)との頻度の差(di)を計算すると、それぞれ1/2、1、1/2となる。
これらの20乗を1~3までの調和数でそれぞれ割ってから足し合わせると、ほぼ0.5となる。
先ほどの2をこの値で割ると、4。これがthetaβと呼ばれるものである。
これからthetaW(Watterson's theta)を引いたものが、要約統計量βとなる。
随分長い説明となったが、ということで、4座位目のβは4-2.7272..=1.2727..となる。
これらを各SNP座位について見ていくことで各SNPのβが求められる。
また、どこまでを周辺領域とするか、windowの値を定義することもできる(論文では±500bpを推奨)。

Tajima's D

集団遺伝学で非常によく用いられる指標。田嶋文生先生が発表した。
多型サイト数 (Segregating site:S) と個体間の平均塩基相違数 (塩基多様度:Π) との違い (difference:D) を表す。

thetaT.png
thetaW.png
TajimaD.png

Vは分散を示す。とりあえずここでは雰囲気(値が正か負か)だけつかめればいい。
ちなみにθWはWatterson's θ、θTはΠ(塩基多様度)と呼ばれる、これまた集団遺伝学で用いられる指標。

実際に計算してみる。下の例では-は他の個体と同じ配列、*は多型となっているサイトを示す。

---*---*------
-------*---*--
-------*------
-----------*--

この例では、多型サイト数は全部で3つ。これを(1+1/2+1/3)で割って、θW=1.63になる。
また、個体間の平均塩基相違数、塩基多様度は(2+1+3+1+1+2)/6=1.67となり、Tajima's Dは正の値となる。

次に以下のような状況の集団でTajima's Dを計算する。

-*------------
----*---------
-------*------
-----------*--

するとθW=4/(1+1/2+1/3)=2.2、θT=(2+2+2+2+2+2)/6=2となり、Tajima's Dは負の値をとる。
この例では二つの統計量にあまり差がないが、このようなシングルトン(1個体にしかない変異)が大量にあると…

-*--------------------------------------------------------------------------------------------------
--*-------------------------------------------------------------------------------------------------
---*------------------------------------------------------------------------------------------------
----*-----------------------------------------------------------------------------------------------
...
--------------------------------------------------------------------------------------------------*-

θT=2(99.5)/99.5=2、θW=100/(1+1/2+…1/99)=19.31と、Tajima's Dは大きく負になる。

Tajima's Dが負の値をとるとき、個体間で塩基の相違数は少なく、頻度の低い変異が生じていることになる。
このとき、集団動態に変化がない場合はSelective sweep(選択的一掃:強い選択圧によって特定の変異が集団中に広まることで、その周辺領域の多様性も低下すること)が起きたと考えられる。

pop.png

しかし、もし過去に集団のBottleneckが起きていた場合、Selective sweepと区別することができない。
Bottleneckが生じると、集団内のhaplotypeはほぼ同じになり、Selective sweepと同等の効果があるためである。

このように集団がBottleneckを経験した(そして現在は増加中の)場合、もしくはSelective sweepを受けた場合にTajima's Dは負の値をとる。

逆に、各アリルの頻度が中間の状態だと、Tajima's Dは正の値をとる。この場合、
平衡選択によって多型が維持されるような選択圧が働いているか、もしくは集団が減少していると推定される。

このようにTajima's Dは集団動態の影響を強く受ける。しかし、集団動態はゲノム全体に影響するのに対して、自然選択は局所的に働く。そこで、ゲノム全体のTajima's Dの値を計算し、閾値を決める(上位もしくは下位1%や5%など)ことで、真に自然選択が働いている部分を検出できる。
(参照:Interpreting Tajima’s DCalculating Tajima's D始めよう!エコゲノミクス(5)


添付ファイル: filepop.png 573件 [詳細] filethetaW.png 511件 [詳細] filethetaT.png 611件 [詳細] fileTajimaD.png 495件 [詳細]

トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2018-04-12 (木) 12:06:43 (188d)