Personal tools
You are here: Home ncRNA KnowledgeBase Paper Review A comparison of RNA folding measures
Document Actions

Paper Review

by admin last modified 2006-10-27 22:25

All the figures including mathematical formulas are excerpts from the original paper by Eva Freyhult, Paul P Gardner, and Vincent Moulton.

A comparison of RNA folding measures

Eva Freyhult, Paul P Gardner and Vincent Moulton

BMC Bioinformatics 2005, 6:241 doi:10.1186/1471-2105-6-241

[概要]

背景:近年、ncRNAがランダム配列に比べてwell-difined な方法で折れたたむか否かに関する議論が多数なされている。本論文では、RNA配列のいくつかの既知の指標に対して、RfamのncRNAファミリーのデータセットを用いて比較を行った。これらの指標は、例えば新規のncRNAを同定する場合や、alternativeな2次構造が存在するかどうかの判定に用いると有用である可能性がある。

結果:我々の解析の結果、mRNAではないncRNAは一般的にdi-nucleotideの頻度を保存したシャッフル配列よりも低いMFEを持つことがわかった。さらに、MFEが有意に低い場合でさえ、少なくともin silicoで2次構造予測をした場合には、多くのncRNAはuniqueな2次構造を持たず、いくつかのalternativeな2次構造を有しているようである。さらに、6つの指標の一部には互いに相関があることがわかった。

結論:6つの指標の中の2つの指標(Z-scoreと平均塩基対距離D)だけを用いれば十分であることを発見した。

[詳細]

使用したデータセット

Table 1 が使用したデータセットである。

Rfam 6.1とEuropean rRNA databaseから作成した。

平均の相同性はいずれのファミリーも80%以下となるようにした。

mRNAは短いproteinをコードしている32配列を選択

shuffle配列は、13ファミリーそれぞれから10配列を選択しdinucleotideの頻度を保存するようにシャッフルを行うことにより作成した。

使用したRNAに関する指標

(1) 正規化エネルギー(normalised energe)

ここで、E(x)は配列xのMFE(論文ではRNAfoldで計算)、Lは配列長である。

(2) Z-score

ここで、Xshuffled(x)は配列xのシャッフル配列(今回は各配列xに対してdi-nucleotideの頻度を保存したシャッフル配列500配列を用意)の集合を意味し、<・> はMFEの平均値を、σ(・)はMFEの標準偏差を表す。

(3) P-value

ここで、MはXshuffled(x)の中で配列xよりMFEが小さい配列の数を、NはXshuffled(x)の配列数を表す。

(4) Shannon entropy of base pairing probability matrix

pijはMcCaskillのアルゴリズムから計算される塩基対(i,j)の塩基対確率を、Lは配列長を表す。

[Remark] 以前、浜田も同様の指標を考えたことがある。

(5) Average base pair distance

Vienna RNA package 1.5 beta ではRNAfoldの出力の「ensemble diversity」がこの値となる。

[参考] RNA配列xの2次構造に対して、Base pair distanceに共通しない塩基対の数と定義する。すなわち、の塩基対の数とするときに

である。このとき

をaverage base pair distanceと呼ぶ。若干の計算によりに等しいことがわかる。

(6) Valley index (VI)

ここで、である。はRNAsuboptを用いて計算される有限個の準最適構造である。

[参考] SsuboptをS(x)とすると、若干の計算によりVI(x)=2D(x)となることがわかる。すなわちVI(x)はある意味D(x)の近似であると言える。

結果

QとDは非常に相関がある。

dGは全ての指標と弱い相関がある。

VIは全ての指標と相関がない(Table 2)ように見えるが、ファミリーmiRNA、SRP、tRNA、telomerase、Hh1はVIとQまたはDの間に強い相関(> 0.65)がある。一方、rRNA、snRNA、riboswitch、regulatory、snoRNAはVIとQまたはDの間に相関はない(< 0.3)。

RNAファミリー間での比較(Figure 2を参照)

mRNAとHh1以外のRNAは、シャッフルデータより低いZ-scoreとp-valueを持つ。

mRNAとshuffle RNAはQとDの値が高いが、これはおそらくRNAはunstructuredであることを意味すると思われる。すなわちこれらは、複数のalternativeな2次構造を持つ。tmRNAのQとDの値が高いのも同様の理由として説明できる。

低いZ-scoreとp-valueが示す通り、miRNAは非常に安定した構造を持つ。また、Q,D,VIの値も低いことからalternativeな2次構造をもたない。

Conclusion

  • Z-scoreとp-valueには強い相関があるが、Z-scoreのほうがp-valueよりも値が低いところでsensitiveである(Z-scoreが-3以下のところはすべてp-value 0.0に対応する)(余談:ここでのp-valueはランダムシャッフルした配列1,000本を用いて計算しているので、1/1000 以下の値は全て0 になってしまう)。
  • dGは塩基組成と強く相関があり、dGが低いことが必ずしも安定した構造をもつことを意味しない。したがって、p-valueやdGではなくZ-scoreを使えば十分である。
  • Q,Dはともに塩基対確率行列から計算され、非常に強い相関がある。VIはDの近似であるとみなすことができ、さらにQやDの計算に比べ計算コストが大きいためVIを使うメリットは少ない。
  • 従って、z-scoreとQ (or D) を用いれば十分である。

Figure 1. Correlations between measures. Correlations between all the different measures for all the data sets are shown. The diagonal figures show the distributions of the measures.

Figure 2. Box and whisker plots of dG, Z, p, Q, D, and VI. Box and whisker plots displaying medians, quartiles and range of the measures dG, Z, p, Q, D, and VI. The lines of the box are at the lower quartile, median, and upper quartile values. The box width is proportional to the number of sequences in the data set. The whisker lines extend from each end of the box to the most extreme data value or have a maximal length of 1.5 times the box height. Data points beyond the ends of the whiskers are marked by +.


Powered by Plone CMS, the Open Source Content Management System

This site conforms to the following standards: