注意:
本データセットは、枠組みを議論するために構築されたテスト版として公開されました。引き続く版において、仕様については変更が予定されています。
リリース・ノート (D3G Release 18.04)
本データベースは、ヒトを含む霊長類に関する
- mRNAなどのスプライス済RNA (spliced RNA) に関する塩基配列
- pre mRNAなどのスプライス前RNA (pre spliced RNA) に関する塩基配列
- 発現している臓器情報
を提供しています。発現情報に関してはタブ区切りテキスト、その他のデータファイルはbed (bed12) あるいは fasta 等の形式に準拠しています。
データファイルの作成にあたっては、次のデータを元にしています:
- ゲノム
- 遺伝子モデル
- ヒト RefSeq (Mar 6, 2017, update ver.)
- ヒト Gencode (Sep 25, 2017, update ver.)
- 発現データ
塩基配列の名前について
各々の塩基配列に関する名前は、(i) 元となるデータベースが提供しているアクセッション番号、(ii) 遺伝子名(gene symbol)、(iii) その他の関連情報、の3つをパイプ(“|”) で結合して構成されています。例えば、
NM_003790.2|TNFRSF25|cage_peaks_associated=hg_10036.1,hg_10037.1&cage_peaks_expressed=B_cells,T_cells,basophils,colon,small_intestine,stomach&coord=chr1:6461150:6466195:-
という名前になっているものがありますが、これは
- NM_003790.2 というアクセッション番号で指定されるRNA配列
- ゲノム座標上では、染色体1番 (chr1) の逆鎖、6461150塩基目から6466195塩基目に位置
- 対応する遺伝子はTNFRSF25
- 2つのCAGE peak (FANTOM5においてCAGE法により同定された転写開始領域)が見つかっていて、そのアクセッションはhg_10036.1とhg_10037.1
- B細胞(B_cells), T細胞(T_cells), 好塩基球(basophils), 大腸(colon), 小腸(small_intestine), 胃(stomach)において転写されていることが確認されている
ことを意味しています。
データファイルの名前について
- ncbiRefSeqCurated... : 遺伝子(RNA)モデルとしてRefSeqを用いたデータセットです
- wgEncodeGencodeComp... : 遺伝子(RNA)モデルとしてGencodeを用いたデータセットです
- ...spliced... : (mRNAなど)スプライス済のRNAです
- ...pre-spliced... : (pre-mRNAなど)スプライス前のRNAです
- ...aggr... : 同じゲノム領域から複数のRNAが転写される場合、それらを一つのエントリとして縮約したデータセットです。
データの統合・処理
RNAが発現する臓器のリストアップ
遺伝子(RNA)モデルに含まれる各々のRNAについて、その転写開始点(5'端)から500塩基以内にあるプロモータを調べ、それらが発現している臓器をリストアップします。
spliced RNA, pre-spliced RNA
RNAのexon/intron構造とリファレンスゲノム配列を元に構成しています。spliced RNAは各エクソンに対応する塩基配列を5'端から順番に結合することで、pre-spliced RNAは開始エクソンの5'端から終端エクソンの3'端までのゲノム領域に対応する塩基配列を抽出することで構成しています。
同じ遺伝子領域から転写されるRNAの縮約
ゲノム内には同じ領域から異なる複数のRNAが転写される場合が多数存在しますが、そういった場合でも検索の冗長性を省くため、1塩基でも重複するものを一つのエントリとしてまとめたデータセットも用意しています(aggr ファイル)。
オリジナルデータ
本プロジェクトが提供するオリジナル・データは現在ありません。将来的には、カニクイザル等のゲノムやトランスクリプトーム・データを公開する予定です。
Reference
- Genome Reference Consortium
- Church DM, et al. Modernizing reference genome assemblies. PLoS Biol. 9:e1001091. 2011. doi: 10.1371/journal.pbio.1001091. PMID: 21750661
- RefSeq
- O'Leary NA, et al. Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Res. 44:D733-45. 2016. doi: 10.1093/nar/gkv1189. PMID: 26553804
- Gencode
- Harrow J, et al. GENCODE: the reference human genome annotation for The ENCODE Project. Genome Res. 22:1760-74. 2012. doi: 10.1101/gr.135350.111. PMID: 22955987
- FANTOM5 promoter level expression atlas
- Forrest AR, et al. A promoter-level mammalian expression atlas. Nature. 507:462-70. 2014. doi: 10.1038/nature13182. PMID:24670764