Index of /release/18.04

[ICO]NameLast modifiedSizeDescription

[PARENTDIR]Parent Directory  -  
[TXT]00ReleaseNote.html2019-06-26 19:22 6.0K 
[TXT]00ReleaseNote.md2018-06-18 19:03 4.9K 
[   ]ncbiRefSeqCurated_CagePeaksExpressedTissues.bed12.gz2018-04-11 16:10 2.9M 
[   ]ncbiRefSeqCurated_CagePeaksExpressedTissues_prespliced.fa.gz2018-04-11 14:39 919M 
[   ]ncbiRefSeqCurated_CagePeaksExpressedTissues_prespliced_aggr.bed.gz2018-04-11 16:09 928K 
[   ]ncbiRefSeqCurated_CagePeaksExpressedTissues_prespliced_aggr.fa.gz2018-04-11 14:39 390M 
[   ]ncbiRefSeqCurated_CagePeaksExpressedTissues_spliced.fa.gz2018-04-11 14:39 26M 
[   ]ncbiRefSeqCurated_CagePeaksExpressedTissues_spliced_aggr.bed.gz2018-04-11 16:09 3.0M 
[   ]ncbiRefSeqCurated_CagePeaksExpressedTissues_spliced_aggr.fa.gz2018-04-11 14:39 28M 
[   ]wgEncodeGencodeCompV27_CagePeaksExpressedTissues.bed12.gz2018-04-11 16:10 8.5M 
[   ]wgEncodeGencodeCompV27_CagePeaksExpressedTissues_prespliced.fa.gz2018-04-11 14:40 1.8G 
[   ]wgEncodeGencodeCompV27_CagePeaksExpressedTissues_prespliced_aggr.bed.gz2018-04-11 16:09 1.7M 
[   ]wgEncodeGencodeCompV27_CagePeaksExpressedTissues_prespliced_aggr.fa.gz2018-04-11 14:40 484M 
[   ]wgEncodeGencodeCompV27_CagePeaksExpressedTissues_spliced.fa.gz2018-04-11 14:40 45M 
[   ]wgEncodeGencodeCompV27_CagePeaksExpressedTissues_spliced_aggr.bed.gz2018-04-11 16:09 5.0M 
[   ]wgEncodeGencodeCompV27_CagePeaksExpressedTissues_spliced_aggr.fa.gz2018-04-11 14:40 44M 

注意:

本データセットは、枠組みを議論するために構築されたテスト版として公開されました。引き続く版において、仕様については変更が予定されています。

リリース・ノート (D3G Release 18.04)

本データベースは、ヒトを含む霊長類に関する

を提供しています。発現情報に関してはタブ区切りテキスト、その他のデータファイルはbed (bed12) あるいは fasta 等の形式に準拠しています。

データファイルの作成にあたっては、次のデータを元にしています:

塩基配列の名前について

各々の塩基配列に関する名前は、(i) 元となるデータベースが提供しているアクセッション番号、(ii) 遺伝子名(gene symbol)、(iii) その他の関連情報、の3つをパイプ(“|”) で結合して構成されています。例えば、

NM_003790.2|TNFRSF25|cage_peaks_associated=hg_10036.1,hg_10037.1&cage_peaks_expressed=B_cells,T_cells,basophils,colon,small_intestine,stomach&coord=chr1:6461150:6466195:-

という名前になっているものがありますが、これは

ことを意味しています。

データファイルの名前について

データの統合・処理

RNAが発現する臓器のリストアップ

遺伝子(RNA)モデルに含まれる各々のRNAについて、その転写開始点(5'端)から500塩基以内にあるプロモータを調べ、それらが発現している臓器をリストアップします。

spliced RNA, pre-spliced RNA

RNAのexon/intron構造とリファレンスゲノム配列を元に構成しています。spliced RNAは各エクソンに対応する塩基配列を5'端から順番に結合することで、pre-spliced RNAは開始エクソンの5'端から終端エクソンの3'端までのゲノム領域に対応する塩基配列を抽出することで構成しています。

同じ遺伝子領域から転写されるRNAの縮約

ゲノム内には同じ領域から異なる複数のRNAが転写される場合が多数存在しますが、そういった場合でも検索の冗長性を省くため、1塩基でも重複するものを一つのエントリとしてまとめたデータセットも用意しています(aggr ファイル)。

オリジナルデータ

本プロジェクトが提供するオリジナル・データは現在ありません。将来的には、カニクイザル等のゲノムやトランスクリプトーム・データを公開する予定です。

Reference