本手順ではsiRNAを例に、これが相補結合する可能性のあるオフターゲット遺伝子配列を検索する手順を示します (あくまでデータベースの利用例を示す為であり、何らかの保証をするものではありません)。ヒトにおけるオンターゲット、マウスおよび他の生物種においてオルソログ遺伝子との一致確認、そしてヒトにおけるオフターゲットを順に検索していきます。
Usage Note 01、02とは異なり、siRNA配列の検索であるため、前駆体配列ではなく、スプライス後の配列に対する検索を行います。
【補足】 本手順で解析対象にしているsiRNAは19merのコア配列に、2塩基のTTがオーバーハングDNAが付加されています。近年の研究により、先頭および末端の1塩基を除いた配列が標的領域との相補結合に主に寄与するという報告がなされています。そこで本手順の4.においては、アンチセンス鎖、センス鎖の前後1塩基を除く配列(下図|<—>|の配列)をクエリ配列と設定します。
|<--------------->|
3'-TTGACUCAAAUUUUCCGUGGG -5' : antisense
5'- CUGAGUUUAAAAGGCACCCTT-3' : sense
|<--------------->|
ターミナルを開いて、検索に係る各種パラメータを設定します。ここではデータベースとして、RefSeqに含まれるヒトのタンパク質コード遺伝子(ミトコンドリアゲノムにコードされているものを含む)を用います。Sinra–027はsiRNAであることから、スプライシング後のmRNA配列を検索対象としています。
DB=hg38_refSeqCuratedProtCoding_spliced_d3g1906 # GGGenomeにおける、D3G human protein-coding RNAのデータベース名
QUERY=GGGUGCCUUUUAAACUCAGTT # Sirna-027の配列。mRNAに対するアンチセンスとなっていることを銘記。
STRAND=- # 検索対象とするストランド。mRNAアンチセンス鎖との一致を検索するために「-」を指定。
DISTANCE=0 # 配列検索の条件として用いる編集距離。完全一致を検索するため、「0」と指定。
TARGET=FLT1 # ターゲット遺伝子のsymbol
OUTPUT_PREFIX=Sirna-027-FLT1 # 出力ファイル名のプレフィックス
指定パラメータを元にGGGenomeを用いた検索を行い、結果をファイルに保存します。 (検索時の条件・状況によって検索にかかる時間は異なります)
wget -O - https://gggenome.dbcls.jp/${DB}/${DISTANCE}/${STRAND}/${QUERY}.txt \
> ${OUTPUT_PREFIX}.txt
検索結果が含まれるファイルの内容を表示します。
less ${OUTPUT_PREFIX}.txt
以下のような内容がターミナルに表示されます。
# [ GGGenome | 2019-07-01 12:34:56 ]
database: Human spliced RNA, RefSeq curated protein coding on hg38, D3G 19.06 (Jun, 2019)
# query: AACUGAGUUUAAAAGGCACCC
# count: 4
# name strand start end snippet snippet_pos snippet_end query sbjct align edit match mis del ins
NM_001159920.1|FLT1|chr13:28385550:28495128:-|spliced - 383 403 ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG 283 503 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
NM_001160030.1|FLT1|chr13:28368096:28495128:-|spliced - 383 403 ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG 283 503 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
NM_001160031.1|FLT1|chr13:28399043:28495128:-|spliced - 383 403 ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG 283 503 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
NM_002019.4|FLT1|chr13:28300345:28495128:-|spliced - 383 403 ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG 283 503 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
複数のエントリがヒット(検索条件に合致)していることがわかります。
これを一行ずつ確認しても構いませんが、ここでは標的遺伝子が含まれるかどうかを知りたいだけですので、
次のステップでは標的遺伝子の名前が含まれる行を抽出します。
取得した検索結果より、標的遺伝子名が含まれる行を抜き出し、その結果をファイルに保存します。
grep ${TARGET} ${OUTPUT_PREFIX}.txt \
> ${OUTPUT_PREFIX}_target.txt
結果が含まれるファイルの内容を表示します。
less ${OUTPUT_PREFIX}_target.txt
以下のような内容がターミナルに表示されます。
NM_001159920.1|FLT1|chr13:28385550:28495128:-|spliced - 383 403 ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG 283 503 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
NM_001160030.1|FLT1|chr13:28368096:28495128:-|spliced - 383 403 ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG 283 503 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
NM_001160031.1|FLT1|chr13:28399043:28495128:-|spliced - 383 403 ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG 283 503 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
NM_002019.4|FLT1|chr13:28300345:28495128:-|spliced - 383 403 ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG 283 503 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
結果の中に、標的遺伝子に対応するエントリが含まれていることが確認できました。
これによって、検索配列は標的遺伝子のFLT1のmRNAの一部と完全に一致することが確認できました。
また結果が4件であることから、検索配列と一致するようなFLT1のバリアントが、検索対象であるデータベース(RefSeq)に複数登録されていることがわかります。
ターミナルを開いて、検索に係る各種パラメータを設定します。ここではデータベースとして、RefSeqに含まれるマウスのタンパク質コード遺伝子(ミトコンドリアゲノムにコードされているものを含む)を用います。Sinra–027はsiRNAであることから、スプライシング後のmRNA配列を検索対象としています。
DB=mm10_refSeqCuratedProtCoding_spliced_d3g1906 # GGGenomeにおける、D3G mouse protein-coding RNAのデータベース名
QUERY=GGGUGCCUUUUAAACUCAGTT # Sirna-027の配列。mRNAに対するアンチセンスとなっていることを銘記。
STRAND=- # 検索対象とするストランド(アンチセンス配列と相補結合する配列を検索するため-を指定)
DISTANCE=2 # 配列検索の条件として用いる編集距離。ヒト・マウス間で差がある可能性を考慮し、「2」と指定。
TARGET=FLT1 # 確認対象とする標的遺伝子名 (ヒトのオーソログであっても、マウスでは異なる名称で呼ばれている可能性もあることに注意が必要。そのようなケースかどうかを確認した上で、必要に応じてマウスの遺伝子名に修正)。
OUTPUT_PREFIX=Sirna-027-mouse # 出力ファイル名のプレフィックス
指定パラメータを元にGGGenomeを用いた検索を行い、結果をファイルに保存します。(検索時の条件・状況によって検索に要する時間は異なります)
wget -O - https://gggenome.dbcls.jp/${DB}/${DISTANCE}/${STRAND}/${QUERY}.txt \
> ${OUTPUT_PREFIX}.txt
検索結果が含まれるファイルの内容を表示します。
less ${OUTPUT_PREFIX}.txt
その結果、以下のような内容がターミナルに表示されます。
# [ GGGenome | 2019-07-01 12:34:56 ]
# database: Mouse spliced RNA, RefSeq curated protein coding on mm10, D3G 19.06 (Jun, 2019)
# query: AACUGAGUUUAAAAGGCACCC
# count: 1
# name strand start end snippet snippet_pos snippet_end query sbjct align edit match mis del ins
NM_010228.3|Flt1|chr5:147562195:147725988:-|spliced - 352 372 ACCATGGTCAGCTGCTGGGACACCGCGGTCTTGCCTTACGCGCTGCTCGGGTGTCTGCTTCTCACAGGATATGGCTCAGGGTCGAAGTTAAAAGTGCCTGAACTGAGTTTAAAAGGCACCCAGCATGTCATGCAAGCAGGCCAGACTCTCTTTCTCAAGTGCAGAGGGGAGGCAGCCCACTCATGGTCTCTGCCCACGACCGTGAGCCAGGAGGACAAAAG 252 472 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
取得した検索結果に対して標的遺伝子名が含まれる行を抜き出、その結果をファイルに保存します。
grep -i \|${TARGET}\| ${OUTPUT_PREFIX}.txt \
> ${OUTPUT_PREFIX}_target.txt
抜き出された結果を表示します。
less ${OUTPUT_PREFIX}_target.txt
その結果、以下のような内容がターミナルに表示されます。
NM_010228.3|Flt1|chr5:147562195:147725988:-|spliced - 352 372 ACCATGGTCAGCTGCTGGGACACCGCGGTCTTGCCTTACGCGCTGCTCGGGTGTCTGCTTCTCACAGGATATGGCTCAGGGTCGAAGTTAAAAGTGCCTGAACTGAGTTTAAAAGGCACCCAGCATGTCATGCAAGCAGGCCAGACTCTCTTTCTCAAGTGCAGAGGGGAGGCAGCCCACTCATGGTCTCTGCCCACGACCGTGAGCCAGGAGGACAAAAG 252 472 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
mouseのFLT1 mRNA配列には、完全一致する領域があることがわかりました。
ターミナルを開いて、検索に係る各種パラメータを設定します。ここでは、データベースとして、他の生物種の遺伝子も含む、refseqデータベースを用います。
DB=refseq # GGGenomeにおける、refseqのデータベース名
QUERY=GGGUGCCUUUUAAACUCAGTT # Sirna-027の配列。mRNAに対するアンチセンスとなっていることを銘記
STRAND=- # 検索対象とするストランド。mRNAアンチセンス鎖との一致を検索するために「-」を指定。
DISTANCE=2 # 配列検索の条件として用いる編集距離。オフターゲットの影響も考えるため、ここでは「2」と指定。
TARGET=FLT1 # 確認対象とする標的遺伝子名(ヒトのオーソログであっても、異なる名称で呼ばれている可能性もあることに注意が必要。そのようなケースかどうかを確認した上で、必要に応じて検索対象生物種における遺伝子名に修正)。
SPECIES="Macaca fascicularis" # 検索対象の生物種
OUTPUT_PREFIX_RS=Sirna-027-refseq # 出力ファイル名のプレフィックス
指定パラメータを元にGGGenomeを用いた検索を行い、結果をファイルに保存します。(検索時の条件・状況によって検索に要する時間は異なります)
wget -O - https://gggenome.dbcls.jp/${DB}/${DISTANCE}/${STRAND}/${QUERY}.txt \
> ${OUTPUT_PREFIX}.txt
検索結果が含まれるファイルの内容を表示します。
less ${OUTPUT_PREFIX}.txt
その結果、以下のような内容がターミナルに表示されます。
# [ GGGenome | 2019-11-01 12:34:56 ]
# database: RefSeq complete RNA release 96 (Sep, 2019)
# query: AACUGAGUUUAAAAGGCACCC
# count: 338
# name strand start end snippet snippet_pos snippet_end query sbjct align edit match mis del ins
NM_001093231.1 Xenopus laevis transmembrane protein 120B S homeolog (tmem120b.S), mRNA - 208 227 AGCTACAGGAAACACACAAGGTATACAAACAGAAGCTGGAAGAACTGAGCAGCCTTCAGAACCTATGCAGCAGTTATATTAATAAGCATAAGAGGCGTCTAACTGAGTTAAAAGGCAACCTTCATGGATATAAACATACCTCTAATCTAGAAGAAAAGGAGCTCATCCAGCAAATAGACGGCACAATTAAAGAAAGGCACAATGCTTTTTTCGACATGGA 108 327 AACTGAGTTTAAAAGGCACCC AACTGAG-TTAAAAGGCAACC ||||||| |||||||||| || =======I==========X== 19 1 0 1
NM_001159920.2 Homo sapiens fms related tyrosine kinase 1 (FLT1), transcript variant 2, mRNA - 383 403 ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG 283 503 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
NM_001160030.2 Homo sapiens fms related tyrosine kinase 1 (FLT1), transcript variant 3, mRNA - 383 403 ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG 283 503 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
NM_001160031.1 Homo sapiens fms related tyrosine kinase 1 (FLT1), transcript variant 4, mRNA - 383 403 ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG 283 503 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
NM_001191132.4 Bos taurus fms related tyrosine kinase 1 (FLT1), mRNA - 98 118 ATGGTCAGCTGCTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTTGGCGGTCTGCTGCTCACAGGATCTAGTTCAGGTTCAATATTAAGACATCCTGAACTGAGTTTAAAAGGCACCCGGCACGTGATGCAAGCTGGCCAGACGCTGAATCTCAAATGCAGAGGAGGAGCTGCCCATGCCTGGTATCTGCCTGAAGCTGTGAACAGGGAAAACCAAAG 1 218 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
NM_001309381.1 Rattus norvegicus FMS-related tyrosine kinase 1 (Flt1), transcript variant 2, mRNA - 333 353 ACCATGGTCAGCTGCTGGGACACCGCGGTCCTGCCTTGCGCGCTGCTCGGGTGTCTGCTTCTCACAGGATATTGTTCAGGGTCGAAGTTAAAAGGACCAGAACTGAGTTTAAAAGGCACCCAGCACGTCATGCAAGCGGGCCAGACTCTCTTTCTCAAGTGCAGAGGGGAGGCAGCCCACTCCTGGTCTCTGCCTACTACAGTGAGCCAGGAGGACAAAAA 233 453 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
...以下省略...
取得した検索結果に対して標的生物の標的遺伝子名が含まれる行を抜き出した結果を保存します。
grep -i "${TARGET}" ${OUTPUT_PREFIX}.txt \
| grep -i "${SPECIES}" \
> ${OUTPUT_PREFIX}_target.txt
抜き出された結果を表示します。
less ${OUTPUT_PREFIX}_target.txt
その結果、以下のような内容がターミナルに表示されます。
XM_005585555.2 PREDICTED: Macaca fascicularis fms related tyrosine kinase 1 (FLT1), transcript variant X1, mRNA - 397 417 ACCATGGTCTTCTGCTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTAGGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGGTCCTGAACTGAGTTTAAAAGGCACCCAGCACGTCACGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATCAATGGTCTTTGCCTGAAACGGTGAGTAAGGAAAGCAAAAG 297 517 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
XM_015439110.1 PREDICTED: Macaca fascicularis fms related tyrosine kinase 1 (FLT1), transcript variant X2, mRNA - 380 400 ACCATGGTCTTCTGCTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTAGGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGGTCCTGAACTGAGTTTAAAAGGCACCCAGCACGTCACGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATCAATGGTCTTTGCCTGAAACGGTGAGTAAGGAAAGCAAAAG 280 500 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
XM_015439111.1 PREDICTED: Macaca fascicularis fms related tyrosine kinase 1 (FLT1), transcript variant X3, mRNA - 393 413 ACCATGGTCTTCTGCTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTAGGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGGTCCTGAACTGAGTTTAAAAGGCACCCAGCACGTCACGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATCAATGGTCTTTGCCTGAAACGGTGAGTAAGGAAAGCAAAAG 293 513 AACTGAGTTTAAAAGGCACCC AACTGAGTTTAAAAGGCACCC ||||||||||||||||||||| ===================== 21 0 0 0
他生物種のmRNA配列にも、完全一致する領域があることがわかりました。
ターミナルを開いて、検索に係る各種パラメータを設定します。手順1–1.と同様に、データベースとしてRefSeqに含まれるヒトのタンパク質コード遺伝子(ミトコンドリアゲノムにコードされているものを含む)を用います。
DB=hg38_refSeqCuratedProtCoding_spliced_d3g1906 # GGGenomeにおける、D3G human protein-coding RNAのデータベース名
QUERY=GGUGCCUUUUAAACUCAGT # Sirna-027の配列(アンチセンス配列、前後1塩基ずつを除いた19塩基。冒頭の【補足】を参照。)
STRAND=- # 検索対象とするストランド。mRNAアンチセンス鎖との一致を検索するために「-」を指定。
DISTANCE=2 # 異なる塩基数(mismatch、insertion、deletionのいずれか合計)の最大値を2とします
OUTPUT_PREFIX_AS=Sirna-027-spliced-antisense # 出力ファイル名のプレフィックス
指定パラメータを元にGGGenomeを用いた検索を行い、結果をファイルに保存します。(検索時の条件・状況によって検索に要する時間は異なります)
wget -O - https://gggenome.dbcls.jp/${DB}/${DISTANCE}/${STRAND}/${QUERY}.txt \
> ${OUTPUT_PREFIX_AS}.txt
検索結果が含まれるファイルの内容を表示します。
less ${OUTPUT_PREFIX_AS}.txt
出力結果
# [ GGGenome | 2019-07-01 12:34:56 ]
# database: Human spliced RNA, RefSeq curated protein coding on hg38, D3G 19.06 (Jun, 2019)
# query: ACUGAGUUUAAAAGGCACC
# count: 9
# name strand start end snippet snippet_pos snippet_end query sbjct align edit match mis del ins
NM_000222.2|KIT|chr4:54657927:54740715:+|spliced - 1225 1242 GCAGTGGATCTATATGAACAGAACCTTCACTGATAAATGGGAAGATTATCCCAAGTCTGAGAATGAAAGTAATATCAGATACGTAAGTGAACTTCATCTAACGAGATTAAAAGGCACCGAAGGAGGCACTTACACATTCCTAGTGTCCAATTCTGACGTCAATGCTGCCATAGCATTTAATGTTTATGTGAATACAAAACCAGAAATCCTGACTTACG 1125 1342 ACTGAGTTTAAAAGGCACC AC-GAGATTAAAAGGCACC || ||| |||||||||||| ==I===X============ 17 1 0 1
NM_001083625.2|ANKRD12|chr18:9136752:9285985:+|spliced - 10735 10752 GCTCACGCCACTGCACCCCAGCCTGGGCAACAAGAGTGAAACTCTGTCTCCAAAAAAAAAAAAAAAAAAAAAAAGTATATCACATATGTAGCATGTGTTTACAAGTTTAAAAGGCACCACCTATGCACTCATCACTCAAGAGAATATCAATAACTTTCTCAGTTTTTTTTCATTGTTATAGTCTGTATTCAATAAAATTACCCAGATCTTAACTAGGC 10635 10852 ACTGAGTTTAAAAGGCACC ACA-AGTTTAAAAGGCACC || ||||||||||||||| ==XI=============== 17 1 0 1
NM_001093772.1|KIT|chr4:54657927:54740715:+|spliced - 1225 1242 GCAGTGGATCTATATGAACAGAACCTTCACTGATAAATGGGAAGATTATCCCAAGTCTGAGAATGAAAGTAATATCAGATACGTAAGTGAACTTCATCTAACGAGATTAAAAGGCACCGAAGGAGGCACTTACACATTCCTAGTGTCCAATTCTGACGTCAATGCTGCCATAGCATTTAATGTTTATGTGAATACAAAACCAGAAATCCTGACTTACG 1125 1342 ACTGAGTTTAAAAGGCACC AC-GAGATTAAAAGGCACC || ||| |||||||||||| ==I===X============ 17 1 0 1
NM_001159920.1|FLT1|chr13:28385550:28495128:-|spliced - 384 402 CCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAA 284 502 ACTGAGTTTAAAAGGCACC ACTGAGTTTAAAAGGCACC ||||||||||||||||||| =================== 19 0 0 0
NM_001160030.1|FLT1|chr13:28368096:28495128:-|spliced - 384 402 CCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAA 284 502 ACTGAGTTTAAAAGGCACC ACTGAGTTTAAAAGGCACC ||||||||||||||||||| =================== 19 0 0 0
NM_001160031.1|FLT1|chr13:28399043:28495128:-|spliced - 384 402 CCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAA 284 502 ACTGAGTTTAAAAGGCACC ACTGAGTTTAAAAGGCACC ||||||||||||||||||| =================== 19 0 0 0
NM_001204056.1|ANKRD12|chr18:9137562:9285985:+|spliced - 10833 10850 GCTCACGCCACTGCACCCCAGCCTGGGCAACAAGAGTGAAACTCTGTCTCCAAAAAAAAAAAAAAAAAAAAAAAGTATATCACATATGTAGCATGTGTTTACAAGTTTAAAAGGCACCACCTATGCACTCATCACTCAAGAGAATATCAATAACTTTCTCAGTTTTTTTTCATTGTTATAGTCTGTATTCAATAAAATTACCCAGATCTTAACTAGGC 10733 10950 ACTGAGTTTAAAAGGCACC ACA-AGTTTAAAAGGCACC || ||||||||||||||| ==XI=============== 17 1 0 1
NM_002019.4|FLT1|chr13:28300345:28495128:-|spliced - 384 402 CCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAA 284 502 ACTGAGTTTAAAAGGCACC ACTGAGTTTAAAAGGCACC ||||||||||||||||||| =================== 19 0 0 0
NM_015208.4|ANKRD12|chr18:9136752:9285985:+|spliced - 10804 10821 GCTCACGCCACTGCACCCCAGCCTGGGCAACAAGAGTGAAACTCTGTCTCCAAAAAAAAAAAAAAAAAAAAAAAGTATATCACATATGTAGCATGTGTTTACAAGTTTAAAAGGCACCACCTATGCACTCATCACTCAAGAGAATATCAATAACTTTCTCAGTTTTTTTTCATTGTTATAGTCTGTATTCAATAAAATTACCCAGATCTTAACTAGGC 10704 10921 ACTGAGTTTAAAAGGCACC ACA-AGTTTAAAAGGCACC || ||||||||||||||| ==XI=============== 17 1 0 1
一致配列が複数存在することがわかります。同一遺伝子であっても異なるバリアントに存在する一致配列、あるいは同一バリアントであっても異なる領域に存在しうる一致配列もすべて異なる行として現れていることに注意が必要です。
ターミナルを開いて、検索に係る各種パラメータを設定します。アンチセンス配列と同様に、データベースとしてRefSeqに含まれるヒトのタンパク質コード遺伝子(ミトコンドリアゲノムにコードされているものを含む)を用います。
DB=hg38_refSeqCuratedProtCoding_spliced_d3g1906 # GGGenomeにおける、D3G human protein-coding RNAのデータベース名
QUERY=UGAGUUUAAAAGGCACCCT # Sirna-027の配列(センス配列、前後1塩基ずつを除いた19塩基。冒頭の【補足】を参照。)
STRAND=- # 検索対象とするストランド。mRNAアンチセンス鎖との一致を検索するために「-」を指定。
DISTANCE=2 # 異なる塩基数(mismatch、insertion、deletionのいずれか合計)の最大値を2とします
OUTPUT_PREFIX_S=Sirna-027-spliced-sense # 出力ファイル名のプレフィックス
指定パラメータを元にGGGenomeを用いた検索を行い、結果をファイルに保存します。(検索時の条件・状況によって検索に要する時間は異なります)
wget -O - https://gggenome.dbcls.jp/${DB}/${DISTANCE}/${STRAND}/${QUERY}.txt \
> ${OUTPUT_PREFIX_S}.txt
検索結果が含まれるファイルの内容を表示します。
less ${OUTPUT_PREFIX_S}.txt
出力結果
# [ GGGenome | 2019-07-01 12:34:56 ]
# database: Human spliced RNA, RefSeq curated protein coding on hg38, D3G 19.06 (Jun, 2019)
# query: AGGGUGCCUUUUAAACUCA
# count: 1
# name strand start end snippet snippet_pos snippet_end query sbjct align edit match mis del ins
NM_002559.4|P2RX3|chr11:57338351:57372399:+|spliced - 2421 2437 CAGTAAGGCCTGGTGCCTTGTGAGCTGCTCAGCTGGGTTGGCCAGGCCTGTCCCCATAGGGTCTTAATAAGGTGCCCCATTTTCTAAGGTTAGAAGCTAAAGGGGCCTTTTAAACCATCTTATCTAACCCTCTTGCTTACAGATGAGCAAACTGAGGCCAGAAAGGGAAAATGACTGGTTCAGTGCCACAGTTCATGGCCAAAAAGGAACCCACATG 2321 2537 AGGGTGCCTTTTAAACTCA AGGG-GCCTTTTAAAC-CA |||| ||||||||||| || ====I===========I== 17 0 0 2
一致配列が1件存在することがわかります。
取得した検索結果を遺伝子名で並び替えつつ、遺伝子毎に区切ってファイルに保存します。
cat ${OUTPUT_PREFIX_S}.txt ${OUTPUT_PREFIX_AS}.txt \
| grep -v "^#" \
| cut -f 1-4,6- \
| sort -k 2,2 -t '|' \
| awk 'BEGIN{FS="|"}{if (prev!=$2){print "\n>>>"$2} prev=$2;print}' \
> ${OUTPUT_PREFIX}_per_gene.txt
遺伝子単位にまとめた結果ファイルの内容を表示します。
less ${OUTPUT_PREFIX}_per_gene.txt
出力結果
>>>ANKRD12
NM_001083625.2|ANKRD12|chr18:9136752:9285985:+|spliced - 10735 10752 10635 10852 ACTGAGTTTAAAAGGCACC ACA-AGTTTAAAAGGCACC || ||||||||||||||| ==XI=============== 17 1 0 1
NM_001204056.1|ANKRD12|chr18:9137562:9285985:+|spliced - 10833 10850 10733 10950 ACTGAGTTTAAAAGGCACC ACA-AGTTTAAAAGGCACC || ||||||||||||||| ==XI=============== 17 1 0 1
NM_015208.4|ANKRD12|chr18:9136752:9285985:+|spliced - 10804 10821 10704 10921 ACTGAGTTTAAAAGGCACC ACA-AGTTTAAAAGGCACC || ||||||||||||||| ==XI=============== 17 1 0 1
>>>FLT1
NM_001159920.1|FLT1|chr13:28385550:28495128:-|spliced - 384 402 284 502 ACTGAGTTTAAAAGGCACC ACTGAGTTTAAAAGGCACC ||||||||||||||||||| =================== 19 0 0 0
NM_001160030.1|FLT1|chr13:28368096:28495128:-|spliced - 384 402 284 502 ACTGAGTTTAAAAGGCACC ACTGAGTTTAAAAGGCACC ||||||||||||||||||| =================== 19 0 0 0
NM_001160031.1|FLT1|chr13:28399043:28495128:-|spliced - 384 402 284 502 ACTGAGTTTAAAAGGCACC ACTGAGTTTAAAAGGCACC ||||||||||||||||||| =================== 19 0 0 0
NM_002019.4|FLT1|chr13:28300345:28495128:-|spliced - 384 402 284 502 ACTGAGTTTAAAAGGCACC ACTGAGTTTAAAAGGCACC ||||||||||||||||||| =================== 19 0 0 0
>>>KIT
NM_000222.2|KIT|chr4:54657927:54740715:+|spliced - 1225 1242 1125 1342 ACTGAGTTTAAAAGGCACC AC-GAGATTAAAAGGCACC || ||| |||||||||||| ==I===X============ 17 1 0 1
NM_001093772.1|KIT|chr4:54657927:54740715:+|spliced - 1225 1242 1125 1342 ACTGAGTTTAAAAGGCACC AC-GAGATTAAAAGGCACC || ||| |||||||||||| ==I===X============ 17 1 0 1
>>>P2RX3
NM_002559.4|P2RX3|chr11:57338351:57372399:+|spliced - 2421 2437 2321 2537 AGGGTGCCTTTTAAACTCA AGGG-GCCTTTTAAAC-CA |||| ||||||||||| || ====I===========I== 17 0 0 2
検索結果が遺伝子単位にまとまっていることがわかります。7列目が検索に供した配列です。
実際の検索では、化学修飾の影響やRISCへの取り込み効率などをも考慮に入れるなど、目的にあわせてクエリ配列を選定することが必要になるでしょう。