Usage Note 03 : 21merのsiRNA（Sirna–027）配列の検索

本手順ではsiRNAを例に、これが相補結合する可能性のあるオフターゲット遺伝子配列を検索する手順を示します (あくまでデータベースの利用例を示す為であり、何らかの保証をするものではありません)。ヒトにおけるオンターゲット、マウスおよび他の生物種においてオルソログ遺伝子との一致確認、そしてヒトにおけるオフターゲットを順に検索していきます。
Usage Note 01、02とは異なり、siRNA配列の検索であるため、前駆体配列ではなく、スプライス後の配列に対する検索を行います。

検索対象（クエリ）の配列について

Sirna–027 : FLT1(VEGFR–1)をターゲットとするsiRNA
センス鎖 : 5‘-CUGAGUUUAAAAGGCACCCTT–3’ （オーバーハング含む）
アンチセンス鎖 : 5‘-GGGUGCCUUUUAAACUCAGTT–3’ （オーバーハング含む）
https://www.ncbi.nlm.nih.gov/pubmed/16195704

【補足】 本手順で解析対象にしているsiRNAは19merのコア配列に、2塩基のTTがオーバーハングDNAが付加されています。近年の研究により、先頭および末端の1塩基を除いた配列が標的領域との相補結合に主に寄与するという報告がなされています。そこで本手順の4.においては、アンチセンス鎖、センス鎖の前後1塩基を除く配列（下図|<—>|の配列）をクエリ配列と設定します。

    |<--------------->|
3'-TTGACUCAAAUUUUCCGUGGG  -5' : antisense
5'-  CUGAGUUUAAAAGGCACCCTT-3' : sense
      |<--------------->|

本検索手順を実行する上で必要となる前提条件、知識について

インターネット接続が可能なUNIX/linux互換環境（Linux、Mac OS X、Windows Subsytem for Linuxなど）
ターミナルでの基本的なコマンド入力による操作（各コマンドに関する説明は本手順では割愛しています）

その他

いくつか専門的な用語や内容については glossary (用語集) で紹介していますので、こちらも参照ください。
本手順は次の環境で動作確認されています: D3G release 19.06
本件手順は、検索の一例です。必ずしも、本手順によって有効な情報を得られることを保証するものではありません。
本手順を実行すると、検索に供した配列がインターネット上を流れます。秘匿性の高い配列情報などは、ご所属機関の情報管理基準に照らし合わせた上でご利用ください。
本手順で利用しているGGGenomeに関する詳細な利用方法は、GGGenomeのHelpページにてご確認ください。
本手順ではシェル変数を用いています。ご利用の環境において、環境変数等と重複する場合には、適宜、異なる変数名に変更してご利用ください。
利用しているシェル変数は DB、QUERY、STRAND、DISTANCE、TARGET、OUTPUT_PREFIX、OUTPUT_PREFIX_RS、OUTPUT_PREFIX_S、OUTPUT_PREFIX_AS、SPECIES の9つです。

1. Sirna–027がヒトFLT1を標的とすることを、まず確認する

1–1. パラメータの設定

ターミナルを開いて、検索に係る各種パラメータを設定します。ここではデータベースとして、RefSeqに含まれるヒトのタンパク質コード遺伝子（ミトコンドリアゲノムにコードされているものを含む）を用います。Sinra–027はsiRNAであることから、スプライシング後のmRNA配列を検索対象としています。

DB=hg38_refSeqCuratedProtCoding_spliced_d3g1906     # GGGenomeにおける、D3G human protein-coding RNAのデータベース名
QUERY=GGGUGCCUUUUAAACUCAGTT                         # Sirna-027の配列。mRNAに対するアンチセンスとなっていることを銘記。
STRAND=-                                            # 検索対象とするストランド。mRNAアンチセンス鎖との一致を検索するために「-」を指定。
DISTANCE=0                                          # 配列検索の条件として用いる編集距離。完全一致を検索するため、「0」と指定。
TARGET=FLT1                                         # ターゲット遺伝子のsymbol
OUTPUT_PREFIX=Sirna-027-FLT1                        # 出力ファイル名のプレフィックス

1–2. mRNAの配列集合の中から、クエリ配列と一致するものを検索し、結果を確認する

指定パラメータを元にGGGenomeを用いた検索を行い、結果をファイルに保存します。 (検索時の条件・状況によって検索にかかる時間は異なります)

wget -O - https://gggenome.dbcls.jp/${DB}/${DISTANCE}/${STRAND}/${QUERY}.txt \
> ${OUTPUT_PREFIX}.txt

検索結果が含まれるファイルの内容を表示します。

less ${OUTPUT_PREFIX}.txt

以下のような内容がターミナルに表示されます。

# [ GGGenome | 2019-07-01 12:34:56 ]
 database:     Human spliced RNA, RefSeq curated protein coding on hg38, D3G 19.06 (Jun, 2019)
# query:        AACUGAGUUUAAAAGGCACCC
# count:        4
# name  strand  start   end     snippet snippet_pos     snippet_end     query   sbjct   align   edit    match   mis     del     ins
NM_001159920.1|FLT1|chr13:28385550:28495128:-|spliced   -       383     403     ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG   283     503     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0
NM_001160030.1|FLT1|chr13:28368096:28495128:-|spliced   -       383     403     ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG   283     503     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0
NM_001160031.1|FLT1|chr13:28399043:28495128:-|spliced   -       383     403     ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG   283     503     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0
NM_002019.4|FLT1|chr13:28300345:28495128:-|spliced      -       383     403     ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG   283     503     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0

複数のエントリがヒット（検索条件に合致）していることがわかります。

これを一行ずつ確認しても構いませんが、ここでは標的遺伝子が含まれるかどうかを知りたいだけですので、
次のステップでは標的遺伝子の名前が含まれる行を抽出します。

1–3. 検索結果から、標的配列遺伝子名を含む行を抜き出し、その内容を確認する。

取得した検索結果より、標的遺伝子名が含まれる行を抜き出し、その結果をファイルに保存します。

grep ${TARGET} ${OUTPUT_PREFIX}.txt \
> ${OUTPUT_PREFIX}_target.txt

結果が含まれるファイルの内容を表示します。

less ${OUTPUT_PREFIX}_target.txt

以下のような内容がターミナルに表示されます。

NM_001159920.1|FLT1|chr13:28385550:28495128:-|spliced   -       383     403     ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG   283     503     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0
NM_001160030.1|FLT1|chr13:28368096:28495128:-|spliced   -       383     403     ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG   283     503     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0
NM_001160031.1|FLT1|chr13:28399043:28495128:-|spliced   -       383     403     ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG   283     503     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0
NM_002019.4|FLT1|chr13:28300345:28495128:-|spliced      -       383     403     ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG   283     503     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0

結果の中に、標的遺伝子に対応するエントリが含まれていることが確認できました。

これによって、検索配列は標的遺伝子のFLT1のmRNAの一部と完全に一致することが確認できました。
また結果が4件であることから、検索配列と一致するようなFLT1のバリアントが、検索対象であるデータベース(RefSeq)に複数登録されていることがわかります。

2. Sirna–027がマウスFLT1を標的とするかを調べる

2–1. パラメータの設定

ターミナルを開いて、検索に係る各種パラメータを設定します。ここではデータベースとして、RefSeqに含まれるマウスのタンパク質コード遺伝子（ミトコンドリアゲノムにコードされているものを含む）を用います。Sinra–027はsiRNAであることから、スプライシング後のmRNA配列を検索対象としています。

DB=mm10_refSeqCuratedProtCoding_spliced_d3g1906       # GGGenomeにおける、D3G mouse protein-coding RNAのデータベース名
QUERY=GGGUGCCUUUUAAACUCAGTT                           # Sirna-027の配列。mRNAに対するアンチセンスとなっていることを銘記。
STRAND=-                                              # 検索対象とするストランド（アンチセンス配列と相補結合する配列を検索するため-を指定）
DISTANCE=2                                            # 配列検索の条件として用いる編集距離。ヒト・マウス間で差がある可能性を考慮し、「2」と指定。
TARGET=FLT1                                           # 確認対象とする標的遺伝子名 (ヒトのオーソログであっても、マウスでは異なる名称で呼ばれている可能性もあることに注意が必要。そのようなケースかどうかを確認した上で、必要に応じてマウスの遺伝子名に修正)。
OUTPUT_PREFIX=Sirna-027-mouse                         # 出力ファイル名のプレフィックス

2–2. mRNAの配列集合の中から、クエリ配列との編集距離が2以下のものを検索し、結果を確認する

指定パラメータを元にGGGenomeを用いた検索を行い、結果をファイルに保存します。（検索時の条件・状況によって検索に要する時間は異なります）

wget -O - https://gggenome.dbcls.jp/${DB}/${DISTANCE}/${STRAND}/${QUERY}.txt \
> ${OUTPUT_PREFIX}.txt

検索結果が含まれるファイルの内容を表示します。

less ${OUTPUT_PREFIX}.txt

その結果、以下のような内容がターミナルに表示されます。

# [ GGGenome | 2019-07-01 12:34:56 ]
# database:     Mouse spliced RNA, RefSeq curated protein coding on mm10, D3G 19.06 (Jun, 2019)
# query:        AACUGAGUUUAAAAGGCACCC
# count:        1
# name  strand  start   end     snippet snippet_pos     snippet_end     query   sbjct   align   edit    match   mis     del     ins
NM_010228.3|Flt1|chr5:147562195:147725988:-|spliced     -       352     372     ACCATGGTCAGCTGCTGGGACACCGCGGTCTTGCCTTACGCGCTGCTCGGGTGTCTGCTTCTCACAGGATATGGCTCAGGGTCGAAGTTAAAAGTGCCTGAACTGAGTTTAAAAGGCACCCAGCATGTCATGCAAGCAGGCCAGACTCTCTTTCTCAAGTGCAGAGGGGAGGCAGCCCACTCATGGTCTCTGCCCACGACCGTGAGCCAGGAGGACAAAAG   252     472     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0

2–3. 検索結果から、標的配列遺伝子名を含む行を抜き出し、結果を確認する

取得した検索結果に対して標的遺伝子名が含まれる行を抜き出、その結果をファイルに保存します。

grep -i \|${TARGET}\| ${OUTPUT_PREFIX}.txt \
> ${OUTPUT_PREFIX}_target.txt

抜き出された結果を表示します。

less ${OUTPUT_PREFIX}_target.txt

その結果、以下のような内容がターミナルに表示されます。

NM_010228.3|Flt1|chr5:147562195:147725988:-|spliced     -       352     372     ACCATGGTCAGCTGCTGGGACACCGCGGTCTTGCCTTACGCGCTGCTCGGGTGTCTGCTTCTCACAGGATATGGCTCAGGGTCGAAGTTAAAAGTGCCTGAACTGAGTTTAAAAGGCACCCAGCATGTCATGCAAGCAGGCCAGACTCTCTTTCTCAAGTGCAGAGGGGAGGCAGCCCACTCATGGTCTCTGCCCACGACCGTGAGCCAGGAGGACAAAAG        252     472     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0

mouseのFLT1 mRNA配列には、完全一致する領域があることがわかりました。

3. Sirna–027が他の生物のFLT1を標的とするかを調べる

3–1. パラメータの設定

ターミナルを開いて、検索に係る各種パラメータを設定します。ここでは、データベースとして、他の生物種の遺伝子も含む、refseqデータベースを用います。

DB=refseq                                             # GGGenomeにおける、refseqのデータベース名
QUERY=GGGUGCCUUUUAAACUCAGTT                           # Sirna-027の配列。mRNAに対するアンチセンスとなっていることを銘記
STRAND=-                                              # 検索対象とするストランド。mRNAアンチセンス鎖との一致を検索するために「-」を指定。
DISTANCE=2                                            # 配列検索の条件として用いる編集距離。オフターゲットの影響も考えるため、ここでは「2」と指定。
TARGET=FLT1                                           # 確認対象とする標的遺伝子名(ヒトのオーソログであっても、異なる名称で呼ばれている可能性もあることに注意が必要。そのようなケースかどうかを確認した上で、必要に応じて検索対象生物種における遺伝子名に修正)。
SPECIES="Macaca fascicularis"                         # 検索対象の生物種
OUTPUT_PREFIX_RS=Sirna-027-refseq                     # 出力ファイル名のプレフィックス

3–2. mRNAの配列集合の中から、クエリ配列との編集距離が2以下のものを検索し、結果を確認する

指定パラメータを元にGGGenomeを用いた検索を行い、結果をファイルに保存します。（検索時の条件・状況によって検索に要する時間は異なります）

wget -O - https://gggenome.dbcls.jp/${DB}/${DISTANCE}/${STRAND}/${QUERY}.txt \
> ${OUTPUT_PREFIX}.txt

検索結果が含まれるファイルの内容を表示します。

less ${OUTPUT_PREFIX}.txt

その結果、以下のような内容がターミナルに表示されます。

# [ GGGenome | 2019-11-01 12:34:56 ]
# database:     RefSeq complete RNA release 96 (Sep, 2019)
# query:        AACUGAGUUUAAAAGGCACCC
# count:        338
# name  strand  start   end     snippet snippet_pos     snippet_end     query   sbjct   align   edit    match   mis     del     ins
NM_001093231.1 Xenopus laevis transmembrane protein 120B S homeolog (tmem120b.S), mRNA  -       208     227     AGCTACAGGAAACACACAAGGTATACAAACAGAAGCTGGAAGAACTGAGCAGCCTTCAGAACCTATGCAGCAGTTATATTAATAAGCATAAGAGGCGTCTAACTGAGTTAAAAGGCAACCTTCATGGATATAAACATACCTCTAATCTAGAAGAAAAGGAGCTCATCCAGCAAATAGACGGCACAATTAAAGAAAGGCACAATGCTTTTTTCGACATGGA    108     327     AACTGAGTTTAAAAGGCACCC   AACTGAG-TTAAAAGGCAACC   ||||||| |||||||||| ||   =======I==========X==   19      1       0       1
NM_001159920.2 Homo sapiens fms related tyrosine kinase 1 (FLT1), transcript variant 2, mRNA    -       383     403     ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG   283     503     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0
NM_001160030.2 Homo sapiens fms related tyrosine kinase 1 (FLT1), transcript variant 3, mRNA    -       383     403     ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG   283     503     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0
NM_001160031.1 Homo sapiens fms related tyrosine kinase 1 (FLT1), transcript variant 4, mRNA    -       383     403     ACCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAAG   283     503     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0
NM_001191132.4 Bos taurus fms related tyrosine kinase 1 (FLT1), mRNA    -       98      118     ATGGTCAGCTGCTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTTGGCGGTCTGCTGCTCACAGGATCTAGTTCAGGTTCAATATTAAGACATCCTGAACTGAGTTTAAAAGGCACCCGGCACGTGATGCAAGCTGGCCAGACGCTGAATCTCAAATGCAGAGGAGGAGCTGCCCATGCCTGGTATCTGCCTGAAGCTGTGAACAGGGAAAACCAAAG      1       218     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0
NM_001309381.1 Rattus norvegicus FMS-related tyrosine kinase 1 (Flt1), transcript variant 2, mRNA       -       333     353     ACCATGGTCAGCTGCTGGGACACCGCGGTCCTGCCTTGCGCGCTGCTCGGGTGTCTGCTTCTCACAGGATATTGTTCAGGGTCGAAGTTAAAAGGACCAGAACTGAGTTTAAAAGGCACCCAGCACGTCATGCAAGCGGGCCAGACTCTCTTTCTCAAGTGCAGAGGGGAGGCAGCCCACTCCTGGTCTCTGCCTACTACAGTGAGCCAGGAGGACAAAAA   233     453     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0
...以下省略...

3–3. 検索結果から、標的生物の標的配列遺伝子名を含む行を抜き出し、結果を確認する

取得した検索結果に対して標的生物の標的遺伝子名が含まれる行を抜き出した結果を保存します。

grep -i "${TARGET}" ${OUTPUT_PREFIX}.txt \
| grep -i "${SPECIES}" \
> ${OUTPUT_PREFIX}_target.txt

抜き出された結果を表示します。

less ${OUTPUT_PREFIX}_target.txt

その結果、以下のような内容がターミナルに表示されます。

XM_005585555.2 PREDICTED: Macaca fascicularis fms related tyrosine kinase 1 (FLT1), transcript variant X1, mRNA -       397     417     ACCATGGTCTTCTGCTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTAGGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGGTCCTGAACTGAGTTTAAAAGGCACCCAGCACGTCACGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATCAATGGTCTTTGCCTGAAACGGTGAGTAAGGAAAGCAAAAG   297     517     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0
XM_015439110.1 PREDICTED: Macaca fascicularis fms related tyrosine kinase 1 (FLT1), transcript variant X2, mRNA -       380     400     ACCATGGTCTTCTGCTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTAGGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGGTCCTGAACTGAGTTTAAAAGGCACCCAGCACGTCACGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATCAATGGTCTTTGCCTGAAACGGTGAGTAAGGAAAGCAAAAG   280     500     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0
XM_015439111.1 PREDICTED: Macaca fascicularis fms related tyrosine kinase 1 (FLT1), transcript variant X3, mRNA -       393     413     ACCATGGTCTTCTGCTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTAGGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGGTCCTGAACTGAGTTTAAAAGGCACCCAGCACGTCACGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATCAATGGTCTTTGCCTGAAACGGTGAGTAAGGAAAGCAAAAG   293     513     AACTGAGTTTAAAAGGCACCC   AACTGAGTTTAAAAGGCACCC   |||||||||||||||||||||   =====================   21      0       0       0

他生物種のmRNA配列にも、完全一致する領域があることがわかりました。

4. Sirna–027が相補結合し得る、ヒトのタンパク質コードRNAを列挙する

4–1. パラメータの設定（アンチセンス配列）

ターミナルを開いて、検索に係る各種パラメータを設定します。手順1–1.と同様に、データベースとしてRefSeqに含まれるヒトのタンパク質コード遺伝子（ミトコンドリアゲノムにコードされているものを含む）を用います。

DB=hg38_refSeqCuratedProtCoding_spliced_d3g1906       # GGGenomeにおける、D3G human protein-coding RNAのデータベース名
QUERY=GGUGCCUUUUAAACUCAGT                             # Sirna-027の配列（アンチセンス配列、前後1塩基ずつを除いた19塩基。冒頭の【補足】を参照。）
STRAND=-                                              # 検索対象とするストランド。mRNAアンチセンス鎖との一致を検索するために「-」を指定。
DISTANCE=2                                            # 異なる塩基数（mismatch、insertion、deletionのいずれか合計）の最大値を2とします
OUTPUT_PREFIX_AS=Sirna-027-spliced-antisense          # 出力ファイル名のプレフィックス

4–2. mRNAの配列集合の中から、編集距離（insertion、deletionを含めた異なる塩基数）が2以下の配列を検索する（アンチセンス配列）

指定パラメータを元にGGGenomeを用いた検索を行い、結果をファイルに保存します。（検索時の条件・状況によって検索に要する時間は異なります）

wget -O - https://gggenome.dbcls.jp/${DB}/${DISTANCE}/${STRAND}/${QUERY}.txt \
> ${OUTPUT_PREFIX_AS}.txt

検索結果が含まれるファイルの内容を表示します。

less ${OUTPUT_PREFIX_AS}.txt

出力結果

# [ GGGenome | 2019-07-01 12:34:56 ]
# database:     Human spliced RNA, RefSeq curated protein coding on hg38, D3G 19.06 (Jun, 2019)
# query:        ACUGAGUUUAAAAGGCACC
# count:        9
# name  strand  start   end     snippet snippet_pos     snippet_end     query   sbjct   align   edit    match   mis     del     ins
NM_000222.2|KIT|chr4:54657927:54740715:+|spliced        -       1225    1242    GCAGTGGATCTATATGAACAGAACCTTCACTGATAAATGGGAAGATTATCCCAAGTCTGAGAATGAAAGTAATATCAGATACGTAAGTGAACTTCATCTAACGAGATTAAAAGGCACCGAAGGAGGCACTTACACATTCCTAGTGTCCAATTCTGACGTCAATGCTGCCATAGCATTTAATGTTTATGTGAATACAAAACCAGAAATCCTGACTTACG      1125    1342    ACTGAGTTTAAAAGGCACC     AC-GAGATTAAAAGGCACC     || ||| ||||||||||||     ==I===X============     17      1       0       1
NM_001083625.2|ANKRD12|chr18:9136752:9285985:+|spliced  -       10735   10752   GCTCACGCCACTGCACCCCAGCCTGGGCAACAAGAGTGAAACTCTGTCTCCAAAAAAAAAAAAAAAAAAAAAAAGTATATCACATATGTAGCATGTGTTTACAAGTTTAAAAGGCACCACCTATGCACTCATCACTCAAGAGAATATCAATAACTTTCTCAGTTTTTTTTCATTGTTATAGTCTGTATTCAATAAAATTACCCAGATCTTAACTAGGC      10635   10852   ACTGAGTTTAAAAGGCACC     ACA-AGTTTAAAAGGCACC     ||  |||||||||||||||     ==XI===============     17      1       0       1
NM_001093772.1|KIT|chr4:54657927:54740715:+|spliced     -       1225    1242    GCAGTGGATCTATATGAACAGAACCTTCACTGATAAATGGGAAGATTATCCCAAGTCTGAGAATGAAAGTAATATCAGATACGTAAGTGAACTTCATCTAACGAGATTAAAAGGCACCGAAGGAGGCACTTACACATTCCTAGTGTCCAATTCTGACGTCAATGCTGCCATAGCATTTAATGTTTATGTGAATACAAAACCAGAAATCCTGACTTACG      1125    1342    ACTGAGTTTAAAAGGCACC     AC-GAGATTAAAAGGCACC     || ||| ||||||||||||     ==I===X============     17      1       0       1
NM_001159920.1|FLT1|chr13:28385550:28495128:-|spliced   -       384     402     CCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAA     284     502     ACTGAGTTTAAAAGGCACC     ACTGAGTTTAAAAGGCACC     |||||||||||||||||||     ===================     19      0       0       0
NM_001160030.1|FLT1|chr13:28368096:28495128:-|spliced   -       384     402     CCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAA     284     502     ACTGAGTTTAAAAGGCACC     ACTGAGTTTAAAAGGCACC     |||||||||||||||||||     ===================     19      0       0       0
NM_001160031.1|FLT1|chr13:28399043:28495128:-|spliced   -       384     402     CCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAA     284     502     ACTGAGTTTAAAAGGCACC     ACTGAGTTTAAAAGGCACC     |||||||||||||||||||     ===================     19      0       0       0
NM_001204056.1|ANKRD12|chr18:9137562:9285985:+|spliced  -       10833   10850   GCTCACGCCACTGCACCCCAGCCTGGGCAACAAGAGTGAAACTCTGTCTCCAAAAAAAAAAAAAAAAAAAAAAAGTATATCACATATGTAGCATGTGTTTACAAGTTTAAAAGGCACCACCTATGCACTCATCACTCAAGAGAATATCAATAACTTTCTCAGTTTTTTTTCATTGTTATAGTCTGTATTCAATAAAATTACCCAGATCTTAACTAGGC      10733   10950   ACTGAGTTTAAAAGGCACC     ACA-AGTTTAAAAGGCACC     ||  |||||||||||||||     ==XI===============     17      1       0       1
NM_002019.4|FLT1|chr13:28300345:28495128:-|spliced      -       384     402     CCATGGTCAGCTACTGGGACACCGGGGTCCTGCTGTGCGCGCTGCTCAGCTGTCTGCTTCTCACAGGATCTAGTTCAGGTTCAAAATTAAAAGATCCTGAACTGAGTTTAAAAGGCACCCAGCACATCATGCAAGCAGGCCAGACACTGCATCTCCAATGCAGGGGGGAAGCAGCCCATAAATGGTCTTTGCCTGAAATGGTGAGTAAGGAAAGCGAAA     284     502     ACTGAGTTTAAAAGGCACC     ACTGAGTTTAAAAGGCACC     |||||||||||||||||||     ===================     19      0       0       0
NM_015208.4|ANKRD12|chr18:9136752:9285985:+|spliced     -       10804   10821   GCTCACGCCACTGCACCCCAGCCTGGGCAACAAGAGTGAAACTCTGTCTCCAAAAAAAAAAAAAAAAAAAAAAAGTATATCACATATGTAGCATGTGTTTACAAGTTTAAAAGGCACCACCTATGCACTCATCACTCAAGAGAATATCAATAACTTTCTCAGTTTTTTTTCATTGTTATAGTCTGTATTCAATAAAATTACCCAGATCTTAACTAGGC      10704   10921   ACTGAGTTTAAAAGGCACC     ACA-AGTTTAAAAGGCACC     ||  |||||||||||||||     ==XI===============     17      1       0       1

一致配列が複数存在することがわかります。同一遺伝子であっても異なるバリアントに存在する一致配列、あるいは同一バリアントであっても異なる領域に存在しうる一致配列もすべて異なる行として現れていることに注意が必要です。

「# count」で始まる検索結果数に不等号（>）が含まれている場合は、検索結果数が多すぎて全件取得できていないため、検索条件を見直す必要があります。
タイムアウトエラーが表示されている場合、いくつかの要因が考えられます。しばらくして再検索を行うか、異なる塩基数の最大値を小さくするなどの対応が必要となります。

4–3. パラメータの設定（センス配列）

ターミナルを開いて、検索に係る各種パラメータを設定します。アンチセンス配列と同様に、データベースとしてRefSeqに含まれるヒトのタンパク質コード遺伝子（ミトコンドリアゲノムにコードされているものを含む）を用います。

DB=hg38_refSeqCuratedProtCoding_spliced_d3g1906       # GGGenomeにおける、D3G human protein-coding RNAのデータベース名
QUERY=UGAGUUUAAAAGGCACCCT                             # Sirna-027の配列（センス配列、前後1塩基ずつを除いた19塩基。冒頭の【補足】を参照。）
STRAND=-                                              # 検索対象とするストランド。mRNAアンチセンス鎖との一致を検索するために「-」を指定。
DISTANCE=2                                            # 異なる塩基数（mismatch、insertion、deletionのいずれか合計）の最大値を2とします
OUTPUT_PREFIX_S=Sirna-027-spliced-sense               # 出力ファイル名のプレフィックス

4–4. mRNAの配列集合の中から、編集距離（insertion、deletionを含めた異なる塩基数）が2以下の配列を検索する（センス配列）

指定パラメータを元にGGGenomeを用いた検索を行い、結果をファイルに保存します。（検索時の条件・状況によって検索に要する時間は異なります）

wget -O - https://gggenome.dbcls.jp/${DB}/${DISTANCE}/${STRAND}/${QUERY}.txt \
> ${OUTPUT_PREFIX_S}.txt

検索結果が含まれるファイルの内容を表示します。

less ${OUTPUT_PREFIX_S}.txt

出力結果

# [ GGGenome | 2019-07-01 12:34:56 ]
# database:     Human spliced RNA, RefSeq curated protein coding on hg38, D3G 19.06 (Jun, 2019)
# query:        AGGGUGCCUUUUAAACUCA
# count:        1
# name  strand  start   end     snippet snippet_pos     snippet_end     query   sbjct   align   edit    match   mis     del     ins
NM_002559.4|P2RX3|chr11:57338351:57372399:+|spliced     -       2421    2437    CAGTAAGGCCTGGTGCCTTGTGAGCTGCTCAGCTGGGTTGGCCAGGCCTGTCCCCATAGGGTCTTAATAAGGTGCCCCATTTTCTAAGGTTAGAAGCTAAAGGGGCCTTTTAAACCATCTTATCTAACCCTCTTGCTTACAGATGAGCAAACTGAGGCCAGAAAGGGAAAATGACTGGTTCAGTGCCACAGTTCATGGCCAAAAAGGAACCCACATG       2321    2537    AGGGTGCCTTTTAAACTCA     AGGG-GCCTTTTAAAC-CA     |||| ||||||||||| ||     ====I===========I==     17      0       0       2

一致配列が1件存在することがわかります。

4–5. 一致配列を、遺伝子単位でまとめる

取得した検索結果を遺伝子名で並び替えつつ、遺伝子毎に区切ってファイルに保存します。

cat ${OUTPUT_PREFIX_S}.txt ${OUTPUT_PREFIX_AS}.txt \
| grep -v "^#" \
| cut -f 1-4,6- \
| sort -k 2,2 -t '|'  \
| awk 'BEGIN{FS="|"}{if (prev!=$2){print "\n>>>"$2} prev=$2;print}' \
> ${OUTPUT_PREFIX}_per_gene.txt

遺伝子単位にまとめた結果ファイルの内容を表示します。

less ${OUTPUT_PREFIX}_per_gene.txt

出力結果


>>>ANKRD12
NM_001083625.2|ANKRD12|chr18:9136752:9285985:+|spliced  -       10735   10752   10635   10852   ACTGAGTTTAAAAGGCACC     ACA-AGTTTAAAAGGCACC     ||  |||||||||||||||     ==XI===============     17      1       0       1
NM_001204056.1|ANKRD12|chr18:9137562:9285985:+|spliced  -       10833   10850   10733   10950   ACTGAGTTTAAAAGGCACC     ACA-AGTTTAAAAGGCACC     ||  |||||||||||||||     ==XI===============     17      1       0       1
NM_015208.4|ANKRD12|chr18:9136752:9285985:+|spliced     -       10804   10821   10704   10921   ACTGAGTTTAAAAGGCACC     ACA-AGTTTAAAAGGCACC     ||  |||||||||||||||     ==XI===============     17      1       0       1

>>>FLT1
NM_001159920.1|FLT1|chr13:28385550:28495128:-|spliced   -       384     402     284     502     ACTGAGTTTAAAAGGCACC     ACTGAGTTTAAAAGGCACC     |||||||||||||||||||     ===================     19      0       0       0
NM_001160030.1|FLT1|chr13:28368096:28495128:-|spliced   -       384     402     284     502     ACTGAGTTTAAAAGGCACC     ACTGAGTTTAAAAGGCACC     |||||||||||||||||||     ===================     19      0       0       0
NM_001160031.1|FLT1|chr13:28399043:28495128:-|spliced   -       384     402     284     502     ACTGAGTTTAAAAGGCACC     ACTGAGTTTAAAAGGCACC     |||||||||||||||||||     ===================     19      0       0       0
NM_002019.4|FLT1|chr13:28300345:28495128:-|spliced      -       384     402     284     502     ACTGAGTTTAAAAGGCACC     ACTGAGTTTAAAAGGCACC     |||||||||||||||||||     ===================     19      0       0       0

>>>KIT
NM_000222.2|KIT|chr4:54657927:54740715:+|spliced        -       1225    1242    1125    1342    ACTGAGTTTAAAAGGCACC     AC-GAGATTAAAAGGCACC     || ||| ||||||||||||     ==I===X============     17      1       0       1
NM_001093772.1|KIT|chr4:54657927:54740715:+|spliced     -       1225    1242    1125    1342    ACTGAGTTTAAAAGGCACC     AC-GAGATTAAAAGGCACC     || ||| ||||||||||||     ==I===X============     17      1       0       1

>>>P2RX3
NM_002559.4|P2RX3|chr11:57338351:57372399:+|spliced     -       2421    2437    2321    2537    AGGGTGCCTTTTAAACTCA     AGGG-GCCTTTTAAAC-CA     |||| ||||||||||| ||     ====I===========I==     17      0       0       2

検索結果が遺伝子単位にまとまっていることがわかります。7列目が検索に供した配列です。
実際の検索では、化学修飾の影響やRISCへの取り込み効率などをも考慮に入れるなど、目的にあわせてクエリ配列を選定することが必要になるでしょう。