Usage Note 01 : 14merのgapmer型アンチセンス(SPC–5001)配列の検索

本手順ではgapmer型のアンチセンス核酸を例に、これが相補結合する可能性のあるRNAを検索する手順を示します (あくまでデータベースの利用例を示す為であり、何らかの保証をするものではありません)。ヒトにおけるオンターゲット、マウスにおけるターゲットの有無、そしてヒトにおけるオフターゲットを順に検索していきます。

解析対象(クエリ)の配列について

検索手順

代替手順:

RNAの配列検索において、大きく二つのアプローチが考えられます。一つは、対象となるRNA配列を準備しそれを検索するもので、直感的で理解しやすいアプローチです。しかしながら、数多くのRNAアイソフォームを対象とした検索を実施しようとすると、場合によってはゲノムの何倍もあるデータセットを構築しなければなりません (一つの遺伝子領域から、異なるエクソン組み合わせをもつRNAがたくさん転写されることもあるのです)。数多くのRNAを検索しようとすると、準備する配列データは大きくなり検索時間もかかります。もう一つのアプローチは、ゲノム配列を検索した後、RNAの座標情報(遺伝子モデル、とも呼んでいます)を使って処理をすることです。この方法では、どんなにたくさんのRNAを対象としても、配列検索を行うデータはゲノム配列よりも大きくなることはありません。

上記手順の1. ~ 3. は一つ目のアプローチ、つまりRNA配列の検索です。代替手順である4., 5. については二つ目、つまりゲノム配列の検索とその後の処理を行うアプローチに対応します。2.と4.、3.と5.はほぼ同じ結果になるはずのものですので、実際の検索ではどちらかのみで良いでしょう。ただしD3Gでは現在、アイソフォームが比較的少ないRefSeqについてはRNA配列を準備し提供していますが、他のデータセットについては、原則としてRNAの位置情報のみを提供しています。従って、D3Gのすべてのデータを使った検索を実施するのであれば、代替手順が必要になるでしょう。

ただしゲノム配列を検索するアプローチでは、一点だけ注意が必要です。RNAのエクソンはゲノム配列を鋳型として転写されたものですので、ゲノム配列の検索によってすべてのエクソンを検索できますが、エクソン・ジャンクション(エクソン同士の接合部位)配列は検索できません。こちらをも検索対象にするのであれば、やはり大きなデータセットを準備するかそれに特化した検索を補完的に実施することが必要になるでしょう。

本検索手順を実行する上で必要となる前提条件

その他


1. SPC–5001がPCSK9を標的とすることを、まず確認する

1–1. パラメータの設定

ターミナルを開いて、検索に係るパラメータを設定します。ここではデータベースとして、RefSeqに含まれるヒトのタンパク質コード遺伝子(ミトコンドリアゲノムにコードされているものを含む)を用います。SPC–5001はLNA gapmerアンチセンス型であることから、mRNA前駆体を検索対象としています。

DB=hg38_refSeqCuratedProtCoding_prespliced_d3g1906  # GGGenomeにおける、D3G human unspliced protein-coding RNAのデータベース名
QUERY=TGCTACAAAACCCA                                # SPC-5001の配列。mRNAに対するアンチセンスとなっていることを銘記
STRAND=-                                            # 検索対象とするストランド。mRNAアンチセンス鎖との一致を検索するために「-」を指定。
DISTANCE=0                                          # 配列検索の条件として用いる編集距離。完全一致を検索するため、「0」と指定。
TARGET=PCSK9                                        # ターゲット遺伝子のsymbol
OUTPUT_PREFIX=SPC-5001-PCSK9                        # 出力ファイル名のプレフィックス

1–2. スプライス前の配列集合の中らクエリ配列と一致するものを検索し、結果を確認する

指定パラメータを元にGGGenomeを用いた検索を行い、結果をファイルに保存します。 (検索時の条件・状況によって検索にかかる時間は異なります)

wget -O - https://gggenome.dbcls.jp/${DB}/${DISTANCE}/${STRAND}/${QUERY}.txt \
> ${OUTPUT_PREFIX}.txt

検索結果が含まれるファイルの内容を表示します。

less ${OUTPUT_PREFIX}.txt

以下のような内容がターミナルに表示されます。

# [ GGGenome | 2019-07-01 12:34:56 ]
# database:     Human pre-spliced RNA, RefSeq curated protein coding on hg38, D3G 19.06 (Jun, 2019)
# query:        TGGGTTTTGTAGCA
# count:        31
# name  strand  start   end     snippet snippet_pos     snippet_end     query   sbjct   align   edit    match   mis     del     ins
NM_001042681.1|RERE|chr1:8352403:8817640:-|prespliced   -       453798  453811  CCTGGAGGGGAGCTGCTTTGCCCGAGGCGGTAGCTTGCCTGTGGGCTGGGAAGAGTTCTCTGTTCTCTCCTTCGAGGGGCCCCAGGGTGGCATCCTGCTCTGGGTTTTGTAGCAAGCTCTTAGCTTCTGGCTCAGTGCAGGCTCTCCAAGGCCCCTCTTGCTCTCCAAGGCTGCTGCTTGTGGTGTCACTTCCATTGTATCAAATCTCTGCTAT  453698  453911  TGGGTTTTGTAGCA  TGGGTTTTGTAGCA  ||||||||||||||  ==============  14      0       0       0
NM_001042682.1|RERE|chr1:8352403:8423687:-|prespliced   -       59845   59858   CCTGGAGGGGAGCTGCTTTGCCCGAGGCGGTAGCTTGCCTGTGGGCTGGGAAGAGTTCTCTGTTCTCTCCTTCGAGGGGCCCCAGGGTGGCATCCTGCTCTGGGTTTTGTAGCAAGCTCTTAGCTTCTGGCTCAGTGCAGGCTCTCCAAGGCCCCTCTTGCTCTCCAAGGCTGCTGCTTGTGGTGTCACTTCCATTGTATCAAATCTCTGCTAT  59745   59958   TGGGTTTTGTAGCA  TGGGTTTTGTAGCA  ||||||||||||||  ==============  14      0       0       0
NM_001128426.2|AP1AR|chr4:112231738:112273110:+|prespliced      -       14045   14058   TACATATTTTAAAAATAAGCTTCGTTCCTGACCCATTGTAGGTCCTCAGTAAATGCAAGCCTCTCTTTGCTCTCCATTATATTAATAGCTTGTTATGTTTTGGGTTTTGTAGCATATGTAGTTGGAAACTTCAAGTCAATAAAATATTGACCTTTTTTTCAAATTGAAGAAAATAAAATGTTCTTATTATTCTCTAAACTAACAGTAATTGAGA  13945   14158   TGGGTTTTGTAGCA  TGGGTTTTGTAGCA  ||||||||||||||  ==============  14      0       0       0
NM_001161521.1|KLHL2|chr4:165210018:165323156:+|prespliced      -       85160   85173   TCTTTTGTCTCTCCACGTTTTGAATTACCTTTGTCAGCCACCTGCACTTTTCGTATAGTTGGAGAGAGAAGCTCCTTTTAGTGGGCTGTTTTTCCTTGGGTGGGTTTTGTAGCACACGGGAATCAGAGCACAAAAGCTGTGCTTAGAGGAAATGAAACTTGAGTTTCTCCTTTGTGTGCTTAGCATTTCAAGTTGTGTAAATTCTGATTCTCTT  85060   85273   TGGGTTTTGTAGCA  TGGGTTTTGTAGCA  ||||||||||||||  ==============  14      0       0       0
NM_001161522.1|KLHL2|chr4:165210018:165323156:+|prespliced      -       85160   85173   TCTTTTGTCTCTCCACGTTTTGAATTACCTTTGTCAGCCACCTGCACTTTTCGTATAGTTGGAGAGAGAAGCTCCTTTTAGTGGGCTGTTTTTCCTTGGGTGGGTTTTGTAGCACACGGGAATCAGAGCACAAAAGCTGTGCTTAGAGGAAATGAAACTTGAGTTTCTCCTTTGTGTGCTTAGCATTTCAAGTTGTGTAAATTCTGATTCTCTT  85060   85273   TGGGTTTTGTAGCA  TGGGTTTTGTAGCA  ||||||||||||||  ==============  14      0       0       0
...以下省略...

複数のエントリがヒット(検索条件に合致)していることがわかります。

これを一行ずつ確認しても構いませんが、ここでは標的遺伝子が含まれるかどうかを知りたいだけですので、
次のステップでは標的遺伝子の名前が含まれる行を抽出します。

1–3. 検索結果から標的配列遺伝子名を含む行を抜き出し、その中を確認する。

取得した検索結果より、標的遺伝子名が含まれる行を抜き出し、その結果をファイルに保存します。

grep ${TARGET} ${OUTPUT_PREFIX}.txt \
> ${OUTPUT_PREFIX}_target.txt

結果が含まれるファイルの内容を表示します。

less ${OUTPUT_PREFIX}_target.txt

以下のような内容がターミナルに表示されます。

NM_174936.3|PCSK9|chr1:55039475:55064853:+|prespliced   -       25311   25324   GCAAGCAGACATTTATCTTTTGGGTCTGTCCTCTCTGTTGCCTTTTTACAGCCAACTTTTCTAGACCTGTTTTGCTTTTGTAACTTGAAGATATTTATTCTGGGTTTTGTAGCATTTTTATTAATATGGTGACTTTTTAAAATAAAAACAAACAAACGTTGTCCTAAC        25211   25378   TGGGTTTTGTAGCA  TGGGTTTTGTAGCA  ||||||||||||||  ==============  14      0       0       0

結果の中に、標的遺伝子に対応するエントリが含まれていることが確認できました。

これによって、検索配列は標的遺伝子のPCSK9のmRNA前駆体の一部と完全に一致することが確認できました。
また結果が1件であることから、検索配列と一致するようなPCSK9のバリアントは検索対象であるデータベース(RefSeq)に登録されていないことがわかります。


2. SPC–5001がマウスPCSK9を標的とするかを調べる

2–1. パラメータの設定

ターミナルを開いて、検索に係る各種パラメータを設定します。ここではデータベースとして、RefSeqに含まれるマウスのタンパク質コード遺伝子(ミトコンドリアゲノムにコードされているものを含む)の前駆体を検索対象としています。

DB=mm10_refSeqCuratedProtCoding_prespliced_d3g1906    # GGGenomeにおける、D3G mouse unspliced protein-coding RNAのデータベース名。
QUERY=TGCTACAAAACCCA                                  # SPC-5001の配列。mRNAに対するアンチセンスとなっていることを銘記。
STRAND=-                                              # 検索対象とするストランド。mRNAアンチセンス鎖との一致を検索するために「-」を指定。
DISTANCE=2                                            # 配列検索の条件として用いる編集距離。ヒト・マウス間で差がある可能性を考慮し、「2」と指定。
TARGET=PCSK9                                          # 確認対象とする標的遺伝子名 (ヒトのオーソログであっても、マウスでは異なる名称で呼ばれている可能性もあることに注意が必要。そのようなケースかどうかを確認した上で、必要に応じてマウスの遺伝子名に修正)。
OUTPUT_PREFIX=SPC-5001-mouse                          # 出力ファイル名のプレフィックス。

2–2. スプライス前の配列集合の中からクエリ配列との編集距離が2以下のものを検索し、結果を確認する

指定パラメータを元にGGGenomeを用いた検索を行い、結果をファイルに保存します。(検索時の条件・状況によって検索に要する時間は異なります)

wget -O - https://gggenome.dbcls.jp/${DB}/${DISTANCE}/${STRAND}/${QUERY}.txt \
> ${OUTPUT_PREFIX}.txt

検索結果が含まれるファイルの内容を表示します。

less ${OUTPUT_PREFIX}.txt

その結果、以下のような内容がターミナルに表示されます。

# [ GGGenome | 2019-07-01 12:34:56 ]
# database:     Mouse pre-spliced RNA, RefSeq curated protein coding on mm10, D3G 19.06 (Jun, 2019)
# query:        TGGGTTTTGTAGCA
# count:        32090
# name  strand  start   end     snippet snippet_pos     snippet_end     query   sbjct   align   edit    match   mis     del     ins
NM_001001144.3|Scap|chr9:110333355:110384949:+|prespliced       -       616     628     GCAACATGTAGATTCTCTGCTGGGAGTGCTCGGTTTCTGGTTTTATGTGTTGCTTAAACCTAAACTTTGCTCGCTTATGTTGCTTATGTTTACTTCCAGGTGGTTTTGTTGCATCAGGGTTATAATGGGATAGCGCTAGCTGCAGCGAGTCCCGGGTCCACACTGCATCTCAGAAAGTTGTGCAGATGGTGGCGATGAAGAGGAGGGCAGTGA   516     728     TGGGTTTTGTAGCA  T-GGTTTTGTTGCA  | |||||||| |||  =I========X===  12      1       0       1
NM_001001144.3|Scap|chr9:110333355:110384949:+|prespliced       -       21882   21896   CAGTGGACTGCTGGTGGTGTCTAATTTTACAGTGACACACTGCCAAGCCTGTAGACCTGTGGCTCCTTCACCTGTGTAGTACAGGATGCCCCCTAGGGAGTGGCTTTTGTAGTCACTGTTTCCTGGGTGCTTTACCATGTAGGGATTTGGAGGTAGTCTACTTTGTCTGAGCCATAATGTAGAAATGCCCTTTCTTCTTTCCTTTCTCTCTGACA 21782   21996   TGGGTTTTGTAG-CA TGGCTTTTGTAGTCA ||| |||||||| || ===X========D== 13      1       1       0
NM_001001144.3|Scap|chr9:110333355:110384949:+|prespliced       -       41989   42003   TGGCCTCGAACTCAGAAATCCTCCTGCCTCTGCCTCCCAAGTGCTGGGATTAAAGGCGTGCGCCACCACCGCCTGGCCTATAAGCTTTTGTTTGTTTGTTTGGGTTTTTTTAGCAGCAAGCACTTTTAACTACTGAACTGTCTCCCCAGCCTGCACACTGCTCGCCCAGGGCTTGTGTCCAGGGAGTGCCCGATAAAGAAGCATATGTGTCTTCC 41889   42103   TGGGTTTTG-TAGCA TGGGTTTTTTTAGCA ||||||||  ||||| ========XD===== 13      1       1       0
NM_001001160.3|Fbxo41|chr6:85469573:85502994:-|prespliced       -       20921   20934   GTTTGAGCAGGTTGGTGGGTCTGAGCCACCATGGTTCTTGGTGTATTTCAGAGCATGAGTGTGCCTGAGAGTGAATATGAGTGCATACATAGGAACGTGTTGGGCTTTGTAGGATATGTGTTCATTGCTATGAGGCTTTCCATGTGGCTGGACATGTTCCTTTGTGAGGAGACAGTGTATTGAGGCCACAGGGAACTGGAAAAGTCTGCTTTTT  20821   21034   TGGGTTTTGTAGCA  TGGGCTTTGTAGGA  |||| ||||||| |  ====X=======X=  12      2       0       0
NM_001001177.2|BC051142|chr17:34398819:34460734:+|prespliced    -       41401   41415   TAAGGCAATTCATCACAGAATGAAAAGAAGCCTCCAGTCTTACATGTTCCCAGTGTTGTGCAATTGGAGGGCTGCCTATGACTAGCAATACAAGCCACCCTGGGTTTTCCTAGCATTTCCATGCACAATGTTGAAAGATGGGTATTCAGTTATTAGGTATTACCTTCACATCAATTAAGCATAATGATCTCTCTCCCCATCTCTCTAGCCGGAGC 41301   41515   TGGGTTTTG-TAGCA TGGGTTTTCCTAGCA ||||||||  ||||| ========XD===== 13      1       1       0
...以下省略...

2–3. 検索結果から標的配列遺伝子名を含む行を抜き出し、結果を確認する

取得した検索結果より、標的遺伝子名が含まれる行を抜き出し、その結果をファイルに保存します。

grep -i \|${TARGET}\| ${OUTPUT_PREFIX}.txt \
> ${OUTPUT_PREFIX}_target.txt

抜き出された結果を表示します。

less ${OUTPUT_PREFIX}_target.txt

その結果、以下のような内容がターミナルに表示されます。

<出力なし>

結果が得られていないことから、mouseのPCSK9前駆体mRNA配列には、2塩基以内の違いで一致する領域が無いことがわかりました。


3. SPC–5001が相補結合し得る、ヒトのタンパク質コードRNA前駆体を列挙する

3–1. パラメータの設定

ターミナルを開いて、検索に係る各種パラメータを設定します。ここでは手順1–1.と同様に、データベースとしてRefSeqに含まれるヒトのタンパク質コード遺伝子(ミトコンドリアゲノムにコードされているものを含む)を用います。

DB=hg38_refSeqCuratedProtCoding_prespliced_d3g1906    # GGGenomeにおける、D3G human unspliced protein-coding RNAのデータベース名
QUERY=TGCTACAAAACCCA                                  # SPC-5001の配列。mRNAに対するアンチセンスとなっていることを銘記
STRAND=-                                              # 検索対象とするストランド。mRNAアンチセンス鎖との一致を検索するために「-」を指定。
DISTANCE=2                                            # 配列検索の条件として用いる編集距離。オフターゲットの影響も考えるため、ここでは「2」と指定。
OUTPUT_PREFIX=SPC-5001-prespliced                     # 出力ファイル名のプレフィックス

3–2. スプライス前の配列集合の中から、編集距離(insertion、deletionを含めた異なる塩基数)が2以下の配列を検索する

指定パラメータを元にGGGenomeを用いた検索を行い、結果をファイルに保存します。(検索時の条件・状況によって検索に要する時間は異なります)

wget -O - https://gggenome.dbcls.jp/${DB}/${DISTANCE}/${STRAND}/${QUERY}.txt \
> ${OUTPUT_PREFIX}.txt

検索結果が含まれるファイルの内容を表示します。

less ${OUTPUT_PREFIX}.txt

次のような内容がターミナルに表示されます。

# [ GGGenome | 2019-07-01 12:34:56 ]
# database:     Human pre-spliced RNA, RefSeq curated protein coding on hg38, D3G 19.06 (Jun, 2019)
# query:        TGGGTTTTGTAGCA
# count:        66949
# name  strand  start   end     snippet snippet_pos     snippet_end     query   sbjct   align   edit    match   mis     del     ins
NM_000019.3|ACAT1|chr11:108121530:108148168:+|prespliced        -       19646   19658   AAATTAGCTGGGTATAGCAGCACACGCCTGTAGTCCCAGCTACTAGGGAATCCAAGGCAGGAGGATCAATTGAGCCCAGGAGTCCGAGGCTGCAGTGAGCTAGGTTTGTAGCATTGCACTCTATTGGGAGACTGTGCAAGACCATTTCAAACAAACAAAATTAGCTGGCTGTGGTGGCTCCCACCTGTAGTCCCAGCTACTTGGGAGGCTGAG   19546   19758   TGGGTTTTGTAGCA  TAGG-TTTGTAGCA  | || |||||||||  =X==I=========  12      1       0       1
NM_000020.2|ACVRL1|chr12:51907417:51923361:+|prespliced -       15624   15637   CTAGGTTCCCAGATCATTAGGGCAGAGTTTGCACGTCCTCTGGTCACTGGAATCCACCCAGCCCACGAATCATCTCCCTCTTGAAGGATTTTATTTCTACTGGGTTTTGGAACAAACTCCTGCTGAGACCCCACAGCCAGAAACTGAAAGCAGCAGCTCCCCAAAGCCTGGAAAATCCCTAAGAGAAGGCCTGGGGCAGGAAGTGGAGTGACAG  15524   15737   TGGGTTTTGTAGCA  TGGGTTTTGGAACA  ||||||||| | ||  =========X=X==  12      2       0       0
NM_000022.3|ADA|chr20:44619518:44651758:-|prespliced    -       5170    5182    GTACCTCAGGTAGACAACTCCTGAAACTCAGCTTCCCCCTCTGTAAAATGGGGTGACAAAACCAAGATCTTGGGGTTCTTGGGGAAACTGACATGCTGATTGGTTTTTGTACAGTGCCTGGCTGGTAACAGCAGGCCCTCAGGGGTGCGTTTCCTTCCTGGGGACTGGAGTGGGGGTTGCAGTAGACTCTGGGAGGCCTCTCCAGCTGCAGAA   5070    5282    TGGGTTTTGTAGCA  TGGTTTTTGTA-CA  ||| ||||||| ||  ===X=======I==  12      1       0       1
NM_000033.3|ABCD1|chrX:153724867:153744762:+|prespliced -       7174    7187    CACCGTCTCTATCTGATGGTTTGGTTAGCTTCAGTTCTTGGGAGTATCATTCGCCTGTCTTCTGTCTGCTGGTCTTCACTCATGGTGGATCATTTCCTTGTGGGTTTTGCAACAGAACTTCTATGGGGATTGGTGTGGCCTCAATGGAGGGTGTAAGTCCAAATGTCCTTCTGTTTTGGCCAAGCACTCCAGGGTAAGCAGTTGGAGGCCATTA  7074    7287    TGGGTTTTGTAGCA  TGGGTTTTGCAACA  ||||||||| | ||  =========X=X==  12      2       0       0
NM_000034.3|ALDOA|chr16:30053089:30070420:+|prespliced  -       7583    7595    TTATTAATGACAAGATCTAAACCCTTCCAAGGGAGAGAGCCAAGAAATGCTTTTAATACCCTCTTTTCTGAGGTAATGGCAGCAGAGCCTCTCTCAGCCATGGGTTCTGTGCACAGAATGATGGTGTGGTCCTTCAAAAGCCCGCAGAAGTGATTTCATCCCCAGACTGAGACTCCCTAGAGACACCCCAAATCACACCCTCATCAAACACAA   7483    7695    TGGGTTTTGTAGCA  TGGGTTCTGT-GCA  |||||| ||| |||  ======X===I===  12      1       0       1
...以下省略...

一致配列が多数存在することがわかります。ただ、同一遺伝子であっても異なるバリアントに存在する一致配列、あるいは同一バリアントであっても異なる領域に存在しうる一致配列もすべて異なる行として現れていることに注意が必要です。

3–3. 一致配列を、遺伝子単位でまとめる

取得した検索結果を遺伝子名で並び替えつつ、遺伝子毎に区切ってファイルに保存します。

tail -n +6 ${OUTPUT_PREFIX}.txt \
| cut -f 1-4,6- \
| sort -k 2,2 -t '|'  \
| awk 'BEGIN{FS="|"}{if (prev!=$2){print "\n>>>"$2} prev=$2;print}' \
> ${OUTPUT_PREFIX}_per_gene.txt

遺伝子単位にまとめた結果ファイルの内容を表示します。

less ${OUTPUT_PREFIX}_per_gene.txt

次のような内容がターミナルに表示されます。

>>>A1CF
NM_001198818.1|A1CF|chr10:50799408:50885675:-|prespliced        -       10821   10833   10721   10933   TGGGTTTTGTAGCA  TGGTTTTTGT-GCA  ||| |||||| |||  ===X======I===  12      1       0       1
NM_001198818.1|A1CF|chr10:50799408:50885675:-|prespliced        -       63557   63569   63457   63669   TGGGTTTTGTAGCA  TGGGTTTTCTA-CA  |||||||| || ||  ========X==I==  12      1       0       1
NM_001198818.1|A1CF|chr10:50799408:50885675:-|prespliced        -       83779   83792   83679   83892   TGGGTTTTGTAGCA  TTGGTTTTGTAGGA  | |||||||||| |  =X==========X=  12      2       0       0
NM_001198819.1|A1CF|chr10:50799408:50885675:-|prespliced        -       10821   10833   10721   10933   TGGGTTTTGTAGCA  TGGTTTTTGT-GCA  ||| |||||| |||  ===X======I===  12      1       0       1
NM_001198819.1|A1CF|chr10:50799408:50885675:-|prespliced        -       63557   63569   63457   63669   TGGGTTTTGTAGCA  TGGGTTTTCTA-CA  |||||||| || ||  ========X==I==  12      1       0       1
NM_001198819.1|A1CF|chr10:50799408:50885675:-|prespliced        -       83779   83792   83679   83892   TGGGTTTTGTAGCA  TTGGTTTTGTAGGA  | |||||||||| |  =X==========X=  12      2       0       0
NM_001198820.1|A1CF|chr10:50799408:50885675:-|prespliced        -       10821   10833   10721   10933   TGGGTTTTGTAGCA  TGGTTTTTGT-GCA  ||| |||||| |||  ===X======I===  12      1       0       1
NM_001198820.1|A1CF|chr10:50799408:50885675:-|prespliced        -       63557   63569   63457   63669   TGGGTTTTGTAGCA  TGGGTTTTCTA-CA  |||||||| || ||  ========X==I==  12      1       0       1
NM_001198820.1|A1CF|chr10:50799408:50885675:-|prespliced        -       83779   83792   83679   83892   TGGGTTTTGTAGCA  TTGGTTTTGTAGGA  | |||||||||| |  =X==========X=  12      2       0       0
NM_014576.3|A1CF|chr10:50799408:50885675:-|prespliced   -       10821   10833   10721   10933   TGGGTTTTGTAGCA  TGGTTTTTGT-GCA  ||| |||||| |||  ===X======I===  12      1       0       1
NM_014576.3|A1CF|chr10:50799408:50885675:-|prespliced   -       63557   63569   63457   63669   TGGGTTTTGTAGCA  TGGGTTTTCTA-CA  |||||||| || ||  ========X==I==  12      1       0       1
NM_014576.3|A1CF|chr10:50799408:50885675:-|prespliced   -       83779   83792   83679   83892   TGGGTTTTGTAGCA  TTGGTTTTGTAGGA  | |||||||||| |  =X==========X=  12      2       0       0
NM_138932.2|A1CF|chr10:50799408:50885675:-|prespliced   -       10821   10833   10721   10933   TGGGTTTTGTAGCA  TGGTTTTTGT-GCA  ||| |||||| |||  ===X======I===  12      1       0       1
NM_138932.2|A1CF|chr10:50799408:50885675:-|prespliced   -       63557   63569   63457   63669   TGGGTTTTGTAGCA  TGGGTTTTCTA-CA  |||||||| || ||  ========X==I==  12      1       0       1
NM_138932.2|A1CF|chr10:50799408:50885675:-|prespliced   -       83779   83792   83679   83892   TGGGTTTTGTAGCA  TTGGTTTTGTAGGA  | |||||||||| |  =X==========X=  12      2       0       0
NM_138933.2|A1CF|chr10:50799408:50885675:-|prespliced   -       10821   10833   10721   10933   TGGGTTTTGTAGCA  TGGTTTTTGT-GCA  ||| |||||| |||  ===X======I===  12      1       0       1
NM_138933.2|A1CF|chr10:50799408:50885675:-|prespliced   -       63557   63569   63457   63669   TGGGTTTTGTAGCA  TGGGTTTTCTA-CA  |||||||| || ||  ========X==I==  12      1       0       1
NM_138933.2|A1CF|chr10:50799408:50885675:-|prespliced   -       83779   83792   83679   83892   TGGGTTTTGTAGCA  TTGGTTTTGTAGGA  | |||||||||| |  =X==========X=  12      2       0       0

>>>A2ML1
NM_144670.5|A2ML1|chr12:8822471:8876783:+|prespliced    -       10167   10180   10067   10280   TGGGTTTTGTAGCA  TGGGTTTTATAACA  |||||||| || ||  ========X==X==  12      2       0       0

>>>A4GNT
NM_016161.2|A4GNT|chr3:138123717:138132387:-|prespliced -       4644    4656    4544    4756    TGGGTTTTGTAGCA  TGGGTTTTCT-GCA  |||||||| | |||  ========X=I===  12      1       0       1

...以下省略...

検索結果が遺伝子単位にまとまっていることがわかります。

参考までに、いくつの遺伝子にヒットしているのか調べます。まずは、遺伝子名だけの行を抽出します。

grep '>>>' ${OUTPUT_PREFIX}_per_gene.txt | sort > ${OUTPUT_PREFIX}_per_gene.genes.txt

その後、行を数えます。

cat ${OUTPUT_PREFIX}_per_gene.genes.txt | wc -l

結果が次のように表示されます。

    7576

7,000個以上の遺伝子にヒットしていることがわかりました。


4. SPC–5001がヒトPCSK9を標的とするかを確認する(ヒトゲノム配列を利用)

4–1. パラメータの設定

ターミナルを開いて、検索に係る各種パラメータを設定します。検索対象として、リファレンス・ヒトゲノムを用います。検索により得られた配列一致が、遺伝子領域に存在するかどうかを判断するため、遺伝子のゲノム座標データについても準備します。

wget http://d3g.riken.jp/release/latest/hg38/ncbiRefSeqCuratedProteinCoding.bed12.gz # 遺伝子のゲノム座標データの準備
GENE_COORDINATES=ncbiRefSeqCuratedProteinCoding.bed12.gz    # 遺伝子のゲノム座標データファイル
DB=hg38                                                     # GGGenomeにおける、ヒトhg38ゲノムのデータベース名
QUERY=TGCTACAAAACCCA                                        # SPC-5001の配列。mRNAに対するアンチセンスとなっていることを銘記
STRAND=                                                     # 検索対象とするストランド。ゲノム上には両鎖に遺伝子が存在し得ることから、片鎖に限定せず両鎖を検索する。
DISTANCE=0                                                  # 配列検索の条件として用いる編集距離。完全一致を検索するため、「0」と指定。
TARGET=PCSK9                                                # ターゲット遺伝子のsymbol
OUTPUT_PREFIX=SPC-5001-PCSK9                                # 出力ファイル名のプレフィックス

4–2. ゲノム配列からクエリ配列と一致する領域を検索し、結果を確認する

指定パラメータを元にGGGenomeを用いた検索を行い、結果をファイルに保存します。 (検索時の条件・状況によって検索にかかる時間は異なります)

wget -O - https://gggenome.dbcls.jp/${DB}/${DISTANCE}/${STRAND}/${QUERY}.bed \
> ${OUTPUT_PREFIX}.bed

検索結果が含まれるファイルの内容を表示します。

less ${OUTPUT_PREFIX}.bed

以下のような内容がターミナルに表示されます。

track name=GGGenome description="GGGenome matches"
chr1    8363829 8363843 .       0       +
chr1    177713585       177713599       .       0       +
chr1    184489057       184489071       .       0       +
chr3    27217664        27217678        .       0       +
chr3    55813946        55813960        .       0       +
chr4    150736744       150736758       .       0       +
chr5    44364503        44364517        .       0       +
chr7    153934740       153934754       .       0       +
chr12   31992431        31992445        .       0       +
...以下省略...

ゲノム上に、多数の配列一致が見つかったことがわかります。

4–3. 配列一致領域と遺伝子のゲノム上での重複を調べ、結果を確認する

配列一致の見つかったゲノム位置が、遺伝子と重複する領域に存在するかを調べ、結果をファイルに保存します。

bedtools intersect -a ${OUTPUT_PREFIX}.bed -b ${GENE_COORDINATES} -wa -wb -S  \
> ${OUTPUT_PREFIX}_gene.bed

結果が含まれるファイルの内容を表示します。

less ${OUTPUT_PREFIX}_gene.bed

次のような内容がターミナルに表示されます。

chr1    8363829 8363843 .       0       +       chr1    8352403 8423687 NM_001042682.1|RERE     0       -       8355086 8364133 0,0,0   13      2717,181,147,721,223,1379,114,162,200,93,163,81,127,    0,3015,3696,5792,7360,7708,9359,10279,11652,12342,13408,70323,71157,
chr1    8363829 8363843 .       0       +       chr1    8352403 8817640 NM_012102.3|RERE        0       -       8355086 8656297 0,0,0   24      2717,181,147,721,223,1379,114,162,200,93,163,81,99,100,125,49,105,97,106,126,71,469,185,481,    0,3015,3696,5792,7360,7708,9359,10279,11652,12342,13408,70323,113521,142659,145001,156223,188810,204071,205014,262157,271906,303569,440000,464756,
chr1    8363829 8363843 .       0       +       chr1    8352403 8817640 NM_001042681.1|RERE     0       -       8355086 8656297 0,0,0   23      2717,181,147,721,223,1379,114,162,200,93,163,81,99,100,125,49,105,97,106,126,71,469,481,        0,3015,3696,5792,7360,7708,9359,10279,11652,12342,13408,70323,113521,142659,145001,156223,188810,204071,205014,262157,271906,303569,464756,
chr3    27217664        27217678        .       0       +       chr3    27110902        27369460        NM_152534.4|NEK10       0       -       27111271        27352882        0,0,0   39      418,56,53,109,111,101,30,141,38,55,87,184,214,71,130,76,103,122,46,138,129,103,65,78,62,140,225,87,80,68,79,42,85,99,131,61,108,40,236, 0,5037,5172,8857,20977,30579,32542,51558,51798,60916,63536,63747,81126,90607,91525,145393,173699,173937,176795,179714,180359,180581,182685, 184710,186276,190793,193844,196956,198023,200046,201196,203394,211274,233369,235183,241562,241909,256620,258322,
chr3    27217664        27217678        .       0       +       chr3    27215605        27369460        NM_199347.3|NEK10       0       -       27215831        27352882        0,0,0   25      275,76,103,122,46,138,129,103,65,78,62,140,225,87,80,68,79,42,85,99,131,61,108,40,236,  0,40690,68996,69234,72092,75011,75656,75878,77982,80007,81573,86090,89141,92253,93320,95343,96493,98691,106571,128666,130480,136859,137206,151917,153619,
chr3    55813946        55813960        .       0       +       chr3    55508310        56468363        NM_015576.2|ERC2        0       -       55683832        56435007        0,0,0   18      2966,66,135,148,161,136,12,194,141,141,138,168,168,156,75,417,797,116,  0,175483,191067,226460,380078,442114,477666,483746,498870,502138,510583,572506,631198,640666,665135,787708,926040,959937,
chr4    150736744       150736758       .       0       +       chr4    150264658       151015267       NM_001199282.2|LRBA     0       -       150265721       151014642       0,0,0   57      1154,152,197,102,165,156,63,178,90,168,153,120,141,113,116,103,118,137,147,125,167,109,65,62,134,79,134,442,160,108,122,181,154,179,1059,193,124,82,109,93,98,63,80,169,153,109,134,198,147,120,127,122,96,101,232,435,66,      0,13194,17791,21274,37969,45570,50902,56532,61150,8 5333,150779,170930,172065,203014,206965,223073,226259,323389,326054,334348,418892,470599,497124,533422,541612,543661,552465,563521,567158,579441,579999,584159,584763,586065,587226,603012,603523,605866,606686,608004,628393,631735,633080,635390,641179,641638,643675,644001,649536,650949,651742,651958,656539,663857,664175,749768,750543,
chr4    150736744       150736758       .       0       +       chr4    150264658       151015497       NM_006726.4|LRBA        0       -       150265721       151014642       0,0,0   58      1154,152,197,102,168,156,63,178,90,168,153,120,141,113,116,103,118,137,147,33,125,167,109,65,62,134,79,134,442,160,108,122,181,154,179,1059,193,124,82,109,93,98,63,80,169,153,109,134,198,147,120,127,122,96,101,232,435,25,   0,13194,17791,21274,37966,45570,50902,56532,61150,8 5333,150779,170930,172065,203014,206965,223073,226259,323389,326054,332424,334348,418892,470599,497124,533422,541612,543661,552465,563521,567158,579441,579999,584159,584763,586065,587226,603012,603523,605866,606686,608004,628393,631735,633080,635390,641179,641638,643675,644001,649536,650949,651742,651958,656539,663857,664175,749768,750814,
chr5    44364503        44364517        .       0       +       chr5    44304994        44388682        NM_004465.1|FGF10       0       -       44304994        44388682        0,0,0   3       198,104,325,    0,5432,83363,
chr1    55064785        55064799        .       0       -       chr1    55039475        55064853        NM_174936.3|PCSK9       0       +       55039837        55063584        0,0,0   12      569,192,124,134,142,197,184,174,149,178,182,1485,       0,4367,7047,12802,13174,16517,17855,18560,19023,20010,21899,23893,
...以下省略...

4–4. 標的配列遺伝子と重複している一致だけを抜き出し、結果を確認する

重複を調べた結果から、標的配列遺伝子名を含む行を抜き出し、その結果をファイルに保存します。

grep ${TARGET} ${OUTPUT_PREFIX}_gene.bed \
> ${OUTPUT_PREFIX}_gene_target.txt

抜き出された結果を表示します。

less ${OUTPUT_PREFIX}_gene_target.txt

その結果、以下のような内容がターミナルに表示されます。

chr1    55064785        55064799        .       0       -       chr1    55039475        55064853        NM_174936.3|PCSK9       0       +       55039837        55063584        0,0,0   12      569,192,124,134,142,197,184,174,149,178,182,1485,       0,4367,7047,12802,13174,16517,17855,18560,19023,20010,21899,23893,

ヒトゲノム上で検索配列と一致した領域群に、標的遺伝子のPCSK9がコードされている領域が含まれていることが確認できました。


5. SPC–5001が相補結合し得る、ヒトのタンパク質コードRNA前駆体を列挙する(ヒトゲノム配列を利用)

5–1. パラメータの設定

ターミナルを開いて、検索に係る各種パラメータを設定します。手順4–1.と同様に、検索対象としてリファレンス・ヒトゲノムを用います。検索により得られた配列一致が、遺伝子領域に存在するかどうかを判断するため、遺伝子のゲノム座標データについても準備します(手順4–1.で準備したものと同じものですので、そちらの実施後でしたら下のwgetコマンドは必要ありません)。

wget -nc http://d3g.riken.jp/release/latest/hg38/ncbiRefSeqCuratedProteinCoding.bed12.gz  # 遺伝子座標データの準備
GENE_COORDINATES=ncbiRefSeqCuratedProteinCoding.bed12.gz    # 遺伝子のゲノム座標データファイル
DB=hg38                                                     # GGGenomeにおける、ヒトhg38ゲノムのデータベース名
QUERY=TGCTACAAAACCCA                                        # SPC-5001の配列。mRNAに対するアンチセンスとなっていることを銘記
STRAND=                                                     # 検索対象とするストランド。ゲノム上には両鎖に遺伝子が存在し得ることから、片鎖に限定せず両鎖を検索する。
DISTANCE=2                                                  # 配列検索の条件として用いる編集距離。配列検索の条件として用いる編集距離。オフターゲットの影響も考えるため、ここでは「2」と指定。
OUTPUT_PREFIX=SPC-5001-prespliced                           # 出力ファイル名のプレフィックス

5–2. ゲノム配列からクエリ配列との編集距離が2以下の領域を検索し、結果を確認する

wget -O - https://gggenome.dbcls.jp/${DB}/${DISTANCE}/${STRAND}/${QUERY}.bed \
> ${OUTPUT_PREFIX}.bed

結果ファイルの内容を表示します。

less ${OUTPUT_PREFIX}.bed

その結果、以下のような内容がターミナルに表示されます。

track name=GGGenome description="GGGenome matches"
chr1    12428   12442   .       0       +
chr1    21471   21484   .       0       +
chr1    56174   56189   .       0       +
chr1    173165  173177  .       0       +
chr1    182947  182961  .       0       +
chr1    191995  192008  .       0       +
chr1    460993  461006  .       0       +
chr1    674286  674299  .       0       +
chr1    695964  695977  .       0       +
chr1    807983  807995  .       0       +
... 以下省略 ...

5–3. 検索結果と遺伝子座標のゲノム上での重複を調べ、結果を確認する

bedtoolsを用いてゲノム上の検索結果と、遺伝子領域とが重複する領域だけを抜き出し、その結果をファイルに保存します。

bedtools intersect -a ${OUTPUT_PREFIX}.bed -b ${GENE_COORDINATES} -wa -wb -S -f 0.85 \
> ${OUTPUT_PREFIX}_gene_intersect.txt

アンチセンス配列をクエリとしているため-Sオプションを指定しています。また、デフォルトの場合だと一塩基でも重複している場合も含めて出力されますので、一致配列の85%以上が重複するもの(つまり、14塩基長のうち12塩基以上が重複)のみを出力するよう「-f 0.85」とオプションを指定しています。

また、重複塩基長がオフターゲット候補にならないほど短いと考えられるケース(ゲノム上の遺伝子領域の末端から外にはみ出してマッチしているケース)を除くため、マッチ領域の50%以上が遺伝子領域と重複する箇所のみが抽出されるように-f 0.5のオプションを指定しています。

結果が含まれるファイルの内容を表示します。

less ${OUTPUT_PREFIX}_gene_intersect.txt

次のような内容がターミナルに表示されます。

chr1    1072070 1072082 .       0       +       chr1    1071745 1074307 NM_001205252.1|RNF223   0       -       1071816 1072566 0,0,0   2       830,292,        0,2270,
chr1    1391261 1391274 .       0       +       chr1    1385710 1398342 NM_001350497.1|CCNL2    0       -       1387230 1390858 0,0,0   10      1872,93,112,142,105,100,125,65,144,110, 0,2066,2243,4519,4748,5055,6968,7685,9683,12522,
chr1    1391261 1391274 .       0       +       chr1    1385710 1399342 NM_001350499.1|CCNL2    0       -       1387230 1391562 0,0,0   13      1872,93,112,142,105,100,279,125,65,121,110,75,324,      0,2066,2243,4519,4748,5055,5586,6968,7685,9683,12522,12886,13308,
chr1    1391261 1391274 .       0       +       chr1    1385710 1399342 NM_001350498.1|CCNL2    0       -       1387230 1390858 0,0,0   12      1872,93,112,142,105,100,125,65,121,110,75,324,  0,2066,2243,4519,4748,5055,6968,7685,9683,12522,12886,13308,
chr1    1391261 1391274 .       0       +       chr1    1385710 1399342 NM_001320153.2|CCNL2    0       -       1387230 1390858 0,0,0   12      1872,93,112,142,105,810,14,65,121,110,75,324,   0,2066,2243,4519,4748,5055,7079,7685,9683,12522,12886,13308,
chr1    1391261 1391274 .       0       +       chr1    1385710 1399342 NM_001350500.1|CCNL2    0       -       1387230 1391562 0,0,0   13      1872,93,112,142,105,100,279,14,65,121,110,75,324,       0,2066,2243,4519,4748,5055,5586,7079,7685,9683,12522,12886,13308,
chr1    1391261 1391274 .       0       +       chr1    1385710 1399342 NM_001320155.2|CCNL2    0       -       1387230 1390858 0,0,0   12      1872,93,112,142,105,100,14,65,121,110,75,324,   0,2066,2243,4519,4748,5055,7079,7685,9683,12522,12886,13308,
chr1    1391261 1391274 .       0       +       chr1    1385710 1399342 NM_030937.5|CCNL2       0       -       1387230 1399306 0,0,0   11      1872,93,112,142,105,100,65,121,110,75,324,      0,2066,2243,4519,4748,5055,7685,9683,12522,12886,13308,
chr1    1545828 1545842 .       0       +       chr1    1541672 1574882 NM_014188.2|SSU72       0       -       1542065 1574557 0,0,0   5       495,119,140,144,405,    0,2196,3190,23100,32805,
chr1    1648125 1648139 .       0       +       chr1    1635225 1659097 NM_033489.2|CDK11B      0       -       1635763 1657264 0,0,0   21      631,190,149,117,108,122,106,122,91,176,66,159,96,123,137,139,128,116,47,124,184,        0,711,1107,1456,1671,1855,2182,2536,3274,5051,5822,6436,6680,7160,9900,14273,17213,20143,22030,22149,23688,
... 以下省略 ...

5–4. 一致配列を、重複する遺伝子単位でまとめる

重複する遺伝子名を行頭に出力した後、これを辞書順に並べます(コマンドの1〜5行目)。
これによって同じ遺伝子に対してゲノム上で重複する一致配列が連続するようになります。
その後、異なる遺伝子が現れる毎に区切りを出力し(コマンドの6行目)、その結果をファイルに保存します。

cat ${OUTPUT_PREFIX}_gene_intersect.txt \
| awk '{print $10"\t"$0}' \
| cut -f 2- -d '|' \
| sort -k1 -k2 -k3 \
| awk '{if (prev!=$1){print "\n>>>"$1} prev=$1;print}' \
> ${OUTPUT_PREFIX}_per_gene_intersect.txt

結果ファイルの内容を表示します。

less ${OUTPUT_PREFIX}_per_gene_intersect.txt

その結果、以下のような内容がターミナルに表示されます。


>>>A1CF
A1CF    chr10   50801883        50801897        .       0       +       chr10   50799408        50885675        NM_001198818.1|A1CF     0       -       50806728        50859940        0,0,0   14      7472,149,137,182,274,98,165,239,131,135,144,93,48,95,   0,10485,11631,14448,16597,21143,28722,36665,42453,44579,60433,63480,64624,86172,
A1CF    chr10   50801883        50801897        .       0       +       chr10   50799408        50885675        NM_001198819.1|A1CF     0       -       50806728        50850787        0,0,0   15      7472,149,137,206,274,98,165,239,131,135,143,144,93,48,95,       0,10485,11631,14448,16597,21143,28722,36665,42453,44579,51256,60433,63480,64624,86172,
A1CF    chr10   50801883        50801897        .       0       +       chr10   50799408        50885675        NM_001198820.1|A1CF     0       -       50806728        50850787        0,0,0   14      7472,149,137,182,274,98,165,239,131,135,143,144,48,95,  0,10485,11631,14448,16597,21143,28722,36665,42453,44579,51256,60433,64624,86172,
A1CF    chr10   50801883        50801897        .       0       +       chr10   50799408        50885675        NM_014576.3|A1CF        0       -       50806728        50859940        0,0,0   13      7472,149,137,182,274,98,165,239,131,135,144,48,95,      0,10485,11631,14448,16597,21143,28722,36665,42453,44579,60433,64624,86172,
A1CF    chr10   50801883        50801897        .       0       +       chr10   50799408        50885675        NM_138932.2|A1CF        0       -       50806728        50859940        0,0,0   13      7472,149,137,206,274,98,165,239,131,135,144,48,95,      0,10485,11631,14448,16597,21143,28722,36665,42453,44579,60433,64624,86172,
A1CF    chr10   50801883        50801897        .       0       +       chr10   50799408        50885675        NM_138933.2|A1CF        0       -       50806728        50850787        0,0,0   13      7472,149,137,182,274,98,165,239,131,135,143,144,95,     0,10485,11631,14448,16597,21143,28722,36665,42453,44579,51256,60433,86172,
A1CF    chr10   50822106        50822119        .       0       +       chr10   50799408        50885675        NM_001198818.1|A1CF     0       -       50806728        50859940        0,0,0   14      7472,149,137,182,274,98,165,239,131,135,144,93,48,95,   0,10485,11631,14448,16597,21143,28722,36665,42453,44579,60433,63480,64624,86172,
A1CF    chr10   50822106        50822119        .       0       +       chr10   50799408        50885675        NM_001198819.1|A1CF     0       -       50806728        50850787        0,0,0   15      7472,149,137,206,274,98,165,239,131,135,143,144,93,48,95,       0,10485,11631,14448,16597,21143,28722,36665,42453,44579,51256,60433,63480,64624,86172,
A1CF    chr10   50822106        50822119        .       0       +       chr10   50799408        50885675        NM_001198820.1|A1CF     0       -       50806728        50850787        0,0,0   14      7472,149,137,182,274,98,165,239,131,135,143,144,48,95,  0,10485,11631,14448,16597,21143,28722,36665,42453,44579,51256,60433,64624,86172,
A1CF    chr10   50822106        50822119        .       0       +       chr10   50799408        50885675        NM_014576.3|A1CF        0       -       50806728        50859940        0,0,0   13      7472,149,137,182,274,98,165,239,131,135,144,48,95,      0,10485,11631,14448,16597,21143,28722,36665,42453,44579,60433,64624,86172,
A1CF    chr10   50822106        50822119        .       0       +       chr10   50799408        50885675        NM_138932.2|A1CF        0       -       50806728        50859940        0,0,0   13      7472,149,137,206,274,98,165,239,131,135,144,48,95,      0,10485,11631,14448,16597,21143,28722,36665,42453,44579,60433,64624,86172,
A1CF    chr10   50822106        50822119        .       0       +       chr10   50799408        50885675        NM_138933.2|A1CF        0       -       50806728        50850787        0,0,0   13      7472,149,137,182,274,98,165,239,131,135,143,144,95,     0,10485,11631,14448,16597,21143,28722,36665,42453,44579,51256,60433,86172,
A1CF    chr10   50874842        50874855        .       0       +       chr10   50799408        50885675        NM_001198818.1|A1CF     0       -       50806728        50859940        0,0,0   14      7472,149,137,182,274,98,165,239,131,135,144,93,48,95,   0,10485,11631,14448,16597,21143,28722,36665,42453,44579,60433,63480,64624,86172,
A1CF    chr10   50874842        50874855        .       0       +       chr10   50799408        50885675        NM_001198819.1|A1CF     0       -       50806728        50850787        0,0,0   15      7472,149,137,206,274,98,165,239,131,135,143,144,93,48,95,       0,10485,11631,14448,16597,21143,28722,36665,42453,44579,51256,60433,63480,64624,86172,
A1CF    chr10   50874842        50874855        .       0       +       chr10   50799408        50885675        NM_001198820.1|A1CF     0       -       50806728        50850787        0,0,0   14      7472,149,137,182,274,98,165,239,131,135,143,144,48,95,  0,10485,11631,14448,16597,21143,28722,36665,42453,44579,51256,60433,64624,86172,
A1CF    chr10   50874842        50874855        .       0       +       chr10   50799408        50885675        NM_014576.3|A1CF        0       -       50806728        50859940        0,0,0   13      7472,149,137,182,274,98,165,239,131,135,144,48,95,      0,10485,11631,14448,16597,21143,28722,36665,42453,44579,60433,64624,86172,
A1CF    chr10   50874842        50874855        .       0       +       chr10   50799408        50885675        NM_138932.2|A1CF        0       -       50806728        50859940        0,0,0   13      7472,149,137,206,274,98,165,239,131,135,144,48,95,      0,10485,11631,14448,16597,21143,28722,36665,42453,44579,60433,64624,86172,
A1CF    chr10   50874842        50874855        .       0       +       chr10   50799408        50885675        NM_138933.2|A1CF        0       -       50806728        50850787        0,0,0   13      7472,149,137,182,274,98,165,239,131,135,143,144,95,     0,10485,11631,14448,16597,21143,28722,36665,42453,44579,51256,60433,86172,

>>>A2ML1
A2ML1   chr12   8832637 8832651 .       0       -       chr12   8822471 8876783 NM_144670.5|A2ML1       0       +       8822651 8875011 0,0,0   36      242,184,163,53,21,160,85,127,115,110,168,228,61,146,150,195,91,115,229,127,122,52,84,177,82,157,75,163,215,216,128,91,69,103,42,726,    0,710,1248,7255,12190,13035,13783,14968,15864,16641,18897,20662,22970,23605,25077,26248,27197,27688,29312,29738,31656,32308,33037,34692,35035,35474,38409,38663,41322,45370,45758,46065,46663,51953,52499,53586,

>>>A4GNT
A4GNT   chr3    138127731       138127744       .       0       +       chr3    138123717       138132387       NM_016161.2|A4GNT       0       -       138124263       138131256       0,0,0   3       1161,434,176,   0,7131,8494,
... 以下省略...

ゲノムでなく、タンパク質コードRNA前駆体の配列を、直接検索したときと同じ配列が見つかっていることが確認できます (11カラム目)。また、2-4カラム目はクエリ配列がヒットしたゲノム座標を示していますが、A1CFに対する上から6つのエントリはいずれも同じ値を示しています。これは、ゲノム上の同じ箇所に一致したものであること、そしてその領域にはRNA前駆体の構造が複数登録されていることを示しています。

3–3と同様に、いくつの遺伝子にヒットしているのか調べます。まずは、遺伝子名だけの行を抽出します。

grep '>>>' ${OUTPUT_PREFIX}_per_gene_intersect.txt| sort >  ${OUTPUT_PREFIX}_per_gene_intersect.genes.txt

その後、行を数えます。

cat ${OUTPUT_PREFIX}_per_gene_intersect.genes.txt | wc -l

結果が次のように表示されます。

    7575

7,000個以上の遺伝子にヒットしていることがわかりました。
ただ、3–5では7576個の遺伝子であったにもかかわらず、一つ足りないようです。どこが違うのかを確認してみます。

diff ${OUTPUT_PREFIX}_per_gene.genes.txt ${OUTPUT_PREFIX}_per_gene_intersect.genes.txt

すると次のように結果が表示されます。

624d623
< >>>BAGE5

BAGE5、という遺伝子が手順3–5 (ゲノムでなくmRNA前駆体を対象に検索したもの) のみに見つかっていることがわかりました。
これがどんなヒットであったのか、確認してみます。

grep "BAGE5" ${OUTPUT_PREFIX}_per_gene.txt

次のような結果が出力されます。

>>>BAGE5
NM_182484.2|BAGE5|chr13_KN538372v1_fix:76209:170143:+|prespliced	-	21817	21830	AATGAGATACATTTATATTTTTTTGCATGGTAACTTATAAGGCATTGCCAAGAGAGGGAATTCATTGGAGGCAAAGAAAAATATAAAACATAGTGTATATAGGGCTTTGTAGCATCCGTGGTTTCAGGCATTTATGGGAGCCAGGCAGGGGTGGGGTATGGGGTTGAAATGTATTTCCTATGGATAAGCACAGGACTACTTTATACCACTTAAT	21717	21930	TGGGTTTTGTAGCA	AGGGCTTTGTAGCA	 ||| |||||||||	X===X=========	12	0

chr13_KN538372v1_fix、という見慣れない染色体の上に定義されていることがわかりました。これを個別に調べてみると、どうやらリファレンス・ゲノム配列の小規模な訂正(パッチ、hg38 patch2 )として、リファレンス・ゲノムの発表後に追加された配列であることがわかりました。一方、GGGenomeを用いて実施したhg38に対する検索は、パッチによる訂正を含まない配列に対するものでした。以上から、二つのアプローチによる検索は基本的に等価であること、ただ遺伝子セットが定義されるタイミングなどによって結果は僅かに異なるケースがあることがわかりました。