misshie / ngsdat2 Goto Github PK

View Code? Open in Web Editor NEW

41.0 7.0 22.0 202 KB

NGS Data Analysis Textbook Version 2 (Disease Genome Analysis)

License: MIT License

Perl 7.27% Ruby 16.22% Awk 5.89% Shell 70.62%

ngsdat2's Introduction

NGSDAT2

次世代シークエンサー DRY解析教本改訂第２版

Level1準備編２「コマンドラインの使い方」／Level2実践編１「0から始める疾患ゲノム解析ver.2」サポート情報

公式ページ

正誤表

大変ご迷惑おかけしました。以下訂正いたします。

GitHubのissue (openおよびclosedの質問・回答・修正）、Twitterの#NGS_DATダグもご参照ください

p65 32行目 GitHubのデザイン変更に伴い、
誤　clone or downloadをクリックし
正　緑色の「Code」をクリックしてから「Download ZIP」をクリックし
p66 7行目（最初の赤枠5行目）
誤 cd ngsdat2-master
正 cd ngsdat2-master/DiseaseGenomeMain
p.68 14行目
誤 $ 040_run-sra-fastq-dump.sh
正 $ ./040_run-sra-fastq-dump.sh
スクリプト DiseaseGenomeMain/240_convert_35KJPNv2-indel.shとDiseaseGenomeMain/310_run-table-annovar.shの修正点についてPull Requestいただきましたのでmergeしました。

疾患ゲノム解析ver.2／コマンドラインの使い方サポート情報

DiseaseGenomeMain 疾患ゲノム解析２本編スクリプト群
DiseaseGenomeValidation 疾患ゲノム解析２検証編スクリプト群
CommandLineHowTo コマンドラインの使い方スクリプト群

質問・コメントなど

Twitter ハッシュタグ #NGS_DATをつけてツイートしてください。他の方の質問もみられますのでおすすめします。
GitHubのissueページ経由でのコメントやプルリクエストも歓迎いたします。なお、Filtersを空欄にして検索すると、過去の解決済みissueも表示されます。
直接のメールなどは、質問内容の共有がむずかしいので最後の手段にしていただけると助かります。

サポートページ群へのリンク

各章の著者のみなさんによるサポートページへのリンクです

項目	URL
■Level 1（準備編）
コマンドラインの使い方	https://github.com/misshie/ngsdat2
■Level 2（実践編）
0 から始める疾患ゲノム解析 ver2	https://github.com/misshie/ngsdat2
0 から始める発現解析 ver2	https://github.com/RolyPolyCoily/NGSv2
0 から始めるエピゲノム解析（ChIP-seq）ver2	https://github.com/yuifu/ngsdat2_epigenome_chipseq
0 から始めるエピゲノム解析（BS-seq）ver2	https://github.com/kono04/NGSv2_BS-seq
0 から始めるメタゲノム解析	https://github.com/youyuh48/NGSDRY2/
0 から始めるバクテリアゲノム解析	https://github.com/nigyta/bact_genome
0 から始める動物ゲノムアセンブリ	https://gist.github.com/gaou/5035b2aae9978dfc00c55cb10736e272
0 から始めるトランスクリプトームアセンブル解析	https://github.com/bonohu/denovoTA
CWL（Common Workflow Language）があれば，DRY解析はもう怖くない	https://github.com/pitagora-network/DAT2-cwl
■Level 3（応用編）
ゲノムブラウザー風の可視化を R の基本作図関数を組み合わせて実現する	https://github.com/cb-yokoyama/DRYbook
シングルセル RNA-seq で擬時間に対する発現量変動をクラスタリングし，クラスターごとの平均と代表的な遺伝子の発現量を可視化する	https://github.com/yuifu/tutorial-RamDA-paper-fugures/
臨床検査値と疾患の遺伝的相関（genetic correlation）ネットワーク図	https://github.com/mkanai/ldsc-corrplot-rg
メンデルランダム化解析（Mendelian randomization）に基づく臨床検査値と疾患の因果関係の可視化	https://github.com/mkanai/mr-forestplot
等高線散布図による DNA メチル化の比較	https://github.com/KenShirane/PGCLC_methylome
公共データベースに登録された NGS データの分布を可視化する	https://github.com/inutano/sra-quanto/
メタ 16S シーケンスの各サンプルから得られたリード数の分布を生物分類ごとに可視化する	https://github.com/inutano/ohanami-project-manuscript/
メタ 16S シーケンスリードの BLAST 結果を用いて，サンプル間で共通して存在する生物種を可視化する	https://github.com/inutano/ohanami-project-manuscript/
特定の GO term がアノテーションされた遺伝子群の発現差の可視化	https://github.com/khirota-kyt/dry_analysis
LocusZoom プロット：連鎖不平衡情報とともにゲノムワイド関連解析のシグナルを可視化する	https://github.com/hacchy1983/sample-code-for-LocusZoom-plot
遺伝子近傍の DNA メチル化レベルを可視化する	https://github.com/sin-ttk/DNA-methylome-CellRep
58 形質のゲノムワイド関連解析結果とその多面的作用（pleiotropy）の可視化	https://github.com/mkanai/fujiplot
複数の染色体配列間の相同性を可視化する	https://github.com/ya-sainthood/chromosome_comparison
メタ 16S シークエンスの各サンプルから得られた細菌叢組成の差を主座標分析・クラスター分析により可視化する	https://github.com/youyuh48/NGSDRY2/

License

MIT License. Written by MISHIMA, Hiroyuki.

ngsdat2's People

Contributors

Stargazers

Watchers

ngsdat2's Issues

080_download-gatk-bundlesのバリエーションデータについて

080_download-gatk-bundles.shを見ると、ftp://[email protected]/bundle/hg38からデータファイルをDLするようですが、サイトにアクセスできません。

下記サイトを見ると、Grch38/hg38 referenceはGoogleクラウドに移されたように思えます。
https://gatk.broadinstitute.org/hc/en-us/articles/360035890811-Resource-bundle

そこで、サイトにアクセスしてみたところ、
Mills_and_1000G_gold_standard.indels.hg38.vcf.gz
Mills_and_1000G_gold_standard.indels.hg38.vcf.gz.tbi
はあったのですが、次の２つのファイルが見つかりません。
dbsnp_146.hg38.vcf.gz
dbsnp_146.hg38.vcf.gz.tbi

ご確認と対応方法をご教授いただければ幸いです。

0 から始めるエピゲノム解析（ChIP-seq）ver2：MACS2のオプション（--shift）について

DRY解析教本の下記ページに関する質問です。

https://github.com/yuifu/ngsdat2_epigenome_chipseq/blob/master/atacseq.md#macs2%E3%81%AB%E3%82%88%E3%82%8B%E3%83%94%E3%83%BC%E3%82%AF%E6%A4%9C%E5%87%BA

MACS2のヘルプによると、オプション--shiftはペアエンドBAMには使用できないとあります。
https://github.com/macs3-project/MACS/blob/master/docs/callpeak.md#--shift

私がどこか勘違いしているのかもしれないのですが、この点に関してご教授いただけますと幸いです。

P66 ./010_download-ucsc.sh 内のコマンドの誤植について

突然のご連絡失礼します
P66 ./010_download-ucsc.sh 内のコマンドに置きまして、コマンドが
u1="ftp://hgdownload.soe.ucsc.edu"
となっていたのですが、正しくは
u1="https://hgdownload.soe.ucsc.edu"
だと思われます。私の場合、初期の状態ではhg３８参照ゲノムがダウンロードされなく、上記のようにコマンドを変えることでダウンロードできるようになりました。
私のコンピュータ（MacBook Pro m1チップ搭載モデル）のみでの誤作動ならよいのですが、他の方にも支障あると思い連絡させていただきました。
ご確認のほど何卒よろしくお願いします。

p72 についてご教示ください

以前にも何人か質問されて，解決されているということなのですが，sort-bed.rb がカレントディレクトリにあるのに，No such file or directoryと表示されて実行できません。
対処法がありましたらご教示いただけないでしょうか

p.68の./030_download-dra.shについて

表題の件につきまして、7GBのファイルがダウンロードできていれば良いということでしたが、ダウンロードはうまくいったものの、７GBに満たない小さい容量のファイルがダウンロードされました。何が起きているのか分からず、どのような解決策が有りますでしょうか？

P.72上から３つ目のコマンドについて質問があります

p66 unzip ~/Downloads/ngsdat2-master.zip　実行できない

p66 unzip ~/Downloads/ngsdat2-master.zip　
を行なったところ、unzip: cannot find or open
と出てしまいました。
ダウンロードは済んでいるのですが、原因がわかりません。
宜しくお願い致します。

培養細胞の変異の検出について

三嶋先生

こんにちは。
インフォマ独学初心者でRubyユーザーのkojix2です。

申し訳ないと思いつつ、身の回りに詳しい人がおらず聞く当てがないので、ここで直接質問してしまいます。

ここのワークフローを使って、CCLEが公開しているMKN74(SRR8619167)という胃がん培養細胞のsnv indel検出を行うと、exonかつnonsynonymous SNVの変異が10000近く検出されました。
https://www.ncbi.nlm.nih.gov/sra/?term=SRR8619167
(塩基ごとの品質スコアの再校正の過程は省きました)

一方でCCLEのデータベースで見ると、登録されている変異は739個に過ぎません。
https://portals.broadinstitute.org/ccle

この差は何によるものでしょうか。

培養細胞をシークエンスすると公表されているものの10倍ぐらい変異が見つかるという噂も聞きますが、この場合はCCLEのデータを使ってるので単純に正しい方法で検出できていない気もします。一方で、培養細胞の変異が700しかないはずがないという気もします。

調べ方がわからないので、何か思い当たることやヒントがあったら教えて頂けると幸いです。

320_run-awk-prioritizeについて

320_run-awk-prioritizeを実行したところ、
行 15: Scripts/awk010_ToMMo35KJPNv2.awk: 許可がありません
というエラーメッセージが出ました。
私なりに調べたところ、こういったエラーメッセージが出たときはアクセス権を変更するというような情報があったので、
chmod +x
をつけて実行してみたのですが、何も実行されることなく、「$」という入力待ちの状態になってしまいました。

前に質問させていただいたように、210もエラーで実行できず、それらしいファイルをDL&解凍して、annovar-hg38に入れたのですが、そこに問題があったのか、それ以降の220〜310の操作の何処かでうまく行っていない部分があるのか、とも思うのですが、判断しかねます。

ご多用とは存じますが、ご回答いただければ幸いです。

PCR由来の重複除去について

NGSから出力されたオリジナルのFASTQファイルを用いて、解析作業を行ってみました。

オリジナルデータが350MBくらいで、.sort.bamファイルにしたところで約半分のサイズになりました。そのデータを重複除去したところ、3MB弱と、極端に小さなファイルになり、おかしいと思ったのですが、作業を続けてみると、100_の操作で出力されるはずの.sort.dedup.recaltab.txtが出力されませんでした。
そこで、.sort.dedup.bamのファイル名を*.sort.dedup.recal.bamにかえてバリアント検出を行ったところ、130_*でつくったVCFの行数が0となっておりました。

以上のことから、重複除去がうまくいかなかったのではないかと思うのですが、このような場合はどのようにすればいいのでしょうか。

210_prep-annovar-dbsについて

74ページの210_prep-annovar-dbsを実行したところ、

というエラーメッセージが出ました。手動でDLするようにということなのかと思い、
annovar/annotate_variation.pl --buildver hg38 -downdb cytoBand annovar-hg38
というコマンドをうち、実行したところ、

というエラーメッセージが出たため、ブラウザに、http://hgdownload.cse.ucsc.edu/goldenPath/hg38/database/cytoBand.txt.gzと入力し、cytoBand.txt.gzをDLし、解凍してannovar-hg38ディレクトリへ移動し、hg38_cytoBand.txtとしました。同様に、
annovar/annotate_variation.pl --buildver hg38 -downdb refGene --webfrom annovar annovar-hg38
と打って実行すると、

WARNING: cannot retrieve remote files automatically (by 'wget' command or by standard Net::FTP/LWP::UserAgent Perl module).
Please manually download the following file, uncompress the files to annovar-hg38 directory, then add a hg38_ prefix to the file names.
http://www.openbioinformatics.org/annovar/download/hg38_refGene.txt.gz
http://www.openbioinformatics.org/annovar/download/hg38_refGeneMrna.fa.gz
http://www.openbioinformatics.org/annovar/download/hg38_refGeneVersion.txt.gz

というメッセージが出るので、各URLをブラウザに打ち込んで、
hg38_refGene.txt.gz
hg38_refGeneMrna.fa.gz
hg38_refGeneVersion.txt.gz
を得、以下同様に、URLを入力して
hg38_avsnp150.txt.gz
hg38_avsnp150.txt.idx.gz
hg38_gnomad_exome.txt.gz
hg38_gnomad_exome.txt.idx.gz
をDLしました。これらを解凍して、annovar-hg38ディレクトリへ入れればそれでいいのでしょうか。また、不具合の原因もわかるようでしたら、あわせてご回答をお願いいたします。

P66, ダウンロード不能な件について

初めまして、最近DRY解析教本2版で勉強を進めています。P,66につきまして、./010_download-ucsc.shを実行後にタイムアウトとなり、これ以上先に進めません。同様の質問がありますが、回答が私には理解できないため再度質問させてください。私の環境がM2Mac BookAirでOSがVentura13.0となります。よろしくお願い致します。

050_run-bwa-mem.shについて

050のシェルスクリプトについてわからないことがあったので、質問させてください。

まず、{rg}で用いられているRead Groupの値というのは、どこに書かれているのでしょうか。

もう一点、samtoolsで使われている「-1」、「-」というオプションの意味についてもご教授いただければと思います。

よろしくお願いいたします。

リファレンスゲノムについて

勉強させて頂いており、御礼申し上げます。
「0から始める疾患ゲノム解析 ver2」のリファレンスゲノムについて質問させて頂きます。
マッピングはUCSCからダウンロードしたhg38で行っておりますが、アノテーションで使用している東北メディカルメガバンクの日本人アリル頻度情報（3.5KJPNv2）のリファレンスゲノムはhs37d5かと思います。
このデータを用いてアノテーション情報の付加を行っている仕組み（hs37→hg38への変換？）を、スクリプトの中身を見て勉強しようとしたのですが、よく理解ができませんでした。
ご教授いただければ幸いです。
どうぞよろしくお願い申し上げます。

p71の "100_run-BaseRecalibrator.sh" で躓いております。

勉強させて頂いております。

p71の "100_run-BaseRecalibrator.sh" を実行すると下記のようなメッセージが出てしまいます。
”Try running IndexFeatureFile on the input.”とのことから、この"IndexFeatureFile"なるものが必要かと思い検索すると
github（https://github.com/broadinstitute/gatk/blob/master/src/main/java/org/broadinstitute/hellbender/tools/IndexFeatureFile.java）に関連しそうな記載がございますが、これ以上進められずにおります。
ご教授いただければ幸いです。
どうぞよろしくお願い申し上げます。

macbook-pro:DiseaseGenomeMain t7$ ./100_run-BaseRecalibrator.sh
Using GATK jar /Volumes/Transcend/Analysis/ngsdat2-master/DiseaseGenomeMain/gatk-4.1.9.0/gatk-package-4.1.9.0-local.jar
Running:
java -Dsamjdk.use_async_io_read_samtools=false -Dsamjdk.use_async_io_write_samtools=true -Dsamjdk.use_async_io_write_tribble=false -Dsamjdk.compression_level=2 -jar /Volumes/Transcend/Analysis/ngsdat2-master/DiseaseGenomeMain/gatk-4.1.9.0/gatk-package-4.1.9.0-local.jar BaseRecalibrator --input DRR006760.sort.dedup.bam --reference RefHg38/hg38.fasta --output DRR006760.sort.dedup.recaltab.txt --known-sites dbsnp_146.hg38.vcf.gz --known-sites Mills_and_1000G_gold_standard.indels.hg38.vcf.gz
19:15:23.103 INFO NativeLibraryLoader - Loading libgkl_compression.dylib from jar:file:/Volumes/Transcend/Analysis/ngsdat2-master/DiseaseGenomeMain/gatk-4.1.9.0/gatk-package-4.1.9.0-local.jar!/com/intel/gkl/native/libgkl_compression.dylib
Nov 15, 2020 7:15:23 PM shaded.cloud_nio.com.google.auth.oauth2.ComputeEngineCredentials runningOnComputeEngine
INFO: Failed to detect whether we are running on Google Compute Engine.
19:15:23.924 INFO BaseRecalibrator - ------------------------------------------------------------
19:15:23.924 INFO BaseRecalibrator - The Genome Analysis Toolkit (GATK) v4.1.9.0
19:15:23.924 INFO BaseRecalibrator - For support and documentation go to https://software.broadinstitute.org/gatk/
19:15:23.924 INFO BaseRecalibrator - Executing as t[email protected] on Mac OS X v10.13.6 x86_64
19:15:23.925 INFO BaseRecalibrator - Java runtime: Java HotSpot(TM) 64-Bit Server VM v13.0.2+8
19:15:23.925 INFO BaseRecalibrator - Start Date/Time: 2020年11月15日 19:15:23 JST
19:15:23.925 INFO BaseRecalibrator - ------------------------------------------------------------
19:15:23.925 INFO BaseRecalibrator - ------------------------------------------------------------
19:15:23.925 INFO BaseRecalibrator - HTSJDK Version: 2.23.0
19:15:23.925 INFO BaseRecalibrator - Picard Version: 2.23.3
19:15:23.926 INFO BaseRecalibrator - HTSJDK Defaults.COMPRESSION_LEVEL : 2
19:15:23.926 INFO BaseRecalibrator - HTSJDK Defaults.USE_ASYNC_IO_READ_FOR_SAMTOOLS : false
19:15:23.926 INFO BaseRecalibrator - HTSJDK Defaults.USE_ASYNC_IO_WRITE_FOR_SAMTOOLS : true
19:15:23.926 INFO BaseRecalibrator - HTSJDK Defaults.USE_ASYNC_IO_WRITE_FOR_TRIBBLE : false
19:15:23.926 INFO BaseRecalibrator - Deflater: IntelDeflater
19:15:23.926 INFO BaseRecalibrator - Inflater: IntelInflater
19:15:23.926 INFO BaseRecalibrator - GCS max retries/reopens: 20
19:15:23.926 INFO BaseRecalibrator - Requester pays: disabled
19:15:23.926 INFO BaseRecalibrator - Initializing engine
19:15:24.096 INFO FeatureManager - Using codec VCFCodec to read file file:///Volumes/Transcend/Analysis/ngsdat2-master/DiseaseGenomeMain/dbsnp_146.hg38.vcf.gz
19:15:24.105 INFO BaseRecalibrator - Shutting down engine
[2020年11月15日 19:15:24 JST] org.broadinstitute.hellbender.tools.walkers.bqsr.BaseRecalibrator done. Elapsed time: 0.02 minutes.
Runtime.totalMemory()=104857600

A USER ERROR has occurred: An index is required but was not found for file /Volumes/Transcend/Analysis/ngsdat2-master/DiseaseGenomeMain/dbsnp_146.hg38.vcf.gz. Support for unindexed block-compressed files has been temporarily disabled. Try running IndexFeatureFile on the input.

Set the system property GATK_STACKTRACE_ON_USER_EXCEPTION (--java-options '-DGATK_STACKTRACE_ON_USER_EXCEPTION=true') to print the stack trace.

p.66 cat RefHg38/hg38.fasta | grep '~^'で染色体名を表示できない

p100 index作成コマンドに関して

p100のkallisto.idxの作成コマンド以下を試しましたがerrorがでました。
kallisto index --index=~/Documents/expression/ref/kallisto.idx ~/Documents/expression/ref/Homo_sapiens.GRCh38.cdna.all.fa.gz

[build] loading fasta file /Users/mo/Documents/expression/ref/Homo_sapiens.GRCh38.cdna.all.fa.gz
[build] k-mer length: 31
[build] warning: clipped off poly-A tail (longer than 10)
from 1049 target sequences
[build] warning: replaced 100005 non-ACGUT characters in the input sequence
with pseudorandom nucleotides
[build] counting k-mers ... done.
[build] building target de Bruijn graph ... done
[build] creating equivalence classes ... done
[build] target de Bruijn graph has 681313 contigs and contains 74517824 k-mers
Error: index output file could not be opened!

わかりませんが、絶対パスで以下のように書くとうまくいきました。
kallisto index --index=/Users/mo/Documents/expression/ref/kallisto.idx /Users/mo/Documents/expression/ref/Homo_sapiens.GRCh38.cdna.all.fa.gz

ちなみに使用しているPCは
MacBook Air M1チップ搭載　メモリ16GB　1TB SSDです。
他にもうまくいかない人がいるかもしれませんので報告までです。

第２版 p.66の010_...について

最初の赤枠6行目に関して、010_download-ucsc.shの場所が今日gitから落としたファイルだと
ngsdat2-master/DiseaseGenomeMain/
に変更されていました。
そのため同赤枠5行目はcd ngsdat2-master/DiseaseGenomeMain/とする必要があります。
（2020/11/22時点）

p.66 cat RefHg38/hg38.fasta | grep '~^'で染色体名が表示されない

お世話になっております。
改訂第２版を拝読させていただいております。
NGS解析、コーディングに関して、初学者です。

困っていること：一つ上の./020_concatinate.shを実行した後、上記のコードを実行したところ、染色体名が書籍の通りに表示されませんでした。

原因がありそうなこと：東北大学のメガバンク(https://www.megabank.tohoku.ac.jp/news/17177 ,記事の下部にリンクがあります) の書籍に書いてあったリンクが切れていたので、デコイ配列をj Morp（https://jmorp.megabank.tohoku.ac.jp/202206/downloads/legacy/ ) のdecoyJRGv2.fastaを使用していること

試してみたこと：デコイ配列のファイルの位置の移動など、このサイトのissueの閲覧

どうぞよろしくお願いします

./100_run-BaseRecalibrator.shについて

拝読させていただいております。

./100_run-BaseRecalibrator.sh を実行すると、
./100_run-BaseRecalibrator.sh: line 15: gatk-4*/gatk: No such file or directory
のエラーが発生しますが対処法はありますでしょうか。

gatkは4.2.0.0をインストールし、/User/ユーザー名/に解凍した状態です。
gatk関連では、080_download-gatk-bundles.shのissueは確認し、指定していただいたファイルはダウンロードできたと思います。
./090_prep-reference-index.shも実行し、DiseaseGenomeMain/RefHg38/hg38.dictは存在しています。

いつもありがとうございます。

220_download-ToMMo.shからshebangを変更されていますが、何か意図があるのですか？

お世話になります。
220_download-ToMMo.sh実行時にファイルが1つしかダウンロードされなくて躓いています。現在原因を調べているところですが、スクリプト中で使用されているshebangについて気になったので質問させてください。

220_download-ToMMo.shより番号の若いスクリプトは全てbashを使用していますが、220_download-ToMMo.shではshに変わっています。この変更には何か意図があるのでしょうか？プログラムを見るに、複数のファイルをダウンロードするだけなので、わざわざシェルを変える必要は無いように思えるのですが。。。
今回の問題に直接は関係しないかもしれませんが、もしよろしければ教えて頂きたいです。
お忙しいところ恐縮ですが、どうぞよろしくお願い致します。

haplotypecallerでエラーが出ます。

72ページの「./120_run-HaplotyppeCaller.sh」で８番染色体の途中らへんで毎回エラーが起きます。
ググってもわからないのでわかる方教えていただけませんか！？

ProgressMeter - chr8:143589342 47.5 179990 3785.9 20:16:30.694 INFO VectorLoglessPairHMM - Time spent in setup for JNI call : 1.7017637300000001 20:16:30.695 INFO PairHMM - Total compute time in PairHMM computeLogLikelihoods() : 252.08564849700002 20:16:30.695 INFO SmithWatermanAligner - Total compute time in java Smith-Waterman : 119.95 sec 20:16:30.753 INFO HaplotypeCaller - Shutting down engine [2021年12月22日 20:16:30 JST] org.broadinstitute.hellbender.tools.walkers.haplotypecaller.HaplotypeCaller done. Elapsed time: 47.76 minutes. Runtime.totalMemory()=826277888 java.nio.BufferUnderflowException at java.base/java.nio.Buffer.nextGetIndex(Buffer.java:707) at java.base/java.nio.DirectByteBuffer.getInt(DirectByteBuffer.java:684) at htsjdk.samtools.MemoryMappedFileBuffer.readInteger(MemoryMappedFileBuffer.java:39) at htsjdk.samtools.AbstractBAMFileIndex.readInteger(AbstractBAMFileIndex.java:443) at htsjdk.samtools.AbstractBAMFileIndex.query(AbstractBAMFileIndex.java:272) at htsjdk.samtools.CachingBAMFileIndex.getQueryResults(CachingBAMFileIndex.java:159) at htsjdk.samtools.CachingBAMFileIndex.getSpanOverlapping(CachingBAMFileIndex.java:70) at htsjdk.samtools.BAMFileReader.getFileSpan(BAMFileReader.java:914) at htsjdk.samtools.BAMFileReader.createIndexIterator(BAMFileReader.java:931) at htsjdk.samtools.BAMFileReader.query(BAMFileReader.java:612) at htsjdk.samtools.SamReader$PrimitiveSamReaderToSamReaderAdapter.query(SamReader.java:550) at htsjdk.samtools.SamReader$PrimitiveSamReaderToSamReaderAdapter.queryOverlapping(SamReader.java:417) at org.broadinstitute.hellbender.utils.iterators.SamReaderQueryingIterator.loadNextIterator(SamReaderQueryingIterator.java:130) at org.broadinstitute.hellbender.utils.iterators.SamReaderQueryingIterator.<init>(SamReaderQueryingIterator.java:69) at org.broadinstitute.hellbender.engine.ReadsPathDataSource.prepareIteratorsForTraversal(ReadsPathDataSource.java:412) at org.broadinstitute.hellbender.engine.ReadsPathDataSource.iterator(ReadsPathDataSource.java:336) at org.broadinstitute.hellbender.engine.MultiIntervalLocalReadShard.iterator(MultiIntervalLocalReadShard.java:134) at org.broadinstitute.hellbender.engine.AssemblyRegionIterator.<init>(AssemblyRegionIterator.java:86) at org.broadinstitute.hellbender.engine.AssemblyRegionWalker.processReadShard(AssemblyRegionWalker.java:188) at org.broadinstitute.hellbender.engine.AssemblyRegionWalker.traverse(AssemblyRegionWalker.java:173) at org.broadinstitute.hellbender.engine.GATKTool.doWork(GATKTool.java:1085) at org.broadinstitute.hellbender.cmdline.CommandLineProgram.runTool(CommandLineProgram.java:140) at org.broadinstitute.hellbender.cmdline.CommandLineProgram.instanceMainPostParseArgs(CommandLineProgram.java:192) at org.broadinstitute.hellbender.cmdline.CommandLineProgram.instanceMain(CommandLineProgram.java:211) at org.broadinstitute.hellbender.Main.runCommandLineProgram(Main.java:160) at org.broadinstitute.hellbender.Main.mainEntry(Main.java:203) at org.broadinstitute.hellbender.Main.main(Main.java:289)

P.68の上から４つ目のコマンドでつまずきました

失礼します、学生です。DRY解析教本改訂２版で勉強させていただいています。

早速本題に入らせていただきます、P.64の上から4つ目のコマンド「040_run-sra-fastq-dump.sh」なのですが、

$ 040_run-sra-fastq-dump.sh
-bash: 040_run-sra-fastq-dump.sh: command not found

とでてしまい、「 ./ 」をつけて

$ ./040_run-sra-fastq-dump.sh
./040_run-sra-fastq-dump.sh: line 8: sratoolkit.2.9.6-1-mac64/bin/fastq-dump: No such file or directory

としてもこのようになったため、sratoolkitを最新の2.10.5-mac64とした(041_run-sra-fastq-dump.sh)のですが

$ ./041_run-sra-fastq-dump.sh
-bash: ./041_run-sra-fastq-dump.sh: Permission denied

のようになってしまい、中身の

#!/bin/bash
set -euo pipefail
fdump=sratoolkit.2.10.5-mac64/bin/fastq-dump
sra=DRR006760.sra
fq1=DRR006760_1.fastq
fq2=DRR006760_2.fastq

${fdump} --split-files ${sra}
gzip ${fq1}
gzip ${fq2}

をそのままターミナルにコピペすると、

${fdump} --split-files ${sra}
This sra toolkit installation has not been configured.
Before continuing, please run: vdb-config --interactive
For more information, see https://www.ncbi.nlm.nih.gov/sra/docs/sra-cloud/
Saving session...-bash: HISTTIMEFORMAT: unbound variable

[プロセスが完了しました]

となって先に進めませんでした。
ご回答お願いします

p88 fasterq-dumpでエラーが出る

大変お忙しい中、申し訳ございません。
p88 fasterq-dump --split-files SRR
で fasterq-dump.2.11.0 err: invalid accession
が出てしまいます。

解決策がございましたらご教授いただけないでしょうか。
宜しくお願い致します。

p67 BWAの準備について

お世話になっております。
改訂第２版を拝読させていただいております。
NGS解析、コーディングに関して、初学者です。

p67 BWAの準備について、bwa-0.7.17をpushd後makeコマンドを送ると、エラーが発生してしまいます（画像参照）。
makeコマンドを初めて使うもので、何がどう問題なのか理解できず困っております。
お忙しい中恐縮ですが、ご教授いただけますと幸いです。何卒よろしくお願いいたします。
使用PCのスペックは、MacBook Pro (M1, 2020) Big Sur 11.4です。

p.68のDRR006760のダウンロードについて

$ ./030_download-dra.sh
を実行したところ、
(7) Failed to connect to ftp.ddbj.nig.ac.jp port 21
というエラーが発生しました。そこで、
030_download-dra.shの
site="ftp://ftp.ddbj.nig.ac.jp"
の箇所を
site="https://ddbj.nig.ac.jp"
と書き換えたところ、エラーメッセージは消えたものの、
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
100 293 100 293 0 0 3855 0 --:--:-- --:--:-- --:--:-- 3855
-rw-r--r-- 1 ユーザーグループ 293B 4 15 13:07 DRR006760.sra
と、ファイルの中身が入っておりませんでした。

https://ddbj.nig.ac.jp/DRASearch/run?acc=DRR006760
にアクセスし、ページ上部の「SRA」をクリックしてみたのですが、ページを開くことができず、サイトの不具合かと思ったのですが、いかがでしょうか。

./50_run-bwa-mem.sh

上記のステップで先に進めないため、上記ファイルを開いて直接コピペしたところ、
以下のメッセージが出て先に進めません。

$ #!/bin/bash
$ set -euo pipefail
$ bwa=bwa-0.7.17/bwa
$ id=DRR006760
$ fq1=${id}_1.fastq.gz
$ fq2=${id}_2.fastq.gz
$ ref=RefHg38/hg38.fasta
$ rg="@rg\tID:${id}\tSM:${id}\tPL:illumina\tLB:${id}"
o$ ${bwa} mem \

   -R ${rg} \
   ${ref} \
   ${fq1} ${fq2} \
| samtools view -@4 -b -1 - > ${id}.bam

-bash: bwa-0.7.17/bwa: No such file or directory
[main_samview] fail to read the header from "-".
Saving session...-bash: HISTTIMEFORMAT: unbound variable
[プロセスが完了しました]

一行ずつ入れて実行していったところ、
o$ ${bwa} mem \ 左記を入れたところでスタックしました。
可能性のあるトラブル原因とシューティング方法がありましたら
ご教示ください。

p.68 ./040_run-sra-fastq-dump.shが実行できません

まず、このシェルスクリプトの中身は最新バージョンに書き換えました、
3行目 fdump=sratoolkit.2.10.7-mac64/bin/fastq-dump

その上で実行したのですが、
This sra toolkit installation has not been configured.
Before continuing, please run: vdb-config --interactive
For more information, see https://www.ncbi.nlm.nih.gov/sra/docs/sra-cloud/
と返ってきます。
vdb-configでなにか変更しなくてはいけないのでしょうか？

230_convert_35KJPNv2-snv.sh

./230_convert_35KJPNv2-snv.sh
をしたところ、
No such file or directory
とか、
unexpected end of file
とか、
表示されましたが、
最後に
complete
と出たので、先に進んでいいのでしょうか？

以下です。

create tommo-3.5kjpnv2-20181105open-af_snvall.MAF.genericdb using autosome.vcf, chrX_PAR3.vcf and chrMT.vcf
gunzip: Downloads/tommo-3.5kjpnv2-20181105open-af_snvall-autosome.vcf.gz: unexpected end of file
gunzip: Downloads/tommo-3.5kjpnv2-20181105open-af_snvall-autosome.vcf.gz: uncompress failed
gunzip: can't stat: Downloads/tommo-3.5kjpnv2-20181105open-af_snvall-chrX_PAR3.vcf.gz (Downloads/tommo-3.5kjpnv2-20181105open-af_snvall-chrX_PAR3.vcf.gz.gz): No such file or directory
gunzip: can't stat: Downloads/tommo-3.5kjpnv2-20181105open-af_snvall-chrMT.vcf.gz (Downloads/tommo-3.5kjpnv2-20181105open-af_snvall-chrMT.vcf.gz.gz): No such file or directory
complete
create tommo-3.5kjpnv2-20181105open-af_snvall.INFO.genericdb using autosome.vcf, chrX_PAR3.vcf and chrMT.vcf
gunzip: Downloads/tommo-3.5kjpnv2-20181105open-af_snvall-autosome.vcf.gz: unexpected end of file
gunzip: Downloads/tommo-3.5kjpnv2-20181105open-af_snvall-autosome.vcf.gz: uncompress failed
gunzip: can't stat: Downloads/tommo-3.5kjpnv2-20181105open-af_snvall-chrX_PAR3.vcf (Downloads/tommo-3.5kjpnv2-20181105open-af_snvall-chrX_PAR3.vcf.gz): No such file or directory
gunzip: can't stat: Downloads/tommo-3.5kjpnv2-20181105open-af_snvall-chrMT.vcf.gz (Downloads/tommo-3.5kjpnv2-20181105open-af_snvall-chrMT.vcf.gz.gz): No such file or directory
complete

DRY解析教本p75のアノテーション情報付加する箇所でつまづいています

最後の最後でうまく流れません。
./310_run-table-annovar.shを入力すると
gunzip: DRR006760.all.pass.vcf.gz: unexpected end of file
gunzip: DRR006760.all.pass.vcf.gz: uncompress failed
NOTICE: Finished reading 2894 lines from VCF file
NOTICE: A total of 2752 locus in VCF file passed QC threshold, representing 2483 SNPs (1806 transitions and 677 transversions) and 279 indels/substitutions
NOTICE: Finished writing 2483 SNP genotypes (1806 transitions and 677 transversions) and 279 indels/substitutions for 1 sample
WARNING: 2 invalid alternative alleles found in input file
Error: the required database file annovar-hg38/hg38_avsnp150.txt does not exist.　

と出てしまいました。

310_run-table-annovar.shのスクリプト内の./annovarのパスを色々と修正してみたのですが、同様の結果でした。

どなたか同様の問題で止まってしまった方、その他、アドバイス頂ける方、お待ちしています

070_run-markduplicates.shのエラー

やたら早く終わったと思ったら以下のエラーが出てました
A fatal error has been detected by the Java Runtime Environment: SIGSEGV (0xb) at pc=0x00007f7c20e53d9a, pid=15706, tid=0x00007f7c1ef1a700

ググったら以下のURLの対応策で解決しましたのでシェアします
https://www.biostars.org/p/304286/

./070 で躓いてしまいました。

Java　jdk８を入れた後、.
./070(以下、省略）をRunしました。
Run後に以下のNOエラーメッセージが出てしまいました。
Run後に作成されたDRR006760.sort.dedup.bamファイルは700KB 程度ですので、
途中で止まってしまったようです。
原因とトラブルシュートについて、アドバイスをいただけますと助かります。

RUNが終わった後に出てきたメッセージは以下です。

# A fatal error has been detected by the Java Runtime Environment:
#  SIGSEGV (0xb) at pc=0x0000000138742ea7, pid=2777, tid=8451
# JRE version: OpenJDK Runtime Environment (13.0.2+8) (build 13.0.2+8)
# Java VM: OpenJDK 64-Bit Server VM (13.0.2+8, mixed mode, sharing, tiered, compressed oops, g1 gc, bsd-amd64)
# Problematic frame:
# C  [libgkl_compression15963065237728019358.dylib+0x6ea7]  deflate_medium+0x867
# No core dump will be written. Core dumps have been disabled. To enable core dumping, try "ulimit -c unlimited" before starting Java again

JDK8をインストールしたのですが、Open JDKが動いてしまいエラーにつながったのでしょうか？
try "ulimit -c unlimited"　というのは、試していません。
よろしくお願いいたします。

アノテーションの付加情報について

75ページでアノテーション情報を付加しておりますが、_multianno.txtをExcellでインポートしてデータをみたところ、アリル頻度情報がほとんどありませんでした。
オンラインデータベースで調べるとアリル頻度情報があるバリアントでも、_multianno.txtファイルでは情報が付加されておりません。対応策を教えていただければと存じます。

もう一点、不具合ではないのですが、日本人データだけでなく、世界の人の頻度情報なども付加してバリアントをチェックしたいと思っているのですが、ダウンロード可能なデータベースとgenericdb形式への変換方法がわかりません。
東北メディカル・メガバンク機構以外のアノテーション情報を付加する方法、あるいは、方法を記載したサイトをご教授いただければ幸いです。

ご多用とは存じますが、以上２点につき、ご回答お願いいたします。

tommoの変換について

勉強させていただきありがとうございます。

tommoのindelのデータをgenericdb形式に変換する件ですが、例えばGATがGに変わっているバリアントの場合、スクリプトを用いて変換した後のgenericdbファイルの中身はGAT→Gとなっているのですが、annovarではAT→-に対して、annotationされるためううまくannotationされないのですが、何か対処法はございますでしょうか。
ご教授いただけましたら幸いです。

p72のScripts/sort-bed.rb ccds.bed > ccds.sort0.bed が実行できません

Sort-bed.rbがScriptsのディレクトリに入ってなかったので、githubの先生のページからsort-bed-ucsc.rbをダウンロードしてみましたが、動きませんでした。なお、UCSCからダウンロードしたときファイル名はcads.bed.gzでしたので、実際にはgunzipのあと、cads.bedで動かしています。

すみません。ケアレスミスがありました。動きました。

最初から進めません。

Mac OS Catalinaを買い、本書を読んで勉強を始めています。
本書のP64を参考にしたのですが、最初から躓いています。
ngsdt2-master の解凍まではうまくいきました

(basse) MacBook-Pro ~ % cd ~
(base) MacBook-Pro ~ % mkdir -p Analysis
(base) MacBook-Pro ~ % cd Analysis
(base) MacBook-Pro Analysis % unzip ~/Downloads/ngsdat2-master.zip

中略
(base) MacBook-Pro Analysis % cd ngsdat2-master
(base) MacBook-Pro ngsdat2-master % less 010_download-ucsc.sh

ここで以下のメッセージが出て先に進めません。
周りに聞ける人がいないので、どうしたらよいか教えて下さい。

010_download-ucsc.sh: No such file or directory
(base) MacBook-Pro ngsdat2-master %

p72に関して再度の質問失礼致します。

Dry解析に関しては全くの初学者であり、この本を用いて勉強させていただいております。
以前も別の方が、p72のScripts/sort-bed.rb ccds.bed > ccds.sort0.bedに関して質問されておりましたが、その記事を参考にしてもうまく進まないのですが、Scripts/sort-bed.rb ccds.bedの部分をDiseaseGenomeValidation/Scripts/sort-bed.rbに置き換えるということでしょうか？理解が悪く申し訳ございませんが、ご教授頂けますと幸いです。どうぞよろしくお願い申し上げます。

改善要望です

p102コマンドに関して

コマンドが以下になっておりますが、後半の{sample}_2.fastq.gzは${sample}_2.fastq.gzと書かなければrror: file not found ../seq/{sample}_2.fastq.gzとエラーメッセジー字がでます。

cat ../seq/run_ids | while read sample; do echo processing{sample}; kallisto quant --index=../ref/kallisto.idx --output-dir=${sample} --bootstrap-samples=100 --threads=4 ../seq/${sample}_1.fastq.gz ../seq/{sample}_2.fastq.gz; done; echo finished

正しくは、以下のように書くべきなようですね。
cat ../seq/run_ids | while read sample; do echo processing{sample}; kallisto quant --index=../ref/kallisto.idx --output-dir=${sample} --bootstrap-samples=100 --threads=4 ../seq/${sample}_1.fastq.gz ../seq/${sample}_2.fastq.gz; done; echo finished

また、ここでのコマンドではrun_idsのファイルを自分で作成しないとそもそもrun_idsのファイルが存在しないという
以下のエラーメッセージがでました。
cat: ../seq/run_ids: No such file or directory

自分はrun_ids.txtというファイルを作成して
その中に順番に以下のように書きました。
SRR1550989
SRR1551005
...

その後、expression/seq/run_ids.txtとなるように保存し、以下のコマンドで
run_idsをrun_ids.txtとして実行してうまくいきました。

cat ../seq/run_ids.txt | while read sample; do echo processing{sample}; kallisto quant --index=../ref/kallisto.idx --output-dir=${sample} --bootstrap-samples=100 --threads=4 ../seq/${sample}_1.fastq.gz ../seq/${sample}_2.fastq.gz; done; echo finished

大体一サンプルあたり10-15分ぐらいでした。
PCは、MacBook Air M1チップ搭載　メモリ16GB　SSD1TB

misshie / ngsdat2 Goto Github PK

ngsdat2's Introduction

NGSDAT2

次世代シークエンサー DRY解析教本 改訂第２版

正誤表

疾患ゲノム解析ver.2／コマンドラインの使い方 サポート情報