Difference between revisions of "Tips kang"
Line 1: | Line 1: | ||
− | '''Python''' | + | '''Python''' |
− | ''Fisher's exact test'' | + | |
− | from scipy import stats | + | ''Fisher's exact test'' |
− | oddsratio, pvalue = stats.fisher_exact([[A,B], [C, D]]) <ref name="fishers exact">[http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.fisher_exact.html scipy, fisher's exact] </ref> | + | |
− | 63:/home/k821209/py/NGS/vcfq2fa.py : vcfutil로 만들어진 fq 파일을 fa로 변환 | + | from scipy import stats |
− | '''Excel''' | + | |
− | =TEXT(2.2323,"(0.00)") | + | oddsratio, pvalue = stats.fisher_exact([[A,B], [C, D]]) <ref name="fishers exact">[http://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.fisher_exact.html scipy, fisher's exact] </ref> |
− | (2.23) | + | |
+ | 63:/home/k821209/py/NGS/vcfq2fa.py : vcfutil로 만들어진 fq 파일을 fa로 변환 | ||
+ | |||
+ | '''Excel''' | ||
+ | |||
+ | =TEXT(2.2323,"(0.00)") | ||
+ | |||
+ | (2.23) | ||
+ | |||
+ | '''Softwares''' | ||
+ | |||
+ | ''GATK pipe'' | ||
− | |||
− | |||
#bwa mem -M -t 10 Va.ref.fa ysp-2_1.fastq.gz ysp-2_2.fastq.gz | /data/program/samtools-0.1.19/samtools view -Sb - | /data/program/samtools-0.1.19/samtools sort - ysp.bwamem.Va.ref.fa.sort # GATK pipe는 -M 옵션이 필요 | #bwa mem -M -t 10 Va.ref.fa ysp-2_1.fastq.gz ysp-2_2.fastq.gz | /data/program/samtools-0.1.19/samtools view -Sb - | /data/program/samtools-0.1.19/samtools sort - ysp.bwamem.Va.ref.fa.sort # GATK pipe는 -M 옵션이 필요 | ||
#/data/program/jdk1.7.0_25/bin/java -jar /data/program/picard-tools-1.91/MarkDuplicates.jar INPUT=ysp.bwamem.Va.ref.fa.sort.bam OUTPUT=ysp.bwamem.Va.ref.fa.sort.bam.dedup.bam METRICS_FILE=metrics.txt MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000 | #/data/program/jdk1.7.0_25/bin/java -jar /data/program/picard-tools-1.91/MarkDuplicates.jar INPUT=ysp.bwamem.Va.ref.fa.sort.bam OUTPUT=ysp.bwamem.Va.ref.fa.sort.bam.dedup.bam METRICS_FILE=metrics.txt MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000 | ||
#*MarkDuplicates 는 PCR duplicates를 제거하기 위한 작업. 왜 제거해야하는지는 자세히는 모르지만 PCR bias 때문에 Variant calling statistical model 에 문제가 된다고 함. 제거해야한다는 것이 결론. 그러나 특별히 제작된 라이브러리에는 적용해서는 안된다. 예를들면 특정 사이트가 잘리게 만들어놓은 라이브러리? 류들.. | #*MarkDuplicates 는 PCR duplicates를 제거하기 위한 작업. 왜 제거해야하는지는 자세히는 모르지만 PCR bias 때문에 Variant calling statistical model 에 문제가 된다고 함. 제거해야한다는 것이 결론. 그러나 특별히 제작된 라이브러리에는 적용해서는 안된다. 예를들면 특정 사이트가 잘리게 만들어놓은 라이브러리? 류들.. | ||
− | ''Maker'' | + | #*MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000 값을 높여도 되는데 ulimit -n 값을 올려야함. 재부팅 해야된다해서 그냥 낮춰 쓰는중. <del>그렇게 느린줄 모르겠음. 높여서 안써봐서 그런가..</del> |
− | #/data2/k821209/programs/maker/bin/gff3_merge -d Va.ref_master_datastore_index.log | + | |
− | #/data2/k821209/programs/maker/bin/maker_map_ids --prefix=Vang --iterate=1 --suffix=. Va.ref.all.gff > id_map.txt # 복잡하게 나오는 maker의 유전자 이름들을 심플하게 바꾸는 툴 | + | ''Maker'' |
− | #* python3 /data2/k821209/Redbean/maker_pseudo/Va.ref.maker.output/genename_change_nonAnchor.py # 이름이 맘에 안들게 바뀌어서 개인적으로 만든 툴 | + | |
+ | #/data2/k821209/programs/maker/bin/gff3_merge -d Va.ref_master_datastore_index.log | ||
+ | #/data2/k821209/programs/maker/bin/maker_map_ids --prefix=Vang --iterate=1 --suffix=. Va.ref.all.gff > id_map.txt # 복잡하게 나오는 maker의 유전자 이름들을 심플하게 바꾸는 툴 | ||
+ | #* python3 /data2/k821209/Redbean/maker_pseudo/Va.ref.maker.output/genename_change_nonAnchor.py # 이름이 맘에 안들게 바뀌어서 개인적으로 만든 툴 | ||
#/data2/k821209/programs/maker/bin/map_gff_ids id_map.txt Va.ref.all.gff # 그리 나온 이름들을 gff 반영하는 툴 | #/data2/k821209/programs/maker/bin/map_gff_ids id_map.txt Va.ref.all.gff # 그리 나온 이름들을 gff 반영하는 툴 | ||
#python3 /data2/k821209/Redbean/maker_pseudo/Va.ref.maker.output/header_change.py Va.ref.all.maker.proteins.fasta Vang.scaffold.map # 그리 나온 이름들을 fasta에 반영하는 툴 | #python3 /data2/k821209/Redbean/maker_pseudo/Va.ref.maker.output/header_change.py Va.ref.all.maker.proteins.fasta Vang.scaffold.map # 그리 나온 이름들을 fasta에 반영하는 툴 | ||
#/data2/k821209/programs/maker/bin/iprscan2gff3 Va.ref.all.maker.proteins.fasta.tsv.hc.tsv Va.ref.all.gff > Va.ref.all.gff.ipr.gff # interpro result를 jbrowser에 들어가는 모양으로 만들어주는 툴 | #/data2/k821209/programs/maker/bin/iprscan2gff3 Va.ref.all.maker.proteins.fasta.tsv.hc.tsv Va.ref.all.gff > Va.ref.all.gff.ipr.gff # interpro result를 jbrowser에 들어가는 모양으로 만들어주는 툴 | ||
− | ''Deconseq'' <ref>[http://deconseq.sourceforge.net/ deconseq]</ref> | + | ''Deconseq'' <ref>[http://deconseq.sourceforge.net/ deconseq]</ref> |
− | Illumina read의 contamination을 확인한다. | + | |
− | 63:/data/program/deconseq-standalone-0.4.3 | + | Illumina read의 contamination을 확인한다. |
− | /usr/bin/perl deconseq.pl -keep_tmp_files -f 800_both.fq -dbs bact,vir,arch -dbs_retain gmax | + | |
− | ''ePCR'' | + | 63:/data/program/deconseq-standalone-0.4.3 |
− | Re-PCR | + | |
− | $ famap -tN -b genome.famap org/chr_*.fa | + | /usr/bin/perl deconseq.pl -keep_tmp_files -f 800_both.fq -dbs bact,vir,arch -dbs_retain gmax |
− | $ fahash -b genome.hash -w 12 -f3 ${PWD}/genome.famap | + | |
− | Work> /data/program/e-PCR-2.3.12/re-PCR -S genome.hash -n1 -g1 SSR.sts -o SSR.sts.mapped | + | ''ePCR'' |
− | SSR.sts | + | |
− | Mungbean_SSR_ID_1 CAAAAACATGAGTTGCACACAA TCATAACGCAGAACAGCGAA | + | Re-PCR |
− | Mungbean_SSR_ID_2 ATGTGTGTGAGCACCTCGAC TTTGGCCATGCAAGATGTAA | + | |
− | Mungbean_SSR_ID_4 GCGGTTCACCTAGCCATAAA GGACCCTTCTGTGCGTGTAT | + | $ famap -tN -b genome.famap org/chr_*.fa |
− | Mungbean_SSR_ID_5 GTTTGTGCTGCGGATTCTTT TTGGCAATTTGGACTAAGGC | + | |
− | Mungbean_SSR_ID_7 TTGACCCAAAACTTACCAATTT GCTAAGGACTGGGGGTCTTC | + | $ fahash -b genome.hash -w 12 -f3 ${PWD}/genome.famap |
− | + | ||
− | ''Mummer'', alignment draft genome to finished genome | + | Work> /data/program/e-PCR-2.3.12/re-PCR -S genome.hash -n1 -g1 SSR.sts -o SSR.sts.mapped |
− | $nucmer --prefix=ref_qry ref.fasta qry.fasta | + | |
− | $show-coords -rcl ref_qry.delta > ref_qry.coords | + | SSR.sts |
− | $show-aligns ref_qry.delta refname qryname > ref_qry.aligns | + | |
− | $show-tiling ref_qry.delta > ref_qry.tiling | + | Mungbean_SSR_ID_1 CAAAAACATGAGTTGCACACAA TCATAACGCAGAACAGCGAA |
− | '''추천 논문''' | + | |
− | Paterson, A.H., M. Freeling, H. Tang and X. Wang. 2010. Insights from the comparison of plant genome sequences. Annual Review of Plant Biology 61: 349-372. <ref>[http://www.annualreviews.org/doi/abs/10.1146/annurev-arplant-042809-112235 Paterson, A.H., M. Freeling, H. Tang and X. Wang. 2010. Insights from the comparison of plant genome sequences. Annual Review of Plant Biology 61: 349-372. ]</ref> | + | Mungbean_SSR_ID_2 ATGTGTGTGAGCACCTCGAC TTTGGCCATGCAAGATGTAA |
+ | |||
+ | Mungbean_SSR_ID_4 GCGGTTCACCTAGCCATAAA GGACCCTTCTGTGCGTGTAT | ||
+ | |||
+ | Mungbean_SSR_ID_5 GTTTGTGCTGCGGATTCTTT TTGGCAATTTGGACTAAGGC | ||
+ | |||
+ | Mungbean_SSR_ID_7 TTGACCCAAAACTTACCAATTT GCTAAGGACTGGGGGTCTTC | ||
+ | |||
+ | ''Mummer'', alignment draft genome to finished genome | ||
+ | |||
+ | $nucmer --prefix=ref_qry ref.fasta qry.fasta | ||
+ | |||
+ | $show-coords -rcl ref_qry.delta > ref_qry.coords | ||
+ | |||
+ | $show-aligns ref_qry.delta refname qryname > ref_qry.aligns | ||
+ | |||
+ | $show-tiling ref_qry.delta > ref_qry.tiling | ||
+ | |||
+ | '''추천 논문''' | ||
+ | |||
+ | Paterson, A.H., M. Freeling, H. Tang and X. Wang. 2010. Insights from the comparison of plant genome sequences. Annual Review of Plant Biology 61: 349-372. <ref>[http://www.annualreviews.org/doi/abs/10.1146/annurev-arplant-042809-112235 Paterson, A.H., M. Freeling, H. Tang and X. Wang. 2010. Insights from the comparison of plant genome sequences. Annual Review of Plant Biology 61: 349-372. ]</ref> | ||
+ | |||
<references /> | <references /> |
Revision as of 05:17, 23 March 2014
Python
Fisher's exact test
from scipy import stats
oddsratio, pvalue = stats.fisher_exact([[A,B], [C, D]]) [1]
63:/home/k821209/py/NGS/vcfq2fa.py : vcfutil로 만들어진 fq 파일을 fa로 변환
Excel
=TEXT(2.2323,"(0.00)")
(2.23)
Softwares
GATK pipe
- bwa mem -M -t 10 Va.ref.fa ysp-2_1.fastq.gz ysp-2_2.fastq.gz | /data/program/samtools-0.1.19/samtools view -Sb - | /data/program/samtools-0.1.19/samtools sort - ysp.bwamem.Va.ref.fa.sort # GATK pipe는 -M 옵션이 필요
- /data/program/jdk1.7.0_25/bin/java -jar /data/program/picard-tools-1.91/MarkDuplicates.jar INPUT=ysp.bwamem.Va.ref.fa.sort.bam OUTPUT=ysp.bwamem.Va.ref.fa.sort.bam.dedup.bam METRICS_FILE=metrics.txt MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000
- MarkDuplicates 는 PCR duplicates를 제거하기 위한 작업. 왜 제거해야하는지는 자세히는 모르지만 PCR bias 때문에 Variant calling statistical model 에 문제가 된다고 함. 제거해야한다는 것이 결론. 그러나 특별히 제작된 라이브러리에는 적용해서는 안된다. 예를들면 특정 사이트가 잘리게 만들어놓은 라이브러리? 류들..
- MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000 값을 높여도 되는데 ulimit -n 값을 올려야함. 재부팅 해야된다해서 그냥 낮춰 쓰는중.
그렇게 느린줄 모르겠음. 높여서 안써봐서 그런가..
Maker
- /data2/k821209/programs/maker/bin/gff3_merge -d Va.ref_master_datastore_index.log
- /data2/k821209/programs/maker/bin/maker_map_ids --prefix=Vang --iterate=1 --suffix=. Va.ref.all.gff > id_map.txt # 복잡하게 나오는 maker의 유전자 이름들을 심플하게 바꾸는 툴
- python3 /data2/k821209/Redbean/maker_pseudo/Va.ref.maker.output/genename_change_nonAnchor.py # 이름이 맘에 안들게 바뀌어서 개인적으로 만든 툴
- /data2/k821209/programs/maker/bin/map_gff_ids id_map.txt Va.ref.all.gff # 그리 나온 이름들을 gff 반영하는 툴
- python3 /data2/k821209/Redbean/maker_pseudo/Va.ref.maker.output/header_change.py Va.ref.all.maker.proteins.fasta Vang.scaffold.map # 그리 나온 이름들을 fasta에 반영하는 툴
- /data2/k821209/programs/maker/bin/iprscan2gff3 Va.ref.all.maker.proteins.fasta.tsv.hc.tsv Va.ref.all.gff > Va.ref.all.gff.ipr.gff # interpro result를 jbrowser에 들어가는 모양으로 만들어주는 툴
Deconseq [2]
Illumina read의 contamination을 확인한다.
63:/data/program/deconseq-standalone-0.4.3
/usr/bin/perl deconseq.pl -keep_tmp_files -f 800_both.fq -dbs bact,vir,arch -dbs_retain gmax
ePCR
Re-PCR
$ famap -tN -b genome.famap org/chr_*.fa
$ fahash -b genome.hash -w 12 -f3 ${PWD}/genome.famap
Work> /data/program/e-PCR-2.3.12/re-PCR -S genome.hash -n1 -g1 SSR.sts -o SSR.sts.mapped
SSR.sts
Mungbean_SSR_ID_1 CAAAAACATGAGTTGCACACAA TCATAACGCAGAACAGCGAA
Mungbean_SSR_ID_2 ATGTGTGTGAGCACCTCGAC TTTGGCCATGCAAGATGTAA
Mungbean_SSR_ID_4 GCGGTTCACCTAGCCATAAA GGACCCTTCTGTGCGTGTAT
Mungbean_SSR_ID_5 GTTTGTGCTGCGGATTCTTT TTGGCAATTTGGACTAAGGC
Mungbean_SSR_ID_7 TTGACCCAAAACTTACCAATTT GCTAAGGACTGGGGGTCTTC
Mummer, alignment draft genome to finished genome
$nucmer --prefix=ref_qry ref.fasta qry.fasta
$show-coords -rcl ref_qry.delta > ref_qry.coords
$show-aligns ref_qry.delta refname qryname > ref_qry.aligns
$show-tiling ref_qry.delta > ref_qry.tiling
추천 논문
Paterson, A.H., M. Freeling, H. Tang and X. Wang. 2010. Insights from the comparison of plant genome sequences. Annual Review of Plant Biology 61: 349-372. [3]