Difference between revisions of "Tips kang"

From Crop Genomics Lab.
Jump to: navigation, search
Line 6: Line 6:
  
 
'''Python'''
 
'''Python'''
 +
 +
''codes''
 +
 +
# [pairwise_kaks.py]
  
 
''Fisher's exact test''
 
''Fisher's exact test''

Revision as of 15:13, 7 April 2014

Mutation rate

Legumes

"If the older duplication is assumed to have occurred around 58Myr ago, then the calculated rate of silent mutations extending back to the duplication would be 5.17*10-3, similar to previous estimates of 5.2*10–3" [1]

Python

codes

  1. [pairwise_kaks.py]

Fisher's exact test

from scipy import stats

oddsratio, pvalue = stats.fisher_exact([[A,B], [C, D]]) [2]

63:/home/k821209/py/NGS/vcfq2fa.py : vcfutil로 만들어진 fq 파일을 fa로 변환

Excel

=TEXT(2.2323,"(0.00)")

(2.23)

Softwares

SNP 반영된 fasta 만들기

  1. java -jar /data/program/picard-tools-1.91/CreateSequenceDictionary.jar R=Gmax_189.fa O=Gmax_189.dict
    • 인덱싱 작업인듯
  2. java -Xmx2g -jar /data/program/GenomeAnalysisTK-3.1-1/GenomeAnalysisTK.jar -R /data/ref/Gmax_189.fa -T FastaAlternateReferenceMaker -o JM14.bam.sort.bam.bcg.bcf.d2D50.vcf.fa --variant JM14.bam.sort.bam.bcg.bcf.d2D50.vcf
    • bcftools view [filename.bcf] | /data1/KimSue/Gmax_189/ver1/bcf/bcf2fa.py prefix # GATK의 FastaAlternateReferenceMaker 는 calling이 되지 않는 지역을 reference 서열로 가져오는 문제가 있음.

GATK pipe http://www.broadinstitute.org/gatk//events/2038/

  1. bwa mem -M -t 10 Va.ref.fa ysp-2_1.fastq.gz ysp-2_2.fastq.gz | /data/program/samtools-0.1.19/samtools view -Sb - | /data/program/samtools-0.1.19/samtools sort - ysp.bwamem.Va.ref.fa.sort # GATK pipe는 -M 옵션이 필요
  2. /data/program/jdk1.7.0_25/bin/java -jar /data/program/picard-tools-1.91/MarkDuplicates.jar INPUT=ysp.bwamem.Va.ref.fa.sort.bam OUTPUT=ysp.bwamem.Va.ref.fa.sort.bam.dedup.bam METRICS_FILE=metrics.txt MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000 TMP_DIR=./tmp/
    • MarkDuplicates 는 PCR duplicates를 제거하기 위한 작업. 왜 제거해야하는지는 자세히는 모르지만 PCR bias 때문에 Variant calling statistical model 에 문제가 된다고 함. 특히 PCR중에 polymerase가 실수 했을 경우 실수한 자리가 PCR bias로 대량 생산되었을 경우 마치 SNP처럼 calling되버림. 제거해야한다는 것이 결론. 그러나 특별히 제작된 라이브러리에는 적용해서는 안된다. 예를들면 특정 사이트가 잘리게 만들어놓은 라이브러리? 류들은 PCR bias로 오해받을 가능성? 이 있는듯..
    • MAX_FILE_HANDLES_FOR_READ_ENDS_MAP=1000 값을 높여도 되는데 ulimit -n 값을 올려야함. 재부팅 해야된다해서 그냥 낮춰 쓰는중. 그렇게 느린줄 모르겠음. 높여서 안써봐서 그런가..
    • TMP_DIR=./tmp/ 이거 빼먹으면 용량 없음 크리를 먹는다.

Maker

  1. /data2/k821209/programs/maker/bin/gff3_merge -d Va.ref_master_datastore_index.log
  2. /data2/k821209/programs/maker/bin/maker_map_ids --prefix=Vang --iterate=1 --suffix=. Va.ref.all.gff > id_map.txt # 복잡하게 나오는 maker의 유전자 이름들을 심플하게 바꾸는 툴
    • cat final.assembly_40k_GSFLX_pseudo5k.fasta.nonATGC.all.gff | awk '$2=="maker"' - > final.assembly_40k_GSFLX_pseudo5k.fasta.nonATGC.all.gff.maker.gff
    • python3 gff_parse.py final.assembly_40k_GSFLX_pseudo5k.fasta.nonATGC.all.gff.maker.gff
    • python3 /data2/k821209/Redbean/maker_pseudo/Va.ref.maker.output/genename_change_nonAnchor.py # 이름이 맘에 안들게 바뀌어서 개인적으로 만든 툴
  3. /data2/k821209/programs/maker/bin/map_gff_ids id_map.txt Va.ref.all.gff # 그리 나온 이름들을 gff 반영하는 툴
  4. python3 /data2/k821209/Redbean/maker_pseudo/Va.ref.maker.output/header_change.py Va.ref.all.maker.proteins.fasta Vang.scaffold.map # 그리 나온 이름들을 fasta에 반영하는 툴
  5. /data2/k821209/programs/maker/bin/iprscan2gff3 Va.ref.all.maker.proteins.fasta.tsv.hc.tsv Va.ref.all.gff > Va.ref.all.gff.ipr.gff # interpro result를 jbrowser에 들어가는 모양으로 만들어주는 툴

Deconseq [3]

  1. Illumina read의 contamination을 확인한다.
  2. 63:/data/program/deconseq-standalone-0.4.3
  3. /usr/bin/perl deconseq.pl -keep_tmp_files -f 800_both.fq -dbs bact,vir,arch -dbs_retain gmax

ePCR

Re-PCR

  1. $ famap -tN -b genome.famap ./superscaf.ver1.fa
  2. $ fahash -b genome.hash -w 12 -f3 ${PWD}/genome.famap
  3. Work> /data/program/e-PCR-2.3.12/re-PCR -S genome.hash -n1 -g1 SSR.sts -o SSR.sts.mapped

SSR.sts

Mungbean_SSR_ID_1 CAAAAACATGAGTTGCACACAA TCATAACGCAGAACAGCGAA

Mungbean_SSR_ID_2 ATGTGTGTGAGCACCTCGAC TTTGGCCATGCAAGATGTAA

Mungbean_SSR_ID_4 GCGGTTCACCTAGCCATAAA GGACCCTTCTGTGCGTGTAT

Mungbean_SSR_ID_5 GTTTGTGCTGCGGATTCTTT TTGGCAATTTGGACTAAGGC

Mungbean_SSR_ID_7 TTGACCCAAAACTTACCAATTT GCTAAGGACTGGGGGTCTTC

Mummer, alignment draft genome to finished genome

$nucmer --prefix=ref_qry ref.fasta qry.fasta

$show-coords -rcl ref_qry.delta > ref_qry.coords

$show-aligns ref_qry.delta refname qryname > ref_qry.aligns

$show-tiling ref_qry.delta > ref_qry.tiling

추천 논문

Paterson, A.H., M. Freeling, H. Tang and X. Wang. 2010. Insights from the comparison of plant genome sequences. Annual Review of Plant Biology 61: 349-372. [4]

  1. doi:10.1038/nature08670
  2. scipy, fisher's exact
  3. deconseq
  4. Paterson, A.H., M. Freeling, H. Tang and X. Wang. 2010. Insights from the comparison of plant genome sequences. Annual Review of Plant Biology 61: 349-372.