Difference between revisions of "Bin mapping"
From Crop Genomics Lab.
KangHeum Cho (Talk | contribs) |
KangHeum Cho (Talk | contribs) |
||
Line 33: | Line 33: | ||
vcftools --vcf (variant.vcf/UV.new.chojam.variant.vcf) --out (variant.q30.SNP/UV.new.chojam.q30.SNP) --minQ 30 --remove-indels --recode | vcftools --vcf (variant.vcf/UV.new.chojam.variant.vcf) --out (variant.q30.SNP/UV.new.chojam.q30.SNP) --minQ 30 --remove-indels --recode | ||
+ | |||
+ | |||
+ | 2) 모부본의 variant 중 homozygous, polymorphic 한 것들만 골라낸다. | ||
+ | |||
+ | python parent_homo.py variant.q30.SNP.recode.vcf variant.q30.SNP.homo.vcf | ||
+ | |||
+ | |||
+ | 여기까지 걸러진 SNP 개수: | ||
+ | |||
+ | variant.q30.SNP.homo.vcf -> 317,561 SNPs | ||
+ | |||
+ | UV.new.chojam.q30.SNP.recode.vcf -> 153,384 SNPs |
Revision as of 02:17, 6 July 2020
Basic principle
기본이 되는 논문: High-throughput genotyping by whole-genome resequencing, Huang et al., Genome res., 2009
- SNPs between the two genome sequences were identified as potential markers for genotyping.
- 처음 마커의 모집단은 모부본 사이의 SNP
- 왜냐하면 모부본은 높은 시퀀싱 퀄리티를 가지고 있기 때문
Procedures
WD: 244:/hayasen/chojam/bin_mapping
하위 파일:
1) variant.vcf -> /hayasen/Workspace/YoonMY/variant.vcf 청자3호, 부석의 resequencing 파일로 variant calling한 것
2) UV.new.chojam.variant.vcf -> ../new_GBS/UV.new.chojam.variant.vcf CB population GBS data
분석 방법:
1-1) 너무 낮은 퀄리티의 variant는 걸러낸다. 기본적으로 q30은 깔고 들어간다. Depth는 신경쓰지 않는다.
1-2) SNP만 걸러낸다. InDel은 bin mapping strategy에서 쓰이지 않는다.
vcftools --vcf (variant.vcf/UV.new.chojam.variant.vcf) --out (variant.q30.SNP/UV.new.chojam.q30.SNP) --minQ 30 --remove-indels --recode
2) 모부본의 variant 중 homozygous, polymorphic 한 것들만 골라낸다.
python parent_homo.py variant.q30.SNP.recode.vcf variant.q30.SNP.homo.vcf
여기까지 걸러진 SNP 개수:
variant.q30.SNP.homo.vcf -> 317,561 SNPs
UV.new.chojam.q30.SNP.recode.vcf -> 153,384 SNPs