TS GBS

From Crop Genomics Lab.
Revision as of 02:19, 11 July 2019 by Khg940711 (Talk | contribs)

Jump to: navigation, search

Contents

Where data came from

193 : /NGS/NGS/GlycineMax/DNA/SCJeong/Taekwang_1.fastq

193 : /NGS/NGS/GlycineMax/DNA/SS2-2_1.fastq.gz

244 : /NGS/NGS/GBS/SB_TS_TD/ CG1_1_1.fastq.gz CG2_1_1.fastq.gz

processing

바코드 분류하기

10mer 9mer 8mer ... 바코드 파일 형식은 cell 위치 + 탭 + 바코드 + 엔터 형식.

A1    CTTTTA
A2    CCTTGGCTCTC
*split.GBS.barcode.py 바코드 파일

그러면 10_barcode.txt 4_barcode.txt 5_barcode.txt 6_barcode.txt 7_barcode.txt 8_barcode.txt 9_barcode.txt 등이 자동으로 형성된바

바코드에 따라 read 분류하기

10mer 9mer 8mer ... 긴 바코드는 짧은 바코드를 포함(?) 하여 겹칠 수 있으므로 반드시 큰 바코드를 분류하고 남은 read를 다음 큰 바코드로 분류한다. : 10mer 9mer 8mer ...

cat list2 | parallel --gnu -j 1 --max-args=2 cat {1}_unmatched.fq "|" perl ../fastx_barcode_splitter.pl --bcfile ../barcode/{2}_barcode.txt --suffix ".fq" -prefix "./{2}_" --bol --exact

output file 로 10_B02.fq 10_C05.fq 10_E11.fq 10_F09.fq 10_G03.fq 10_G10.fq 10_H07.fq 10_unmatched.fq 이런 파일이 생김