Difference between revisions of "TIGAR"

From Crop Genomics Lab.
Jump to: navigation, search
Line 9: Line 9:
 
1)elastic_net
 
1)elastic_net
 
63의 /data6/haggui/twas/TIGAR에서
 
63의 /data6/haggui/twas/TIGAR에서
  ./TIGAR_Model_Train.sh --model '''elastic_net''' --Gene_Exp {.txt} --sampleID {.txt}  --genofile_type vcf --genofile {.vcf.gz} --Format GT --alpha 0.8 --cv 10 --out ./practice_
+
  ./TIGAR_Model_Train.sh --model '''elastic_net''' --Gene_Exp {.txt} --sampleID {.txt}
 +
  --genofile_type vcf --genofile {.vcf.gz} --Format GT (--alpha 0.8 --cv 10) --out ./practice_
  
 
Gene_Exp 첫줄은 header, 그 아래 행은 해당 gene의 expression에 대한 정보임. 첫번째 column : chr 숫자, 두,세번째 column : gene_start,end position, 그다음 target ID, gene_name(optional), 9번째부터 각 column은 sample 혹은 accesion임. (해당 accession의 해당 gene에 대한 발현량)  
 
Gene_Exp 첫줄은 header, 그 아래 행은 해당 gene의 expression에 대한 정보임. 첫번째 column : chr 숫자, 두,세번째 column : gene_start,end position, 그다음 target ID, gene_name(optional), 9번째부터 각 column은 sample 혹은 accesion임. (해당 accession의 해당 gene에 대한 발현량)  
Line 17: Line 18:
 
genofile 은 vcf의 tabixed form
 
genofile 은 vcf의 tabixed form
  
alpha: L1과 L2의 비율, cv 는 cross-validation. sample들을 training-set 과 test-set으로 나눈 후 검증.  
+
alpha: L1과 L2의 비율 (default = 0.5), cv 는 cross-validation (default = 5-fold). sample들을 training-set 과 test-set으로 나눈 후 검증.  
  
 
out은 result 결과 저장되는 '폴더명'. 설정 안해주면 root에 저장하려고 해서 permission denied error 남.  
 
out은 result 결과 저장되는 '폴더명'. 설정 안해주면 root에 저장하려고 해서 permission denied error 남.  

Revision as of 06:53, 9 February 2021

TIGAR는 PrediXcan 의 발전된 형태? TWAS를 한다. genotype 으로 expression을 impute 하는 단계 + gene based로 expression과 phenotype의 association을 계산하는 단계로 이루어짐.

TIGAR는 python3를 사용하기 때문에, .sh script에 있는 python을 python3로 모두 바꾸어주어야 한다. 추가로 TIGAR 에서 요구하는 모듈을 python3에 추가해줄 것(pip3 install ~) pandas, dfply, skelarn, statsmodels

1. expression~genotype 에 대한 modeling 1)elastic_net 63의 /data6/haggui/twas/TIGAR에서

./TIGAR_Model_Train.sh --model elastic_net --Gene_Exp {.txt} --sampleID {.txt}  
--genofile_type vcf --genofile {.vcf.gz} --Format GT (--alpha 0.8 --cv 10) --out ./practice_

Gene_Exp 첫줄은 header, 그 아래 행은 해당 gene의 expression에 대한 정보임. 첫번째 column : chr 숫자, 두,세번째 column : gene_start,end position, 그다음 target ID, gene_name(optional), 9번째부터 각 column은 sample 혹은 accesion임. (해당 accession의 해당 gene에 대한 발현량)

sample ID 는 Gene_Exp에 있는 accession들을 엔터로 쭉 나열해놓은 파일

genofile 은 vcf의 tabixed form

alpha: L1과 L2의 비율 (default = 0.5), cv 는 cross-validation (default = 5-fold). sample들을 training-set 과 test-set으로 나눈 후 검증.

out은 result 결과 저장되는 '폴더명'. 설정 안해주면 root에 저장하려고 해서 permission denied error 남.

-> output ES : estimated effect size, p_HWE : Hardy Weinberg Equilibrium exact test p value

2) DPR