PGL - Authorea

by author

by title

by keyword

LYJ

August 02, 2018

논문:https://academic.oup.com/bioinformatics/article/27/15/2156/402296-VCFtools 관련 내용.( The Variant Call Format and VCFtools, Petr Danecek 외... - citation 형식좀 알려주세요 ㅠㅠ)(VCF file을 분석하고 조작하는 데 사용할 수 있는 tool 중 하나로 VCFtools가 있다. 이 소프트웨어는 크게 두 모듈로 나눌 수 있는데, 하나는 format validation, merging, comparing, intersecting, making complements, overall basic statistics 등의 작업을 가능하게 해주는 Perl API module을 제공해준다. 다른 하나는 C++를 활용하여 VCF format에서의 SNP data를 분석하는 데 사용할 수 있는데, 이를 통해 사용자에게 allele frequency, linkage disequilibrium level, various QC metrics 등에 대한 정보를 제공한다. VCFtools에 관한 추가적인 정보는 웹 사이트에 접속하여 확인할 수 있다.(http://vcftools.sourceforge.net/)) Background > vcf란, vcf 분석방법next generation sequencing(NGS)를 통한 유전자 분석을 하게 되면 100개정도의 염기로 구성된 짧은 서열 조각인 리드를 생성하여 염기서열을 해독한다. NGS는 해독한 염기서열을 FASTQ 형식의 파일로 저장한다. 이 과정을 raw data generation이라고 한다.\cite{Cock_2009}//raw data를 생성하면 정렬 소프트웨어를 사용하여 raw data를 resequencing한다. resequencing이란 종마다 기준이 되는 유전체(Reference genome sequence)와 연구 대상 유전체와의 비교를 통해 새로운 유전체 서열을 완성하는 방법으로, 이를통해 변이(variant)를 찾을 수 있다. 여러 congenital disease와 관련된 mutation들을 detecting 하는 데 있어서, candidate gene이나 genomic regions를 resequencing해 보는 것은 핵심적인 단계이다. resequencing techniques은 알려진 mutation(genotype)을 통한 분석과 주어진 target region을 이용하여 mutation을 scan하는 방법(variation analysis)으로 나눌 수 있다. test되는 전형적인 mutation은 substitution (SNP), insertion 그리고 deletion mutation이다 resequencing 과정 중 alignment/mapping은 유전변이와 sequencing오류를 포함하고 있는 106 ~109 개의 리드들을 참조 염기서열과 비교하여 리드의 염기서열과 일치하는 위치를 참조 염기서열에서 찾는 과정이다.\cite{assembly} 두 염기 서열을 비교하는 데 BWT 알고리즘에 기반한 BWA를 사용한다. BWA를 사용하여 정렬이 끝나면 SAM(sequence alignment map)\cite{Li_2009} 형식으로 저장된다. 리드이름, bitwise flags, 참조 염기서열 이름, 정렬된 위치, 정렬 정확도, cigar등의 정보가 포함된다. cigar은 정렬된 염기의 개수,insertion, deletion, skipped region에 관한 정보를 표현한다. SAM 파일을 binary형식으로 압축한 BAM파일도 정렬 결과를 저장하는 표준형식으로 자리잡고 있다. BAM/SAM 파일을 variant calling 단계에 적용 하기전에 SAM tools로 정렬 후속 처리를 한다. variant calling 이란 BAM/SAM파일들을 통합하여 SNP/indel 영역을 찾는 과정이다. variant calling은 염기서열의 위치에서 SNP/indel로 확인될 확률로 표현한다. variant calling의 결과는 VCF형식의 파일에 저장된다. VCF는 각 position에 대한 samples 의 genotype information(sequence of variation, 염색체 위치, 참조 염기, 치환/삽입/삭제 등이 일어난 표본 염기, 변이 정확도, 변이로 판명된 샘플의 빈도 etc .)을 제공한다. \cite{specification} vcf format은 정확한 type과 sequence of variation 뿐만 아니라 multiple samples 의 genotype variation을 확인할 수 있다.Question > vcf 분석이 어렵다VCF files은 여러 sample 들을 수용하고 많은 정보를 담고 있기 때문에 많은 community에서 유용하게 사용할 수 있다. 하지만 그 많은 양의 data 때문에 단점이 용량이 크고 느리다는 것이다. files이 text 형식이기에 disk에 많은 용량을 요구한다. 보통 100개의 exomes의 batch는 몇 GB이지만 1000개의 exome sample을 가진 거대한 VCFs는 100 GB에 이른다. 이러한 단점 때문에 vcf를 해석하는데 많은 시간이 걸려 개인의 컴퓨터로는 전체의 파일을 load하기가 어렵다.분석 파이프라인에 따라 SNP calling 값이 달라져서 다각도에서 분석이 필요하다.\cite{Altmann_2012}Solution > vcf 활용방안 NGS를 통해 다양한 동식물의 유전체 해독의 보편화가 가능해짐에 따라, 질병 진단 및 예측과 유용 유전정보 발굴 및 육종에 응용이 가능해진다. 가능해진다. SNP를 이용하여 형질과 SNP/indel 사이의 연관 분석을 통하여 작물 육종에 응용 할 수 있다.

LYJ

and 1 more

August 09, 2018

`BackgroundNGS 생물학적분야부터 광범위한 응용분야까지 다양한 분야의 연구기반을 만드는데에는 sequencing 기술이 필수적이었다. 이후로는 Next-generation sequencing(NGS)의 기술이 발달하며 유전체 정보의 대량 생산이 가능해져 농업과학의 다양한 과학적 주제에 이용되었고\cite{Barabaschi_2016}, 육종연구에도 사용할 수 있게되었다. Reference genome Sequencing을 하여 얻은 data로 유전 변이를 탐지하고, 이용가치가 높도록 개발하는 것은 육종연구에 필수적이었다. 이러한 유전체를 이용한 육종 접근법은 genome의 가용성이 향상되도록하며 여러 모델 식물에 대한 transcriptome sequence data와 crop species 분야에 크게 기여했다. 때문에, Grape (http://www.phytozome.net/grape.php), soybean (http://www.phytozome.net/soybean)처럼 여러 작물에서 sequencing하여 얻은 data로 그 종의 구성을 정의하고, 그 종의 기능성을 이해할 수 있도록 하여\cite{Ellegren_2014}, genome sequence를 완성해내거나 초안을 만들어낼 수 있었다\cite{Varshney_2009}. 이를 통해 형질을 조절하는 유전자나 그의 위치를 식별하여 유전자 기능의 특징화를 할 수 있었고, 궁극적으로는 작물의 농업적 특성 개선을 할 수 있게되었다\cite{Takeda_2008}.Gene model Genome sequences를 추출하고 나면, genome 내의 유전자 위치와 기능을 해독할 수 있게된다. 이 과정은 genome annotation이라고 정의되는데, structural annotation, functional annotation, manual curation의 세 가지 과정으로 구분할 수 있다\cite{Swarbreck_2007}. 그 중 structural annotation 단계에서 genome sequences내의 유전자의 위치와 구조 정보를 파악하여 유전자의 서열을 분석한 뒤, functional annotation 단계에서 그 서열 정보를 통해 유전자의 기능을 규명한다. Genome sequences는 크게 두 영역으로 나눌 수 있는데, protein을 코딩하는 유전자 영역과 그 외 나머지 영역이다\cite{Brosius_2009}. 유전자 영역은 다시 exon과 intron의 영역으로 나눌 수 있다. 나머지 영역은 상당 부분을 차지하고 있는 반복서열과 transposon elements들이 존재하고 있다\cite{lewin2004}. 때문에, genome을 분석하여 유전자를 해독하기 위해선 exon영역 뿐만 아닌, non-coding RNA, intron, repeat 영역등과 같이 여러 형태의 서열들에 대한 위치 정보를 분석해야한다. 이를 위해, Ab initio와 genome mapping을 결합한 방식으로 다양한 데이터베이스와 알고리즘을 이용한 방법을 사용한다\cite{Salamov_2000}. Genome sequences내에서 유전자의 위치와 구조를 밝혀 유전자 지도를 완성하기 위해선 제일 먼저 가장 많은 영역을 차지하는 것을 분석해야한다. 바로 반복 서열이다. 이는 우선적으로 선별되어 주로 RepeatMasker (http://www.repeatmasker.org/) 분석 프로그램을 이용하여 masking 작업을 통해 유전자 예측과정에서 예외처리 되어진다. 이후, 서열상의 exon과 intron을 대부분 HMM 모델을 이용하여 예측하게된다\cite{Baldi_1994}. 다양한 예측 프로그램 중에선 주로 Softberry사의 Fgnesh가 다른 예측 프로그램에 비해 정확성 및 신뢰성이 높아 가장 많이 사용된다. 이는 mRNA, EST, 단백질 서열을 genome sequences에 mapping해 정확한 유전자 모델을 제공받아 공개되어 있는 서열을 대상으로 해당 genome의 대표적인 유전자 모델 집단을 만든 후, 가장 핵심이 되는 matrix를 제작한다\cite{softberry}. 이후부터는 리눅스 환경에서 매우 간단하고 빠르게 유전자 예측 과정이 진행된다. 이때, 일반적으로 여러 프로그램을 동시에 사용하여 여러 유전자 예측 모델을 생성하고, 유전자의 exon, intron 단위로 규정화 되어있는 scoring 방식을 통해 여러 프로그램에서 중복적으로 예측된 유전자 모델을 우선적으로 채택하게 된다\cite{Burge_1997}. 그리고 유전체 상에서 유전자의 위치 및 구조 정보를 파악하는데 가장 중요한 정보를 제공하는 것은 mRNA를 비롯한 실제 서열정보이기 때문에 최대한 많은 양의 실제 데이터를 확보하여 유전체 서열과의 유사성을 조사하고 그 위치를 파악한다\cite{Salamov_2000}. DNA 서열의 경우 BLAT,Slim4,GMAP,AAT가 주로 이용되고, 단백질 서열의 경우 BLAST와 wise2 package에 존재하는 Genewise를 이용한다. 이들의 대부분은 exon과 intron 신호를 인지해 local alignment를 수행하고 있어 intron이 존재하는 genome sequences에 mapping하기에 적절하다. 서열상의 유사성에 의해 유전자 모델이 결정되므로 HSP length, coverage, identity와 같은 파라미터 조건을 엄격하게 설정하여 정확한 Evidenced Gene Model(EGM)을 만드는 것이 일반적이다\cite{Lim_2017}. 이렇게 다양한 유전자 예측 프로그램을 통해 얻어진 Predicted Gene Model(PGM)과 mRNA, EST, 단백질 서열을 유전체에 mapping하여 얻어진 Evidenced Gene Model(EGM)을 합쳐 Consensus Gene Model(CGM)을 만든다. 각 유전자 모델마다 가중치를 다르게 설정해 동일한 위치에서 중복적으로 지지를 받아 높은 score 합계를 갖는 유전자 모델이 CGM으로 채택이 된다. 일반적으로 EGM이 PGM보다 높은 가중치를 가지며 EGM 가운데에서도 full-length mRNA, protein, mRNA, EST 순으로 우선 순위를 배정한다\cite{Allen_2003}. 유전자의 위치와 구조를 분석해 알아냈으므로, 서열 정보를 통해 유전자의 기능을 유추할 수 있게된다. 가장 보편적인 유전자의 기능 분석 방법은 상동성 기반의 분석이다\cite{Loewenstein_2009}. 이는 사용되는 데이터베이스에 따라 노이즈 발생률이 차이가 나므로 데이터베이스 구축에 많은 노력을 기울여야하기때문에 분석하고자 하는 종과 동일한 종의 단백질 서열을 1차 데이터베이스로 구축하고, 다음으로 유연관계가 가까운 종을 대상으로 2차 데이터베이스를 만드는 피라미드 형태의 데이터베이스 구축이 필요하다. 또한 각 데이터베이스에 맞는 상동성 경계 값 조정이 필요하다. 단백질 수준에서의 상동성은 보통 높게는 1e-200에서 낮게는 1e-4 까지 적절한 수준으로 조정을 하게 된다. 그러나 DNA 수준에서의 상동성은 아무리 높은 E-value 경계 값이라도 신뢰할만한 정보가 되지 않는다고 말한다. 따라서 e-value 뿐만 아니라 identity, HSP coverage 등이 상동성 레벨을 정하는 기준이 되기도 한다. 이러한 통합적인 유전자 기능 분석을 수행하기 위해서는 다양한 알고리즘과 데이터베이스, 분석 프로그램들의 유기적인 네트워크가 구축되어야 하며, 수많은 데이터의 입출력이 이루어지므로 데이터의 효율적인 관리를 위한 시스템도 연계되어야 되므로 상당히 복잡한 대규모 분석 시스템이 요구된다. 또 다른 유전자 기능 분석 방법은 서로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를 밝히는 비교유전체 분석의 가장 기본적인 분석은 ortholog 분석이다\cite{Fang_2010}. Ortholog란 한 개체가 진화되어 여러 종으로 분화되었을 때, 유전자의 기능이 그대로 보존되어 서로 유사한 기능을 수행하는 것을 의미한다. 진화론적인 연관관계 분석 시 이웃하고 있는 유전자의 배열과 조성을 통해 종간 변이 단계를 분석하게 된다. 좀 더 나아가 특정 ortholog 그룹의 유전자들의 존재 유무를 다수의 종에서 분석하여 프로파일링을 수행하고 그 프로파일을 이용하여 유연관계를 밝히는 phylogenetic 프로파일링 기법도 최근 매우 정확히 유전자의 기능을 예측하는 알고리즘으로 알려지고 있다. 비슷한 단백질 프로파일을 갖는 것은 비슷한 기능을 갖는다는 의미를 보여주기 때문에 유전자 기능 분석 시 이용되고 있다. 이러한 과정들을 거치게 되면 마침내 gene model을 만들어 낼 수 있게 되고, 그의 유전자의 위치와 기능을 통해 육종을 할 때 필요한 기능과 특성을 지닌 작물로 쉽게 개선할 수 있게되는 것이다. Glycine Max Glycine max(soybean)는 단백질섭취와 cooking oil의 세계적인 주요한 원천 중 하나인 작물이다. East Asia soy를 기원으로 두지만 현재 세계적으로 재배하고 있고 U.S.에서 가장 많이 재배 되고 있다. 비록 작은 부분이 인간에게 직접적으로 섭취되고 있지만 단백질의 원료, 필수 아미노산을 모두 포함하고 다이어트 식품으로 고기를 대체 할 수 있다는 점에서 매우 가치가 있는 작물이다. 또한 다른 야채들처럼 미생물과 공생관계를 맺음으로 대기 중 질소를 고정시킬 수 있다. 첫번째 soybean 초안 genome인 G. max var. Williams 82가 2010년에 보고되었고 가장 최신 genome assembly 버전인 version 2.0 (Wm82.a2.v1)이 있다. 현재 56,044 protein-coding genes 와 88,647개의 transcripts가 예측되었다. 하지만 기능적으로 작물의 특성에 어떤 영향을 끼치는지 대부분 알려지지 않았다.