`BackgroundNGS 생물학적분야부터 광범위한 응용분야까지 다양한 분야의 연구기반을 만드는데에는 sequencing 기술이 필수적이었다. 이후로는 Next-generation sequencing(NGS)의 기술이 발달하며 유전체 정보의 대량 생산이 가능해져 농업과학의 다양한 과학적 주제에 이용되었고\cite{Barabaschi_2016}, 육종연구에도 사용할 수 있게되었다. Reference genome Sequencing을 하여 얻은 data로 유전 변이를 탐지하고, 이용가치가 높도록 개발하는 것은 육종연구에 필수적이었다. 이러한 유전체를 이용한 육종 접근법은 genome의 가용성이 향상되도록하며 여러 모델 식물에 대한 transcriptome sequence data와 crop species 분야에 크게 기여했다. 때문에, Grape (http://www.phytozome.net/grape.php), soybean (http://www.phytozome.net/soybean)처럼 여러 작물에서 sequencing하여 얻은 data로 그 종의 구성을 정의하고, 그 종의 기능성을 이해할 수 있도록 하여\cite{Ellegren_2014}, genome sequence를 완성해내거나 초안을 만들어낼 수 있었다\cite{Varshney_2009}. 이를 통해 형질을 조절하는 유전자나 그의 위치를 식별하여 유전자 기능의 특징화를 할 수 있었고, 궁극적으로는 작물의 농업적 특성 개선을 할 수 있게되었다\cite{Takeda_2008}.Gene model Genome sequences를 추출하고 나면, genome 내의 유전자 위치와 기능을 해독할 수 있게된다. 이 과정은 genome annotation이라고 정의되는데, structural annotation, functional annotation, manual curation의 세 가지 과정으로 구분할 수 있다\cite{Swarbreck_2007}. 그 중 structural annotation 단계에서 genome sequences내의 유전자의 위치와 구조 정보를 파악하여 유전자의 서열을 분석한 뒤, functional annotation 단계에서 그 서열 정보를 통해 유전자의 기능을 규명한다. Genome sequences는 크게 두 영역으로 나눌 수 있는데, protein을 코딩하는 유전자 영역과 그 외 나머지 영역이다\cite{Brosius_2009}. 유전자 영역은 다시 exon과 intron의 영역으로 나눌 수 있다. 나머지 영역은 상당 부분을 차지하고 있는 반복서열과 transposon elements들이 존재하고 있다\cite{lewin2004}. 때문에, genome을 분석하여 유전자를 해독하기 위해선 exon영역 뿐만 아닌, non-coding RNA, intron, repeat 영역등과 같이 여러 형태의 서열들에 대한 위치 정보를 분석해야한다. 이를 위해, Ab initio와 genome mapping을 결합한 방식으로 다양한 데이터베이스와 알고리즘을 이용한 방법을 사용한다\cite{Salamov_2000}. Genome sequences내에서 유전자의 위치와 구조를 밝혀 유전자 지도를 완성하기 위해선 제일 먼저 가장 많은 영역을 차지하는 것을 분석해야한다. 바로 반복 서열이다. 이는 우선적으로 선별되어 주로 RepeatMasker (http://www.repeatmasker.org/) 분석 프로그램을 이용하여 masking 작업을 통해 유전자 예측과정에서 예외처리 되어진다. 이후, 서열상의 exon과 intron을 대부분 HMM 모델을 이용하여 예측하게된다\cite{Baldi_1994}. 다양한 예측 프로그램 중에선 주로 Softberry사의 Fgnesh가 다른 예측 프로그램에 비해 정확성 및 신뢰성이 높아 가장 많이 사용된다. 이는 mRNA, EST, 단백질 서열을 genome sequences에 mapping해 정확한 유전자 모델을 제공받아 공개되어 있는 서열을 대상으로 해당 genome의 대표적인 유전자 모델 집단을 만든 후, 가장 핵심이 되는 matrix를 제작한다\cite{softberry}. 이후부터는 리눅스 환경에서 매우 간단하고 빠르게 유전자 예측 과정이 진행된다. 이때, 일반적으로 여러 프로그램을 동시에 사용하여 여러 유전자 예측 모델을 생성하고, 유전자의 exon, intron 단위로 규정화 되어있는 scoring 방식을 통해 여러 프로그램에서 중복적으로 예측된 유전자 모델을 우선적으로 채택하게 된다\cite{Burge_1997}. 그리고 유전체 상에서 유전자의 위치 및 구조 정보를 파악하는데 가장 중요한 정보를 제공하는 것은 mRNA를 비롯한 실제 서열정보이기 때문에 최대한 많은 양의 실제 데이터를 확보하여 유전체 서열과의 유사성을 조사하고 그 위치를 파악한다\cite{Salamov_2000}. DNA 서열의 경우 BLAT,Slim4,GMAP,AAT가 주로 이용되고, 단백질 서열의 경우 BLAST와 wise2 package에 존재하는 Genewise를 이용한다. 이들의 대부분은 exon과 intron 신호를 인지해 local alignment를 수행하고 있어 intron이 존재하는 genome sequences에 mapping하기에 적절하다. 서열상의 유사성에 의해 유전자 모델이 결정되므로 HSP length, coverage, identity와 같은 파라미터 조건을 엄격하게 설정하여 정확한 Evidenced Gene Model(EGM)을 만드는 것이 일반적이다\cite{Lim_2017}. 이렇게 다양한 유전자 예측 프로그램을 통해 얻어진 Predicted Gene Model(PGM)과 mRNA, EST, 단백질 서열을 유전체에 mapping하여 얻어진 Evidenced Gene Model(EGM)을 합쳐 Consensus Gene Model(CGM)을 만든다. 각 유전자 모델마다 가중치를 다르게 설정해 동일한 위치에서 중복적으로 지지를 받아 높은 score 합계를 갖는 유전자 모델이 CGM으로 채택이 된다. 일반적으로 EGM이 PGM보다 높은 가중치를 가지며 EGM 가운데에서도 full-length mRNA, protein, mRNA, EST 순으로 우선 순위를 배정한다\cite{Allen_2003}. 유전자의 위치와 구조를 분석해 알아냈으므로, 서열 정보를 통해 유전자의 기능을 유추할 수 있게된다. 가장 보편적인 유전자의 기능 분석 방법은 상동성 기반의 분석이다\cite{Loewenstein_2009}. 이는 사용되는 데이터베이스에 따라 노이즈 발생률이 차이가 나므로 데이터베이스 구축에 많은 노력을 기울여야하기때문에 분석하고자 하는 종과 동일한 종의 단백질 서열을 1차 데이터베이스로 구축하고, 다음으로 유연관계가 가까운 종을 대상으로 2차 데이터베이스를 만드는 피라미드 형태의 데이터베이스 구축이 필요하다. 또한 각 데이터베이스에 맞는 상동성 경계 값 조정이 필요하다. 단백질 수준에서의 상동성은 보통 높게는 1e-200에서 낮게는 1e-4 까지 적절한 수준으로 조정을 하게 된다. 그러나 DNA 수준에서의 상동성은 아무리 높은 E-value 경계 값이라도 신뢰할만한 정보가 되지 않는다고 말한다. 따라서 e-value 뿐만 아니라 identity, HSP coverage 등이 상동성 레벨을 정하는 기준이 되기도 한다. 이러한 통합적인 유전자 기능 분석을 수행하기 위해서는 다양한 알고리즘과 데이터베이스, 분석 프로그램들의 유기적인 네트워크가 구축되어야 하며, 수많은 데이터의 입출력이 이루어지므로 데이터의 효율적인 관리를 위한 시스템도 연계되어야 되므로 상당히 복잡한 대규모 분석 시스템이 요구된다. 또 다른 유전자 기능 분석 방법은 서로 다른 종간의 상응하는 유전자 조합 및 구성을 분석하여 진화론적인 유연관계를 밝히는 비교유전체 분석의 가장 기본적인 분석은 ortholog 분석이다\cite{Fang_2010}. Ortholog란 한 개체가 진화되어 여러 종으로 분화되었을 때, 유전자의 기능이 그대로 보존되어 서로 유사한 기능을 수행하는 것을 의미한다. 진화론적인 연관관계 분석 시 이웃하고 있는 유전자의 배열과 조성을 통해 종간 변이 단계를 분석하게 된다. 좀 더 나아가 특정 ortholog 그룹의 유전자들의 존재 유무를 다수의 종에서 분석하여 프로파일링을 수행하고 그 프로파일을 이용하여 유연관계를 밝히는 phylogenetic 프로파일링 기법도 최근 매우 정확히 유전자의 기능을 예측하는 알고리즘으로 알려지고 있다. 비슷한 단백질 프로파일을 갖는 것은 비슷한 기능을 갖는다는 의미를 보여주기 때문에 유전자 기능 분석 시 이용되고 있다. 이러한 과정들을 거치게 되면 마침내 gene model을 만들어 낼 수 있게 되고, 그의 유전자의 위치와 기능을 통해 육종을 할 때 필요한 기능과 특성을 지닌 작물로 쉽게 개선할 수 있게되는 것이다. Glycine Max Glycine max(soybean)는 단백질섭취와 cooking oil의 세계적인 주요한 원천 중 하나인 작물이다. East Asia soy를 기원으로 두지만 현재 세계적으로 재배하고 있고 U.S.에서 가장 많이 재배 되고 있다. 비록 작은 부분이 인간에게 직접적으로 섭취되고 있지만 단백질의 원료, 필수 아미노산을 모두 포함하고 다이어트 식품으로 고기를 대체 할 수 있다는 점에서 매우 가치가 있는 작물이다. 또한 다른 야채들처럼 미생물과 공생관계를 맺음으로 대기 중 질소를 고정시킬 수 있다. 첫번째 soybean 초안 genome인 G. max var. Williams 82가 2010년에 보고되었고 가장 최신 genome assembly 버전인 version 2.0 (Wm82.a2.v1)이 있다. 현재 56,044 protein-coding genes 와 88,647개의 transcripts가 예측되었다. 하지만 기능적으로 작물의 특성에 어떤 영향을 끼치는지 대부분 알려지지 않았다.