분석 프로그램 검색

Study : 1711044752

연구과제 정보

accession,
2014M3C9A3063541
1711044752
멀티 오믹스 분석 알고리즘 및 플랫폼 개발
미래부
서울대학교
김선
2016
2016-11-01     ~      2017-08-31
김선
sunkim.bioinfo@snu.ac.kr
028807280

등록 프로그램 / 파이프라인 / 웹 서비스 정보

accession,

1. 분석 프로그램   2. 전사체 분석

한글명칭 겟유티알
영문명칭 GETUTR
프로그램 GETUTR.2.0.0.zip
매뉴얼 매뉴얼 다운로드
모식도 프로그램 전체 모식도 없음
웹 서비스 주소
주요 내용 특징 본 프로그램은 대량으로 생산된 RNA-seq 데이터를 이용하여 유전자의 3' UTR (untranslated region)의 landscape를 예측하고, 3' end의 위치를 정확히 추정해줌. 유전자의 3’ UTR 영역은 다양한 regulatory element들이 작용을 하기 때문에 RNA 연구에 매우 중요함. 최근에 전사체의 PCS (polyA cleavage site)만을 모아서 시퀀싱하는 3P-seq 기술이 개발됐지만, 실험 방법이 매우 까다롭고 yield가 낮기 떄문에 한계점이 있음. 또한 3’ UTR 영역은 매우 길고 상대적으로 발현량이 낮기 때문에 RNA-seq 데이터의 신호가 급격히 변화하거나 끊어지는 경우가 생김. 따라서 본 프로그램은 RNA-seq 신호의 형태에 isotonic regression을 적용하여 실제로 신호가 사라지는 지점을 예측함. 따라서 접근성과 depth가 보장되는 RNA-seq 데이터를 이용하여 높은 민감도와 정확도로 유전자의 3’ UTR landscape와 PCS를 예측할 수 있음. 특히, 다양한 종의 조직, 세포주, 발생 단계, 약물 처리 등의 대규모 데이터가 공개된 RNA-seq 데이터를 활용하기 때문에 활용도가 매우 높을 것으로 기대됨.
주요 기능 기존에 알려진 유전자들의 주석 파일 (genePred)과 RNA-seq 데이터 (bam)를 이용하여 다음과 같은 기능을 수행함.
 - 각 유전자들의 3’ UTR 끝부분에서 RNA-seq 신호의 감소 패턴을 사용자가 지정한 Smoothing 알고리즘과 동위회귀로 함수화함.
 - 함수화된 신호로부터 신호 강도도 급격히 감소하는 부분을 측정하여 전사물의 끝부분으로 예상되는 위치를 예측함.
사용방법 GETUTR 실행을 위해서 1. 입력 파일, 2. 참조 유전체 정보, 3. 분석 알고리즘 설정, 4. 출력 파일 설정이 필요함. 1. 입력 파일은 참조 유전체에 맵핑된 BAM 포맷의 RNA-seq 데이터가 요구됨. 2. 유전자의 3’ UTR landscape 예측을 원하는 참조 유전체 설정이 필요함 (e.g. hg19 or mm9, ...). 3. RNA-seq 신호의 함수화에 사용할 smoothing 및 regression 알고리즘 설정 (PAVA, Max.fit, 혹은 Min.fit)이 필요함. 4. 출력 파일을 작성할 디렉토리와 파일 이름의 설정이 필요함. GETUTR의 기본 커맨드는 “python getutr.py -i <입력 파일> -r <참조 유전체> -m <분석 알고리즘> -o <출력 파일>” 임. GETUTR은 다음과 같은 스크립트로 구성돼 있음. cleavage.py: RNA-seq 신호의 감소가 시작되는 부분 (CPS)을 추정함. filemanager.py: 분석에 사용되는 주석 정보 및 파일들을 관리함. getutr.py: GETUTR을 실행함. regression.py: isotonic regression을 구현함. smoothing.py: 세가지 알고리즘 (PAVA, Max.fit과 Min.fit)을 구현함. utility.py: 분석에 사용되는 기타 함수들을 저장함.
LINUX
기타
bedtools, gtfToGenePred, Python 2.7, NumPy (Python package), rpy2 (Python package)