본문 바로가기
메뉴 바로가기

클라우드 서비스

  클라우드 서비스

국가생명연구자원정보센터(KOBIC)에서는 대용량 분석 서버나 분석 기술이 필요한 연구자들을 위하여 Bio-Express 대용량 유전체 데이터 분석 클라우드 서비스를 제공합니다.

Bio-Express는 다음과 같이 구성됩니다.

  • (1) 대용량 바이오데이터를 효율적으로 저장, 관리 및 활용 하기 위한 빅데이터 플랫폼,
  • (2) 편리한 인터페이스와 분석 환경을 제공하는 CLOSHA 통합 자동 분석 시스템,
  • (3) 대용량 데이터를 고속 전송하는 고속 전송 시스템 KoDS 3.5

자체 기술로 구축된 빅데이터 플랫폼은 분산 파일 시스템(HDFS)을 기반으로 현재 많이 사용되는 일반 분석 프로그램과 Hadoop 기반의 빅 데이터 분석 프로그램을 동시에 사용할 수 있습니다. 또한 연구자들이 최신의 공용 유전체 데이터를 곧바로 이용할 수 있도록 1000 Genomes 데이터, TCGA 데이터 등을 포함한 다양한 공용 데이터를 함께 제공하고 있습니다.

Bio-Express 바로가기

CLOSHA 통합 자동 분석 시스템

  • • 워크플로우 기반 분석 작업 수행
  • • 빅데이터 분석 프로그램을 사용 가능
  • • 파이프라인 실행 상태 및 결과 모니터링 기능
  • • 다양한 종류의 분석 프로그램/파이프라인 제공

고속 전송 시스템 KoDS 3.5

  • • 대용량 바이오데이터의 고속 전송
  • • 높은 신뢰성과 안정성 제공
  • • 편리한 사용자 인터페이스
  • • 네트워크 대역폭의 효율적인 사용

분석서비스

  • 파이프라인 이름

    GSAseq pipeline

    바로가기 ▶
  • 파이프라인 사용 분야

    RNA-seq 데이터용 gene-set enrichment 분석

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    RNA-seq count data를 입력으로 실험군 및 대조군 간 극명한 차이를 보이는 유전자군(Gene Ontology, Pathway 등)을 통계적 편향없이 정확하게 발굴하는 고속 파이프라인

  • 파이프라인 특징

    • 1. 세계 최초 웹기반 RNA-seq 데이터 분석용 GSEA 분석 도구
    • 2. RNA-seq 데이터의 read number 편향을 조절하여 정확한 결과 도출 (편향 제거 방법론: Ranksum gene statistic, median FC 및 SNR)
    • 3. 인체조직별 기 보고된 문헌데이터 DB와 연계하여 GSAseq 분석으로 발굴된 유전자군의 신뢰도를 검증하고 통계적 유의성 제공
    • 4. 다양한 유전자군 DB 제공
      • 1) 지원 유전자군: Gene Ontology (GO), KEGG, MSigDB, and so on.
      • 2) 지원 생물종: 총 8종(human, mouse, rat, yeast, A. thaliana, worm, fly and E. coli.)
    • 5. 분석 코어가 C++언어로 구성되어 고속 분석 수행이 가능. 시뮬레이션 결과 JAVA로 만들어진 기존 GSEA 소프트웨어보다 10배 정도 빠른 것으로 분석됨.
    • 6. 탭(TAB)으로 구분된 전형적인 정량 데이터를 입력으로 실험군/대조군 지정만 해주면 되므로 사용이 매우 간편함.
  • 파이프라인 구성요소

    이름 기능요약
    GSAseq core (C++) GSEA 기본 알고리즘 구동 지원
    Normalization & Gene set scoring
    (R packages)
    정량데이터 정규화 및 gene set 분석에 사용되는 스코어 계산
    Pipeline interface & Job control
    (JAVA & GWT)
    GSAseq 전체 구동 관장 및 다중 작업 컨트롤
  • 파이프라인 모식도 설명

    GSAseq은 사용자 데이터 업로드, 정규화/ 유전자군 스코어 생성, 및 GSEA 코어 구동의 3단계로 구동이 이루어진다. 사용자가 홈페이지를 통해 업로드 할 데이터는 탭(TAB)으로 구분된 일반 텍스트 데이터이며, 맨 왼쪽 컬럼이 유전자 또는 각종 molecule 정보이며 나머지 컬럼은 실험군 또는 대조군의 정량수치 데이터이다. 데이터 업로드 시 어떤 샘플들이 실험군 또는 대조군인지 지정해야 한다. 또한 데이터에 적용할 정규화 방법, GSEA 방법론, 유전자군 DB 종류, 생물종 등의 정보를 지정해야 한다. 사용자의 데이터가 입력되면 자바로 구성된 컨트롤 모듈이 R코드로 구성된 정규화 모듈 및 유전자군 스코어 생성 모듈을 구동시키며, 이 때 RNA-seq 정량데이터에 포함된 편향이 제거된다. 편향이 제거된 정량데이터는 C++언어로 구성된 GSAseq 코어모듈에 입력되어 GSEA 분석이 수행된다. 분석이 완료되면 자바 컨트롤 모듈이 결과물을 정형화된 테이블로 작성하고 유의한 유전자군 리스트를 파일로 제공한다.

  • 파이프라인 구성 모식도

    GSAseq:a pipeline for GSEA of RNA - seq data
  • 파이프라인 이름

    454 시퀀싱 미생물 군집 분석 파이프라인 with QIIME

    바로가기 ▶
  • 파이프라인 사용 분야

    454 시퀀싱 결과를 이용한 미생물 군집 분석 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    454 플랫폼으로 시퀀싱한 16S rRNA 시퀀스에 대해 QIIME 기반 미생물 군집 분석 환경을 제공하는 파이프라인

  • 파이프라인 모식도 설명

    Pre-processing, OTU clustering, Sequence alignment, Taxonomic assignment, α-diversity analysis, β-diversity analysis 총 6단계의 모듈로 구성된다. 각 단계에서 진행되는 분석 과정은 다음과 같다. 첫 번째 분석 단계인, Pre-processing은 454 시퀀싱 리드에 대한 전처리 과정으로 demultiplexing과 quality filtering을 차례대로 진행하며, 결과 파일은 FASTA 포맷으로 제공된다. 두 번째 분석 단계인, OTU(Operational Taxonomic Unit) clustering은 preprocessing 과정을 거친 서열들의 유사도를 분석하여 유사도가 높은 서열끼리 묶는 과정으로 OTU clustering 후 각 OTU의 대표 서열(representative sequence)을 제공하여 이후 분석에서 활용할 수 있도록 한다. 세 번째 분석 단계인, Sequence alignment는 OTU간 phylogeny 분석을 위해 각 OTU의 대표 서열간 alignment를 진행하고, 서열간 alignment 결과에 대한 filtering을 거친 후 OTU간 phylogenetic tree를 구성하는 과정이다. 네 번째 분석 단계인, Taxonomic assignment는 OTU 별 대표 서열과 미생물 서열을 모아놓은 레퍼런스 데이터베이스 사이의 비교를 통해 각 서열이 어떤 미생물인지를 판별하는 과정으로 판별 결과를 텍스트 파일, 그림 파일로 제공한다. 다섯 번째 분석 단계인, α-diversity analysis는 각 샘플에 대한 미생물 군집 분포를 분석하는 과정으로 샘플에 얼마나 많은 미생물이 분포하는지에 대한 richness와 샘플에 존재하는 미생물 군집 개체수의 균등성을 의미하는 evenness에 대한 다양한 분석 결과를 제공한다. 여섯 번째 분석 단계인, β-diversity analysis는 샘플간 미생물 군집 분포를 비교 분석하는 것으로 샘플간 미생물 군집 분포를 비교하기 위해 사용되는 UniFrac distance matrix(weighted, unweighted)와 PCoA plot을 분석 결과로 제공한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    QIIME http://www.qiime.org Pre-processing
    (Demutiplexing,
    Quality filtering)
    -i 서열 파일(FASTA)
    -q Quality score 파일
    -m 분석 샘플 정보 파일
    -mo 분석 샘플 정보 검증
    결과 저장 디렉토리
    -o 결과 저장 디렉토리
    Chimera filtering -i 서열 파일(FASTA)
    -m Chemera filtering method
    -o 결과 저장 디렉토리
    OTU clustering -i 서열 파일(FASTA)
    -m OTU clustering method
    -o 결과 저장 디렉토리
    α-Diversity analysis -i OTU table 정보 파일(BIOM)
    -m 분석 샘플 정보 파일
    -t Phylogenetic tree 파일
    -o 결과 저장 디렉토리
    β-Diversity analysis -i OTU table 정보 파일(BIOM)
    -m 분석 샘플 정보 파일
    -t Phylogenetic tree 파일
    -o 결과 저장 디렉토리
    PyNAST http://biocore.github.io/
    pynast/
    Sequence alignment -i 서열 파일
    -o 결과 저장 디렉토리
    FastTree http://www.microbesonline.
    org/fasttree/
    Phylogenetic tree -i Sequence alignment 파일
    -o 결과 저장 디렉토리
    RDP https://rdp.cme.msu.edu/ Taxonomic assignment -g Reference database
    -c Cutoff value
    -o Classification 결과 파일
    -h Classification 결과를 계층구조로
    표현한 결과 파일
    Mothur www.mothur.org/ Chimera filtering fasta
    서열 파일
    template Reference database
  • 파이프라인 이름

    ChIP-sequencing Pipeline for Histone Modifications with bowtie, MACS2, CisGenome, PeakSeq

    바로가기 ▶
  • 파이프라인 사용 분야

    ChIP-sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    Bowtie로 데이터를 정렬하고 MACS2, CisGenome, 또는 PeakSeq로 히스톤 변형이 유의미한 부분을 찾는 ChIP-sequencing 파이프 라인

  • 파이프라인 모식도 설명

    각 단계에서 진행되는 분석 과정은 다음과 같다. Quality control 단계에서 입력 데이터의 sequencing quality를 확인한다. Quality filter 단계에서 데이터 중 quality가 낮은 reads를 제거한다. Alignment 단계에서 참조서열에 기반 해 데이터를 mapping 한다. Cross correlation 단계에서 그 결과에 대해 quality control을 한다. Peak calling 단계에서 유의미한 부위인 peaks를 탐색한다. 이 때, MACS2, CisGenome, PeakSeq 중 하나를 선택할 수 있다. Annotation 단계에서는 앞 단계에서 찾은 부위들에 대한 상세한 설명을 덧붙인다. Visualization 단계에서는 mapping 데이터와 peaks 데이터를 시각화 한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.
    babraham.ac.uk/projects/
    fastqc/
    Quality control -o Output directory
    FASTX-Toolkit http://hannonlab.cshl.edu/
    fastx_toolkit/
    Pre-processing -Q33
    Illumina encoded quality scores
    -q 20 Minimum quality score to keep
    -p 80 Minimum percent of bases that
    must have [-q] quality
    -i Input file
    -o Output file
    Bowtie https://ccb.jhu.edu/software/
    tophat/index.shtml
    Alignment -m 1
    Suppress all alignments if > 1
    (select unique reads only)
    -q Query input files are FASTQ
    -p [int] Number of alignment threads
    --sam Write hits in SAM format
    SPP http://compbio.med.harvard.
    edu/Supplements/ChIP-seq/
    Quality control -c ChIP_tagAlign/BAMFile query
    -savp Save cross-correlation plot
    -out Resultfile
    MACS2 https://github.com/taoliu
    /MACS
    Peak calling callpeak
    Call peaks from alignment results
    -t ChIP-seq treatment file
    -c Control file
    -g Effective genome size.
    ’hs’, ’mm’, ’ce’, ’dm’
    -n Experiment name
    CisGenome http://www.biostat.jhsph.edu/
    ~hji/cisgenome/
    Peak calling -i Input
    -d Output folder
    -o Output file
    PeakSeq http://info.gersteinlab.org
    /PeakSeq
    Peak calling -preprocess Preprocessing
    -peak_select
    Configuration file path
    homer http://homer.salk.edu/homer
    /index.html
    Annota-tion, Visualiza-tion annotatePeaks.pl
    Annotating regions in the genome
    makeUCSCfile
    Creating UCSC file
  • 파이프라인 이름

    ChIP-sequencing Pipeline for Transcription Factors

    바로가기 ▶
  • 파이프라인 사용 분야

    ChIP-sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    Bowtie로 데이터를 정렬하고 MACS2, CisGenome, 또는 PeakSeq로 히스톤 변형이 유의미한 부분을 찾는 ChIP-sequencing 파이프 라인

  • 파이프라인 모식도 설명

    각 단계에서 진행되는 분석 과정은 다음과 같다. Quality control 단계에서 입력 데이터의 sequencing quality를 확인한다. Quality filter 단계에서 데이터 중 quality가 낮은 reads를 제거한다. Alignment 단계에서 참조서열에 기반 해 데이터를 mapping 한다. Cross correlation 단계에서 그 결과에 대해 quality control을 한다. Peak calling 단계에서 유의미한 부위인 peaks를 탐색한다. 이 때, MACS2, CisGenome, PeakSeq 중 하나를 선택할 수 있다. Annotation 단계에서는 앞 단계에서 찾은 부위들에 대한 상세한 설명을 덧붙인다. Visualization 단계에서는 mapping 데이터와 peaks 데이터를 시각화 한다. Motif analysis 단계에서는 peaks가 포함하는 서열 중 유의미하게 나타나는 motifs를 찾는다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.
    babraham.ac.uk/projects/
    fastqc/
    Quality control -o Output directory
    FASTX-Toolkit http://hannonlab.cshl.edu/
    fastx_toolkit/
    Pre-processing -Q33
    Illumina encoded quality scores
    -q 20 Minimum quality score to keep
    -p 80 Minimum percent of bases that
    must have [-q] quality
    -i Input file
    -o Output file
    Bowtie https://ccb.jhu.edu/software/
    tophat/index.shtml
    Alignment -m 1
    Suppress all alignments if > 1
    (select unique reads only)
    -q Query input files are FASTQ
    -p [int] Number of alignment threads
    --sam Write hits in SAM format
    SPP http://compbio.med.harvard.
    edu/Supplements/ChIP-seq/
    Quality control -c ChIP_tagAlign/BAMFile query
    -savp Save cross-correlation plot
    -out Resultfile
    MACS2 https://github.com/taoliu
    /MACS
    Peak calling callpeak
    Call peaks from alignment results
    -t ChIP-seq treatment file
    -c Control file
    -g Effective genome size.
    ’hs’, ’mm’, ’ce’, ’dm’
    -n Experiment name
    CisGenome http://www.biostat.jhsph.edu/
    ~hji/cisgenome/
    Peak calling -i Input
    -d Output folder
    -o Output file
    PeakSeq http://info.gersteinlab.org
    /PeakSeq
    Peak calling -preprocess Preprocessing
    -peak_select
    Configuration file path
    homer http://homer.salk.edu/homer
    /index.html
    Annota-tion, Visualiza-tion, Motif search annotatePeaks.pl
    Annotating regions in the genome
    makeUCSCfile
    Creating UCSC file
    findMotifsGenome Motif analysis
  • 파이프라인 이름

    Pipeline for DNA methylation with Bismark, RnBeads

    바로가기 ▶
  • 파이프라인 사용 분야

    DNA methylation 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    Bismark로 데이터를 정렬하고 RnBeads로 분석을 하는 DNA methylation 파이프 라인

  • 파이프라인 모식도 설명

    각 단계에서 진행되는 분석 과정은 다음과 같다. Quality control 단계에서 입력 데이터의 sequencing quality를 확인한다. Quality filter 단계에서 데이터 중 quality가 낮은 reads를 제거하고 adapter 서열과 일치하는 부분 또한 제거한다. Mapping reads 단계에서 메틸화/비메틸화 참조서열에 기반 해 데이터를 mapping 한다. 이후 추가적으로 duplicates를 제거한다. Methylation extraction 단계에서 유전체에 존재하는 모든 시토신 잔기에 대한 메틸화 값을 계산한다. 추후 분석 단계에서 RnBeads를 이용해 Quality control, pre-processing, normalization, differential methylation analysis를 하나의 과정으로 통합하여 진행한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.
    babraham.ac.uk/projects/
    fastqc/
    Quality control -o Output directory
    Trim Galore http://www.bioinformatics.
    babraham.ac.uk/projects/
    trim_galore/
    Pre-processing -q
    Trim low-quality ends
    -a Adapter sequence to be trimmed
    -a2 Adapter sequence to be trimmed
    on read 2 of paired-end files
    -paired For paired-end files
    Bismark http://www.bioinformatics.
    babraham.ac.uk/projects/
    bismark
    Alignment -n 1
    The maximum number of misma
    tches permitted in the "seed"
    -q Query input files are FASTQ
    --bowtie1 Uses Bowtie 1
    -o Output directory
    Bismark http://www.bioinformatics.
    babraham.ac.uk/projects/
    bismark
    Remove duplicates -p For paired-end Bismark files
    --bam Output file format
    Bismark http://www.bioinformatics.
    babraham.ac.uk/projects/
    bismark
    Methylation extraction -p
    For paired-end read data
    --no_overlap Avoids scoring overlapping meth
    ylation calls twice in paired-end r
    eads
    --bedGraph Writing a sorted bedGraph file
    --buffer_size To specify the main memory sort
    buffer
    --cytosine_report For all cytosines in the genome
    --gzip Writing output files as a GZIP com
    pressed form
    --split_by_chromo
    some
    For each chromosome
    --genome_folder To extract sequences from
    RnBeads http://rnbeads.mpi-inf.mpg.de/ Quality control, pre-processing,
    normaliza-tion, differential
    methyla-tion analysis
    rnb.run.analysis() One-step pipeline
  • 파이프라인 이름

    Assembly-based gene profiling pipeline

    바로가기 ▶
  • 파이프라인 사용 분야

    Microbiome Analysis 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    메타게놈(metagenome)의 shotgun sequencing 결과 생성된 sequencing reads들을 이용해 de novo assembly를 수행하고, 그로부터 생성된 scaffold들에서 유전자를 예측한 후 유전자 주석화(functional annotation)와 샘플 내 유전자 별 비율(gene abundance)을 구하는 작업을 수행

  • 파이프라인 모식도 설명

    Sequencing data input, Preprocessing, De novo assembly, Gene prediction and Annotation, Calculation of gene abundance, Comparison according to gene category 총 6단계로 구성된다. 각 단계에서 진행되는 분석 과정은 다음과 같다. 첫번째 분석 단계인, Sequencing data input에서는 suquencing reads를 이용하기 위해 Illumina의 paired-end sequencing의 fastq 파일 셋트를 입력받는다. 두번째 분석 단계인, Preprocessing은 Trimmomatic을 사용하여 업로드한 fastq 파일의 quality check를 통해 sequencing quality가 낮거나 길이가 짧은 sequencing reads를 제외시켜 이후 분석에 사용할 high quality의 sequencing data들만 모으는 과정이다. 세번째 분석 단계인, De novo assembly에서는 SOAPdenovo-63mer와 fasta2apg.pl을 사용하여 짧은 sequencing reads들을 조립하여 보다 긴 서열의 유전체 조각을 만든다. 네번째 분석 단계인, Gene prediction and Annotation 단계는 앞서 SOAPdenovo-63mer를 이용해 생성한 scaffold 서열을 분석하여 존재할 수 있는 유전자를 예측(structural gene prediction) 한 후 주석화(functional annotation)를 수행하는 단계로, 유전자 예측을 위해 MetaGeneMark 프로그램을 사용하고, 예측된 유전자의 주석화는 COG와 GenBanK NR 데이터베이스를 대상으로 NCBI BLAST(blastp)를 사용하여 서열검색을 통해 수행한다. 그리고 서열검색 결과는 AutoFACT 프로그램을 이용해 정리한다. 다섯번째 분석 단계인 Calcuation of gene abundance는 MetaGeneMark 결과 생성된 유전자의 nucleotide 서열 파일에 trimming 과정을 거친 high quality의 sequencing reads를 mapping하여, 유전자 별로 mapping 된 reads의 수를 이용하여 메타게놈 샘플 내 특정 유전자의 abundance를 구하는 작업을 수행한다. 이를 위해 본 파이프라인에서는 read mapping을 위하여 BWA 프로그램을 사용하였으며, 결과 정리를 위해 작성한 in house script를 작성하여 사용하였다. 여섯번째 분석 단계인, Comparison according to gene category는 In house script를 이용하여 MetaGeneMark 수행 결과 생성된 유전자들의 BLASTP를 이용한 주석화 결과와 BWA를 이용한 abundance 결과를 종합해 아래와 같은 표를 생성함으로써, Assembly based gene profiling 파이프라인의 최종 결과를 내보낸다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    Trimmomatic 정보없음 Quality check 정보없음
    SOAPdenovo-63mer 정보없음 정보없음 -s
    config_file 지정
    -k
    k-mer size로 default로 27 mer 사용
    -R repeat을 푸는 작업을 수행. Default로 수행
    -M Metagenome specific parameter
    -a 사용 메모리는 150G로 제한. 초과 할 경우 프로그램 종료
    -o Output
    fasta2apg.pl 정보없음 정보없음 정보없음
    MetaGeneMark 정보없음 정보없음 -m
    MetaGeneMark 실행을 위한 여러 parameter들이 들어있는 파일로 설치 폴더에 있는 것을 지정
    -o out put 파일명
    -a Amino acid 서열 파일을 결과로 내보내라는 옵션
    -d Nucleotide 서열 파일을 결과로 내보내라는 옵션
    -f 결과 파일의 format으로 [L]은 list 형태로, [G]는 gff 포맷이며 default는 본 파이프라인에서 default는 gff 포맷
    blastp 정보없음 정보없음 정보없음
    AutoFACT http://megasun.bch.umontreal.ca/Software/AutoFACT.htm 정보없음 정보없음
    BWA index http://bio-bwa.sourceforge.net indexing -a
    [is 또는 bwtsw] 중 선택 가능하며 database 파일의 크기가 2G 보다 클때는 bwtsw, 작을 땐 is를 선택한다. 본 파이프라인에서 default는 bwtsw
    BWA aln Alignment -n
    maximum edit distance에 대한 옵션으로 몇 bp 까지 서열이 다르더라도 align 시키라는 옵션. 본 파이프라인에서 default는 20
    -t
    Number of threads로 분석에 사용할 cpu 수
  • 파이프라인 이름

    RNA-Sequencing Pipeline with Bowtie, EMSAR, voom

    바로가기 ▶
  • 파이프라인 사용 분야

    RNA Sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    Bowtie로 Read Alignment하여 EMSAR로 FPKM 산출 후 VOOM으로 Differencial Express 결과 산출 하는 RNA Sequencing 파이프 라인

  • 파이프라인 모식도 설명

    Quality check, Remove adapter, mapping, Quantification, Differential expression 총 5단계의 모듈로 구성된다. 각 단계에서 진행되는 분석 과정은 다음과 같다. 첫 번째 분석 단계인, Quality check는 입력 데이터의 sequencing quality를 FastQC로 체크한다. 그리고, Remeve adapter 단계는 Sickle를 이용하여 입력 데이터의 quality가 낮은 reads와 adaptor를 제거한 후, R1과 R2의 pair를 맞춰서 공통 서열을 얻는다. 이렇게 얻어진 R1과 R2의 공통서열을 mapping 단계에서 입력으로 활용하여, bowtie를 이용한 reference의 index 생성 후 mapping 한다. bowtie로 mapping된 결과를 바탕으로 transcript referenece index/fasta를 입력하여 EMSAR로 각 transcript 별 Quantifiacton 결과를 산출 한다. R package인 limma 내에 탑재된 voom function을 이용하여 각 transcripts의 expression levels를 비교한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.
    babraham.ac.uk/projects/
    fastqc/
    Quality control -o Output directory
    Sickle https://github.com/ucdavis-
    bioinformatics/sickle
    Remove Adaptor PE
    Paired-End

    -f PE-File1
    -r PE-File2
    -q Quality Value
    -l Minimum Length
    -t Quality Encoding
    -o Output-PE1
    -p Output-PE2
    -s Output-Single
    bowtie
    http://bowtie-bio.sourceforge
    .net/index.shtml
    Aligning Reads -1
    Read 1 Fastq
    -2 Read 2 Fastq
    -X Maximum insert size for paired-
    end alignment
    --fr Paired reads align fw/rev
    -s Skip the first n pairs
    -u Stop after first n pairs
    EMSAR https://github.com/parklab
    /emsar
    Quantification -I
    rsh index file
    -P Paired-end data
    -s Set strand type
    -p Number of threads
    -F Maximum fragment length
    -f Minimum fragment length
    -S Input file format is SAM
    -B Input file format is BAM
    voom
    (limma)
    https://bioconductor.org/
    packages/release/bioc/html
    /limma.html
    Differential Expression count a numeric matrix containing
    raw counts
    design design matrix with rows corre-
    sponding to samples and columns
    to coefficients to be estimated
    lib.size numeric vector containing total
    library sizes for each sample
    normalize.
    method
    normalization method to be
    applied to the logCPM values
    span width of the lowess smoothing
    window as a proportion
    plot logical, should a plot of the mean
    -variance trend be displayed?
    save.plot logical, should the coordinates
    and line of the plot be saved in
    the output?
  • 파이프라인 이름

    CLIP-Sequencing Pipeline with Bowtie, Piranha, PARalyzer

    바로가기 ▶
  • 파이프라인 사용 분야

    RNA Sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    RNA-Seq에서 Unmapped Read만 가져와 Alignment하여 fusion candidates를 prediction하는 파이프 라인

  • 파이프라인 모식도 설명

    fusion detection의 알고리즘은 크게 3단계로 진행된다. Preprocessing&Mapping, Fusion Detection, Filtering 의 과정을 거쳐서 fusion candidates을 뽑아내며, 각 단계에서는 fastx-toolkit, bowtie2, ssaha2, blat등등의 프로그램을 사용하나 Run_FusionScan.py 안에서 같이 순차적으로 진행되도록 구성되었다. 각 단계에서 진행되는 분석 과정은 다음과 같다. 첫 번째 분석 단계인, Preprocessing&Mapping은 fastx-toolkit으로 입력 데이터를 quality trimming후, bowtie2를 이용하여 hg19_mRNA 에 unmapped되는 reads만을 가져온다. 그리고, ssaha2를 이용하여 가장 loose한 옵션으로 hg19에 mapping한다. Fusion Detection단계에서는 mapping한 gene info를 가지고 fusion의 database를 만든다. 이 때 미리 만들어 둔 blacklist database에서 나오는 fusion, 그리고 50,000b.p 내에 두 유전자가 있는 read-through fusion을 제거한다. 남은 fusions들을 가지고 Head gene과 Tail gene을 나누어 각 gene의 end가 exon boundary에 있는지 확인 후 통과시키고, 통과된 fusion gene에서 15개 이상의 nucleotide가 각 Head / Tail마다 있는 gene은 'Seed'로 두고 각 fusion마다 이 seed들이 몇 개가 되는지 모아둔다. Filtering 단계에서는 false positive를 없애는 데 주력한다. 먼저 blastn을 이용하여 Head - Tail 간 homology가 높은 fusions은 제외한다. 또한 Fusion gene이 repeats, paralogs, pseudo gene인 경우도 제외한다. 이 후 BLAT을 이용하여 Head gene, Tail gene 이외의 다른 gene에도 mapping 되는 multiple mapping이 보인다면 제외한다. 이 과정을 거친 후 마지막으로 남은 fusion은 final candidates으로 보고, ssaha2를 이용하여 seeds이외 support reads(Head 나 Tail 둘 중 하나가 15nt보다 적은 read를 가지는 transcript)를 search하여 가져온다.
    위 세 step을 거쳐 나온 마지막 fusion candidates를 정리하여 output file에 쓴다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FusionScan http://fusionscan.ewha.ac.kr
    /download.html
    Fusion prediction program --phred33
    qualities are Phred+33
    --phred64 qualities are Phred+64
    -P/--threads number of threads
    -ms/--min-seed minimum number of seed reads
    -md/--min-distance minimum distance between
    two genes
    -kfgs/--known-
    fusion-gene-search
    searching known kinase
    contained fusion genes
    fastx-toolkit http://hannonlab.cshl.edu
    /fastx_toolkit/
    quality trimming 및 adaptor 제거 -t
    Quality threshold
    -l minimum length
    -i input file
    -o output file
    Bowtie2
    http://bowtie-bio.sourceforge
    .net/bowtie2/index.shtml
    Mapping / unmapped read -p
    number of threads
    --un write unpaired reads that fail
    to align to file
    ssaha2 http://www.sanger.ac.uk/
    science/tools/ssaha2-0
    Mapping unmapped reads to
    genome (hg19)
    -solexa
    platform
    -skip set the number of nucleotide
    letters between the starting letter of
    seccessive words
    -best reports n multiple best mappings
    -output format of output files
    -save name of the hash table files
    nibFrag http://jura.wi.mit.edu/bio/
    education/docs/nibFrag.txt
    해당 gene의 coordinate정보로
    nucleotide sequence 생성
    -upper
    use upper case characters
    -name use given name in output files
    bl2seq http://nebc.nox.ac.uk/
    bioinformatics/docs/
    bl2seq.html
    homology check -i
    first sequence (input)
    -j second sequence (input)
    -p program name (:blastn)
    -W Wordsize
    -D traditional / tabular
    -S query strands to search
    against database
  • 파이프라인 이름

    RNA-Sequencing Pipeline with MapSplice, RSEM, voom

    바로가기 ▶
  • 파이프라인 사용 분야

    RNA Sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    Bowtie1과 MapSplice2로 Read Alignment하여 RSEM으로 Expression quantification 하는 RNA Sequencing 파이프 라인

  • 파이프라인 모식도 설명

    Quality control, Adaptive trimming, Alignment, Filter reads, Quantification, Differential expression 총 6단계의 모듈로 구성된다. 각 단계에서 진행되는 분석 과정은 다음과 같다. 첫 번째 분석 단계인, Quality control은 입력 데이터의 sequencing quality를 FastQC로 체크한다. 그리고, Adaptive trimming 단계는 Sickle를 이용하여 입력 데이터의 quality가 낮은reads와 adaptor를 제거한 후, R1과 R2의pair를 맞춰서 공통 서열을 얻는다. 이렇게 얻어진 R1과 R2의 공통서열을 Alignment 단계에서 입력으로 활용하여, Bowtie1을 이용한 reference의 index를 생성하고, MapSplice2로 mapping한다. Filter reads 단계는 mapping된 데이터를 입력으로 활용하여 Picard를 이용하여 mapping된 bam file을 정렬한 후, SamTools로 genomic location 별로 정렬한 후 performace 를 높여주기위해 indexing 한다. 그 다음 perl script를 이용하여 reference의 순서와 같도록 chromosome order로 재정렬한 후, Java scrpit를 이용하여 transcriptome을 annotation한 후 Indel, Insert가 크거나 mapping이 잘되지 않은 read를 제거한다. 이렇게 얻어진 bam file을 RSEM을 이용하여 Quantification하여 read를 count한다. 이 과정에서 FPKM, TPM, read count값을 얻을 수 있다. 마지막 Differential expression 단계에서는 R package Limma voom을 이용하여 유전자 transcripts의 expression levels를 비교하여 differentially expressed genes (DEG)를 얻는다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.
    babraham.ac.uk/projects/
    download.html#fastqc
    Quality control fastqc
    Quality check
    -o Output Dir.
    Sickle https://github.com/ucdavis-
    bioinformatics/sickle
    Remove Adaptor pe
    Paired-End
    -f PE-file1
    -r PE-file2
    -q Quality Value
    -l Minimum Length
    -t Quality Encoding
    -o Output-PE1
    -p Output-PE2
    -s Output-Single
    Bowtie1

    http://bowtie-bio.sourceforge
    .net/manual.shtml
    Create reference index
    Bowtie-build
    Reference fasta file and
    Reference id
    MapSplice2 http://www.netlab.uky.edu/p
    /bioinfo/MapSplice2UserGuide
    Aligning Reads -p
    Threads
    --qual-scale Type of input qualities
    (phred33:Illumina1.8+,orSanger)
    --bam
    Output bam format
    --fusion Find canonical and semi-
    canonical fuxion junctions
    -o Output Dir.
    -c Reference sequence Dir.
    -x Bowtie1 index basename
    -1 Input-PE1 fasta file
    -2 Input-PE2 fasta file
    Picard
    (AddOrReplace
    ReadGroups.jar)
    https://broadinstitute.github.io/
    picard/command-line-overview.
    html#AddOrReplaceReadGroups
    Add read groups I
    Alignments bam file
    O Output file
    RGSM Read group sample name
    RGID Read group sample ID
    RGLB Read group library
    RGPL Read group platform
    (Illumina)
    RGPU Read group platform unit
    (barcode: Illuminaslide: SOLiD)

    SAMtools

    http://www.htslib.org/doc/
    samtools.html

    Sort by genomic location sort
    InputFile and OutputFile
    -@ Threads
    Statistic of alignment flagstat InputFile > OutputFile
    Indexing index InputFile


    Perl script
    (sort_bam_by_
    reference_and_
    name.pl)

    https://github.com/mozack/
    ubu/tree/master/src/perl

    Sort alignmented file by
    chromosome order
    --input
    Alignmened InputFile
    --output OutputFile
    --temp-dir Temp Dir.
    --samtools Samtools Dir.
    Java script
    (ubu-1.2-jar-
    with-dependen
    cies.jar)
    https://github.com/mozack/
    ubu/wiki
    Translate from genome to
    transcriptome coordinates
    sam-xlate
     
    --bed

    Reference bed File

    --in Alignmened Input File
    --out Output File
    --order Reference Fasta file
    --xgtags  
    --reverse  
    sam-filter
     
    --in

    Transcriptome annotated Input File

    --out Output File
    --strip-indels  
    --max-insert Max insert size
    --mapq
    Minimun Mapping quality
    RSEM
    (rsem-calculate
    -expression)

    http://deweylab.biostat.wisc.
    edu/rsem/rsem-calculate-
    expression.html

    Quantification

    rsem-calculate
    -expression

    Input_File
    Refence_File
    Ouput_File_name
    --estimate-rspd Estimate the read start position
    distribution(RSPD)
    -p Threads
    --no-bam-output No output bam File
    --bam Input File Format
    --paired-end Input reads are Paired-end reads
    Limma voom in R

    https://bioconductor.org/
    packages/release/bioc/html
    /limma.html

    DEG Analysis
    voom Read count and design matrix
  • 파이프라인 이름

    RNA-Sequencing Fusion gene analysis Pipeline with TophatFusion

    바로가기 ▶
  • 파이프라인 사용 분야

    RNA Sequencing Fusion gene analysis 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    TopHat-Fusion으로 Fusion 이라고 판단되는 alignment를 선정하여 Tophat fusion post로 필터링 하여 RNA Sequencing data에서 Fusion gene을 분석하는 파이프 라인

  • 파이프라인 모식도 설명

    TopHat-Fusion 알고리즘은 Genome reference에 1차로 mapping하여 mapping이 안 되는 read의 segment들을 모아 다시 mapping 하여 fusion candidate을 선정한다. spliced fusion contigs들을 indexing 하여 재배열 한 다음 여기에 fusion candidate들을 다시 mapping 한다. segment들을 조합하여 full read alignments를 만든다. 가장 잘 mapping된 read와 mate pair를 선택하여 결과로 선정한다. TopHat-Fusion output으로 Post-processing step을 거치게 되는데 fusion을 뒷받침 하는 mapping 된 read 수와 mate pair의 개수로 1차적으로 fusion을 거르게 되고 mapping score와 read 분포에 기반하여 fusion을 분류한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    Tophat-fusion https://ccb.jhu.edu/software
    /tophat/fusion_tutorial.
    shtml#toph
    Read alignment -o
    Output Directory
    -p Number of threads
    --fusion-search Turn on fusion algorithm
    --bowtie1
    Use Bowtie1
    --no-coverage-
    search
    Takes less memory and fast
    -r Inner mate distance
    --mate-std-dev Standard derivation for inner
    mate distance
    --max-intron-length Maximum intron length
    --fusion-min-dist Minimum distance within a
    chromosome
    --fusion-anchor
    -length
    A read supports a fusion if a read
    maps to both sides of a fusion
    by at least
    --fusion-ignore-
    chromosomes
    Chromosomes to ignore
    --no
    -coverage-search
    Disables the coverage
    --no
    -mixed
    Report Read Alignments
    -p
    Threads Align Reads
    --b2
    -fast
    Bowtie2 option
    --fast
    -G GTF/GFF With Known Transcripts
    -o Output-Dir
    tophat-fusion-post
    https://ccb.jhu.edu/software
    /tophat/fusion_tutorial.shtml
    #toph
    Filtering fusion candidates
    -p
    Threads Align Reads
    --num-fusion-reads Number of reads with fusion
    gene
    --num-fusion-pairs Number of fusion pairs
    --num-fusion-both Number of fusion candidates
    5’gene and 3’gene
  • 파이프라인 이름

    Epigenome sequencing fastqc, bowtie, macs pipeline

    바로가기 ▶
  • 파이프라인 사용 분야

    ChIP-sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    Bowtie로 데이터를 정렬하고 MACS으로 전사인자가 유의미하게 결합한 부분을 찾는 ChIP-sequencing 파이프 라인

  • 파이프라인 모식도 설명

    각 단계에서 진행되는 분석 과정은 다음과 같다. Quality control 단계에서 입력 데이터의 sequencing quality를 확인한다. Quality filter 단계에서 데이터 중 quality가 낮은 reads를 제거한다. Alignment 단계에서 참조 서열에 기반 해 데이터를 mapping 한다. Cross correlation 단계에서 그 결과에 대해 quality control을 한다. Peak calling 단계에서 유의미한 부위인 peaks를 탐색한다. 이 때, MACS을 사용한다. Annotation 단계에서는 앞 단계에서 찾은 부위들에 대한 상세한 설명을 덧붙인다. Visualization 단계에서는 mapping 데이터와 peaks 데이터를 시각화 한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Quality control -o
    Output Directory
    -t Specifies the number of files which can be processed simultaneously
    -q Supress all progress messages on stdout and only report errors
    Fastq_quality_filter
    http://hannonlab.cshl.edu/fastx_toolkit/ Pre-processing
    -q
    Minimum quality score to keep
    -p Minimum quality score to keep
    -Q FASTQ ASCII offset
    -i Input file
    -o Output file
    Bowtie
    https://ccb.jhu.edu/software/tophat/index.shtml Alignment
    -q
    Specify the index file used for mapping (hg19 - human, mm9 - mouse)
    -p Launch (int) parallel search threads
    MACS
    http://liulab.dfci.harvard.edu/MACS/index.html Peak calling
    -g
    Effective genome size. It can be 1.0e+9 or 1000000000, or shortcuts-'hs' for human (2.7e9), 'mm' for mouse (1.87e9), 'ce' for C. elegans (9e7) and 'dm' for fruitfly (1.2e8)
    homer http://homer.salk.edu/homer/index.html Annotation,
    Visualization
    annotatePeaks.pl
    Annotating regions in the genome
    makeUCSCfile
    Creating UCSC file
  • 파이프라인 이름

    Broad-source ChIp-seq analysis pipeline

    바로가기 ▶
  • 파이프라인 사용 분야

    ChIP-sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    BWA로 데이터를 정렬하고 MACS2로 히스톤 변형이 유의미한 부분을 찾는 ChIP-sequencing 파이프 라인

  • 파이프라인 모식도 설명

    각 단계에서 진행되는 분석 과정은 다음과 같다. Quality control 단계에서 Single-end 또는 Paired-end 입력 데이터의 sequencing quality를 확인한다. Quality filter 단계에서 데이터 중 어댑터가 포함되거나 quality가 낮은 reads를 제거한다. Alignment 단계에서 Bowtie/Bowtie2/BCP를 이용하여 참조서열에 기반해 데이터를 mapping 한 후 Mapping이 끝난 데이터의 Mapping Quality 및 duplication level을 확인한다. Visualization 단계에서는 mapping 데이터와 peaks 데이터를 시각화 한다. Peak calling 단계에서 broad-source factor에 특화된 RESG/SICER/hiddenDomains/BCP를 이용해 유의미한 부위인 peak(또는 domain)를 탐색한다. Annotation 단계에서는 앞 단계에서 찾은 부위들에 대한 상세한 설명을 덧붙인다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Quality control -o Output Directory
    -t Specifies the number of files which can be processed simultaneously
    -q Supress all progress messages on stdout and only report errors
    Fastq_quality_filter http://hannonlab.cshl.edu/fastx_toolkit/ Pre-processing -q Minimum quality score to keep
    -p Minimum quality score to keep
    -Q FASTQ ASCII offset
    -i Input file
    -o Output file
    Cutadapt http://cutadapt.readthedocs.io/en/stable/index.html cut the adapter sequences -a 3'-adapter sequence
    -A 3'-adapter sequence, paired-end option
    -n Maximum number of adaptor to be removed
    -O Minimum number of overlap
    -m Minimun number of base
    -o Output file
    -p Output file (PE option)
    Paired_sequence_match.py http://pydoc.net/Python/paired_sequence_utils/0.1/ Paring -p Paired file output directory
    -s Unpaired file output directory
    -v Progress output directory
    BWA aln http://bio-bwa.sourceforge.net/ Alignment bwa index dir reference sequence path
    output sai alignment file output
    input fastq Input file
    -t Number of alignment thread
    BWA sampe convert data to sam bwa index dir reference index
    input sai 1 1st alignment file to be converted
    input sai 2 2nd alignment file to be converted
    input fastq 1 1st fastq file to be converted
    input fastq 2 2nd fastq file to be converted
    output sam output sam file
    Qualimap http://qualimap.bioinfo.cipf.es/ Quality control -bam input is bam file
    -nt Number of threads
    -outdir Result file dir
    --java-mem-size Amount of memory to use
    RSEG rseg-diff http://smithlabresearch.org/software/rseg/ Peak Calling with control -c reference chromosome data bed file
    -o output dir
    -mode2 ChIP-Input based peak caling mode
    -i max. iteration in process
    -v verbose option
    RSEG rseg Peak Calling without control -c reference chromosome data bed file
    -o output dir
    -i max. iteration in process
    -v verbose option
    SICER SICER.sh http://home.gwu.edu/~wpeng/Software.htm Peak Calling with control input dir input file dir
    Chip bed input Chip bed file name
    Ctrl bed input Ctrl bed file name
    output dir output file directory
    species species(mm9/hg19)
    redundancy threshold max duplicates (1)
    window size window size for seeking (200)
    fragment size insert size (200)
    genoem coverage coverage related with read length (% of genome cover)
    gap size max gap size per peak (600)
    FDR significance threshold (0.001)
    SICER SICER-rb.sh Peak Calling without control input dir input file dir
    Chip bed input Chip bed file name
    output dir output file directory
    species species(mm9/hg19)
    redundancy threshold max duplicates (1)
    window size window size for seeking (200)
    fragment size insert size (200)
    genoem coverage coverage related with read length (% of genome cover)
    gap size max gap size per peak (600)
    E-val significance threshold (100)
    hiddenDomains http://hiddendomains.sourceforge.net/ Peak Calling -B input is bed
    -g genome size info
    -t Chip bed file
    -c Ctrl bed file
    -o output directory
    PeakRanger BCP http://ranger.sourceforge.net/ Peak Calling --format input format (bed)
    -d ChiP bed
    -c Ctrl bed
    --win_size window size for finding peak (200)
    -l insert size (200)
    -p p-value (0.001)
    output dir output directory
    --verbose verbose mode
    MACS2 https://github.com/taoliu/MACS Peak Calling callpeak Call peaks from alignment results
    -t ChIP-seq treatment file
    -c Control file
    -g Effectice genome size. 'hs', 'mm', 'ce', 'dm'
    -n Experiment name
    --broad broad option
    Homer annotatePeaks.pl http://homer.ucsd.edu/homer/index.html Peak annotation Input bed Input bed file
    reference-genome reference genome (mm9 mm10 hg19 hg38)
    Output annotation bed result file
  • 파이프라인 이름

    Point-source ChIp-seq analysis pipeline ver 3.0

    바로가기 ▶
  • 파이프라인 사용 분야

    ChIP-sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    BWA로 데이터를 정렬하고 MACS2로 히스톤 변형이 유의미한 부분을 찾는 ChIP-sequencing 파이프 라인

  • 파이프라인 모식도 설명

    각 단계에서 진행되는 분석 과정은 다음과 같다. Quality control 단계에서 Single-end 또는 Paired-end 입력 데이터의 sequencing quality를 확인한다. Quality filter 단계에서 데이터 중 어댑터가 포함되거나 quality가 낮은 reads를 제거한다. Alignment 단계에서 BWA를 이용하여 참조서열에 기반해 데이터를 mapping 한 후 Mapping이 끝난 데이터의 Mapping Quality 및 duplication level을 확인한다. Visualization 단계에서는 mapping 데이터와 peaks 데이터를 시각화 한다. Peak calling 단계에서 MACS2를 이용해 유의미한 부위인 peaks를 탐색한다. Annotation 단계에서는 앞 단계에서 찾은 부위들에 대한 상세한 설명을 덧붙인다. Transcription Factor의 경우 추가적으로 binding motif를 확인한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Quality control -o Output Directory
    -t Specifies the number of files which can be processed simultaneously
    -q Supress all progress messages on stdout and only report errors
    Fastq_quality_filter http://hannonlab.cshl.edu/fastx_toolkit/ Pre-processing -q Minimum quality score to keep
    -p Minimum quality score to keep
    -Q FASTQ ASCII offset
    -i Input file
    -o Output file
    Cutadapt http://cutadapt.readthedocs.io/en/stable/index.html cut the adapter sequences -a 3'-adapter sequence
    -A 3'-adapter sequence, paired-end option
    -n Maximum number of adaptor to be removed
    -O Minimum number of overlap
    -m Minimun number of base
    -o Output file
    -p Output file (PE option)
    Paired_sequence_match.py http://pydoc.net/Python/paired_sequence_utils/0.1/ Paring -p Paired file output directory
    -s Unpaired file output directory
    -v Progress output directory
    BWA aln http://bio-bwa.sourceforge.net/ Alignment bwa index dir reference sequence path
    output sai alignment file output
    input fastq Input file
    -t Number of alignment thread
    BWA sampe convert data to sam bwa index dir reference index
    input sai 1 1st alignment file to be converted
    input sai 2 2nd alignment file to be converted
    input fastq 1 1st fastq file to be converted
    input fastq 2 2nd fastq file to be converted
    output sam output sam file
    Qualimap http://qualimap.bioinfo.cipf.es/ Quality control -bam input is bam file
    -nt Number of threads
    -outdir Result file dir
    --java-mem-size Amount of memory to use
    MACS2 https://github.com/taoliu/MACS Peak Calling callpeak Call peaks from alignment results
    -t ChIP-seq treatment file
    -c Control file
    -g Effectice genome size. 'hs', 'mm', 'ce', 'dm'
    -n Experiment name
    Homer annotatePeaks.pl http://homer.ucsd.edu/homer/index.html Peak annotation Input bed Input bed file
    reference-genome reference genome (mm9 mm10 hg19 hg38)
    Output annotation bed result file
    Homer findMotifGenome.pl Motif analysis Input bed Input bed file
    reference-genome reference genome (mm9 mm10 hg19 hg38)
    Output annotation bed result file
  • 파이프라인 이름

    집단유전체 그룹간 gene flow의 계산 및 시각화 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    VCF파일을 변환하여 Treemix software를 이용하여 다 그룹 간의 Maximum likelihood tree를 계산 하고, recnet gene flow에 대하여 시각화하고, 오차 범위를 시각화 한다.

  • 파이프라인 모식도 설명

    Treemix software를 이용하여 WG 다 그룹간의 Maximum likelihood tree를 계산 하고 recent gene flow를 시각화하는 Pipe 라인은 총 8단계에 걸쳐서 진행되며, 우선 Pipe의 Output 디렉토리를 생성한 후, 첫 째로 전체 VCF 파일을 Plink format으로 변환 및 동시에 각 샘플에 대한 Clust 파일을 생성한 후, 둘째로, 생성된 각 샘플에 대한 Clust 파일을 그룹이 명시되게 재조정한다. 그리고 셋째, 재조정된 Clust파일과 1단계에서 생성된 파일을 이용하여, VCF의 각 SNP에서 어떤 Allele이 각 그룹에서 우세한지를 나타내는 Allele frequency file을 생성한다. 넷째, 이 이 Allele frequency 파일을 이용하여 treemix를 통해 ML tree와 recent gene flow를 나타내는 파일을 생성한다. 다섯 째, 생성된 파일을 통해 시각화 하는 그림을 도출하고, 여섯째, 네 번째에서 생성된 파일을 오차를 산출하며, 마지막으로 각 그룹에 대한 오차를 Pairwise된 Plot으로 시각화한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    step00_setup.sh - Output 디렉토리 생성 - -
    step01_VCF_to_Plink.sh - 전체 VCF를 Plink format으로 변환 하고, 동시에 각 샘플의 Clust 파일을 생성함 input 전체 VCF file
    step02_Modifying_clust_file.py - 2단계에서 생성된 Clust 파일을 샘플의 그룹에 맞게 재조정함 input 1. 이전단계에서 생성된 Clust 파일
    2. 각 줄에 샘풀과 그룹이 탭 간격으로 명시된 리스트 텍스트 파일
    step03_Calculationg_Frequency.sh - 2, 3단계에서 생성된 파일을 이용하여 VCF의 각 SNP에서 어떤 Allele이 각 그룹에서 우세한지를 나타내는 Allele frequency file을 생성함 input 1. 2단계에서 생성된 PED 파일
    2. 2단계에서 생성된 MAP 파일
    3. 3단계에서 생성된 조정된 Clust 파일
    4. Outfile name
    step05_Treemixx.sh - 4단계에서 생성된 파일을 이용하여 Treemix software로 각 그룹에 대한 ML tree와 Recent gene flow를 계산함 input 1. 4단계에서 생성된 파일 Allele frequenct file
    2. Outfile name
    step06_Plotting.R - 5단계에서 생성된 ML tree와 Recenct gene flow가 기록된 파일을 시각화 함 input 1. 5단계에서 생성된 파일들의 공통된 이름
    step07_Se.R - 5단계에서 생성된 ML tree의 표준편차를 계산함 input 1. 5단계에서 생성된 .covse.gz 파일
    step08_Residual_Plot.R - 5단계에서 생성된 ML tree의 각 그룹에 대한 오차를 Pairwise plot으로 시각화 함 input 1. 5단계에서 생성된 파일들의 공통된 이름
    2. 각 그룹이 한 줄에 하나씩 명시된 리스트
  • 파이프라인 이름

    집단유전체 주성분분석 및 근연관계 정보분석 파이프라인 (kimura)

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing, Exome sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    VCF 파일로부터 Kimura two parameter로 샘플간 거리계수를 산출하여 Phylogenetic tree와 PCA plot을 그림.

  • 파이프라인 모식도 설명

    Kimura two parameter를 이용한 PCA와 Phylogentic tree pipe 라인은 총 5단계에 걸쳐서 진행되며, 우선 Pipe의 Output 디렉토리를 생성한 후, 첫 번째로 VCF 파일을 Plink format으로 변환, 두 번 째로, 변환된 Plink format의 파일 중 PED 파일을 Fasta 형식의 파일로 변환한다. 셋째, 이 변한된 Fasta 파일을 이용하여, 모든 샘플에 대한 Kimura two paramter distance의 Pariwise matrix를 생성한다. 넷째, 생성된 Pairwise matrix를 이용하여 PCA의 Plot과, Scree Plot을 그리고, 마지막으로 다시 Pairwise matrix를 이용하여 Phylogenetic tree를 그리고, 추가적으로 MEGA7 등에 이용할 수 있는 Newic format을 생성한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    step00_setup.sh - Output 디렉토리 생성 - -
    step01_VCF_to_Plink.sh - VCF 파일을 Plink ped, map 형식으로 변경 input 1. VCF file
    step02_PED_to_Fasta.py - VCF 파일을 Fasta 파일의 형식으로 변경 input 1.Plink PED file
    step03_Calculating_kimura_two_parameter_matrix.py - Kimura two parameter distance를 계산 후, PCA 와 Phylogenetic tree를 그리기 위한 pairwise Matrix 계산 input 1. 이전 단계에서 생성된 Vcf의 Fast 파일
    2. 계산할 샘풀 수
    3. 한 샘플의 Nucelotide의 수
    4. Out file의 이름
    step04_PCA.R - Kimura two parameter distance matrix를 이용하여 PC1, PC2의 PCA plot과 그에 따른 Scree plot 생성 input 1. 이전 단계에서 생성된 kimura two parameter distance matrix
    2. Out file 이름
    3. 샘플과 그룹이 명시되어 있는 파일
    step05_Phylogenetic_Tree.Rmura_distance_matrix.py - Kimura two parameter distance matrix를 이용하여 Phylogenetic tree를 그리고, 후에 MEGA7에 이용할 수 있는 Newic output file 생성 input 1. 이전 단계에서 생성된 kimura two parameter distance matrix
    2. Out file 이름
  • 파이프라인 이름

    집단유전체 한 개 그룹의 LD-decay 계산 및 시각화 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    VCF파일을 이용하여, PopLDdecay software를 이용하여 각 그룹의 특정 거리에 따른 LD의 붕괴지수를 산출 하고 이를 시각화 한다.

  • 파이프라인 모식도 설명

    PopLDdecay software를 이용하여 각 WG 그룹의 특정 거리에 따른 LD의 평균적인 붕괴지수 산출 및 시각화하는 Pipe 라인은 총 5단계에 걸쳐서 진행되며, 우선 Pipe의 Output 디렉토리를 생성한 후, 첫 째로 그 그룹별 VCF 파일을 PopLDdecay라는 software를 이용하여 계산하고자 하는 거리에 맞게 각각 그룹에 대한 평균적인 LD의 붕괴정도를 계산하고, 둘째로 그룹별로 계산된 LD의 붕괴 값을 각각 시각화 하기위한 파일로 변환하고, 셋째, 이 각 그룹별로 변환된 파일을 시각화하기 위한 최종 input인 하나의 파일로 병합한다. 그리고 마지막으로 최종 input을 이용하여 각 그룹에 대한 거리에 따른 평균적인 LD의 붕괴정도를 시각화 한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    step00_setup.sh - Output 디렉토리 생성 - -
    step01_Calculating_LD_decay.sh - 각 그룹의 VCF 파일을 이용하여, 설정한 거리에 맞게 LD의 평균적인 붕괴 정도를 계산 input 1. VCF file
    2. Out file name
    3. 계산할 최대거리
    step02_Preparing_plot.py - 이전 단계에서 계산된 각각의 Output을 이용하여 Plot을 그리기 위한 Output으로 변환 input 1. 이전 단계에서 생성된 gzip으로 압축된 output
    2. 해당 Outfile을 그룹 name
    step03_Combine_Preparing_files.sh - 3단계에서 생성된 각 그룹에 대한 Output을 Plot을 그리기 위한 input들을 하나의 파일로 재조정 input 자동적으로 Output 폴더에서 3단계에서 생성된 Suffix를 참고로 재조정된 하나의 파일을 생성함
    step04_Plot_LD_decay.R - 4단계에서 생성된 파일을 이용하여 각 그룹에 대한 거리에 다른 LD의 평균적인 붕괴 지수를 시각화 함 input 1. 4단계에서 생성된 파일
  • 파이프라인 이름

    집단유전체 그룹간 Nucleotide Diversity(PI) 계산 및 시각화 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing, Exome sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    VCF파일을 이용하여, VCFtools를 이용하여 각 그룹의 Pi를 계산 한 후 이를 시각화 한다.

  • 파이프라인 모식도 설명

    VCFtools를 이용하여 각 WG 그룹의 Nucleotide diversity(Pi) 계산 및 시각화하는 라인은 총 7단계에 걸쳐서 진행되며, 우선 Pipe의 Output 디렉토리를 생성한 후, 첫 째로 그 그룹별 VCF 파일을 이용하여 계산하고자 하는 Window size와 step에 맞게 각각 Pi 값을 계산하고, 둘째로 그룹별로 계산된 Pi 값의 기본적인 통계량을 산출한 후, 셋째, 각 그룹별로 계산되 Pi 값들을 통합적으로 시각화 하기 위해 Pi 값들의 이상여부를 체그 한 후, 넷 째, 각 그룹별로 계사된 Pi 값을 시각화하기 위한 파일로 변환 하고, 다섯 째, 이 각 그룹별로 변환된 파일을 시각화하기 위한 최종 input인 하나의 파일로 병합한다. 그리고 마지막으로 최종 input을 이용하여 각 그룹에 대한 Pi 값을 시각화 한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    step00_setup.sh - Output 디렉토리 생성 - -
    step01_Calulating_Pi.sh - 각 그룹의 VCF 파일을 이용하여, 설정한 Window size와 step에 맞게 Pi를 계산 input 1. VCF file
    2. Window size
    3. Window step
    4. Outfile name
    step02_Pi_stat.sh - 이전 단계에서 계산된 Pi Output을 이용하여 기본적인 통계량 산출 input 1. 이전 단계에서 생성된 Pi output
    2. CHR number
    3. Window size
    step03_Checking_PiOutPut.py - 2단계에서 생성된 Pi Output에서 Missing 값 등 Plot을 그릴 수 없는 요소들이 있는지 체크함 input 1. 2단계에서 생성된 Pi Output
    step04_Preparing_Plot.py - 4단계에서 생성된 Plot을 그리기 위해 검토된 Pi output을 이용하여 Plot을 그리기 위한 input file을 생성 input 1. 4단계에서 생성된 검토된 Pi Output
    2. 계산한 그룹 이름
    step05_Combine_Preparing_files.sh - 5단계에서 생성된 각 그룹에 대한 Output을 Plot을 그리기 위한 input들을 하나의 파일로 재조정 - 자동적으로 Output 폴더에서 5단계에서 생성된 Suffix를 참고로 재조정된 하나의 파일을 생성함
    step06_Plot_pi.R - 6단계에서 생성된 파일을 이용하여 각 그룹에 대한 Pi를 시각화 함 input 1. 6단계에서 생성된 파일
  • 파이프라인 이름

    집단유전체 그룹간 XP-CLR을 이용한 Selective Sweep의 계산 및 시각화 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    두 그룹의 각각의 VCF파일을 각 Chromosome에 따라 분리하여, 각 그룹에서 각 Chromosome 마다 XPCLR input파일을 생성하고, 전체 VCF 파일을 각 Chromosome에 따라 분리하여 XPCLR 계산의 위한 Reference file(=Map file)을 생성 한 후, XPCLR software를 이용하여 두 그룹간의 composite likelihood ratio를 계한 하여 Positive selection 된 부근을 찾고, 이를 Manhattan plot으로 시각화 한다.

  • 파이프라인 모식도 설명

    XP-CLR software를 이용하여 WG 두 그룹간의 composite likelihood ratio를 이용하여 Positive selection된 부근을 통계적으로 찾고, Manhattan plot으로 시각화하는 Pipe 라인은 총 8단계에 걸쳐서 진행되며, 우선 Pipe의 Output 디렉토리를 생성한 후, 첫 째로 각 그룹의 VCF 파일과 전체 VCF파일을 Chromosome에 따라 분리 한다. 둘째 , XPCLR 계산하기 위한 Reference file(=Map file)을 생성하기 위해, Chromosome별로 분리된 전체 VCF들을 각각의 Map 파일로 생성한다. 셋 째, 첫번쨰에서 각 Chromosome 별로 분리된 각 그룹에 대한 VCF 파일을 각 Chromosome 별로 XPCLR input파일로 변환 한다. 넷 째, 각 그룹에 대하여 각 Chromosome 별로 분리된 XPCLR input 파일과 전체 VCF에 대하여 각 Chromosome 별로 분리된 Map 파일을 이용하여, Chromosome 별로 XPCLR을 계산한다. 다섯째, 각 Chromosome 별로 계산된 XPCLR output을 하나의 output으로 통합한다. 여섯째, 통합된 XPCLR output을 plot을 그리기 위한 파일로 변환한다. 그리고 마지막으로 두 그룹에 대한 XPECLR output을 Manhattan plot으로 시각화 한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    step00_setup.sh - Output 디렉토리 생성 - -
    step01_Split_VCF_into_each_CHR.sh - gzip으로 압축된 전체 VCF file과 각 그룹의 VCF file들을 tabix를 이용하여 각 Chromosome에 따른 VCF 파일로 분리 input 1. gzip으로 압축된 각 그룹의 VCF file과 전체 VCF file
    step02_VCF_to_XPCLR_map.py - 전체 VCF 파일을 이용하여 XPCLR 계산시 Reference(=Map file)로 이용하기 위한 file 생성 input 1. 전체 VCF 파일에서 각 Chromosome 별로 분리된 VCF file
    step03_VCF_to_XPCLR_input.py - 각 그룹별로 Chromosome별로 분리된 VCF 파일들을 XPCLR 계산을 위한 input파일로 변환 input 1. 각 그룹에서 Chromosome 별로 분리된 VCF file
    step04_XPCLR_run.sh - 두 그룹을 각 Chromsome 별로 각각 XPCLR을 계산한다 input 1. 4단계에서 생성된 그룹 1에 대한 XPCLR input file
    2. 4단계에 생성된 그룹 2에 대한 XPCLR input file
    3. 3단계에서 생성된 Map 파일
    4. 계산하는 Chromosome number
    5. Outfile name
    step05_combine_xpclr_out.sh - 5단계에서 이용한 Outfile name을 사용하여 각 Chromosome 별로 계산된 Output을 하나의 파일로 통합 한다 input 1. 5단계의 Outfile name
    step06_XPCLR_OUT_to_Manhattan_input.py - 6단계에서 생성한 통합된 XPCLR output을 이용하여 Plot을 그리기 위한 input file을 생성한다 input 1. 6단계에서 생성된 통합된 파일
    step07_Manhaatan_Plot.R - 7단계에서 생성된 Plot을 그리기 위한 input file을 이용하여 두 그룹간의 Manhattan plot을 생성한다 input 1. 7단계에서 생성된 Plot을 그리기 위한 input 파일
  • 파이프라인 이름

    집단유전체 그룹간 Fixation Index(Fst) 계산 및 시각화 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    VCF파일을 이용하여, VCFtools software를 이용하여 두 그룹 간의 Fst를 계산 하고, 이를 Manhattan plot으로 시각화 한다.

  • 파이프라인 모식도 설명

    VCFtools software를 이용하여 두 WG 그룹간 Fst 계산 및 시각화하는 Pipe 라인은 총 5단계에 걸쳐서 진행되며, 우선 Pipe의 Output 디렉토리를 생성한 후, 첫 째로 전체 VCF 파일을 이용하여, 계산하고자 하는 각 그룹의 VCF에 있는 sample 리스트들을 각각 Input으로 주고, 원하는 Window size와 step으로 두 그룹간의 Fst 값을 계산한다. 둘째, 두 그룹간의 계산된 Fst의 값의 기본적인 통계량을 산출 한 후, Fst값을 Normalization 하고 P-value를 산출 한다. 셋째, 산출된 Normlized 된 두 그룹간의 Fst 값을 시각화하기 위한 최종 input 파일로 변환한다. 그리고 마지막으로 최종 input을 이용하여 두 그룹에 대한 Normlaized 된 Fst 값의 Manhattan plot을 생성 한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    step00_setup.sh - Output 디렉토리 생성 - -
    step01_Calculating_Fst.sh - 전체 VCF를 이용하여 계산하고자 하는 두 그룹의 각각의 그룹에 대한 VCF의 샘플 리스트를 이용하여 특정 window와 step에 따라 그룹 간의 Fst를 계산 함 input 1. 전체 VCF file
    2. 그룹1의 샘플 리스트
    3. 그룹2의 샘플 리스트
    4. Window size
    5. Window step
    6. Outfile name
    step02_Fst_stat.sh - 2단계에서 생성된 두 그룹간의 Fst Output의 기본적인 통계량을 계산한 후, Fst Output을 Normalization 하고 P-value 산출 input 1. 이전 단계에서 생성된 두 그룹간의 Fst output
    2. 계산된 Window size
    step03_Preparing_Plot.py - 3단계에서 생성된 두 그룹에 Normalize 된 Fst 값을 Plot을 그리기 위한 input으로 재조정 input 1. 3단계에서 생성된 두 그릅간의 Normlized 된 Fst 값
    step04_Manhaatan_Plot.R - 4단계에서 생성된 파일을 이용하여 두 그룹에 대한 Manhattan plot 생성 input 1. 4단계에서 생성된 파일
  • 파이프라인 이름

    RNA-Sequencing Pipeline (with kallisto)

    바로가기 ▶
  • 파이프라인 사용 분야

    RNA Sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    Kallisto 프로그램으로 pseudo alignment와 quntification을 빠르게 수행하는 RNA Sequencing 파이프 라인

  • 파이프라인 모식도 설명

    Quality Check, Adapter trimming, Identifying Paired Reads, Pseudoalignment & Quantification 총 4단계의 과정으로 구성된다. 각 단계에서 진행되는 분석 과정은 다음과 같다. 첫 번째 분석 단계인, Quality Check는 입력 데이터의 sequencing quality를 FastQC로 체크한다. 그리고 Adapter trimming 단계는 fastx-toolkit을 이용하여 입력 데이터의 quality가 낮은 reads와 adapter를 제거한다. adapter가 제거된 reads는 cmpfastq를 이용하여 공통된 R1, R2인 paired reads를 얻는다. pseudoalignment & quantification 단계를 거치기 직전에 transcriptome FASTA file을 indexing하여 reference index를 생성한다. 이렇게 얻어진 index 파일을 앞서 얻은 paired reads와 같이 pseudoalignment & quantification 단계의 입력 데이터로 이용한다. 최종적으로 pseudoalign된 sam 파일과 quantification의 결과인 abundance.tsv 파일을 얻게 되고, abundance.tsv 파일을 후속 분석에 이용하게 된다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Quality control -o Output Directory
    FASTX-Toollit http://hannonlab.cshl.edu/fastx_toolkit/ Remove Adapter fastx_clipper Removing Sequenceing adapter
    fastq_quality_filter quality filter
    fastq_artifacts_filter artifacts filter
    -Q illumina quality
    -l Minimum Length
    -a Adapter string
    -q Quality Value
    -p Minimum percent of bases that must have [-q]
    cmpfast http://compbio.brc.iop.kcl.ac.uk/software/cmpfastq.php compare QC filtered fastq files to identify “paired” reads - -
    Kallisto https://pachterlab.github.io/kallisto/about pseudo alignment & quantification index builds an index from a FASTA formmatted file of target sequences
    -i name of FASTA
    quant runs the quantification algorithm
    -i Filename for the kallisto index
    -o Directory to write output to
    -t number of threads
    --pseudobam Output pseudoalignments in SAM format to stdout
  • 파이프라인 이름

    RNA-Sequencing Pipeline (with STAR, HTSeq)

    바로가기 ▶
  • 파이프라인 사용 분야

    RNA Sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    STAR 프로그램으로 alignment하고, HTSeq으로 quntification을 수행하는 RNA Sequencing 파이프 라인

  • 파이프라인 모식도 설명

    Quality Check, Adapter trimming, Identifying Paired Reads, Alignments, Quantification 총 5단계의 과정으로 구성된다. 각 단계에서 진행되는 분석 과정은 다음과 같다. 첫 번째 분석 단계인 Quality Check는 입력 데이터의 sequencing quality를 FastQC로 체크한다. 그리고 Adapter trimming 단계는 fastx-toolkit을 이용하여 입력 데이터의 quality가 낮은 reads와 adapter를 제거한다. adapter가 제거된 reads는 cmpfastq를 이용하여 공통된 R1, R2인 paired reads를 얻는다. Alignment 단계를 거치기 직전에 STAR 프로그램으로 Genome FASTA file을 indexing하여 reference index를 생성한다. 이렇게 얻어진 index 파일을 앞서 얻은 paired reads와 함께 STAR Alignment의 입력 데이터로 이용한다. STAR의 수행 결과인 bam파일을 HTSeq의 quantification 입력 파일로 사용하고, 최종적으로 정량화된 counts.txt 파일을 얻게된다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Quality control -o Output Directory
    FASTX-Toollit http://hannonlab.cshl.edu/fastx_toolkit/ Remove Adapter fastx_clipper Removing Sequenceing adapter
    fastq_quality_filter quality filter
    fastq_artifacts_filter artifacts filter
    -Q illumina quality
    -l Minimum Length
    -a Adapter string
    -q Quality Value
    -p Minimum percent of bases that must have [-q]
    cmpfast http://compbio.brc.iop.kcl.ac.uk/software/cmpfastq.php compare QC filtered fastq files to identify “paired” reads - -
    STAR https://github.com/alexdobin/STAR/releases Alignment --runMode builds an index from a FASTA formatted file of reference sequences
    --genomeDir path to the genome directory where genome index generated
    --genomeFastaFiles path of reference genome
    --sjdbOverhang length of the genomic sequence around the annotated junction to be used in constructing the splice junctions database
    --sjdbGTFfile path of GTF file
    --runThreadN number of threads
    --outSAMattributes SAM output attributes
    --outFilterMultimapScoreRange the score range below the maximum score for multimapping alignments
    --outFilterMultimapNmax max number of multiple alignments allowed for a read
    --outFilterMismatchNmax maximum number of mismatches per pair
    --alignIntronMax maximum intron length
    --alignMatesGapMax maximum genomic distance between mates
    --sjdbScore extra alignment score for alignmets that cross database junctions
    --alignSJDBoverhangMin minimum overhang for annotated (sjdb) spliced alignments
    --genomeLoad mode of shared memory usage for the genome files
    --outFilterMatchNminOverLread outFilterMatchNmin normalized to read length
    --outFilterScoreMinOverLread outFilterScoreMin normalized to read length
    --outSAMstrandField Cufflinks-like strand field flag
    --readFilesIn paths to files that contain input read1 (and, if needed, read2)
    --limitBAMsortRAM maximum available RAM for sorting BAM
    --outSAMunmapped output of unmapped reads in the SAM format
    --outSAMtype type of SAM/BAM output
    --twopassMode 2-pass mapping mode
    --outFileNamePrefix output prefix
    SAMtools http://www.htslib.org/ Reading/writing/editing/indexing/viewing SAM/BAM format sort sorting SAM/BAM files
    -n sort by read name
    -o output path
    -T prefix of temporary files
    -view viewing SAM/BAM files
    -F filtering flag
    HTSeq http://www-huber.embl.de/HTSeq/doc/overview.html quantification -m Mode to handle reads overlapping more than ont feature
    -i GFF attribute to be used as feature ID
    -s whether the data is from a strand-specific assay
  • 파이프라인 이름

    RNA-Sequencing Pipeline (with STAR, RSEM)

    바로가기 ▶
  • 파이프라인 사용 분야

    RNA Sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    STAR 프로그램으로 alignment하고, RSEM으로 quntification을 수행하는 RNA Sequencing 파이프 라인

  • 파이프라인 모식도 설명

    Quality Check, Adapter trimming, Identifying Paired Reads, Alignments, Filter reads, Quantification 총 6단계의 과정으로 구성된다. 각 단계에서 진행되는 분석 과정은 다음과 같다. 첫 번째 분석 단계인 Quality Check는 입력 데이터의 sequencing quality를 FastQC로 체크한다. 그리고 Adapter trimming 단계는 fastx-toolkit을 이용하여 입력 데이터의 quality가 낮은 reads와 adapter를 제거한다. adapter가 제거된 reads는 cmpfastq를 이용하여 공통된 R1, R2인 paired reads를 얻는다. Alignment 단계를 거치기 직전에 STAR 프로그램으로 Genome FASTA file을 indexing하여 reference index를 생성한다. 이렇게 얻어진 index 파일을 앞서 얻은 paired reads와 함께 STAR Alignment의 입력 데이터로 이용한다. mapping 된 결과를 Filter reads 단계의 입력 데이터를 이용한다. perl script를 이용하여 reference의 순서와 같도록 chromosome order로 재정렬한 후, Java scrpit를 이용하여 transcriptome을 annotation한 후 Indel, Insert가 크거나 mapping이 잘되지 않은 read를 제거한다. 이 후 얻어진 bam파일을 이용하여 RSEM 으로 quantification 한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Quality control -o Output Directory
    FASTX-Toollit http://hannonlab.cshl.edu/fastx_toolkit/ Remove Adapter fastx_clipper Removing Sequenceing adapter
    fastq_quality_filter quality filter
    fastq_artifacts_filter artifacts filter
    -Q illumina quality
    -l Minimum Length
    -a Adapter string
    -q Quality Value
    -p Minimum percent of bases that must have [-q]
    cmpfast http://compbio.brc.iop.kcl.ac.uk/software/cmpfastq.php compare QC filtered fastq files to identify “paired” reads - -
    STAR https://github.com/alexdobin/STAR/releases Alignment --runMode builds an index from a FASTA formatted file of reference sequences
    --genomeDir path to the genome directory where genome index generated
    --genomeFastaFiles path of reference genome
    --sjdbOverhang length of the genomic sequence around the annotated junction to be used in constructing the splice junctions database
    --sjdbGTFfile path of GTF file
    --runThreadN number of threads
    --outSAMattributes SAM output attributes
    --outFilterMultimapScoreRange the score range below the maximum score for multimapping alignments
    --outFilterMultimapNmax max number of multiple alignments allowed for a read
    --outFilterMismatchNmax maximum number of mismatches per pair
    --alignIntronMax maximum intron length
    --alignMatesGapMax maximum genomic distance between mates
    --sjdbScore extra alignment score for alignmets that cross database junctions
    --alignSJDBoverhangMin minimum overhang for annotated (sjdb) spliced alignments
    --genomeLoad mode of shared memory usage for the genome files
    --outFilterMatchNminOverLread outFilterMatchNmin normalized to read length
    --outFilterScoreMinOverLread outFilterScoreMin normalized to read length
    --outSAMstrandField Cufflinks-like strand field flag
    --readFilesIn paths to files that contain input read1 (and, if needed, read2)
    --limitBAMsortRAM maximum available RAM for sorting BAM
    --outSAMunmapped output of unmapped reads in the SAM format
    --outSAMtype type of SAM/BAM output
    --twopassMode 2-pass mapping mode
    --outFileNamePrefix output prefix
    RSEM(rsem-prepare-reference) http://deweylab.biostat.wisc.edu/rsem/rsem-prepare-reference.html Prepare
    RSEM
    reference
    sequences
    rsem-prepare-reference Reference Fasta File and Referece Name
    --gtf Sorted gtf file by chromosome
    --bowtie2 Using bowtie2
    SAMtools http://www.htslib.org/doc/samtools.html Reading/writing/editing/indexing/viewing SAM/BAM format index make idnex file
    Perl scipt(sort_bam_by_reference_and_name.pl) https://github.com/mozack/ubu/tree/master/src/perl Sort alignmented file by chromosome order --input Alignmened InputFile
    --output Output File
    --temp-dir Temp Dir
    --samtools Samtools Dir
    Javascript(ubu-1.2.-jar-with-dependencies.jar) https://github.com/mozack/ubu/wiki Translate from genome to transcriptome coordinates sam-xlate -
    --bed Reference bed File
    --in Alignmened Input File
    --out Output File
    --order Reference Fasta file
    --xgtags Optional flag indicating that genomic coordinates should be output in a XG tag
    --reverse Optional flag indicating that reverse strand coordinates should be reported
    RSEM(rsem-caculate-expression) http://deweylab.biostat.wisc.edu/rsem/rsem-calculate-expression.html quantification sam-filter -
    --in Transcriptome annotated Input File
    --out Output File
    --strip-indels discard read paris containing indels from output
    --max-insert Max insert size
    --mapq Minimum Mapping quality
    rsem-caculate-expression -
    --estimate-rspd Estimate the read start position distribution(RSPD)
    --p Threads
    --no-bam-output No output bam File
    --bam Input File Format
    --paired-end Input reads are Paired-end reads
  • 파이프라인 이름

    RNA-Sequencing Pipeline (with Tophat, Cufflinks)

    바로가기 ▶
  • 파이프라인 사용 분야

    RNA Sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    TopHat 프로그램으로 alignment하고, Cufflinks로 Differential expression을 계산하는 RNA Sequencing 파이프 라인

  • 파이프라인 모식도 설명

    Quality Check, Adaptive trimming, Alignments, Remove duplication, Assembly, Differential expression 총 6단계의 과정으로 구성된다. 각 단계에서 진행되는 분석 과정은 다음과 같다. 첫 번째 분석 단계인 Quality Check는 입력 데이터의 sequencing quality를 FastQC로 체크한다. 그리고 Adaptive trimming 단계는 sickle을 이용하여 입력 데이터의 quality가 낮은 reads와 adapter를 제거한다. Alignment 단계에서는 bowtie2를 이용하여 인덱스를 생성하고 TopHat을 이용하여 mapping한다. Remove duplication 단계에서는 potential PCR 중복을 제거하고 BAM file에 random하게 접근할 때 performance를 높여주기 위해 indexing을 수행한다. 이 후, Cufflinks와 Cuffdiff를 이용하여 Assembly를 수행하고, Differential expression을 추출한다

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Quality control -o Output Directory
    Sickle https://github.com/najoshi/sickle Adaptive trimming q Threshold for trimming based on average quality in a window
    t Type of quality values (solexa (CASAVA < 1.3), illumina (CASAVA 1.3 to 1.7), sanger (which is CASAVA >= 1.8))
    l Threshold to keep a read based on length after trimming
    TopHat2 http://tophat2-and-bowtie-compatibility.readthedocs.io/en/latest/ Alignment trimmed_dir Trimmed fastq directory (sickle)
    output_dir Output directory
    ref_fasta_dir Reference fasta directory
    ref_gtf_dir Reference gtf directory
    p Number of thread
    Cufflinks http://cole-trapnell-lab.github.io/cufflinks/ Eifferential expression aligned_dir Aligned reads(.bam) directory
    output_dir Output directory
    ref_gtf_dir Reference gtf directory
    cufflinks_p Number of thread to use
    cuffdiff_p Number of thread to use
    cuffdiff_fdr The allowed false discovery rate
  • 파이프라인 이름

    Immunsignature analysis with MCP-counter

    바로가기 ▶
  • 파이프라인 사용 분야

    RNA Sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    gene expression을 계산하고 그 값을 기반으로 R에서 MCP-counter score를 계산한다.

  • 파이프라인 모식도 설명

    이 파이프라인은 MCP-counter를 이용하여 sample간의 immune signature를 분석하는 파이프 라인이다. 이때 해당 과정은 Quality control, Remove Adaptor/ Filtering Quality, Mapping RNA-sequence , Gene annotation and sorting, Quantification 등의 RNA-seq pipeline을 거쳐 read count output 파일을 이용하여 MCP-counter score를 구하는 스텝으로 이루어진다. read count output 파일을 input으로 사용하여 R의 edgeR package를 이용하여 normalized log2를 계산하고, MCPcounter package를 이용하여 MCP-counter score를 계산해 주면 된다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    R https://cran.r-project.org/ Calcultate normalized log2 and MCP-counter score edgeR Calcultate normalized log2
    MCPcounter Calcultate MCP-counter score
  • 파이프라인 이름

    [Time Series analysis] RNA-Sequencing Pipeline (with MapSplice, RSEM, edgeR)

    바로가기 ▶
  • 파이프라인 사용 분야

    RNA Sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    Expression quantification 한 데이터를 Time Series로 분석한다.

  • 파이프라인 모식도 설명

    이 파이프라인은 R package edgeR/EBSeqHMM을 이용하여 유전자 expression levels를 time series로 비교하여 의미있는 유전자(DEG)들을 얻는다. edgeR/EBSeqHMM 모두 read count값을 사용하여 데이터를 통합해 하나의 matrix를 만든다. edgeR을 이용한 분석에서는 먼저 위의 하나의 matrix로 만든 데이터를 quantile normalization한 뒤, 각각의 time 순으로 level을 설정한 뒤 ANOVA분석을 시행한다. edgeR에서 제공하는 glmFit, glmLRT 함수를 사용하여 DEG를 얻는데, 일반적으로 FDR을 cutoff로 사용한다. EBSeqHMM을 프로세싱 부분은 edgeR과 동일하고 EBSeqHMMTest, GetDECalls함수를 사용하여 분석한다. EBSeqHMM에서는 각 time point에 따라 만들 수 있는 모든 경우의 수에 대해 DEG를 제공하는 장점이 있다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    edgeR in R https://bioconductor.org/packages/release/bioc/html/edgeR.html DEG Analysis edgeR Read count and design matrix
    EBSeq-HMM https://bioconductor.org/packages/release/bioc/html/EBSeqHMM.html DEG Analysis EBSeq-HMM Read count and design matrix
  • 파이프라인 이름

    Reference-guided analysis pipeline

    바로가기 ▶
  • 파이프라인 사용 분야

    Microbiome Analysis 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    메타게놈(metagenome)의 shotgun sequencing 결과 생성된 sequencing reads들을 이미 유전체 서열이 해독되어있는 참조 유전체 서열에 mapping함으로써 해당 미생물의 종류와 유전자 구성을 분석하는 작업을 수행

  • 파이프라인 모식도 설명

    Sequencing data input, Preprocessing, Read mapping, Taxonomic assignment and cacluation of gene abundance 총 4단계로 구성된다. 각 단계에서 진행되는 분석 과정은 다음과 같다. 첫번째 분석 단계인, Sequencing data input에서는 suquencing reads를 이용하기 위해 Illumina의 paired-end sequencing의 fastq 파일 셋트를 입력받는다. 두번째 분석 단계인, Preprocessing은 Trimmomatic을 사용하여 업로드한 fastq 파일의 quality check를 통해 sequencing quality가 낮거나 길이가 짧은 sequencing reads를 제외시켜 이후 분석에 사용할 high quality의 sequencing data들만 모으는 과정이다. 세번째 분석 단계인, Read mapping에서는 해당 메타게놈 환경을 대변 할 수 있는 주요 미생물들의 이미 서열이 해독된 유전체 서열(reference genome sequence)에 trimming 과정을 거친 high quality의 sequencing reads를 mapping하여, 유전자 별로 mapping 된 reads의 수를 계산함으로써 메타게놈 샘플 내 미생물과 유전자의 종류 및 abundance를 구하는 작업을 수행한다. 네번째 분석 단계인, Taxonomic assignment and calculation of gene abundance 단계는 In house script를 이용하여 BWA 결과 생성된 text 포맷의 mapping 파일인 sam 파일로부터 유전체 또는 유전자 별로 mapping된 reads의 개수와 유전자 길이 정보를 이용해 RPK(reads per kilobase) 값을 계산을 통해 메타게놈 샘플 내 유전자 별 abundance를 구한다. 또한 이 결과를 데이터베이스에 포함되어 있는 유전체 및 유전자의 기본 정보와 결합시켜 taxonomic assignment를 수행한 후 아래와 같은 표를 최종 결과물로 내보낸다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    Trimmomatic 정보없음 Quality check 정보없음
    BWA index http://bio-bwa.sourceforge.net indexing -a
    [is 또는 bwtsw] 중 선택 가능하며 database 파일의 크기가 2G 보다 클때는 bwtsw, 작을 땐 is를 선택한다. 본 파이프라인에서 default는 bwtsw
    BWA aln Alignment -n
    maximum edit distance에 대한 옵션으로 몇 bp 까지 서열이 다르더라도 align 시키라는 옵션. 본 파이프라인에서 default는 20
    -t
    Number of threads로 분석에 사용할 cpu 수
    BWA sampe convert data to sam -a
    paired-end sequencing library의 insert 평균 사이즈로, paired-end reads 간의 bp 거리
  • 파이프라인 이름

    Scaffold binning Pipeline

    바로가기 ▶
  • 파이프라인 사용 분야

    Microbiome Analysis 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    Expression quantification 한 데이터를 Time Series로 분석한다.

  • 파이프라인 모식도 설명

    Sequencing data input, Preprocessing, De novo assembly, Calculation of depth of each scaffold, Calculation of scaffold GC %, Taxonomic assignment of the scaffolds, Comparison of scaffold binning result 총 7단계로 구성된다. 각 단계에서 진행되는 분석 과정은 다음과 같다. 첫번째 분석 단계인, Sequencing data input에서는 suquencing reads를 이용하기 위해 Illumina의 paired-end sequencing의 fastq 파일 셋트를 입력받는다. 두번째 분석 단계인, Preprocessing은 Trimmomatic을 사용하여 업로드한 fastq 파일의 quality check를 통해 sequencing quality가 낮거나 길이가 짧은 sequencing reads를 제외시켜 이후 분석에 사용할 high quality의 sequencing data들만 모으는 과정이다. 세번째 분석 단계인, De novo assembly에서는 SOAPdenovo-63mer와 fasta2apg.pl을 사용하여 짧은 sequencing reads들을 조립하여 보다 긴 서열의 유전체 조각을 만든다. 네번째 분석 단계인, Calculation of depth of each scaffold 단계는 De novo assembly 결과 생성된 scaffolds에 trimming 과정을 거친 high quality의 sequencing reads를 mapping하여, 유전자 별로 mapping 된 reads의 수를 계산함으로써 메타게놈 샘플 내 해당 scaffolds의 abundance를 구하는 작업을 수행한다. 다섯번째 분석 단계인 Calculation of scaffold GC %에서 de novo assembly 결과 생성된 scaffold들의 GC %를 구한다. 여섯번째 분석 단계인 Taxonomic assignment of the scaffolds에서는 De novo assembly 결과 생성된 scaffolds의 taxonomic assignment는 Multimetagenome 패키지안에 포함된 일부의 프로그램들과 방법을 사용한다. 일곱번째 단계인 Comparison of scaffold binning result에서는 In house script를 이용하여 앞서 분석한 scaffold의 abundance와 GC %, 그리고 taxonomic assignment 결과를 종합하여 아래와 같은 표를 최종 결과물로 내보낸다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    Trimmomatic 정보없음 Quality check 정보없음
    SOAPdenovo-63mer 정보없음 정보없음 -s
    config_file 지정
    -k
    k-mer size로 default로 27 mer 사용
    -R repeat을 푸는 작업을 수행. Default로 수행
    -M Metagenome specific parameter
    -a 사용 메모리는 150G로 제한. 초과 할 경우 프로그램 종료
    -o Output
    fasta2apg.pl 정보없음 정보없음 정보없음
    BWA index http://bio-bwa.sourceforge.net indexing -a
    [is 또는 bwtsw] 중 선택 가능하며 database 파일의 크기가 2G 보다 클때는 bwtsw, 작을 땐 is를 선택한다. 본 파이프라인에서 default는 bwtsw
    BWA aln Alignment -n
    maximum edit distance에 대한 옵션으로 몇 bp 까지 서열이 다르더라도 align 시키라는 옵션. 본 파이프라인에서 default는 20
    -t
    Number of threads로 분석에 사용할 cpu 수
    BWA sampe convert data to sam -a
    paired-end sequencing library의 insert 평균 사이즈로, paired-end reads 간의 bp 거리
    calc.gc.pl 정보없음 정보없음 정보없음
    Multimetagenome http://madsalbertsen.github.io/multi-metagenome 정보없음 정보없음
    Megan5 http://ab.inf.uni-tuebingen.de/data/software/megan5/download/welcome.html 정보없음 정보없음
  • 파이프라인 이름

    Point-source ChIp-seq analysis pipeline ver 4.0

    바로가기 ▶
  • 파이프라인 사용 분야

    ChIP-sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    BWA로 데이터를 정렬하고 MACS2로 히스톤 변형이 유의미한 부분을 찾는 ChIP-sequencing 파이프 라인

  • 파이프라인 모식도 설명

    각 단계에서 진행되는 분석 과정은 다음과 같다. Quality control 단계에서 Single-end 또는 Paired-end 입력 데이터의 sequencing quality를 확인한다. Quality filter 단계에서 데이터 중 어댑터가 포함되거나 quality가 낮은 reads를 제거한다. Alignment 단계에서 BWA를 이용하여 참조서열에 기반해 데이터를 mapping 한 후 Mapping이 끝난 데이터의 Mapping Quality 및 duplication level을 확인한다. Visualization 단계에서는 mapping 데이터와 peaks 데이터를 시각화 한다. Peak calling 단계에서 MACS2를 이용해 유의미한 부위인 peaks를 탐색한다. 이 peaks를 이용해 IDR을 계산하여 Replicate에서 재현성이 충분한 peak만을 얻는다. Annotation 단계에서는 앞 단계에서 찾은 부위들에 대한 상세한 설명을 덧붙인다. Transcription Factor의 경우 추가적으로 binding motif를 확인한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Quality control -o Output Directory
    -t Specifies the number of files which can be processed simultaneously
    -q Supress all progress messages on stdout and only report errors
    Fastq_quality_filter http://hannonlab.cshl.edu/fastx_toolkit/ Pre-processing -q Minimum quality score to keep
    -p Minimum quality score to keep
    -Q FASTQ ASCII offset
    -i Input file
    -o Output file
    Cutadapt http://cutadapt.readthedocs.io/en/stable/index.html cut the adapter sequences -a 3'-adapter sequence
    -A 3'-adapter sequence, paired-end option
    -n Maximum number of adaptor to be removed
    -O Minimum number of overlap
    -m Minimun number of base
    -o Output file
    -p Output file (PE option)
    Paired_sequence_match.py http://pydoc.net/Python/paired_sequence_utils/0.1/ Paring -p Paired file output directory
    -s Unpaired file output directory
    -v Progress output directory
    BWA aln http://bio-bwa.sourceforge.net/ Alignment bwa index dir reference sequence path
    output sai alignment file output
    input fastq Input file
    -t Number of alignment thread
    BWA sampe convert data to sam bwa index dir reference index
    input sai 1 1st alignment file to be converted
    input sai 2 2nd alignment file to be converted
    input fastq 1 1st fastq file to be converted
    input fastq 2 2nd fastq file to be converted
    output sam output sam file
    Qualimap http://qualimap.bioinfo.cipf.es/ Quality control -bam input is bam file
    -nt Number of threads
    -outdir Result file dir
    --java-mem-size Amount of memory to use
    samtools view http://samtools.sourceforge.net/ Quality control -b output BAM
    -h include header in output
    --threads Number of additional threads to use
    -F only include reads with none of the FLAGS in INT present
    -q only include reads with mapping quality >= INT
    Picard https://broadinstitute.github.io/picard/ Quality control -Xmx16g Java memory
    -Djava.io.tmpdir temporary directory
    -jar picard.jar path
    MarkDuplicate4s tool in picard
    INPUT Input bam file path
    OUTPUT Output bam file path
    METRICS_FILE File to write duplication metrics
    VALIDATION_STRINGENCY improve performance when processing a BAM file
    AS assume input bam file is sorted
    REMOVE_DUPLIOCATES remove duplication
    CREATE_INDEX output file include index
    MACS2 https://github.com/taoliu/MACS Peak Calling callpeak Call peaks from alignment results
    -t ChIP-seq treatment file
    -c Control file
    -g Effectice genome size. 'hs', 'mm', 'ce', 'dm'
    -n Experiment name
    IDR batch-consistency-analysis.r http://ccg.vital-it.ch/var/sib_april15/cases/landt12/idr.html#hide1 Quality control <peakfile1> peak file 1
    <peakfile2> peak file 2
    <half.width> -1, use known peak width
    <outfile.prefix> out file path and prefix
    <overlap.ratio> bp overlap ratio between peaks
    <is.broadpeak> Is the peak file format broadPeak
    <sig.value> ranking value to use. p.value, q.value, signal.value
    Homer annotatePeaks.pl http://homer.ucsd.edu/homer/index.html Peak annotation Input bed Input bed file
    reference-genome reference genome (mm9 mm10 hg19 hg38)
    Output annotation bed result file
    Homer findMotifGenome.pl Motif analysis Input bed Input bed file
    reference-genome reference genome (mm9 mm10 hg19 hg38)
    Output annotation bed result file
  • 파이프라인 이름

    Infinium450K microarray analysis pipeline

    바로가기 ▶
  • 파이프라인 사용 분야

    DNA methylation 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    RnBeads를 이용하여 microarray 데이터의 differential methylation 분석을 하는 파이프 라인

  • 파이프라인 모식도 설명

    각 단계에서 진행되는 분석 과정은 다음과 같다. 우선 Infinium450K microarray 데이터를 RnBeads 분석에 맞는 RnBSet 객체로 변환한다. Quality control 단계에서 입력 데이터의 quality를 확인 한 후 SNP-enriched site, High coverage outlier site, Low coverage, Sex chromosome 등 부적합한 데이터를 필터링하고 Normalization을 진행한다. Explorary analysis 단계에서 유전자 요소 별 메틸화 레벨 프로파일링, Principal Component Analysis (PCA), Multidimensional Scaling (MDS), 클러스터링 등 다양한 글로벌 레벨 분석 수행한다. Differential methylation analysis에서 샘플간 Methylation 관계를 계산하여 샘플 클러스터링 결과를 보여주고 통계적인 유의성을 표시해준다. Annotation 단계에서 chromosome site, color, context, GC%, SNP 개수 등의 정보를 얻는다. Visualization 단계에서 기본적으로 bed 형식 뿐만아니라 다른 트랙허브 사용을 위해 bigbed, bigwig 형식으로 methylation data를 출력한다. 위 분석단계는 RnBeads를 이용해 하나의 과정으로 통합하여 진행한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    RnBeads https://bioconductor.org/packages/release/bioc/html/RnBeads.html Quality control, pre-processing, normaliza-tion, differential methyla-tion analysis rnb.run.analysis() One-step pipeline
  • 파이프라인 이름

    NetGO

    바로가기 ▶
  • 파이프라인 사용 분야

    GWAS, Gene-set 분석 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    Genomic Data를 분석한 결과(Gene List)를 Entrez id form으로 치환한 후, Protein-Protein interaction 과 Gene annotation 정보를 이용하여 bias를 제거하는 Gene-set analysis를 수행한후, GSAcluster.R로 유의미한 gene-set들을 기능에 따라 clustering하는 파이프라인

  • 파이프라인 모식도 설명

    다양한 데이터 타입에 대해 얻은 DEG 결과가 netGO.R의 필요 데이터 이며, (필요에 따라 unifyGene.R을 통해 변환한다.) netGO를 통해 bias- adjusted geneset enrichment analysis를 수행한다. 그 후 처음 결과는 Rdata형태 이지만, 사용자의 필요에 따라 분석 결과를 전부, 세밀한 정보를 포함하여 출력 할 것인지, 아니면 GSAcluster module을 이용하여 추가 분석을 할것인지에 따라 buildRes.R을 이용하여 분석 결과를 txt 파일 형태로 출력한다. GSAcluster 에 맞는 결과는 GSAcluster.R에 인풋되고 gene-set clustering이 수행되어, 결과적으로 clustered된 gene-set들과 해당 set 별 정보 (member gene, FDR)가 출력된다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    unifyGene.R 정보없음 다양한 형태의 Gene을 entrez id 형태로 변환. 이미 entrez라면 사용 불필요. --i Input file
    --type Input gene의 타입.
    (S)ymbol,
    (U)nigene,
    (E)nsembl,
    (R)efseq.
    netGO.R 정보없음 GSEA --i
    Input file
    --ppi
    분석에 사용될 PPI DB.
    (H)ippie,
    (S)tring.
    (미구현),
    (B)iogrid. (미구현)
    --n number of permutation;
    Default : 1000
    --min minimal size of geneset;
    Default : 15
    --max maximal size of geneset;
    Default : 500
    --score type of distance
    --k k value (scoring parameter)
    Default : 2
    --r resampling type
    Default : 1
    buildRes.R 정보없음 GSAcluster.R로 연결하는 데이터 생성 혹은 분석 결과 생성. --i input file
    --gsa (T)rue : gsacluster로 연결,
    (F)alse : 분석결과물 생성
    --o Output file name
    GSAcluster.R 정보없음 Gene-set clustering --i input file
    --m distance type
    --o Output file name
    --X Minimum cluster size
    --D overlap coefficient
    --q Gene-set FDR cutoff
    --ppi (H)ippie.
    (S)tring.
    (B)iogrid.
  • 파이프라인 이름

    Barcas post-statistical-process (edgeR, ScreenBEAM)

    바로가기 ▶
  • 파이프라인 사용 분야

    -

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    최근 개발된 barcode-seq 데이터 분석 툴 중 유용한 통계 분석법 및 분석 파이프라인을 기존 개발된 Barcas software에 추가하여 기능을 확장함

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    Linux_edgeR_pipeline.R 정보없음 정보없음 args[1] 절대경로를 포함한 inputfile (기존 Barcas의 count 파일)
    args[2] output 이름
    args[3] 비교그룹 설정; control 그룹은 1, case그룹은 -1, 나머지는 0으로 처리
    args[4] duplicate 수
    Linux_ScreenBEAM_pipeline.R 정보없음 정보없음 args[1] 절대경로를 포함한 inputfile (기존 Barcas의 count 파일)
    args[2] output 이름
    args[3] NGS data or Microarray data인지 여부
    args[4] Control군 column name
    args[5] Case군 column name
  • 파이프라인 이름

    liftOver를 이용한 이종 유전체 좌표변환 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    유전체 관련 Whole genome sequencing, resequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    Reference genome의 버전이 업데이트 됨에 따라 SNP 및 유전자의 위치가 기존의 reference build와 달라져 분석하기에 많은 애로사항이 있다. 새로 업데이트 된 reference genome의 annotation이 새로이 완성되기 전까지 기존의 annotation을 활용하는 방법이 있는데 이를 위해서는 liftover 방법이 필요하다. 또한 유전자 주석분석이 잘되어 있는 유사종을 이용한 liftover 방법을 활용할수 있는데 이를 소개하고자 한다.

  • 파이프라인 모식도 설명

    유사종의 annotation을 활용하기 위해 genome mapping을 수행하는데 이를 위해 whole genome alignmnet tool인 lastz를 이용한다. 각 chromosome별로 나눈 데이토를 맵핑후 이를 통해 도출된 output의 결과를 변환툴을 사용하여 bed format으로 바꾼다. Haplotype calling을 통해 나온 vcf 파일 또한 bed 형식으로 변환하여 liftover 입력 파일형식으로 변환시킨다. 이때 chain 파일의 경우 유사종끼리의 parameter를 조정하게 되는데 이 chain 파일은 각 종의 형태에 따라 달라지게 된다. 이렇게 준비된 각각의 입력파일을 liftover tool을 사용하여 변환하게 되면 마지막 bed형식으로 된 liftover bed파일을 생성할수 있다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    1. Genome liftover mapping (lastz) - 유사종의 genome을 mapping하는 방법으로 분리된 fasta 파일을 pairwise align input 1.각종의 chromosome별 fasta file
    2.각종의 genome fasta file
    3.threshold, score
    output lav <maf>
    2. Create liftover bed files - lastz로 mapping 된 파일을 사용하기 위해 bed format 변환
    1.lavToAxt
    2.axttoBed
    input lav format
    output axt format
    bed format
    3. Create chain file - liftover를 시행하기 위해 필요한 chain file 생성
    axtChain
    input 1.target genome fasta, axt file
    2. reference genome fasta file
    output chain file
    4. Picard LiftoverVcf - Haplotype calling을 통해 생성된 vcf 파일로부터 bed파일 생성 input vcf
    output bed
  • 파이프라인 이름

    동식물 신규유전체 반복서열 예측 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing, Denovo sequencing, Resequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    Genome sequence로부터 반복서열을 판별하여 내는 방법은 유전체 완성도에 큰 영향을 미치고 있다. 이에 반복서열을 판독하는 방법을 소개하는 파이프라인으로 기존의 알려진 유전체 또는 새로이 생성된 유전체의 서열에서의 반복서열의 판독하는 방법을 소개하고자 한다. 여러 프로그램들을 활용한 반복서열 판독이 이루어지고 있는데 그중에서도 가장 대표적으로 활용되고 있는 RepeatMasker를 활용한 pipeline을 정리하였다.

  • 파이프라인 모식도 설명

    반복서열을 판독하는 방법은 크게 2가지로 나뉘는데 기존 reference genome이 있을 경우와 없을때로 나뉜다. 기존 reference가 없을 경우 denovo prediction인 경우에는 repeat library가 존재하지 않기 때문에 prediction을 통해 생성하게 된다. RepeatModeler를 이용하여 기존에 알려진 repeat sequence를 mapping하게 되는데 이때 TRF, RECON의 library를 활용하게 된다. 이렇게 생성된 repeat library 결과를 RepeatMasker를 통해 예측하게 되는데 out파일은 예측된 repeat의 모든 데이터가 담긴 output를 출력하고 또한 -excln 옵션을 활용할시 tbl파일이 나오는데 table형식으로 repeat family에 따라 정리된 데이터를 얻을수 있다. Reference가 존재할 경우 별도의 library의 예측이 필요없이 RepeatMasker의 species 옵션을 참고하여 가장 비슷하거나 맞는 종을 선택해 반복서열을 예측할수 있다. 또한 기존에 알려져있는 반복서열의 protein sequence를 활용한 반복서열의 예측이 두 경우 모두 가능하다. RepeatMasker의 경우 반복서열을 판독하는데에 여러 알고리즘을 사용할수 있는데 abblast/wublast, rmblast, crosslink등의 방법이 있는데 rmblast를 많이 사용하며 protein sequnce를 활용하는 경우 속도개선을 위해 wublast를 선호하는 경향이 있다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    step01.Generate_Repeat_Lib.sh - 해당 유전체로부터 반복서열을 판별하기 위해 데이터베이스 생성
    (RepeatModeler)
    BuildDatabase 유전체 indexing
    input Genome assembly
    fasta file
    RepeatModeler Repeatmodeler를 이용한 repeat database 생성
    output
    (fasta format)
    consensi.fa.classified
    step02.Denovo_Repeat_Predict.sh - 해당 유전체로부터 denovo repeat library 생성 및 판별 RepeatMasker RepeatMasker를 이용하여 RepeatModeler를 통해 생성된 library를 활용하여 반복서열 판별작업
    (ncbi blast 알고리즘 활용)
    input 1.consensi.fa.classified
    2.genome fasta file
    output 1.out (세부적인 identity, repeat familiy 와 관련된 output)
    2.tbl (표로 작성된 반복서열의 구성도 작성)
    step03.Ref_Guide_Repeat_Predict.sh - 해당 reference 유전체로부터 repeat library 생성 및 판별 RepeatMasker RepeatMasker를 이용하여 Repbase library를 활용한 반복서열 판별작업
    (ncbi blast 알고리즘 활용)
    input 1. species : 해당 종과 가장 유사 또는 맞는 종 선택 (species 옵션 참고)
    2. genome assembly fasta file
    output 1.out (세부적인 identity, repeat familiy 와 관련된 output)
    2.tbl (표로 작성된 반복서열의 구성도 작성)
    step04.Proteinmask_Repeat_Predict.sh - 해당 유전체로부터 pretein repeat 판별 RepeatProteinMask RepeatMasker에 내장되어 있는 pretein repeat library를 활용한 반복서열 판별
    (wublast 알고리즘 활용)
    input genome assembly fasta file
    output annot file 생성
    (세부 repeat library matching identity 및 분포도 확인 가능)
  • 파이프라인 이름

    동식물 신규유전체를 위한 유전자 예측 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing (De novo sequencing)

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    기존에 유전체 서열이 알려져 않아 새로이 유전체 지도를 작성하게 되는 경우 유전자 모델을 새로이 확립할 필요가 있게 된다. 이때 판독한 염기서열 순서를 바탕으로 유전자의 모델을 설정하게 되는데 어떤 유전자가 어디에 있으며 어떠한 유전자가 존재하는지를 예측하는 컴퓨터 해석을 통한 방법은 3가지의 방법을 (순이론적, 전사체, 상동성 단백질)통합하여 만들게 된다. 위 3가지 방법을 최종적으로 통합하여 유전체의 유전자 모델을 만들게 되는 pipeline을 소개하고자 한다.

  • 파이프라인 모식도 설명

    유전자 예측법의 접근 방식은 크게 3가지로 구분할 수 있다. 첫째로, 순이론적 방법은 아무런 사전정보 없이 가지고 있는 DNA 시퀸스 정보의 통계학적인 속성들을 바탕으로 유전자를 예측하는 방법이다. 이 파이프라인에서는 Augustus와 GlimmerHMM이라는 다른 알고리즘을 가진 프로그램을 사용하였다. 두 번째로 전사체 분석으로 통한 방법으로 RNA-seq을 이용하여 새로운 유전자나 스플라이스 변이를 발견하거나 발현의 양을 측정하는 방법이다. 전사체를 이용하여 유전자 분석은 가장 널리 알려져있는 Cufflink를 이용한 Tuxedo protocol을 사용하였다. 마지막으로 상동기반의 방법은 상동인 유사종의 이미 알려져있는 단백질이나 프로파일에 DNA, peptide 시퀸스를 직접 매칭시켜 유전자를 예측하는 효과적인 방법으로 여기서는 Exonerate를 이용한 단백질의 pairwise alignmnet를 실행하였다. 위 세가지의 방법에 의해 도출된 유전자 모델을 각각의 무게값을 주어 통합적인 유전자 모델을 만드는데 이는 EVM이라는 프로그램을 사용하였다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    1. Ab initio
    1_1.GlimmerHMM.sh
    - 해당 유전체로부터 반복서열을 판별하기 위해 데이터베이스 생성
    (RepeatModeler)
    input 1. Assembly genome fasta fil (chromosome별 분리)
    2. Training model (가장 유사종 선택)
    output 유전자 예측 gff3 파일
    1. Ab initio
    1_2.Augustus.sh
    - Augustus 프로그램을 활용한 유전자 예측 input 1. Assembly genome fasta file (chromosome별 분리)
    2. Training model (가장 유사종 선택)
    output 유전자 예측 gff3 파일
    2. Transcriptome
    2_1.Trinity.sh
    - Trinity를 활용한 transcriptome denovo assembly input 1. raw trascriptome fasta file
    2.sequence type
    3.memory,cpu 설정
    output assembly fasta file
    2. Transcriptome
    2_2.GMAP.sh
    - GMAP transcriptome mapping을 통한 유전자 모델 예측 input 1. Assembly genome fasta file
    2. Transcriptome assembly fasta file
    output 유전자 예측 gff3파일
    2. Transcriptome
    2_3.Tuxedo_Tophat_cufflink_cuffmerge.sh
    - 1.gff3 to gtf (gffread) GlimmerHMM, Augustus, GMAP gff3 output을 gtf 형식으로 변환 input gff3
    output gtf
    2. gtf to junc (gtf_juncs) gtf에서 junction을 나타낼수 있는 junc파일 형식변환 input gtf
    output juncs
    3.하나의 junction 파일로 합치기 - all juncs to one file (sorting)
    4.Augustus에서 예측한 유전자모델을 바탕으로 유전자 시퀸스 도출 (bedtools) input Augustus.gff3
    output Augustus.gff3.fasta
    5.BWA mapping을 통한 전사체 insert size, stddev 도출 input Trinity assembly fasta file
    output stddev, insert size
    6.TopHat mapping (RNA-seq mapping) input 1.sample fasta file
    2.stddev, insert size
    3.Augustus fasta file
    output gtf file
    7.Cufflink (transcriptome을 이용한 유전자 예측) input 1. transcriptome assembly file
    2.GMAP guide gtf file
    output bam file
    8.samtools index - cufflink를 이용해 도출된 bam file indexing
    9.Cuffmerge input 1.Augustus fasta file
    2.cufflink transcript gtf file
    output merge.gtf
    하나로 합쳐진 유전자 모델 (transcriptome 기반)
    10.EVM converge input gff3
    output EVM 형식 변환 gff3
    3.Homology
    3_1.Homology_Exonerate.sh
    - 상동성 종의 단백질 유전자 시퀸스를 이용한 유전자 예측 input 1. homology peptide sequence
    2.genome assembly fasta file
    output gff3
    4.Gene_integration
    4_1.Prepare_EVM_inputs.sh
    - 유전자 통합 모델링을 위한 각각의 방법론에 의해 도출된 gff3파일 입력형식으로 변환 input Abinitio_predictions
    transcript_alignment
    protein_alignments
    4.Gene_integration
    4_2.EVM_intigration.sh
    - 1.Partitioning the inputs input 1.Genome assembly fasta file
    2.gff3 from Abinitio, transcriptome, homology prediction methods
    3.segment size, overlap size
    output partition list
    2.Generating the EVM Command set input 1.Genome assembly fasta file
    2.gff3 from Abinitio, transcriptome, homology prediction methods
    3.weight
    4.partition list
    output command list
    3.run the commands serially and locally - 앞의 두 단계에서 준비된 유전자예측 모델링 병렬시행
    4.Combining the Partitions - 각각의 병렬시행으로 예측된 유전자모델을 하나의 파일로 병합
    5.Convert to GFF3 output - 도출된 유전자 모델을 일반적인 gff3파일 형식으로 변환
  • 파이프라인 이름

    인간 암유전체 단순변이 발굴 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing, Exome sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    tumor와 normal 사이에 존재하는 variation을 찾기 위한 파이프라인

  • 파이프라인 모식도 설명

    alignment software를 사용해 reference에 mapping된 bam file이 있는 단계부터 시작한다. strelka를 이용하기 때문에 반드시 tumor와 normal에 해당하는 데이터가 쌍으로 존재하여야 한다. HaplotypeCaller로 샘플에 존재하는 Germline mutation(+somatic)을 찾고, Mutect, Varscan2, strelka 세 가지의 소프트웨어로 각종 somatic variant에 해당하는 구조적 변이를 검출하고 종합한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    HaplotypeCaller - Germline varation 탐색 input Mapped BAM file
    (Tumor, Normal)
    output VCF file
    Mutect - Somatic SNVs 탐색 input -Mapped BAM file (Tumor, Normal)
    -annotated vcf
    output VCF file
    Varscan2 - Somatic SNVs,
    Somatic Indels,
    Allele specific Copy Number profiles 탐색
    input -Mapped BAM file (Tumor, Normal)
    -->samtools pileup
    ->normal.pileup, tumor.pileup
    -annotated vcf
    output VCF file
    Strelka - Somatic SNVs
    Somatic Indels
    input Mapped BAM file
    (Tumor, Normal)
    output -snvs.vcf
    indelss.vcf
    Oncotator - annotate reseult VCF data input
    output
    -result VCF files
    --> MAF format
    -MAF -->.tsv format
    DBs -COSMIC
    -Cancer GenCensus
    -CCLE
    -Familial Cancer -Database
    -ClinVar
    -db SNP
    -1000genome project
    -ESP
  • 파이프라인 이름

    인간 유전체변이 주석정보 통합 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole-genome/whole-exome sequencing (human hg38 assembly) 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    FASTQ 파일에서부터 VCF 생성 및 각 variant의 annotation, filtering을 수행하고 Text 파일을 생성하는 전체 분석 파이프라인

  • 파이프라인 모식도 설명

    분석단계는 크게 5개로 분리될 수 있음. 우선 FASTQ파일에서 gVCF 파일까지 생성하는 (Genotyping2.sh) 가 있고, 생성된 gVCF 파일은 step별로 차례로 실행함. 생성된 gVCF 파일을 8개 파라미터를 통해서 필터링하며 snpEff를 이용한 GENCODE human v25로 gene annotation하고 SnpSift를 이용하여 ANNOVAR에서 다운로드 받은 각종데이터베이스를 annotation 함. 얻은 결과를 통합하여 하나의 큰 text 파일로 생성함 (최종 파일 이름은 .annotated.snpEff.extractFields.merged.txt 로 생성됨.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    Genotyping2.sh - FASTQ 파일을 입력받아 QC, Genome Mapping, Duplicate Removal, Indel Realignment, HaplotypeCaller (gVCF)를 수행함 Genotyping2_file_info_2_C_222.conf SAMPLE, COHORT, REFERENCE, GENDER 정보를 예제파일을 바탕으로 수정함
    Genotyping2_program_info.conf 각종 소프트웨어의 PATH 정보를 예제파일를 바탕으로 수정함각종 소프트웨어의 PATH 정보를 예제파일를 바탕으로 수정함
    실행방법 $ sh Genotyping2.sh Genotyping2_file_info_2_C_222.conf Genotyping2_program_info.conf
    step01_GATK_CombineVariants2.make.sh - gVCF 파일을 수집하고 GATK GenotypeGVCFs에 의해 VCF 파일 생성함 실행방법 $ sh step01_GATK_CombineVariants2.make.sh 2_C_222
    $ sh step01_GATK_CombineVariants2_2_C_222
    step02_filtration - 개별 Variant에 대해서 ReadPosRankSum, MQRankSum, QUAL, QD, FS, MQ, DP, GQ 정보를 바탕으로 필터링을 수행함 실행방법 $ sh step02_filtration 2_C_22
    step03_SnpSift_annotate - ANNOTATION/hg38 디렉토리에 있는 모든 vcf.gz 파일을 이용하여 annotation 과정을 수행함 vcf_parser Python module이므로 추가 설치가 필요함
    실행방법 $ sh step03_SnpSift_annotate 2_C_222 > step03_SnpSift_annotate_2_C_222
    $ sh step03_SnpSift_annotate_2_C_222
    step04_snpEff.sh - snpEff를 이용하여 GENCODE human v25 transcript 정보로 gene annotation을 수행하고 text 파일로 변환함 실행방법 $ sh step04_snpEff.sh 2_C_222
    step05_GATK_VariantsToTable.sh - GATK VariantsToTable을 이용하여 step03에서 annotation한 third party database를 text 파일로 변환함 실행방법 $ sh step05_GATK_VariantsToTable.sh 2_C_222
    step05_GATK_VariantsToTable.GTNA.sh - GATK VariantsToTable에서 생성된 파일의 annotation이 없는 NA와 Genotype을 0,1,2 수자로 변환함 실행방법 $ sh step05_GATK_VariantsToTable.GTNA.sh 2_C_222
    step06_mergeAnnotation.sh - snpEff의 gene annotation과 GATK VariantsToTable의 database annotation을 통합하여 하나의 text 파일을 생성함 실행방법 $ sh step06_mergeAnnotation.sh 2_C_222
    최종파일이름: 2_C_222.annotated.snpEff.extractFields.merged.txt
  • 파이프라인 이름

    집단유전체 그룹간 XP-EHH을 이용한 Selective Sweep의 계산 및 시각화 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    두 그룹의 각각의 VCF파일을 변환하여 input file을 생성하고, XP-EHH software를 이용하여 두 그룹 간의 Extended haplotype homozygosity를 계산 하여 Positive selection 된 부근을 찾고, 이를 Manhattan plot으로 시각화 한다.

  • 파이프라인 모식도 설명

    XP-EHH software를 이용하여 WG 두 그룹간의 haplotype 동질성을 이용하여 Positive selection된 부근을 통계적으로 찾고, Manhattan plot으로 시각화하는 Pipe 라인은 총 7단계에 걸쳐서 진행되며, 우선 Pipe의 Output 디렉토리를 생성한 후, 첫 째로 각 그룹의 VCF 파일을 Impute format으로 변환하고, 둘째, 변환된 각 그룹의 Imput 파일 중 hap 파일을 각 그룹에 대한 XPEHH input 파일로 변환한다. 셋 째, XPEHH를 계산하기위한 Reference file(=Map file)을 생성하기 위해, 전체 VCF를 이용하여 Map 파일을 생성한다. 넷 째, 두 그룹에 대한 XPEHH input 파일과 Map 파일을 이용하여 XPEHH를 계산한다. 다섯 째, 계산된 XPEHH outfile을 Plot을 그리기 위한 파일을 재조정하기 위하여 전체 VCF를 이용하여 Plot을 그리기 위한 input file을 생성한다. 그리고 마지막으로 두 그룹에 대한 XPEHH output을 Manhattan plot으로 시각화 한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    1.step00_setup.sh - Output 디렉토리 생성 옵션 없음
    2.step01_VCF_TO_IMPUTE.sh - 각 그룹의 VCF file을 각각 Impute format으로 변환 input 1. 각 그룹의 VCF file
    3.step02_IMPUTE_TO_XPEHH.R - 2단계에서 생성된 Impute format의 .hap 파일을 XPEHH input으로 변환 input 1. 이전단계에서 생성된 그룹별로 각각 생성된 Imput format의 .hap 파일
    4.step03_VCF_to_XPEHH.map.py - 전체 VCF 파일을 XPEHH 계산시 참조하기 위한 Reference file(=Map file)로 변환 input 1. 전체 VCF file
    5.step04_XPEHH.sh - 3단계에서 생성된 두 그룹의 XPEHH의 input파일과 4단계에서 생성된 Reference file(=Map file)을 이용하여 XPEHH를 계산 input 1. 4단계에서 생성된 파일 Map 파일
    2. 3단계에서 생성된 그룹1에 대한 XPEHH의 input file
    frequenct file
    3. 3단계에서 생성된 그룹2에 대한 XPEHH의 input file frequenct file
    4. Outfile name
    6.step05_XPEHH.Annotating_position.py - 5단계에서 생성된 두 그룹간의 XPEHH Output file을 VCF 파일을 참고하여 plot을 그리기 위한 파일로 재 생성 input 1. 전체 VCF file
    2. 5단계에서 생성된 두 그룹간의 XPEHH output file
    7.step06_Manhaatan_Plot.R - 6단계에서 생성된 CSV 파일을 이용하여 두 그룹간의 Manhattan plot 생성 input 1. 6단계에서 생성된 CSV 파일
  • 파이프라인 이름

    집단유전체 주성분분석 및 근연관계 정보분석 파이프라인(R)

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing, Exome sequencing, RNA sequencing, SNP chip 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    Sample sequence fasta 파일로부터 PCA, phylogenetic tree와 bayesian tree를 생성

  • 파이프라인 모식도 설명

    이 파이프라인은 Sample sequence data로부터 샘플 간 distance를 계산하고, 이것으로부터 주성분분석을 실행하여 PCA plot을 생성하고, neighbor-joining 방법을 이용하여 phylogenetic tree를 생성하며, R의 MST 패키지를 이용하여 bayesian tree와 VisAnt에서 tree를 편집할 수 있는 input 파일을 제공한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    ape - Fasta 파일로부터 distance matrix와 phylogenetic tree를 생성 input fasta file
    pdf 주성분분석 결과
    nwk Phylogenetic tree
    MST - Distance matrix로부터 bayesian tree를 생성 input fasta file
    pdf Bayesian tree
    txt VisAnt 또는 Bioexpress의 input 파일
  • 파이프라인 이름

    Sex determination 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing, Exome sequencing, RNA sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    Reference sequence로부터 sex marker를 선별하여 sequencing data의 성별을 확인하는 파이프라인

  • 파이프라인 모식도 설명

    Array-based SNP genotyping technology uses a few markers for gender determination, but they ar not applicable to next generation sequencing (NGS) data. Reads from sex chromosomes can be aligned onto opposite chromosomes because they have many homologous regions. It may cause false positive genotyping results. Gender needs be determined a priori before preparing reference genomes for male (XY) and female (XX) to increase accuracy of genotypes of sex chromosomes. Here we report an open-source and easy-to-use R script that can detemine gender by support vector machine (SVM) classification. It aligns reads onto gender marker sequences extracted from homologous regions between X and Y chromosomes. and counts numbers of mapped reads. NGSGD give putative gender within a few minutes for Exome-Seq and RNA-Seq.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    NGSGD.R https://github.com/kdlsh/NGSGD sex marker를 선별하여 sequencing data의 성별을 확인 input 1. Marker.fasta
    2. svm_model.rda
    3. fastq file
  • 파이프라인 이름

    GenoCore 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    Breeding 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    A simple and fast algorithm for core subset selection from large genotype datasets

  • 파이프라인 모식도 설명

    Selecting core subsets from plant genotype datasets is important for enhancing cost-effectiveness and to shorten the time required for analyses of genome-wide association studies (GWAS), and genomics-assisted breeding of crop species, etc. Recently, a large number of genetic markers (>100,000 single nucleotide polymorphisms) have been identified from high-density single nucleotide polymorphism (SNP) arrays and next-generation sequencing (NGS) data. However, there is no software available for picking out the efficient and consistent core subset from such a huge dataset. It is necessary to develop software that can extract genetically important samples in a population with coherence. We here present a new program, GenoCore, which can find quickly and efficiently the core subset representing the entire population. We introduce simple measures of coverage and diversity scores, which reflect genotype errors and genetic variations, and can help to select a sample rapidly and accurately for crop genotype dataset. Comparison of our method to other core collection software using example datasets are performed to validate the performance according to genetic distance, diversity, coverage, required system resources, and the number of selected samples. GenoCore selects the smallest, most consistent, and most representative core collection from all samples, using less memory with more efficient scores, and shows greater genetic coverage compared to the other software tested.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    정보 없음 정보 없음 정보 없음 input Genotype file
    cv user defined coverage value (%)
    d user defined difference of increase (%)
    output output file name
  • 파이프라인 이름

    전장엑솜 변이발굴 및 snpEff 주석정보 통합 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole Exome Sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    BWA로 Read Alignment하여 GATK로 Variants Calling과 Variants Annotation을 하는 파이프라인

  • 파이프라인 모식도 설명

    Preprocessing, Variants Calling, Variants Annotation으로 크게 세 가지모듈로 구성된 해당 파이프라인은 다음과 같은 과정으로 분석된다. Preprocessing 단계에서 sequencing library의 quality control을 하기 위해 FastQC를 이용해 먼저 체크한다. 해당 reads의 quality가 낮은 low quality reads를 filtering하기 위해 NGSQCToolkit을 이용해 품질이 안좋은 reads를 걸러낸다. 이렇게 얻어진 forwards reads와 reverse reads를 input으로 사용한다. 우선 bwa index를 이용해 reference를 indexing하고 bwa mem을 이용해 만들어진 index에 mapping한다. 이렇게 얻어진 Binary sequence Alignment/Map(BAM) format file에 reads group name을 붙이고 정렬을 하기 위해 PICARDS의 AddOrReplaceReadsGroup을 사용한다. Mapping과정에서 누락됐을 수 있는 paired-end의 mate information을 고정하기 위해 PICARDS의 FixmateInformation을 사용해 정보를 교정해준다. 마지막으로 mark duplicates단계에서는 PCR duplicates를 제거하기 위해 PICARDS의 MarkDuplicates를 사용한다. Preprocessing이 끝난 Analysis-ready bam file을 이용해 Variants Calling을 하며 Genome Analysis ToolKit(GATK)의 모듈을 사용한다. 우선 library의 base pair quality가 기계적 오류에 민감하기 때문에 이를 sample 전체에서 일정하도록 보정하기 위해 BaseRecalibrator를 사용한다. 그 후 indel주변에서 쉽게 나타날 수 있는 local alignments error를 보정하기 위해 IndelRealigner를 이용하 local alignments를 다시 수행한다. 해당 보정이 끝난 Analysis-ready alignments를 HaplotypeCaller를 이용해 Variants Calling과 local de novo assembly를 수행한다. 해당 과정으로 발굴된 snp와 indel은 false positive가 섞여 있을 수 있으므로 VariantsRecalibrator를 이용해 발굴된 Variants의 Variants Quality Score를 계산하고 이를 이용해 확실한 Variants만을 선별한다. 최종적으로 발굴된 Variants의 유전자 정보와 변이 정보를 확인하기 위해 SnpEff를 사용하여 Annotation한다. 우선 이미 알려진 변이정보와 비교해 보기 위해 database에서 발굴된 변이 위치를 확인한다. 해당되는 database의 변이 정보는 position으로 혹은 region으로 제공되기 때문에 두 가지 모두 확인하여 annotation table을 만든다. 이후 발굴된 돌연변이가 단백질로 번역될 때 나타내는 효과를 예측하기 위해 snpEff를 사용한다. 이렇게 만들어진 두가지 annotation table을 변이 위치마다 표시한 하나로 통합된 파일로 만들어 최종 변이 후보를 선별한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Quality Control -o
    Output Directory
    NGSQCtoolkit http://www.nipgr.res.in/ngsqctoolkit.html Remove Low Quality Reads -pe Paired-end
    -se Single-end
    -l Cutoff percentage
    -s Cutoff PHRED uqality score
    -p Number of processes
    -t output format
    -o output directory
    -z output format for filtered data
    BWA
    mem
    http://bio-bwa.sourceforge.net/ Aligning Reads -t Number of threads
    -k Munimum seed length
    -P SW algorithm to rescue
    -a output all found alignments for single-end or unpaired reads
    -v Control the verbose level
    PICARD https://broadinstitute.github.io/picard/ Remove Duplication AddOrReplaceReadGroups
    Replace Reads Group And sort
    FixMateInformation Verify mate-pair information
    MarkDuplicates Identifies duplicate reads
    Genome Anlysis ToolKit
    (GATK)
    https://software.broadinstitute.org/gatk/ Variants Calling DepthOfCoverage
    Determine coverage at different levels of partitioning
    BaseRecalibrator Verify systematic technical base quality error
    IndelRealigner Recalibrate the local realign around the indel
    HaplotypeCaller Calling SNPs and indels
    VariantsRecalibrator Assign a well-calibrated probability to each variant call
    SnpEff http://snpeff.sourceforge.net/ Variants Annotation -c Specify config file
    -csvStats create CSV summary
    -stats Name of stats file
  • 파이프라인 이름

    대용량 전장유전체 분석 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole Exome Sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    BWA로 Read Alignment하여 GATK로 Variants Calling과 Variants Annotation을 하는 파이프라인

  • 파이프라인 모식도 설명

    Preprocessing, Variants Calling으로 크게 두 가지모듈로 구성된 해당 파이프라인은 다음과 같은 과정으로 분석된다. Preprocessing 단계에서 sequencing library의 quality control을 하기 위해 FastQC를 이용해 먼저 체크한다. 해당 reads의 quality가 낮은 low quality reads를 filtering하기 위해 NGSQCToolkit을 이용해 품질이 안좋은 reads를 걸러낸다. 이렇게 얻어진 forwards reads와 reverse reads를 input으로 사용한다. 우선 bwa index를 이용해 reference를 indexing하고 bwa mem을 이용해 만들어진 index에 mapping한다. 이렇게 얻어진 Binary sequence Alignment/Map(BAM) format file에 reads group name을 붙이고 정렬을 하기 위해 PICARDS의 AddOrReplaceReadsGroup을 사용한다. Mapping과정에서 누락됐을 수 있는 paired-end의 mate information을 고정하기 위해 PICARDS의 FixmateInformation을 사용해 정보를 교정해준다. 마지막으로 mark duplicates단계에서는 PCR duplicates를 제거하기 위해 PICARDS의 MarkDuplicates를 사용한다. Preprocessing이 끝난 Analysis-ready bam file을 이용해 Variants Calling을 하며 Genome Analysis ToolKit(GATK)의 모듈을 사용한다. 우선 library의 base pair quality가 기계적 오류에 민감하기 때문에 이를 sample 전체에서 일정하도록 보정하기 위해 BaseRecalibrator를 사용한다. 그 후 indel주변에서 쉽게 나타날 수 있는 local alignments error를 보정하기 위해 IndelRealigner를 이용하 local alignments를 다시 수행한다. 해당 보정이 끝난 Analysis-ready alignments를 HaplotypeCaller를 이용해 Variants Calling과 local de novo assembly를 수행한다. 해당 과정으로 발굴된 snp와 indel은 false positive가 섞여 있을 수 있으므로 VariantsRecalibrator를 이용해 발굴된 Variants의 Variants Quality Score를 계산하고 이를 이용해 확실한 Variants만을 선별한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ Quality Control -o
    Output Directory
    NGSQCtoolkit http://www.nipgr.res.in/ngsqctoolkit.html Remove Low Quality Reads -pe Paired-end
    -se Single-end
    -l Cutoff percentage
    -s Cutoff PHRED uqality score
    -p Number of processes
    -t output format
    -o output directory
    -z output format for filtered data
    BWA
    mem
    http://bio-bwa.sourceforge.net/ Aligning Reads -t Number of threads
    -k Munimum seed length
    -P SW algorithm to rescue
    -a output all found alignments for single-end or unpaired reads
    -v Control the verbose level
    PICARD https://broadinstitute.github.io/picard/ Remove Duplication AddOrReplaceReadGroups
    Replace Reads Group And sort
    FixMateInformation Verify mate-pair information
    MarkDuplicates Identifies duplicate reads
    Genome Anlysis ToolKit
    (GATK)
    https://software.broadinstitute.org/gatk/ Variants Calling DepthOfCoverage
    Determine coverage at different levels of partitioning
    BaseRecalibrator Verify systematic technical base quality error
    IndelRealigner Recalibrate the local realign around the indel
    HaplotypeCaller Calling SNPs and indels
    VariantsRecalibrator Assign a well-calibrated probability to each variant call
  • 파이프라인 이름

    GSA-SNP2

    바로가기 ▶
  • 파이프라인 사용 분야

    GWAS, microarray, RNA-sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    GWAS summary data (혹은 microarray나 RNA-sequencing data로부터 계산된 gene expression p-value)를 입력하면 SNP 개수에 따른 gene score bias를 보정한 후 gene set analysis (z-test)를 수행

  • 파이프라인 모식도 설명

    GWAS summary data (혹은 gene expression data의 p-value)를 input으로 받아, gene 별 SNP score (-log best p-value)를 계산한다. 이후 gene 별 SNP 개수에 따른 gene score bias를 보정한다. 그 다음, 보정된 gene score를 이용해 z-test를 수행하는데, 이 때 만약 같은 pathway에 속하며 크로모좀 상에서 인접해 있는 두 유전자가 높은 genotype correlation을 가질 경우 둘 중 하나의 유전자를 제거한다. Gene set 분석 결과는 사용자의 local에 text file로 자동 저장되며, 유의한 개별 gene-set, 혹은 이들의 합집합 set에 대한 PPI network 정보도 또한 text file로 저장된다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    GSA-SNP2 https://sourceforge.net/projects/gsasnp2/ GWAS summary data (혹은 microarray, RNA-seq gene-pvalue)에 대한 pathway 분석 및 네트워크 정보 제공 -p [-pathway] Path to input pathway file
    -i [-input] 주성분분석 결과
    -s [-snpgene] Indicator of input type (SNP: 0, Gene: 1)
    -o [-output] Path to output file
    -g [-genemap] gene map file
    -a [-adj] Path to Inter-gene genotype correlation by race file
    -minset Minimum set size
    -maxset Maximum set size
    -b [-symbol] Indicator of gene ID type (1 to convert Ensembl or Entrez ID to gene symbol, 0 for otherwise)
    -n [-netfile] Path to network data
    -v [-gval] Gene score cutoff for selecting reduced network (0~1). Default value=0.05
    -q [-qval] q-value cutoff for selecting core network (0~0.25). Default value=0.15 Note: high q-value may cause memory overloaded.
  • 파이프라인 이름

    expathnet.R (with stringDB)

    바로가기 ▶
  • 파이프라인 사용 분야

    geneset analysis 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    geneset analysis file을 입력받아 overlap, string ppi, kappa distance를 계산하고 계산된 distance를 바탕으로 fuzzy cluster를 구하여 geneset 간의 유사성을 구하는 파이프 라인

  • 파이프라인 모식도 설명

    1개의 R코드로 구성되며, 주어진 geneset analysis file과 stringdb로부터 계산된 ppi interaction matrix를 이용하여 geneset간의 distance를 계산하고 그를 통해 유사성 높은 geneset 끼리 cluster를 출력한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    expathnet.R - analysis --i input file
    --m method
    --o output file
    --X fuzzy number parameter
    --D fuzzy Distance parameter
    --q qvalue threshold
  • 파이프라인 이름

    Rare variant association study pipeline

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing, Exome sequencing을 이용한 rare variant association test용

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    특정 집단의 변이 데이터 (VCF file)와 phenotype data (PED file)을 이용하여, 특정 phenotype에 associate된 rare variant들을 4종의 전용 분석 알고리즘을 적용하여 분석함

  • 파이프라인 모식도 설명

    이 파이프라인은 variant call format (VCF) file로부터 rare variant association tool 4가지를 연속하여 실행하는 것으로, 각 프로그램에 맞게 vcf file을 변환하고 실행하는 과정으로 구성되어 있다. Output file은 config 파일에서 설정한 directory에 저장하도록 되어 있다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    pipeRvas.sh 정보없음 EPACTS, rvtest, Biobin, SCORE-SEQ을 차례로 실행 VCF_IN
    Input VCF file
    PHENO_IN phenotype ped file
    PHENOTYPE phenotype name
    GENE_DBz Gene annotation file
    BASE_OUT output directory
  • 파이프라인 이름

    BAC clone을 이용한 차세대염기서열 assembly

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing (De novo, resequencing assembly)

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    NGS (Next generation sequencing; 차세대염기서열분석기법) 를 이용한 염기서열분석방법을 통해 더욱더 빠르고 값싼 가격으로 genome 분석과 assembly가 가능하게 되었다. 하지만 짧은(short read) 염기서열을 이용하는 NGS 분석 기법은 짧은 염기서열을 이어 붙이는 과정에서 많은 오류와 문제점을 안고 있다. 이를 보완하고자 더 긴 염기서열 (long read)을 이용한 분석 방법이 사용되고 있는데 그중 BAC clone (Bacterial Artificial Chromosome) 을 이용한 방법이 있다. BAC clone은 박테리아를 이용하여 긴 염기서열을 삽입후 이용하게 되는데 genome assembly 과정에서 contig 과정의 긴 서열을 확보후 bac clone의 서열을 overlap시켜 더욱 완성도 높은 genome assembly 하는 것에 목적이 있다.

  • 파이프라인 모식도 설명

    BAC clone을 통해 생성된 read를 assembly를 통해 유전체를 완성하려면 여려단계의 맵핑과 필터링 단계를 거쳐 최종 assembler 프로그램을 통해 완성시킬수가 있다. 우선 생성한 read를 기존 E.coli genome에 (DB download)에 BWA를 통해 맵핑하여 기존 박테리아에 맵핑되지 않은 unique read를 찾는다. Picard를 이용해 정보를 추가한 다음 맵핑되지 않은 read를 samtools를 이용해 추출한다. 이때 추출된 read의 형태는 bam file형식으로 추출되는데 bamtofastq를 이용해 fastq파일 형태로 변환해준다. Fastqscreen으로 read의 순수도를 측정해주며 Trimmomatic으로 adatopr를 걸러준다. 최종적으로 Ray assembler를 통해 완성된 genome을 생성해낸다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    1. Mapping reads on the E.coli genome to filtering (BWA) 정보없음 BWA를 통해 read를 박테리아 유전체에 mapping input
    fastq file
    e.coli genome (fastq): DB 다운
    output sam file
    2. Adding or Replacing the Read Group information for downstream processing (Picard) 정보없음 Read information 추가 및 대체작업 input
    sam file
    output bam file
    3. Extracting Insert-originated Reads (Unmapped Reads on E.coli Genome)
    (samtools)
    정보없음 기존 E.coli genome에 mapping 되지 않은 sequence 추출 input
    bam file
    output bam file
    4.Making Insert-originated Read file in FASTQ
    (bamToFastq)
    정보없음 기존 E.coli genome에 맵핑되지 않은 read 추출 (unique read) input
    fastq, bam file
    output fastq file
    5. Estimating the Putiry of the Reads (Fractions for Potential Read Sources)
    (fastq_screen)
    정보없음 fastq_screen을 이용한 read의 purity 측정 input
    fastq file
    output log file 통계확인
    6. Cleaning the Reads before Assembly (Adapter trimming; Trimmomatic) 정보없음 read에 있는 adaptor trimming input
    fastq file
    output filtered fastq file
    7. Assessing the Quality of Cleaned Reads
    (NGSQCToolkit)
    정보없음 NGSQCToolkit을 이용한 QC확인 input
    fastq file
    output statistics
    8. Assembly
    (Ray)
    정보없음 Ray assembler를 이용한 genome assembly input
    unmapped.filtered.fastq file
    output contig 단위의 fastq
  • 파이프라인 이름

    Episodic, Pervasive Positive selection

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing (Evolution biology, positive selection)

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    게놈의 진화율을 결정하는 주요요인을 분석하는 방법에는 전통적으로 유전자의 치명도, 유전자의 기능이 개체의 생존에 얼마나 필수적인가하는 것이 그 유전자의 진화율을 결정하는 가장 중요한 요인으로 생각되어져 왔다. 즉 기능이 중요한 유전자는 아주 사소한 돌연변이라 할지라도 그 영향이 심각하여 natural selection에 의해 진화적으로 그 돌연변이가 제거됨으로써, 유전자의 진화가 어렵고, 반대로 기능이 중요하지 않는 유전자는 돌연변이에 대해 어느정도 tolerable 하므로, 진화적으로 그 돌연변이가 게놈에 남아 있을수 있게 되어 진화가 진행될 수 있다고 여겨져왔다. 개체 수준에서의 positive selection은 수많은 생태진화학적 연구를 통해 증명된가 있으며 이를 분자수준의 연구를 통해 증명하고자 하는 연구가 많이 진행되어왔다. 개체간 변이와 개체내 변이 연구를 통계적 기법으로 연구하는 것이 가장 일반적인 것으로 Ka/Ks ratio, McDonald-Krietman test등이 대표적인 예라 할 수 있으며 이 파이프라인은 PAML을 기본으로 한 positive selection을 측정을 중점에 두었다.

  • 파이프라인 모식도 설명

    -기능 요약: 주어진 다수 생물종에 대하여 분석 대상 유전자의 종별 DNA서열 파일과, 생물종간 진화관계를 나타낸 phylogenetic tree를 입력하여, episodic positive selection 및 pervasive positive selection score를 분석.
    -최초 입력 파일: 관심 생물종 및 비교대상 생물종의 (1)분석대상 유전자 DNA 서열 multiple FASTA file, (2)Newick 포맷의 비교 생물종간 phylogenetic tree file.
    -분석 과정 요약: (1)입력 FASTA에 대한 MSA수행(by PRANK), (2)conserved block의 추출 (by GBLOCK), (3)얻어진 block서열의 reordering(by python script), (4)episodic positivel selection analysis 및 parsing (by CODEML in PAML), (5)pervasive positive selection analysis 및 parsing (by CODEML in PAML)
    -최종 결과 파일: (1)parsed episodic positive selection score file, (2)parsed pervasive selection score file.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    1_msaByPrank.sh 정보없음 Prank 프로그램을 이용한 MSA (multiple sequence alignment) input
    fasta file
    output msa (fas) file
    2_consBlocksByGblocks.sh 정보없음 Gblock 프로그램을 이용한 conserved block 추출 input
    fas file
    output fas-gb file
    3_reorderFasta4Paml.sh 정보없음 PAML을 이용한 positive selection을 위해 fasta파일 재정렬 input
    fasta file
    tree file
    fas-gb file
    output fas reordered file
    4_episodicPs.sh 정보없음 PAML 을 이용한 episodic positive selection input
    fasta file
    tree file
    output H0, H1 file
    4_pervasivePs.sh 정보없음 PAML 을 이용한 pervasive positive selection input
    fasta file
    tree file
    output M8a file
  • 파이프라인 이름

    CNV 정보분석 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    정보없음

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    CNV 분석 중 하나로, mrFast software를 사용하여 Reference genome(hard masked)을 Indexing 하고, 우리의 Sample(PE)을 mrFAST를 이용하여 Reference Genome에 매핑한다. 동시에 mrCaNaVar를 이용하여 CNV 분석을 위한 Reference genome 의 configuration file을 만든다.(시간이 오래 걸림) 그 후, mrFast에 매핑 된 분석하고자 하는 sample의 sam file을 mrCaNaVar를 통해 Read depth와 CNV를 계산 한 뒤, R로 시각화 한다.

  • 파이프라인 모식도 설명

    1. Reference genome Indexing
    2. 각 샘플들을 Reference genome에 매핑(mrFast)
    3. CNV분석에 필요한 Reference genome의 configuration 파일 생성
    4. 각 샘플들의 Read depths 파악
    5. 각 샘플들에 대한 CNV plot 생성

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    정보없음
  • 파이프라인 이름

    Cancer genome variants annotation pipeline

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing, Exome sequencing

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    WGS/WES data에 존재하는 varation 발굴을 위한 파이프라인

  • 파이프라인 모식도 설명

    SnpSift와 SnpEff를 annotation을 통해 genome variants를 발굴하기 위한 파이프라인으로, 기본적으로 bwa mapping, picard, GATK haplotypCaller variants call 등, GATK를 이용한 best practice form을 따라가고 있다. Normal과 Tumor data에서 calling한 Variants들은 1000genome, hapmap, dbsnp 등 known variants data를 통해 annotation 된다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC
    NGSQCToolkit
    정보없음 raw data의 quality 확인 및 Trimming input
    raw data
    (fastq)
    BWA 정보없음 reference file의 indexing 및 fastq file alignment format
    input
    : fasta, fastaq

    output
    : .SAM
    picard 정보없음 alignment 된 file의 정렬
    (sorting, indexing, etc..)
    input
    .SAM/.BAM
    HaplotypeCaller
    (GATK)
    정보없음 mapping된 bam file에서 variants calling input
    1. data
    : BAM
    2.reference
    :.vcf(known site)...
    output
    .vcf
    SnpEff
    SnpSift
    정보없음 variant annotation and prediction input
    HaplotypeCaller로 calling한 .vcf file
    tabixAnnotation.py 정보없음 annotated file의 정보를 indexing input
    snpEff에서 생성된 vcf 파일, reference vcf, bed 파일의 annotation 정보를 취합하여 indexing
  • 파이프라인 이름

    Xenograft Cancer genome Variants annotation pipeline

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole genome sequencing, Exome sequencing for xenograft

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    Xenograft data에서 model 동물의 read를 filtering하고 variatns를 분석

  • 파이프라인 모식도 설명

    기본적으로는 일반적인 CanerGenome pipeline과 유사한 구조를 띠고 있으나 , Xenograft genome을 분석하기 위해 mapping 과정에서 약간의 공정이 추가되어 있다. Tumor(human), Normal(Human), Tumor(xenograft)에 해당하는 raw data를 인간 유전체 기준으로 분석하기 위해서 Xenograft genome은 human reference와 model 동물의 reference 둘 다에 mapping 한 다음 model genome에 해당하는 Reads를 filtering하는 과정이 존재한다. filtering 된 data는 나머지 2개의 data와 함께 GATK_HaplotypeCaller와 SnpEff, SnpSift를 통해 variant calling과 annotation이 이루어진다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    FastQC
    NGSQCToolkit
    정보없음 raw data의 quality 확인 및 Trimming input
    raw data
    (fastq)
    BWA 정보없음 reference file의 indexing 및 fastq file alignment format
    input
    : fasta, fastaq

    output
    : .SAM
    filterMouseOriginatedReads.py 정보없음 xenograft mapping read에서 model 동물의 reads 제거 input
    -model.Xenograft.sam.gz
    -human.Xenograft.sam.gz
    HaplotypeCaller
    (GATK)
    정보없음 mapping된 bam file에서 variants calling input
    1. data
    : BAM
    2.reference
    :.vcf(known site)...
    output
    .vcf
    SnpEff
    SnpSift
    정보없음 variant annotation and prediction input
    HaplotypeCaller로 calling한 .vcf file
    tabixAnnotation.py 정보없음 annotated file의 정보를 indexing input
    snpEff에서 생성된 vcf 파일, reference vcf, bed 파일의 annotation 정보를 취합하여 indexing
  • 파이프라인 이름

    전장엑솜 성별판별 마커 발굴 파이프라인

    바로가기 ▶
  • 파이프라인 사용 분야

    Whole Genome Sequencing, Exome Sequencing, RNA Sequencing 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    Reference sequence로부터 sex marker를 선별하여 sequencing data의 성별을 확인하는 파이프라인

  • 파이프라인 모식도 설명

    sex marker는 7단계에 걸쳐서 선별된다. 먼저 reference genome에서 성별 염색체만 추출하고, pairwise alignment 후 annotation을 붙인 다음, marker의 길이에 따라 filetering을 진행하고 blastn을 통해 reference sequence와 비교하여 mismatch되는 marker와 minimum length를 정하여 filtering하여 최종 sex marker를 생성한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    0.extract_chr_from_REF.py 정보없음 Reference로부터 X, Y chromosome 분리 input Reference fasta file
    chr Sex specific chromosome (X or Y)
    lastz http://www.bx.psu.edu/~rsharris/lastz/ 분리된 fasta 파일을 pairwise align format output format (maf)
    1.sex_marker.py 정보없음 align된 maf 파일을 annotation file과 비교하여 sex marker 생성 input 1. maf file
    2. gtf file
    3. maximum distance
    (default:35)
    2.sex_marker_filtered.py 정보없음 marker length와 mismatch 길이에 따라 filtering input
    1. 이전 단계에서 생성된 sex marker file
    2. gtf file
    3. mininum length (default: 151)
    4. minimum mismatch (default : 5)
    3.make_markerFASTA.py 정보없음 make sex marker to fasta file input filtered sex marker file
    blastn http://blast.ncbi.nlm.nih.gov/Blast.cgi Reference database와 생성된 sex marker를 search db
    reference database
    query
    sex marker fasta file
    outfmt
    output format (default : 7)
    5.blast_filter.py 정보없음 blastn의 결과와 3의 filtered sex marker를 비교하여 최종 marker를 선발 input
    1. filtered sex marker fasta file
    2. blastn result file
  • 파이프라인 이름

    대용량 작물유전체 핵심집단 추출 알고리즘 (GenoCore 파이프라인)

    바로가기 ▶
  • 파이프라인 사용 분야

    Breeding 분야

  • 분석 파이프라인 프로그램

    다운로드

  • 파이프라인 기능요약

    모집단을 유전적으로 대변하는 핵심 집단 선별 알고리듬

  • 파이프라인 모식도 설명

    GenoCore는 genotypic error를 최소화 하는 샘플을 filtering하고 모집단을 가장 많이 커버하는 샘플을 선택하고 동시에 diversity가 작은 샘플을 선별한다. 각 단계마다 하나의 샘플을 선택하고 coverage가 특정 cut off를 넘거나 증가율이 특정 cut off를 넘지 않으면 최종 핵심집단을 저장하고 process를 종료한다.

  • 파이프라인 구성 모식도

  • 파이프라인 구성 분석 도구

    열기/닫기
    이름 사이트주소 기능요약 옵션 설명
    이름 설명
    GenoCore 정보없음 핵심집단 선별 input
    Genotype file
    cv
    user defined coverage value (%)
    d
    user defined difference of increase (%)
    output
    output file name
위로