한국보건사회연구원 전자도서관

로그인

한국보건사회연구원 전자도서관

자료검색

  1. 메인
  2. 자료검색
  3. 통합검색

통합검색

단행본Acorn+PACKT technical book

R을 활용한 바이오인포매틱스: 바이오 의료와 생명과학 정보 분석 bioinformatics

서명/저자사항
R을 활용한 바이오인포매틱스: 바이오 의료와 생명과학 정보 분석 bioinformatics/ 포루쉬 프라빈 신하 지음 ; 염현식 옮김
발행사항
의왕 : 에이콘출판사, 2015
형태사항
400 p. : 삽화 ; 24 cm
ISBN
978896077210 (set) 9788960776876
주기사항
부록: A. R에서 유용한 연산자와 함수 -- B. 유용한 R. 패키지 색인: p. 396-400 원저자명: Sinha, Paurush Praveen 참고사항 : 각 장 권말 수록
원서명
Bioinformatics with R cookbook : over 90 practical recipes for computational biologists to model and handle real-life data using R
소장정보
위치등록번호청구기호 / 출력상태반납예정일
이용 가능 (1)
자료실EM044161대출가능-
이용 가능 (1)
  • 등록번호
    EM044161
    상태/반납예정일
    대출가능
    -
    위치/청구기호(출력)
    자료실
책 소개
★ 요약 ★

생명정보학이라고 일컫는 바이오인포매틱스(Bioinformatics)는 생물학적 데이터를 이용해 여러 분석 과정을 시행하고, 이를 통해 새로운 내용을 확인하는 학문이며, 최근 이러한 생명정보학 분석 과정에 가장 많이 사용되는 언어는 R이다. 이 책은 R을 이용한 다양한 예제를 제공해 생명정보학 분석 과정을 체계적이고 직관적으로 설명한다. 이 책을 통해 바이오인포매틱스, 즉 생명정보학의 이론적 배경뿐 아니라 실제적 접근 방식에 대한 충분한 지식과 기술을 얻을 수 있다.

★ 이 책에서 다루는 내용 ★

■ 웹 페이지를 이용하지 않고 R을 통해 생물학적 데이터 추출
■ 데이터의 주석화, 농축화, 식별자의 전환
■ PubMed를 통해 적절한 문서 확인
■ 종들 간의 계통적 연관성 확인
■ 전장유전체 연관성 탐색(GWAS)을 통해 유전자 정보와 질환의 연관성 확인
■ 생물학적 또는 임상적 특징에 기반을 둔 환자 분류
■ 출판과 발표에 이용할 수 있는 시각화를 통한 생물학적 데이터의 제시

★ 이 책의 대상 독자 ★

사람들은 가끔 큰 불안감을 가지고 프로그래밍에 접근할 때가 있다. 이 책의 목적은 과학자들에게 생명정보학과 컴퓨터 생명공학에서의 다양한 일반적인 문제점들에 대한 안내를 제공해주는 것이다. 또한 R이 아닌 다른 언어에 익숙한 생명정보학과 컴퓨터 생명공학의 프로그래머들에게 도움을 주고자 한다.

독자들에게는 생명정보학의 기본적인 부분들에 대한 친밀감과 컴퓨터 프로그래밍에 대한 기본 지식이 요구된다. 그러나 있을지 모를 어느 정도의 간극을 메우기 위해 모든 장의 시작 부분에 짧은 기본적인 설명을 제시했다.

이 책은 R을 이용한 기본적 프로그래밍이나 생명정보학과 통계학의 기본에 관한 책이 아니다. 필요할 때마다 연관성이 있는 참고 문헌, 책, 블로그의 제시를 통해 적절한 이론적 내용을 제공했다. 예제는 대부분 바로 사용할 수 있지만, 이에 따라서 분석을 하기 전에 독자가 직접 데이터를 확인해보고 개인적인 느낌을 가져볼 것을 강력히 추천한다.

★ 이 책의 구성 ★

1장, 'R을 이용한 생명정보학 시작'에서는 R의 기본 작업을 설명한다. 주요 주제는 패키지 설치, 데이터 처리와 조작이다. 대부분의(특히 생명의학) 연구에서 첫 번째 단계인 문헌 탐색을 위한 예제로 내용이 확장된다.

2장, 'Bioconductor 소개'에서는 Bioconductor에서 패키지를 이용해 기본적인 생명정보학의 문제들, 특히 생물학의 메타데이터와 연관된 문제들을 해결하기 위한 예제를 제공한다. 유전자와 단백질의 ID 전환 및 기능적 농축(functional enrichment)에 관련된 내용을 설명한다.

3장, 'R을 이용한 서열 분석'에서는 문자 단위의 서열 데이터에 대해 주로 설명한다. 서열 데이터 추출, 서열 정렬, 서열의 패턴 탐색 예제를 다룬다.

4장, 'R을 이용한 단백질 구조 분석'에서는 배열과 구조 수준에서 단백질을 다루는 방법을 설명한다. 서열이나 구조 분석 같은 단백질 생명정보학의 중요한 관점과 방법을 다룬다. 예제는 단백질 구조 분석, 도메인 주석, 단백질의 구조적 특성 분석 등을 포함한다.

5장, 'R을 이용한 마이크로어레이 데이터 분석'에서는 마이크로어레이 데이터를 읽고 올리는 내용의 예제로 시작해, 이 데이터의 전처리, 필터링, 마이닝, 기능적 농축의 설명으로 이어진다. 마지막으로 유전자 간의 관계를 나타내기 위한 방법으로 공발현(co-expression) 네트워크를 소개한다.

6장, '전장유전체 연관 분석(GWAS) 데이터 분석'에서는 생물학적 추론을 위한 전장유전체 연관 분석 데이터의 분석에 관해 이야기한다. 또한 단위 반복 변이(CNV) 데이터뿐만 아니라 다중 연관 분석에 대해 설명한다.

7장, '질량 분석 데이터 분석'에서는 질량 분석 데이터의 다양한 관점을 다룬다. 서로 다른 데이터 형식을 읽어 들이고 분석하고 수량화하는 주제를 다룬다.

8장, '차세대 시퀀싱 데이터 분석'에서는 차세대 시퀀싱 데이터 처리, RNA 시퀀싱, 칩 시퀀싱, 메틸화 데이터를 다루는 예제에 대해 설명한다.

9장, '생명정보학에서의 기계 학습'에서는 생명정보학에서의 기계 학습에 관한 예제를 다룬다. 생물학적 데이터로부터의 추론을 위한 군집화, 분류, 베이지안 학습에 대한 주제를 다룬다.

부록 A, 'R에서 유용한 연산자와 함수'에서는 다양한 일반적이거나 비일반적인 연산을 시행할 수 있는 유용한 R 함수에 대해 설명한다.
부록 B, '유용한 R 패키지'에서는 여러 다른 유형의 분석과 시각화를 위한 유틸리티를 담고 있는 흥미로운 라이브러리들의 목록과 설명을 제공한다.

★ 저자 서문 ★

최근 유전체학과 분자생물학 기법에서는 상당한 발전들이 있었으며, 이로 인해 데이터 붐이 일어나게 됐다. 이러한 엄청난 양의 데이터를 체계적인 방식으로 해석하는 것은 도전적인 과제이며, 새로운 컴퓨터 도구의 개발이 필요하다. 이에 따라 통계적 데이터 분석, 데이터 마이닝, 기계 학습 등의 분야에 대한 흥미롭고 새로운 시각들이 부각되고 있다. 통계전문가들이 선호하는 도구인 R은 생명정보학(bioinformatics) 분야에서도 널리 쓰이는 소프트웨어다. 그 이유로는 R의 유연함, 데이터 처리 및 모델링 능력, 그리고 가장 중요한 것으로 무료라는 점을 들 수 있다.

R은 자유롭고 강건한 통계 프로그래밍 환경이다. R은 통계, 통계 프로그래밍, 시각화를 위한 강력한 도구다(주로 통계 분석에 사용된다). R은 C를 포함한 많은 프로그래밍 언어의 기원지인 벨연구소의 존 챔버스(John Chambers)에 의해 개발된 S로부터 영향을 받았으며, 1990년대 초반에 로스 이하카(Ross Ihaka)와 로버트 젠틀맨(Robert Gentleman)에 의해 발전이 이뤄졌다.

거의 같은 시기에 생명정보학은 생물학을 변혁시킨 시퀀싱, 고속 대량 스크리닝(screening), 마이크로어레이(microarray) 같은 기술적 혁신의 출현으로 인해 특정한 과학적 분야로 부각됐다. 이러한 기술들로 인해 생물체의 전체 유전체 서열을 생성해 낼 수 있었다. 마이크로어레이로 인해 수천 개의 mRNA를 확인할 수 있었으며, 그 밖에도 많은 것들이 가능하게 됐다. 이 모든 기술 발전 덕분에 작은 데이터 체계로부터 하나의 큰 데이터 체계로 패러다임의 전환이 일어났으며, 이 현상은 현재까지도 계속되고 있다. 데이터 급증에 의해 제기된 어려움들을 해결하기 위해 연구자들은 데이터 처리에 있어 가능한 모든 도구를 사용하게 됐다. 이때까지만 해도 R은 초기 단계에 있었고 통계 전문가들에게 알려져 있는 정도였다. 그러나 1990년대 후반(그리고 이후 수십 년) 동안 수요 증가와 강력한 기능에 힘입어 R은 컴퓨터 생명공학 및 생명정보학 분야에서 인기를 얻기 시작했다

R 환경은 기본적인 프로그래밍 기능을 제공하는 기본 프로그램으로 구성된다. 이러한 기능은 패키지 또는 라이브러리라고 불리는 작은 특수화된 프로그램 모듈을 통해 확장될 수 있다. 이와 같은 모듈 구조로 인해 하나의 프로그램 안에서 대부분의 데이터 분석을 통합할 수 있다. 이에 더해 R은 커맨드라인 환경이므로 전제적으로 요구되는 프로그래밍 기술이 적다. 그렇지만 어느 정도의 프로그래밍 경험은 있어야 한다.

이 책에서는 R을 이용해 생명정보학 및 컴퓨터 생명공학에서의 다양한 데이터 분석 과정을 설명한다. 이 책을 통해 여러 실험들로부터 얻은 생물학적 데이터의 분석과 관련된 많은 재미있는 문제들을 해결할 수 있을 것이다. 대부분의 장에서는 결과를 보여주기 위한 흥미로운 시각화가 제시된다.
목차

1장 R을 이용한 생명정보학 시작
__소개
__시작과 라이브러리 설치
__데이터 읽고 쓰기
__데이터 필터링과 세분화
__데이터에 대한 기본적인 통계 작업
__확률 분포 생성
__데이터에 대한 통계적 검정 시행
__데이터 시각화
__R에서 PubMed를 이용해 작업
__BioMart로부터 데이터 검색

2장 Bioconductor 소개
__소개
__Bioconductor로부터 패키지 설치
__R에서 주석 데이터베이스 다루기
__ID 전환
__유전자 KEGG 주석
__유전자 온톨로지(GO) 주석
__GO 농축
__유전자 KEGG 농축
__클라우드에서의 Bioconductor

3장 R을 이용한 서열 분석
__소개
__서열 추출
__FASTA 파일 읽기와 쓰기
__서열 구성의 내용 확인
__짝 서열 정렬
__다중 서열 정렬
__계통 분석과 트리 플로팅
__BLAST 결과 다루기
__서열에서 패턴 확인

4장 R을 이용한 단백질 구조 분석
__소개
__UniProt에서 서열 추출
__단백질 서열 분석
__단백질 서열 특성 계산
__PDB 파일 다루기
__InterPro 도메인 주석으로 작업
__Ramchandran 플롯의 이해
__유사한 단백질 탐색
__단백질의 이차 구조 특성을 이용한 작업
__단백질 구조의 시각화

5장 R을 이용한 마이크로어레이 데이터 분석
__소개
__CEL 파일 읽기
__ExpressionSet 객체 만들기
__AffyBatch 객체 다루기
__데이터의 질 확인
__인위적 발현 데이터 생성
__데이터 정규화
__발현 데이터에서 배치 효과 해결
__주성분 분석을 이용한 탐색적 분석
__차별 발현 유전자 확인
__다중 클래스 데이터로 작업
__시계열 데이터 다루기
__마이크로어레이 데이터의 배율 변화
__데이터의 기능적 농축
__마이크로어레이 데이터 군집화
__마이크로어레이 데이터로부터 공발현 네트워크 형성
__유전자 발현 데이터의 시각화

6장 전장유전체 연관성 탐색(GWAS) 데이터 분석
__소개
__단일 염기 다형성 연관 분석
__단일 염기 다형성에 대한 연관성 탐색
__전체 유전체 단일 염기 다형성 연관 분석
__PLINK 전장유전체 연관 분석 데이터 불러오기
__GWASTools 패키지를 이용해 데이터 다루기
__다른 전장유전체 연관 분석 데이터 형식 다루기
__단일 염기 다형성 주석화와 농축
__Hardy-Weinberg 평형에 대한 데이터 검정
__단위 반복 변이 데이터를 이용한 연관 분석
__전장유전체 연관 분석의 시각화

7장 질량 스펙트럼 측정 데이터 분석
__소개
__mzXML/mzML 형식의 MS 데이터 읽기
__Burker 형식의 MS 데이터 읽기
__mzXML 형식의 MS 데이터를 MALDIquant 형식으로 전환
__MS 데이터 객체로부터 데이터 요소 추출
__MS 데이터 전처리
__MS 데이터에서 피크 검출
__MS 데이터의 피크 정렬
__MS 데이터에서 펩타이드 확인
__단백질 양적 분석 시행
__MS 데이터에서에서 다중 집단 분석 시행
__MS 데이터 분석의 시각화

8장 차세대 시퀀싱 데이터 분석
__소개
__SRA 데이터베이스 쿼리
__SRA 데이터베이스로부터 데이터 다운로드
__R에서 FASTQ 파일 읽기
__정렬 데이터 읽기
__차세대 시퀀싱 원 데이터 전처리
__edgeR 패키지를 사용한 RNAseq 데이터 분석
__limma를 사용한 시퀀싱 데이터의 층별 분석
__유전자 온톨로지 용어를 사용한 RNAseq 데이터 농축
__서열 데이터의 KEGG 농축
__메틸화 데이터의 분석
__ChipSeq 데이터 분석
__차세대 시퀀싱 데이터 시각화

9장 생명정보학에서의 기계 학습
__소개
__k-means와 계층적 군집을 이용한 데이터 군집화
__군집의 시각화
__분류에 대한 지도 학습
__Na?ve Bayes를 이용한 확률적 학습
__기계 학습에서 부트스트래핑
__분류기에 대한 교차 타당화
__분류기의 성능 평가
__ROC 커브의 시각화
__어레이 데이터를 이용한 생체지표 확인

부록A. R에서 유용한 연산자와 함수
부록B. 유용한 R 패키지