Tour in Biology

게놈속의 암흑물질

이일하l 2011-01-28l 조회수 356

생물체의 게놈과 암흑물질                                                Grade A

우리가 살고 있는 우주 공간은 23%의 암흑물질과 73%의 암흑에너지로 채워져 있고 겨우 4%만이 우리가 실제로 실체감을 느낄 수 있는 일상적인 물질이라고 한다. 우주 공간이 워낙 넓고 방대하니 빈 공간이 우주의 거의 대부분이라는 얘기는 이해가 될 듯한데 빈 공간 속의 암흑물질과 암흑에너지는 도대체 뭐란 말인가? 실체를 느낄 수 없고 측정하기도 어렵지만 어쨌든 우주 공간의 질량 대부분이-96% 가량이-이놈들 암흑 뭐시기라는 놈들이 차지한단다. 물리학의 지식이 짧아 솔직히 뭔 얘기인지 잘 모르겠다. 최근 생물체의 게놈 속에도 이처럼 암흑물질에 해당하는 부위가 있다는 비유의 글이 있어 소개해본다. 암흑물질은 이해 못하지만, 게놈에 대해서는 설명할 수 있기 때문에 독자들을 이해시켜보고 싶은 욕심이 생긴다.

우리 인간의 게놈은 30억 염기쌍으로 이루어져 있다. 인간을 구성하는 유전정보는 ATGC라는 디지털 정보, 염기서열 정보로 나타낼 수 있다. A, T, G, C로 이루어진 염기의 일정한 서열이 30억 개 나열되어 있는 것이 인간게놈 정보라는 얘기이다. 게놈 정보는 2차원적 정보이므로 ATGC 네 개의 문자로 이루어진 염기서열을 책 속의 알파벳처럼 인쇄할 수 있다. 30억개의 염기가 찍혀진 책을 생각해보자. 아마도 서울시의 전화번호부책을 600권정도 인쇄하는 양에 맞먹을 것이다. 인간게놈의 문자나열은 실제론 하나의 긴 나열이 아니고, 모두 24개의 단위로 나뉘어져 있다. 즉 인간의 염색체쌍인 23쌍의 염색체 단위에 성염색체 X, Y 염색체를 고려하면 모두 24개의 염색체에 30억 염기쌍이 나뉘어 담겨져 있는 것이다.

염기서열 안에 담겨져 있는 정보는 무엇일까? 이를 컴퓨터를 구동하는 디지털 정보와 비교하면 쉽게 이해할 수 있다. 컴퓨터의 기계어를 들여다보면 0과 1로 이루어진 일련의 문자로 되어있다. 컴퓨터의 모든 정보는 0과 1의 조합으로 나타낼 수 있다. 사실은 그렇게 표현된 정보를 우리는 User-Friendly Window Program을 이용해 우리가 이해할 수 있는 정보 형태로 컴퓨터 모니터에 구현하고 있다. 같은 로직이 게놈의 정보에도 적용된다. ATGC의 배열로 이루어져 있는 게놈의 정보는 생명의 정보로 바뀌기 위해 아날로그화 과정을 거쳐야 한다. 디지털 정보가 아날로그 정보로 바뀌는 과정이 생명체에서는 단백질의 합성으로 구현된다. 게놈에 들어있는 ATGC 형태의 염기서열 정보는 단백질을 구성하는 아미노산 서열 형태로 전환되고, 그 결과 생물을 구성하는 다양한 세포 속에 그보다 더 다양한 종류의 단백질이 생성되는 것이다. 모든 생명현상의 알파와 오메가에 단백질의 작용이 있다. 게놈의 염기서열 정보가 단백질의 아미노산 서열 정보로 전환되기 위해서는 DNA 정보를 RNA 정보로 복사하는 전사(transcription)라는 과정을 거친다. DNA 형태의 게놈 정보는 핵 속에 들어있는데 단백질 생산은 핵 밖의 세포질에서 일어나기 때문이다. 또한 게놈의 유전정보가 워낙 중요하기 때문에 이를 단백질을 합성하는데 직접 사용하지 않고 필요한 부분만 복사한 복사체를 활용한다는 장점도 있다. 대형 건물의 공사를 시행하는 과정에서 작은 방 하나의 인테리어를 하기 위해 건물 전체의 청사진을 가지고 다니는 바보는 없을 것이다. 필요한 부분만 복사해 가지고 다니면서 작업을 하면 될 테니까.

다시 게놈 이야기로 돌아가자. 인간게놈 30억 염기쌍에 들어있는 유전정보는 23,000개의 단백질 합성 정보이다. 인간게놈이 코드화하고 있는 단백질의 개수는 누구에게 물어보느냐에 따라 조금씩 다르다. 그러나 대략 23,000-35,000개 정도일 것으로 추정된다. 왜 이렇게 error range가 넓으냐 따질법하다. 그게 과학의 현 주소라고 하면 답이 될까? 어쨌든 인간게놈엔 대략 23,000개의 유전자에 대한 정보가 들어있다고 말할 수 있다. 이 유전자가 게놈에서 차지하는 비중은 놀라울 정도로 적다. 전체의 고작 1%에 지나지 않는다. 그러면 나머지 99%는 뭐냐에 대한 답이 이 글을 시작한 이유이며, 암흑물질을 언급한 이유이기도 하다. 게놈 정보 안에도 우리가 이해하지 못할 암흑물질에 해당하는 많은 정보들이 들어있다는 것이다.

인간게놈이 어떻게 구성되어 있는 지 마저 설명해야겠다. 전체 게놈의 1% 정도만이 전사를 통해 RNA 형태로 복사된다. 즉 이들은 단백질에 대한 정보이거나 non-protein coding RNA (줄여서 ncRNA) 정보이다. ncRNA는 최근에야 집중적으로 연구되면서 많은 연구자들의 관심을 끌고 있는데 유전자 발현을 조절하는 것으로 생각된다. micorRNA로 각광을 받고 있는 서울대 생명과학부 김빛내리 박사의 연구주제도 큰 틀에서는 ncRNA이다. 전체 게놈의 0.5%는 전사체를 전사할 것인지 말 것인지를 결정하는 promoter 부위에 해당한다. 이를 통칭해서 DNA element라 한다. 이제 나머지 98.5%의 게놈은 무엇하는 놈일까? 이것이 게놈 상의 암흑물질이라 비유되고 있다1. 전체 게놈의 5% 정도는 그 기능이 무엇인지는 모르지만 개, 소, 쥐를 포함한 포유동물들에 잘 보존되어있는 염기서열이라 한다. 무언가 기능이 있을 것이기에 서로 다른 포유동물에서 진화적으로 보존된 것일 것이다. 여전히 기능을 모른다는 관점에서는 암흑물질의 일부일 수밖에 없다.

인간게놈의 구성 요소 중 기능을 이해하는 부분은 1% 조금 넘는 정도에 지나지 않지만, 형태적으로는 그래도 꽤 많이 알고있는 편이다. 전체 게놈의 약 50% 정도는 반복서열로 분류되는데, 이는 수십 염기쌍에서 수천 염기쌍에 이르기 까지 다양한 길이의 염기서열 조각이 염색체의 여기저기 반복되어 산재해 있는 DNA 조각이다. 이들은 형태적 특성에 따라 satellite DNA, microsatellite, SINE (short interspersed nuclear elements), LINE (long interspersed nuclear elements) 등으로 분류된다. 2개의 염기가 반복되어있는 2염기쌍 반복 서열도 흥미롭다. 예로서 GAGAGA.... 염기서열이 반복되어 있는 서열을 들 수 있다. 이런 서열은 반복 횟수가 사람의 가계마다 특징적으로 나타나기 때문에 유전자 지도를 그릴 때 marker 로 활용되기도 한다.

반복서열 중에는 transposon이나 그 역사적 흔적도 포함된다. Transposon이란 미국 여성유전학자이며 노벨상 수상자이기도 한 Barbara McClintock 여사에 의해 발견된 염색체 상을 마구 옮겨 다니는 mobile genetic element이다. 이들은 염색체상의 한 부위에서 다른 부위로 옮겨갈 때 깔끔하게 옮겨가지 않고 일부만 옮겨가기도 하고 주변의 다른 유전자를 끌고 가기도 하기 때문에 옮겨갈 때 흔적을 많이 남겨놓는 지저분한 놈이다. 일반적으로 진화과정에서 transposon은 점차 숫자가 늘어나 거의 대부분의 생물체는 엄청난 양의 transposon을 가지고 있다. Dawkins 교수가 주장하는 맹목적 복제 유전자 개념에 가장 잘 맞아 떨어지는 놈이다. 인간의 경우에도 무려 44%의 게놈이 transposon 혹은 그 흔적 DNA이다.

마지막으로 언급할 가치가 있는 게놈 속의 반복서열로는 염색체의 구조적 특성을 부여하는 염색체 말단 부위(telomere)의 반복서열과 중심체(centromere) 부위의 반복서열이다. 이들은 DNA 복제 및 세포분열과정에 염색체의 구조를 일정하게 유지하기 위해 필요한 부분이다.

게놈에 대한 기능적, 구조적 분석이 꽤 오랫동안 이루어져 왔지만 여전히 게놈 속에는 암흑물질이라고 할 수 밖에 없는 많은 부분이 있다. 우주 공간의 96%가 실체를 알 수 없는 암흑물질과 암흑에너지로 채워져 있듯이 98.5%의 게놈이 기능을 알 수 없는 부분으로 이루어져 있다. 이들의 기능을 전체적으로 이해해야만 우리가 생명체를 완전히 이해하는 게 될 것이다. 전체적으로 게놈을 이해하려는 노력의 일환으로 제안된 프로젝트가 ENCODE project이다. ENCODE란 Encyclopedia of DNA Elements의 약어로서 유전자의 구조나 형태, promoter 부위에 대한 분석을 포함하여 histone code에 대한 게놈 수준의 분석, DNA methylation pattern, microarray를 통한 유전체 분석 등을 망라한다. 한 생명체에 대한 총체적인 분석을 통해 게놈을 이해하고자 하는 프로젝트인데, 인간에 대한 ENCODE project 가 진행되고 있는 시점에서 비교적 단순하며 모델생물체로 활용되는 예쁜꼬마선충과 초파리에서 modENCODE 프로젝트의 결과가 2010년 해가 넘어가기 직전 Science 지에 발표되었다(1). 인간 게놈을 이해하기 위한 좋은 platform으로 활용될 수 있을 것이다.

2011년 2월 20일

Reference;
1. Revealing the dark matter of the genome. Science (2010) 330; 1758-1759.

 첨부파일 (1개)

댓글 (0개 )

  • 이름
  • 비밀번호