반응형

편집자 주: 이 프레젠테이션은 Alexander Jarasch가 GraphConnect San Francisco 2016년 10월에 발표한 내용이에요.

프레젠테이션 요약

Alexander Jarasch는 독일 당뇨병 연구 센터의 데이터 및 지식 관리 책임자예요. Jarasch는 다양한 분석가들의 연구 결과를 통합하고, 이 정보를 활용해서 당뇨병을 더 효과적으로 예방하고 치료하는 데 힘쓰고 있다고 해요.

이번 프레젠테이션에서 Jarasch는 인간 당뇨병의 진화에 대해 이야기하는데요. 먼저 “당뇨병이 뭐죠?”라는 질문에 간단하게 답하고, 독일 당뇨병 연구 센터의 목표를 설명해요.

그리고 당뇨병 예방과 당뇨병에 효과적으로 대처하는 방법에 대해 소개하면서 데이터 문제를 짚어주죠.

독일 당뇨병 연구 센터가 가진 특별한 과제는 수많은 과학자와 연구자들이 각기 다른 관점에서 데이터를 바라본다는 점인데요. 이 모든 정보를 효율적으로 연결하고 통합해야 하죠. 이 데이터 수집에는 동종 데이터와 이종 데이터, 메타데이터 등이 포함돼요. 그래서 Graph Database를 선택한 건 정말 합리적인 결정이었죠.

프레젠테이션에서는 실제 사례를 통해 당뇨병의 대사적 특성을 설명하기도 해요.

마지막으로 Jarasch는 센터 연구에서 Graph Database의 미래에 대한 전망을 제시하며 마무리해요.

전체 프레젠테이션

안녕하세요, 저는 Alexander Jarasch입니다. 독일 당뇨병 연구 센터 뮌헨 본부에서 왔어요. 오늘은 저희가 어떻게 Graph Database와 그래프를 이용해서 당뇨병과 싸우고 있는지 이야기해 보려고 해요.

진화

Evolutionary advantages become disadvantages

공룡 시대, 슈퍼마켓이 없던 시절에는 에너지를 저장하는 유전적 이점이 있었어요. 음식이 부족할 때를 대비해서 에너지를 지방으로 저장했던 거죠.

하지만 이런 과거의 장점은 현대에는 단점이 되어버렸어요. 지금은 어디든 슈퍼마켓이 있고, 음식도 풍족하죠. 그런데도 우리는 여전히 많이 먹고, 지방은 계속 쌓여서 과체중이나 비만이 되기 쉬워요. 비만은 당뇨병을 유발하기 때문에 문제가 되는 거죠.

당뇨병이란 무엇입니까?

What is diabetes

당뇨병은 대사 질환이에요. 어떤 경우에는 췌장에서 인슐린 생산이 급격히 줄어들기도 하고, 또 다른 경우에는 몸이 인슐린에 제대로 반응하지 못하기도 해요.

인슐린은 혈액에서 당분을 제거하는 데 필요한 호르몬이자 단백질인데요. 혈액에 당분이 많으면 근육 세포나 간 세포로 흡수되는 양이 줄어들어요. 혈관에 당분이 계속 남아있는 상태를 저혈당증이라고 부르죠.

당뇨병은 정말 무서운 합병증을 동반하고, 안타깝게도 현재로서는 완치가 불가능해요. 치료만 가능하다는 점이 아쉽죠.

당뇨병의 종류를 이야기할 때, 크게 네 가지 주요 유형이 있어요:

  • 제1형 당뇨병
  • 제2형 당뇨병
  • 임신성 당뇨병 (임산부에게 나타나는 당뇨병)
  • 현재 연구 중인 추가 형태

아래 오른쪽 그림은 건강한 신체의 모습이에요. 췌장에는 작은 녹색 점으로 표시된 인슐린을 생산하는 세포가 있죠. 위를 보면 설탕이 혈관으로 들어가는 걸 볼 수 있어요. 그러면 인슐린이 작용하게 되는데요. 모든 것이 제대로 작동하면 설탕이 간이나 근육 세포로 전달된답니다.

graph-fight-diabetes-jarasch-graphconnect.jpg

환자의 약 5%를 차지하는 제1형 당뇨병의 경우에는, 이 인슐린 생산 세포가 면역 체계에 의해 파괴돼요. 이 과정에는 대략 20개의 유전자가 관여한다고 해요. 이건 생활 방식과는 무관한 유전자 결함이라서, 환자들은 평생 동안 외부 인슐린 공급원에 의존해야 하죠.

graph-fight-diabetes-jarasch-graphconnect.jpg

제2형 당뇨병은 국가에 따라 환자의 약 90~95%를 차지할 정도로 흔해요. 세포는 인슐린을 생산하지만, 어떤 이유에서인지 인슐린 저항성이 생기는 거죠. 생산은 되지만 신체가 제대로 반응하지 않는 거예요. 일반적으로 사람들은 자신이 당뇨병을 앓고 있다는 사실을 잘 모르는 경우가 많아요. 이 과정에는 150개 이상의 유전자가 관여하며, 이는 당뇨병에 걸릴 위험을 증가시킨다고 해요.

당뇨병 진단을 부추기는 안 좋은 조합들이 있어요.

  • 유전적 소인을 가지고 있는 경우
  • 적절한 신체 활동이 부족한 경우
graph-fight-diabetes-jarasch-graphconnect.jpg

전 세계적으로 당뇨병을 앓고 있는 사람은 4억 명이 넘는다고 해요. 예전에는 노년층의 질병이라고 생각했지만, 실제로는 전체 환자의 3분의 2가 근로 연령대에 속해 있다는 사실!

게다가 진단을 받지 못한 당뇨병 환자가 2억 명이나 더 있다고 하니, 정말 심각한 문제죠. 당뇨병(대부분 1형 당뇨병)을 앓고 있는 어린이도 백만 명이 넘는다고 해요. 전체 의료 비용의 12%가 당뇨병으로 인해 발생한다니, 우리가 꼭 해결해야 할 심각한 문제임에 틀림없어요.

graph-fight-diabetes-jarasch-graphconnect.jpg

미국만 놓고 봐도 당뇨병 환자가 3천만 명이나 된다고 해요. 이 숫자는 매년 증가하고 있다니 걱정이에요. 당뇨병 전증 환자는 무려 8,500만 명에 달하며, 이로 인해 고통받는 사람들의 생산성 감소로 연간 900억 달러의 손실이 발생한다고 하네요.

graph-fight-diabetes-jarasch-graphconnect.jpg

1985년부터 2009년까지의 데이터를 요약한 차트인데요. 시간이 지날수록 점점 숫자가 늘어나고 있어서, 당뇨병에 걸리거나 비만으로 고통받는 사람들이 점점 더 많아지고 있다는 걸 알 수 있어요.

graph-fight-diabetes-jarasch-graphconnect.jpg

사실 당뇨병 자체보다는 합병증이 더 큰 문제예요. 사람들은 합병증 때문에 목숨을 잃는 경우가 많거든요. 뇌졸중이나 심장마비 같은 것들이죠. 모든 심장마비의 3분의 1은 당뇨병 때문에 발생한다고 해요. 사지의 신경이나 혈관이 손상되거나, 신장 문제, 심지어 당뇨병 때문에 발을 절단해야 하는 경우도 모두 당뇨병으로 인한 합병증이에요.

당뇨병은 정말 복잡한 질병이에요. 신진대사에 영향을 미치고, 췌장에도 영향을 주죠. 또한 환경이나 생활 방식, 유전학 또는 후생유전학에 따라서도 달라지는 세포 과정이기도 해요.

graph-fight-diabetes-jarasch-graphconnect.jpg

가장 큰 문제 중 하나는 환경과 생활 방식이에요. 여러분의 생활 방식은 다음 세대에게도 영향을 미치거든요. 쥐 실험이나 인간 쌍둥이 연구를 보면, 유전적으로 동일하더라도 DNA에 있는 후성유전학적 표지 때문에 차이가 나타나는 걸 알 수 있어요. 이로 인해 당뇨병이 발생하고, 심지어 다음 세대로까지 전이될 수 있다는 점이 정말 심각하죠.

graph-fight-diabetes-jarasch-graphconnect.jpg

저희 연구팀이 쥐를 대상으로 실험을 진행했어요. 일부 쥐에게는 정상적인 식단을, 다른 쥐에게는 고지방 식단을 제공했죠. 그런 다음 교배를 진행하고 그들의 자손을 관찰했는데요. 다음 세대는 과체중이 되었고, 이 과체중으로 인해 당뇨병 위험이 급격히 증가하는 것을 확인했어요.

우리는 누구인가

저희는 독일 당뇨병 연구 센터에요. 연방 기관이자 학술/비영리 조직이고요. 연방 교육 연구부와 주정부로부터 자금을 지원받고 있어요.

뮌헨, 튀빙겐, 뒤셀도르프, 베를린, 포츠담, 드레스덴에 5개의 주요 파트너가 있고, 관련 파트너를 포함해서 기초 연구부터 대학 병원까지 다양한 분야에서 약 400명의 연구원이 함께하고 있어요.

저희 연구 분야는 영양, 예방, 유전학, 집단 연구 및 기초 연구인데요. 주요 목표는 당뇨병을 예방하고 당뇨병을 더 잘 치료하며 합병증을 예방하는 것이에요.

당뇨병 예방

graph-fight-diabetes-jarasch-graphconnect.jpg

저희는 1형, 2형 또는 현재 조사 중인 다른 새로운 유형의 당뇨병을 예방하고자 해요. 더 나아가 지능적인 알고리즘으로 환자를 식별하고 개별화된 방식으로 치료하고 싶어요.

당뇨병과 싸우는 방법

일반적인 연구원의 경우 조직 내의 정보와 데이터를 찾는 데 어려움을 겪는데요. 마치 건초 더미에서 바늘을 찾는 것과 같죠. 안타깝게도 저희 병원과 기초 연구에는 건초 더미가 너무 많아요.

데이터 문제

graph-fight-diabetes-jarasch-graphconnect.jpg

일반적으로 "어떤 혈액 샘플을 가지고 있나요?" 또는 "간에서 무엇을 측정했나요?"와 같은 간단한 질문에서부터 시작하는데요. 이러한 질문에 답하기가 점점 더 어려워지고 있고, 쿼리도 더욱 복잡해지고 있어요.

graph-fight-diabetes-jarasch-graphconnect.jpg

이러한 데이터 문제는 원래 서로 다른 기술을 가진 세 개의 조직이었기 때문에 발생했어요. 하지만 저희는 모두 같은 고객, 즉 당뇨병 환자를 위해 일하고 있었죠.

graph-fight-diabetes-jarasch-graphconnect.jpg

하지만 모두 이 당뇨병 환자를 조금씩 다르게 바라봤어요. 동물 모델로 보는 사람도 있고, 현미경 사진으로 보는 사람도 있고, 대사 산물을 보는 사람도 있었죠.

이제는 고객을 새로운 방식으로 바라보고 다양한 유형의 데이터를 결합해야 해요. 게다가 이는 데이터를 공유해야 함을 의미하죠.

graph-fight-diabetes-jarasch-graphconnect.jpg

이제 최대한 다양한 관점에서 고객을 바라봐야 하고, 이는 데이터를 하나로 연결해야 한다는 것을 의미해요.

두 가지 옵션이 있는데요. 한 가지 옵션은 모든 데이터베이스를 별도로 개발하는 것이에요.

graph-fight-diabetes-jarasch-graphconnect.jpg

별도의 데이터베이스를 사용하는 것은 좋은 생각이 아니에요. 그래서 저희는 새로운 레이어를 만들고 싶었고, 연결된 데이터를 선택했어요.

graph-fight-diabetes-jarasch-graphconnect.jpg

이것이 바로 우리가 DZDConnect라고 부르는 거예요. 이건 Graph Database인데, 이 Graph Database가 우리와 연구자들이 생물의학적 질문에 답하는 데 도움을 주고 있어요. 이런 질문들은 여러 위치에서 답변될 수 있죠. 말씀드린 것처럼, 독일에는 10개 이상의 지점이 있고, 학문 분야와 종을 넘나들며 질문에 답할 수 있답니다.

이 데이터베이스는 확장 가능해야 해요. 우리가 Graph Database를 좋아하는 주된 이유 중 하나는 데이터 시각화 기능 때문이기도 하고요.

동종 및 이종 데이터

graph-fight-diabetes-jarasch-graphconnect.jpg

우리는 이질적인 데이터와 동질적인 데이터를 다루고 있어요. 데이터 보안상의 이유로 원시 데이터는 건드리지 않죠. 다양한 위치의 데이터를 분류하고 라벨을 붙인 다음, 환자 데이터를 연결해서 서로 연결되도록 해요. 결국 이걸 단일 레이블로 줄이면 데이터가 그래프 모델과 비슷해지기 시작한답니다.

graph-fight-diabetes-jarasch-graphconnect.jpg
graph-fight-diabetes-jarasch-graphconnect.jpg

왜 그래프인가?

graph-fight-diabetes-jarasch-graphconnect.jpg

우리가 그래프를 좋아하는 첫 번째 이유는, 어쨌든 생물학 자체가 연결되어 있기 때문이에요. 모든 데이터와 생물학은 연결되어 있죠. 우리 연구원들은 이해하기 쉬워서 그래프를 좋아해요. 데이터 모델이 컴퓨터 과학자가 아니더라도 사람이 읽을 수 있을 정도로 직관적이거든요. 게다가 쿼리도 쉬워요. 일반 SQL보다 쿼리하기가 훨씬 쉬운 것 같아요.

그래프는 확장성과 적응력도 뛰어나요. 새로운 분야, 새로운 영역, 새로운 위치가 생기면 그래프 모델을 쉽게 적용할 수 있죠. 이렇게 확장하면 정말 멋진 시각화를 얻을 수 있답니다.

데이터에 대해 이야기할 때, 현재는 메타데이터를 포함하고 있어요.

graph-fight-diabetes-jarasch-graphconnect.jpg

위에 보이는 건 예비 데이터 모델이에요. 아주 큰 홉(hop)은 실험이죠. 우리는 연구자들이라서 실험을 많이 하거든요. 이 실험에서는 다양한 기술이나 장치를 사용해서 여러 매개변수를 측정해요. 어떤 실험에서는 혈액이나 소변 같은 생체 샘플을 수집하기도 하고요. 전문가들이 검토한 과학 출판물 같은 데이터도 포함하고 있답니다. 이런 것들이 모두 우리 데이터 모델에 연결되어 있어요.

메타데이터의 예로는 미세한 이미지가 있을 수 있겠네요. 치수를 설정하고, 매개변수 이름, 단위, 측정 방법 등을 설정하는 거죠. 우리는 액체 질소에 바이오 샘플을 저장하는 바이오 샘플 데이터베이스도 가지고 있어요.

우리는 이 그래프를 확장하고 싶어요.

graph-fight-diabetes-jarasch-graphconnect.jpg

그래프를 확장하는 방법은 여러 가지가 있어요. 한 가지 옵션은 심혈관 질환이나 알츠하이머병 같은 다른 질병으로 확장하는 거죠. 공개적으로 이용 가능한 문헌 데이터베이스도 많이 있고요. 우리는 전자 연구 노트 데이터, 단백질 데이터베이스 데이터 등을 포함할 거예요. 또한 유전자, 단백질, 대사산물의 세계로 들어가는 특별한 사례 섹션도 만들 거고요.

graph-fight-diabetes-jarasch-graphconnect.jpg

Rush의 아주 멋진 포스터네요.

여기 보시는 건 신체의 모든 대사 경로를 요약한 거예요. 이제 우리는 파란색 상자에만 집중해 볼게요.

graph-fight-diabetes-jarasch-graphconnect.jpg

확대해서 보면 점점 복잡해지는 걸 알 수 있어요. 효소에 의해 대사되는 대사산물이 있고, 다른 대사산물 등에 의해 조절되죠. 이 데이터베이스는 정말 풍부하고 거대해요.

Knowing Health라는 뮌헨 Helmer Center의 스타트업 회사도 이와 동일한 문제를 다루고 있어요. 그들의 데이터 모델 역시 Neo4j를 사용해서 이러한 다양한 유전자, 전사물 및 단백질 세계를 연결하죠. Neo4j 데이터베이스는 엄청 커서 8억 개의 Nodes와 Relationships로 구성되어 있어요. 우리는 이 데이터베이스를 우리 데이터베이스에 포함시킬 수 있어요.

요약하자면, 우리는 그래프 기술을 사용해서 서로 다른 분야, 서로 다른 위치를 가지며 서로 연결되는 메타 데이터베이스를 구축하고 있어요.

graph-fight-diabetes-jarasch-graphconnect.jpg

예시

많은 의사들이 묻는 질문 중 하나는 "우리 임상 연구의 17차 방문에서 얼마나 많은 생체 시료를 확보했습니까?"에요.

graph-fight-diabetes-jarasch-graphconnect.jpg

이 임상 연구를 당뇨병 전단계 생활습관 중재 연구라고 해요. 우리는 이 생체 시료에 관심이 있어요. 우리는 그들이 그것을 어떻게 측정했는지 알고 싶고요. 이 질문은 대답하기가 쉽지 않아요.

이를 위해 우리는 특별한 데이터 모델을 구축했어요.

graph-fight-diabetes-jarasch-graphconnect.jpg

우리는 임상 연구를 진행하고 있고 환자들은 다양한 방문을 받아요. 이러한 방문에서 의사는 다양한 실험을 수행하고 매개변수를 측정하죠. 일부 방문에서는 저장되어 있는 생체 시료를 수집하고 그에 대한 데이터를 측정해요.

우리 의사들은 Neo4j Graph Database로 이동해요. 그들은 임상 연구를 받고 그것을 확장하고 여기 방문을 봅니다. 그런 다음 17번 방문을 찾아볼 수 있어요.

graph-fight-diabetes-jarasch-graphconnect.jpg

이제 상황이 복잡해지고 있음을 알 수 있어요. 분홍색으로 다양한 실험이 있고 회색으로 매개변수가 있고 노란색으로 바이오샘플이 있어요. 그렇기 때문에 이 질문에 대답하는 것이 너무 복잡한 거죠.

두 번째 예는 완전히 다른 것이에요.

graph-fight-diabetes-jarasch-graphconnect.jpg

여기서 우리는 다양한 종, 즉 인간과 당뇨병 전증 돼지 모델의 데이터를 연결하려고 해요. 우리는 인간의 제2형 당뇨병 유전자를 동물 모델에서 연구할 수 있는지 질문하는 거죠.

이 질문에 답하기 위해서는 여기 있는 모든 분야가 많은 사람들이 연구하는 서로 다른 연구 분야라는 것을 알아야 하고, 이들을 연결해야 해요.

graph-fight-diabetes-jarasch-graphconnect.jpg

이러한 유전자는 공개적으로 이용 가능한 다양한 데이터베이스를 통해 충족돼요. 이들은 효소로 변하고, 이 효소는 다양한 화합물을 대사하죠. 이는 데이터의 인간 부분이에요.

이제 당뇨병 전증 돼지에 대한 표적 대사체학 에세이가 생겼어요. 우리는 16개의 서로 다른 대사산물을 측정하고, 공개 데이터베이스에서는 이 16개의 대사산물이 31개의 식별자예요. 그런 다음 우리는 이러한 세트의 결합을 갖고 동물 모델과 인간 데이터 사이에서 7가지 화합물을 식별할 수 있다는 결과를 얻었어요.

이제 우리 연구원들은 당뇨병에 대한 새로운 통찰력을 얻기 위해 이러한 대사산물을 조사하고 있어요.

전망

전망은 어떨까요? 우리는 공개적으로 이용 가능한 문헌 데이터로 그래프를 확장하고 싶어요. Pubnet이라는 매우 큰 데이터베이스에 동료가 검토한 아래 기사가 있어요.

graph-fight-diabetes-jarasch-graphconnect.jpg

Pubnet에는 3천만 개의 텍스트가 있어요. 이 텍스트는 다양한 기본 연구 분야에 관한 것이며 누구도 더 이상 모든 텍스트를 읽을 수 없죠. 당뇨병을 찾을 때 읽을 수 있는 것은 병목 현상이에요. 우리는 유전자 이름을 배우거나 질병 또는 그에 대한 특정 용어를 배우기 위해 이러한 텍스트에 그래프 알고리즘을 적용함으로써 자동으로 이를 수행하고자 해요.

결국 우리는 많은 텍스트에 대해 이를 수행하고 텍스트 사이의 연결이 무엇인지 확인하고 싶어요.

graph-fight-diabetes-jarasch-graphconnect.jpg

여기 보라색 `Node`들은 Graphaware의 Natural Language Processing 절차를 거쳐 분석된 텍스트들이에요. 이걸 통해 서로 다른 연구 텍스트 간의 중복을 확인할 수 있죠.

저희는 이런 연관성을 찾고 싶어요.

graph-fight-diabetes-jarasch-graphconnect.jpg

심혈관 영향, 알츠하이머, 암, 전염병, 폐 질환 사이의 연관성도 찾고 싶고요.

여기 주황색 점들은 독일 당뇨병 연구 센터처럼 저희와 같은 기관들이에요. 당뇨병이나 다른 질병과 싸우기 위해 서로 연결되기를 바라고 있죠.

graph-fight-diabetes-jarasch-graphconnect.jpg

당뇨병이나 다른 질병의 다양한 하위 유형을 가진 사람들이 있고, 연구원, 의사, 진료소도 있어서 전문 지식을 갖추고 있어요. 이제 이걸 그래프 기술과 결합해서 더 잘 식별하거나 당뇨병의 새로운 하위 유형을 클러스터링해서 개별화된 치료나 예방을 제공하려고 해요.

이 센터는 곧 디지털 당뇨병 예방 센터(Digital Diabetes Prevention Center)라는 새로운 센터가 될 거예요.

graph-fight-diabetes-jarasch-graphconnect.jpg

저희는 사회의 사람들이 제공하는 엄청난 양의 데이터에서 패턴을 인식하고 싶어요. 데이터를 제공한 사람들에게 이익을 돌려주고, 사회 전체에도 이익을 주기 위해 지도 또는 비지도 Machine Learning 기술을 사용하려고 하죠.

제 생각에는 그래프 기술을 통해 당뇨병 예방과 치료에 새로운 차원이 열렸어요.

graph-fight-diabetes-jarasch-graphconnect.jpg

관계형 데이터베이스에서는 볼 수 없었던 이벤트들을 보게 돼요. 다양한 분야, 위치, 종을 연결하기 때문이죠.

graph-fight-diabetes-jarasch-graphconnect.jpg

자금 제공자, 연방 교육 연구부, 주정부에 감사를 표하고 싶어요. DZD의 모든 과학자들과 여기 주최측에도 감사의 말씀을 전하고 싶습니다. 그래프커넥트, 이렇게 좋은 회의를 열어주셔서 정말 감사해요.

 그래프 기술이 처음이신가요?

무료 사본을 받아보세요. 초보자를 위한 그래프 데이터베이스 eBook을 통해 그래프 데이터베이스 기술의 기본 사항에 대한 이해하기 쉬운 가이드를 받아보세요. 사전 지식이 필요하지 않아요.


에이치시스템즈LogTree는 Neo4j 기반 GraphRAG 플랫폼으로, 데이터를 자동으로 지식그래프화하고 자연어 질의로 즉시 답을 제공합니다.

👉 에이치시스템즈 홈페이지

반응형

+ Recent posts