728x90
반응형
  • Machine Learning

Elsevier는 과학, 기술 및 의료 콘텐츠를 전문으로 하는 네덜란드 출판 및 분석 회사에요. 회사는 거대한 과학 콘텐츠 네트워크를 query하기 위해 Neo4j 그래프 기술을 기반으로 하는 C-Graph(Core Citation Graph) 프로젝트 작업을 시작했는데요. 데이터 셋에는 기사, 저자, 조직, 저널, 서적, 그리고 이들 간의 link가 포함되어 수십억 개의 node network를 형성한답니다.

COVID-19 위기가 닥쳤을 때 프로젝트는 아주 잘 진행되고 있었다고 해요.

Elsevier는 약물과 백신을 연구하는 연구자들을 돕기 위해 정말 많은 노력을 기울이고 있어요. 코로나19에 대한 모든 독점 연구 논문을 작성하는 것으로 시작해서 연구자 지원에 빠르게 대응했죠. SCOPUS 및 ScienceDirect 플랫폼에서 연구자들이 자유롭게 자료를 이용할 수 있도록 했답니다.

그러던 중 Elsevier의 데이터 과학자이자 Neo4j 챔피언인 Finlay MacLean이 C-Graph 프로젝트에 사용되는 그래프 기술을 코로나19 연구에 적용하자는 아이디어를 냈어요. Neo4j 기술이 코로나19와 관련된 공개된 오픈소스 데이터를 기반으로 Knowledge Graph를 생성하는 데 도움이 될 거라는 게 금방 명확해졌죠.

시장 출시 시간 단축

환자에게 약물을 신속하게 전달하는 게 정말 중요하기 때문에, 연구자들은 이미 FDA 승인을 받은 약물에 집중하고 있어요. FDA를 통해 약물을 테스트하고 승인받는 데는 10년 이상이 걸리지만, 이미 승인된 약물의 용도를 변경하려는 시도는 훨씬 더 짧거든요.

그래프 기술을 통해 Elsevier는 다중약리학 모델을 구축하고, 기존 승인 약물의 어떤 조합이 코로나19 환자에게 더 큰 혜택을 줄지 예측할 수 있었어요.

Elsevier 팀은 치료 표적이 될 수 있는 근본적인 분자 메커니즘을 조사하는 동시에, SARS-CoV-1 및 MERS-CoV와 같은 다른 코로나바이러스와 관련된 주요 단백질과 약물의 상호 작용을 파악하는 데 관심을 돌렸답니다.

코로나19에 대한 데이터가 거의 없었기 때문에 Elsevier 데이터 과학자들은 과학자들이 코로나바이러스인 MERS 및 SARS에 의해 증가하거나 감소한 것으로 밝혀진 인간 단백질을 찾는 쿼리를 실행했어요.

Elsevier 데이터 과학자들은 SARS와 MERS가 활성화한 단백질을 하향 조절하거나 비활성화할 수 있는 약물을 확인했죠. 데이터는 Graph Database에서 연구된 약물, 단백질, MERS 및 SARS 질병 사이의 연관성을 보여줘요. Neo4j 그래프 플랫폼을 사용하면 이러한 Machine Learning을 구축하는 데 필요한 데이터를 수집하는 게 정말 쉬워요.

Elsevier 과학자들은 연구원들이 몇 주 만에 코로나19의 기계적 경로를 이해하는 데 도움이 되는 단순화된 그래프를 생성할 수 있었어요. Neo4j가 없었다면 이 작업은 몇 달이나 걸렸을 거예요.

어떤 경우에는 여러 가지 치료법을 병용했을 때 부작용이 너무 심각해서 환자가 치료를 통해 얻는 이점보다 더 큰 경우도 있어요. 약물의 이상적인 조합은 심각한 부작용 없이 바이러스가 코로나19 환자에게 미치는 영향을 중화할 수 있을 거예요.

일반적인 관계형 데이터베이스는 효과적이고 안전한 약물 조합을 실시간으로 식별하는 데 관련된 복잡한 데이터 상호 의존성을 처리하기 어려워요. 하지만 그래프 기술을 사용하면 이러한 종속성을 쉽게 찾아낼 수 있답니다.

Elsevier는 HGNC 및 Uniprot 데이터베이스와 같은 검토된 데이터베이스에서 외부 식별자에 연결된 단백질의 식별자를 사용했어요. 원본 PubMed 식별자에 대한 링크를 제공해서 추출된 정보의 출처를 보존했죠.
이제 데이터 세트를 무료로 다운로드하고 탐색할 수 있어요. 멘델리에서요. Elsevier의 데이터 세트를 공개적으로 사용 가능한 다른 데이터베이스와 병합하려는 사람은 누구나 그렇게 할 수 있어요. 식별자가 공유되기 때문이죠.

코로나19를 넘어 과학 연구 발전

코로나19는 단순한 바이러스성 질병이 아니에요. 코로나19에만 국한되지 않는 모든 종류의 면역학적 효과를 유발하죠. 앞으로 Elsevier는 그래프 기술을 사용해서 다른 유형의 면역 질환에 대한 연구를 지원할 것으로 기대하고 있어요. Neo4j 기반 플랫폼은 비용이 많이 들고 느리며 유지 관리가 어려운 시스템을 대체했답니다. 이전에는 Elsevier가 쿼리 처리에 90개의 노드를 사용했는데, Neo4j 플랫폼이 하루에 3억 개의 데이터 포인트와 100만 개의 업데이트를 처리하는 데는 9개만 필요해요.

그래프 기술을 사용하면 더 쉽고 빠르게 연결해서 지속적인 업데이트를 유도하고, 구독자에게 관심 있는 기사에 대해 훨씬 더 관련성이 높은 알림을 생성할 수 있어요. Neo4j를 사용하면 쿼리 메트릭을 변경하거나 다른 쿼리를 실행하는 게 간단해요. 모델이나 데이터 저장 방식을 변경할 필요가 없죠. 사용자는 플랫폼의 단순성에 빠르게 익숙해졌고, 매일 새로운 사용 사례를 찾고 새로운 링크와 연결을 발견하고 있답니다.

Elsevier는 C-Graph를 더욱 발전시켜 Citation 네트워크를 연구 네트워크로 확장할 계획이에요. 또한 검색 결과에 대해 보다 유용한 그래프 기반 순위를 제공하기 위한 작업도 시작되었어요. 이러한 방식으로 과학적 발견을 가속화하고 향상시키는 궁극적인 목표를 가지고 더 많은 연구자들에게 더 많은 표적화된 통찰력을 제공할 계획이랍니다.

이 백서를 읽어보세요그래프 기반 검색의 힘, 더 많은 통찰력과 관련 데이터베이스 쿼리를 위해 그래프 데이터베이스 기술을 활용하는 방법을 배웁니다.

그래프 기반 검색 살펴보기

자원

  • Elsevier가 Neo4J를 사용하여 코로나19에 대한 과학 연구를 지원하는 방법에 대한 자세한 내용을 보려면 다음을 방문하세요.엘스비어 코로나바이러스 연구 허브.
  • 혹시 놓치셨다면 Elsevier가 Neo4j를 어떻게 사용하는지 자세히 알아보세요.이 주문형 웨비나에서는.
  • 코로나 19
  • Machine Learning

에이치시스템즈LogTree는 Neo4j 기반 GraphRAG 플랫폼으로, 데이터를 자동으로 지식그래프화하고 자연어 질의로 즉시 답을 제공합니다.

👉 에이치시스템즈 홈페이지

728x90
반응형

+ Recent posts