데이터 파이프라인 심층 분석: Knowledge Graph를 활용한 데이터 리니지 추적

거버넌스, 메타데이터 관리, 데이터 통합 분야에서 오랫동안 일해왔는데요, MANTA Software에서 2년 넘게 데이터 계보에 집중하고 있어요. 이번 블로그에서는 특히 거버넌스 및 규정 준수를 위한 데이터 계보 구현에 대해 이야기해볼까 해요. 먼저 데이터 계보가 무엇인지 정의하고, 몇 가지 사용 사례를 공유할게요. 그리고 MANTA에 대해서도 간단히 소개해 드릴게요.

데이터 계보란 무엇일까요?

데이터 계보(Data Lineage)는 기업 전체에서 데이터가 어떻게 흘러가는지 추적하는 기능인데요, 계보를 이해한다는 건 데이터가 어디에서 왔고, 어디로 가는지, 그리고 그 과정에서 어떤 일이 일어나는지 파악하는 것을 의미해요. 자산에 대한 더 나은 통찰력을 얻고, 그 자산이 조직의 모든 파이프라인에 어떤 영향을 미치는지 이해하는 건 정말 중요하죠.

데이터 계보를 달성하기 어려운 이유는 뭘까요?

데이터 계보를 달성하기 어려운 이유는 여러 가지가 있어요.

비즈니스 및 기술 관점: 주로 비즈니스 사용자인 많은 분들은 한 애플리케이션에서 다른 애플리케이션으로 데이터가 흘러가는 방식에 대한 높은 수준의 정보를 보고 싶어해요. 예를 들어 데이터가 특정 대륙의 한 지역에서 다른 지역으로 흘러갈 수도 있고, 기업 데이터 레이크에서 나와 위험 시스템으로 유입될 수도 있죠.
세부 정보 수준: 비즈니스 사용자들이 높은 수준에서 데이터 계보를 확인하고 싶어한다는 점 때문에 어휘 충돌이 발생할 수 있어요. 어떤 분들은 개별 데이터베이스와 Schema, SQL 구문을 보면 완전히 압도될 수 있지만, 기술적인 분들은 코드에 실제로 무엇이 있는지 이해할 수 있도록 모든 걸 보고 싶어하죠. 특히 코드를 작성한 사람이거나, 오래 사용되어 온 레거시 코드라면 더더욱 그럴 거예요.
범위: 코드는 너무 자주 변경돼요. 2000년에 작성한 데이터베이스 애플리케이션이나, 현재 클라우드에 있는 ETL 작업 내의 개별 SQL 문을 살펴보는 건 높은 수준에서 데이터를 보는 것과는 차원이 다른 문제죠. 때로는 데이터 레이크와 데이터가 어떻게 흘러가는지 보고 싶을 때도 있고요.

계보를 수행하는 게 왜 중요한지 사용 사례를 통해 한번 살펴볼까요?

사용 사례 1: DataOps

DataOps는 데이터 파이프라인이 안정적으로 계속 돌아가도록 하는 모든 활동을 말해요. 경영진은 월요일 아침에 보고서를 보러 갔는데 데이터가 없는 백지 상태로 표시되는 걸 원하지 않겠죠. 설계자나 DBA는 계보를 보고 이걸 정의하려고 시도할 수 있어요. 누군가 특정 알고리즘을 변경하려고 할 때, 다운스트림에 문제가 생기지 않는지 확인하는 거죠.

클라우드 마이그레이션은 모든 시스템의 인벤토리를 확보하는 과정이에요. 레거시 애플리케이션이 있다면 클라우드로 전환하기 전에 먼저 이해해야 하죠. 76개의 보고서 중에 사람들이 실제로 사용하는 보고서는 4개뿐일 수도 있어요. 그렇다면 사람들이 실제로 어떤 측면에 관심을 갖는지 확인하기 위해 계보를 작성해 보는 거예요.

사용 사례 3: 데이터 품질
데이터 품질 측면에서 계보는 인프라 내에서 데이터 품질 문제의 원인을 찾으려고 노력하는 과정이에요.

사용 사례 4: 거버넌스 및 규정 준수
저는 특히 거버넌스와 규정 준수에 집중하고 싶어요. 규정 준수는 모든 기업이 정부 또는 업계 규제 기관에 직면하게 만들죠. 새로운 개인 정보 보호 규칙 때문에 모든 업계가 규제 문제에 대응하고 있어요. 기업은 개인 정보 보호 데이터가 조직 내에서 어떻게, 어디서 흘러가는지 정확히 이해해야 해요. 누군가 잊어달라고 요청하면 정확히 어떤 데이터베이스를 조사해야 하는지 알아야 하죠. 회사가 알아야 할 위반을 야기했다는 이유로 나쁜 평판을 얻거나 헤드라인에 등장하는 걸 원하지 않으니까요.

계보는 보통 수동으로 수행되기 때문에 규제 기관 마감일을 제때 맞추기가 어려워요. 게다가 모든 걸 올바르게 하고 있다고 해도 그걸 증명할 방법이 없죠.

많은 사이트에서 데이터 관리에 대한 용어집과 공통된 이해를 제공하는 등의 작업을 하기 위해 거버넌스 솔루션에 계보를 도입하고 있어요. 거버넌스는 보통 다리가 세 개 달린 의자라고 할 수 있죠. 좋은 거버넌스는 이 세 다리가 튼튼해야 가능해요. 첫 번째 단계는 데이터를 이해하고 올바르게 정의하는 거예요. 두 번째 단계는 데이터를 확인하고 정확하게 프로파일링할 수 있도록 데이터 품질을 확보하는 거죠. 세 번째 다리가 바로 계보예요. 계보가 없으면 거버넌스 솔루션은 제대로 작동하기 어렵죠.

거버넌스는 신뢰에 관한 문제예요. 데이터를 신뢰한다는 건 데이터 과학 모델이나 표준 보고서 내에서 데이터를 볼 때 해당 데이터가 올바르게 처리되고 신뢰할 수 있다는 확신을 갖는다는 의미죠.

계보 파이프라인의 맥락에서 데이터 품질 문제를 식별할 수 있다면 문제 해결의 우선순위를 정하는 데 도움을 받을 수 있어요. 모든 사람이 데이터 품질 문제를 안고 있지만, 데이터 계보에서 확인할 수 있는 데이터 품질 문제가 있고 그 문제가 영업 및 자원 조달 결정을 위해 수익 담당 VP에게 전달되는 보고서에 영향을 미친다면 그건 정말 큰 문제겠죠. 인사 관리 애플리케이션의 주차권에 영향을 미치는 파이프라인의 문제보다 훨씬 심각한 문제일 거예요. 데이터 품질 문제를 보고 있고, 그 문제가 계보의 맥락 안에서 모두 표시된다면 어떤 문제를 먼저 해결해야 할지 우선순위를 정할 수 있는 더 나은 기회를 갖게 될 거예요.

해당 파이프라인에 대한 신뢰를 갖는 건 거버넌스 및 규정 준수의 가장 큰 목표 중 하나예요. 보고서나 스프레드시트를 보다가 빨간색으로 표시된 내용에 동의하지 않는 부분이 있다면 이의를 제기하고 싶어지겠죠. 누구와 이야기해야 할까요? 데이터는 어디서 왔을까요? 얼마나 최근에 업데이트되었을까요? 데이터 계보는 거버넌스 메시지에 대한 중요한 답변을 제공해 줘요.

우리는 거버넌스 이니셔티브의 범위를 더 정확하게 정의해야 해요. 모든 걸 통제하려는 사이트를 너무 자주 보게 되는데, 감당할 수 없을 만큼 많은 걸 시도하고 바다 전체를 끓이려고 하죠. 계보를 사용하면 거버넌스가 가장 필요한 팀으로 이동해서 보고서를 찾은 다음 계보를 사용해서 시작 위치를 결정할 수 있어요. 회사 내 어떤 그룹부터 시작할지 고민한 뒤, 어떤 자원을 투입할 것인지 계보를 수행하는 거죠.

저는 신뢰를 위한 업스트림 계보에 대해 이야기했지만, 특히 다운스트림으로 가면 개인 정보 보호 데이터 노출에 대해 이야기할 때 잠재적으로 숨겨진 악몽을 모두 발견하게 될 거예요.

MANTA에서는 무엇을 하나요?

MANTA에서는 엔드투엔드 계보를 제공해서 고객을 돕고 있어요. 엔드투엔드(end-to-end)라는 건 메인프레임 소스는 물론 운영 시스템과 데이터 웨어하우스까지 살펴볼 수 있다는 의미예요. 아마도 이들 중 특정 측면은 보고되는 Snowflake와 같은 클라우드 데이터베이스로 이동하기 전에 연구되는 Hadoop과 같은 곳으로 수년에 걸쳐 가져와졌을 거예요. 엔드투엔드 계보는 시각적으로 모든 걸 볼 수 있다는 의미죠.
MANTA는 코드를 살펴보고 사용자 정의 SQL, ETL 작업, 비즈니스 인텔리전스 보고서를 분석하고 그 과정에서 계보를 문서화해요. 클릭할 때 데이터가 어떻게 흘러가는지 확인할 수 있는 대화형 색상 코드 지도를 통해 해당 계보를 시각화하죠. 또는 사람들이 타사 거버넌스 도구를 사용하는 경우 계보 정보를 해당 솔루션에 푸시해서 다리가 세 개인 의자를 만들 수도 있어요.

이상으로 계보에 대한 간단한 설명을 마칠게요! 이 블로그를 통해 거버넌스 및 규정 준수를 위해 데이터 계보를 사용하는 방법과 데이터에 대한 신뢰를 구축하는 게 왜 중요한지 소개할 수 있었으면 좋겠어요. 데이터가 정확하고 신뢰할 수 있을 때만 가능한 일이죠.

에이치시스템즈의 LogTree는 Neo4j 기반 GraphRAG 플랫폼으로, 데이터를 자동으로 지식그래프화하고 자연어 질의로 즉시 답을 제공합니다.

제품 DNA 해독: AI & Knowledge Graph로 PDM을 한 단계 업그레이드하다 (1)	2026.06.17
데이터 모델링, 핵심만 짚어드립니다 (0)	2026.06.17
5분 인터뷰: 파이낸셜 타임즈의 시니어 메타데이터 DevOps, Dan Murphy를 만나다 (0)	2026.06.16
Tom Sawyer Perspectives로 범죄 네트워크 분석하기 (0)	2026.06.16
NASA의 숨겨진 역량, Neo4j 지식 그래프와 그래프 알고리즘으로 찾다 (3)	2026.06.15

Graph Note