누가 비욘세 점심 메뉴에 관심을 가질까? GraphRAG로 나만의 지식 그래프 구축하기

hsystems 2026. 4. 25. 09:44

2026. 4. 25. 09:44

편집자 주: 이 프리젠테이션은 Alicia Powers가 그래프커넥트 유럽 2016년 4월에 발표한 내용이에요. 그녀가 다룬 내용을 간단하게 살펴볼까요?

세계적인 비만 전염병
Data Model을 확인하는 방법
추천 엔진의 주요 구성 요소
추천 엔진이 식습관을 바꾸는 방법
비욘세처럼 먹는 법

–

저는 뉴욕에서 공공 정책 분야에 종사하는 데이터 과학자예요. 오늘은 제가 수행한 첫 번째 프로젝트를 살펴볼 건데요. 를 사용했고, 추천 엔진을 활용해서 사람들의 건강을 개선하는 프로젝트였죠:

제가 처음 프로젝트를 시작했을 때, 이루고 싶었던 세 가지 목표가 있었어요. 이해하기 쉬운 Data Model, 데이터를 쉽게 탐색하고 새로운 인사이트를 얻을 수 있는 능력, 그리고 고품질 추천을 생성하는 능력이었죠.

프로젝트: 글로벌 비만 전염병

이 프로젝트는 미국의 비만율에 대응하기 위해 시작되었어요.

위 그래프는 체질량지수(BMI)가 30 이상인 인구의 비율을 보여주는데, 이걸 비만으로 분류하죠. 미국이 1위고 영국, 스페인, 프랑스, 한국이 그 뒤를 잇고 있어요. 보시다시피, 대부분의 선진국에서 꽤 일관된 상승 추세가 있었고 변하지 않는 것 같아요. 저는 음식과 건강과의 연관성을 더 잘 이해하기 위해 이 프로젝트를 시작하게 되었답니다.

데이터 세트

데이터 과학자로서 저는 데이터에 큰 동기부여를 받는데요, 특히 미국 질병통제예방센터(CDC)에서 제공하는 데이터 말이죠. 매년 CDC는 '질문'이라는 설문조사를 실시하는데, 바로 National Health and Nutrition Examination Survey (NHANES)에요. 이 조사를 통해 사람들이 먹는 음식이 건강과 어떤 관련이 있는지 파악하려고 노력하죠.

이 프로젝트에서는 제가 찾을 수 있는 가장 최근에 업데이트된 데이터(2012년)를 사용했어요. 이 특정 데이터에는 1세부터 80세까지 9,000명 이상의 사람들이 포함되어 있고, 이틀 동안 이 사람들이 소비한 모든 음식과 음료를 추적한답니다.

데이터는 각 개인에 대한 인구통계학적 정보는 물론 무엇을, 얼마나 먹었는지, 어디서 먹었는지, 언제 먹었는지까지 제공해요. 데이터에는 5,000가지가 넘는 다양한 음식 유형, 4,000가지 음식 특성, 90,000가지 식사가 포함되어 있답니다. 이틀 동안 9,000명이 참여했다는 건 각 사람이 평균 10개의 식사 상황 (이벤트라고도 하죠)을 등록하고 있다는 걸 의미해요.

데이터 연결

저는 이 모든 데이터가 어떻게 연결되는지 알고 싶었어요. 물론 SQL로도 이 작업을 할 수 있었죠. 뭘 JOIN해야 하는지, 프로젝트에 사용할 표준 통계 및 분석이 뭔지도 알고 있었고요. 하지만 저는 데이터가 좀 더 다르게 보이고 더 쉽게 접근할 수 있기를 바랐고, 바로 이럴 때 Neo4j가 등장하는 거죠!

다음은 제가 개발한 그래프 데이터 모델이에요. 이 모델은 접근성이 뛰어나고 쉽게 추천할 수 있는 방법을 제공한답니다.

왼쪽에는 Person node가 있어요. 성별, 인종, 민족, 연령, BMI를 포함하는 풍부한 속성 세트와 함께 음식을 소비하는 장소 정보도 담고 있죠. 이 사람은 Event node와 연결되어 있는데, 특정 시간과 장소에서 발생하는 이벤트들을 나타내요. 이 특별한 이벤트는 금요일 자정에 집에서 간식을 먹은 경우를 나타내고, 초콜릿과 바닐라 쿠키를 먹었다는 정보도 담겨있네요. 어디에서 왔는지, 영양 정보는 뭔지, 얼마나 먹었는지까지 알 수 있다니!

CDC 데이터 세트에는 음식 유형은 포함되어 있었지만, 슬라이드 오른쪽 하단의 음식 특성 node에 포함된 정보는 없었어요. 저는 쿠키, 초콜릿, 바닐라 샌드위치라는 이름을 구문 분석하기 위해 R에 코드를 좀 작성했죠. Bag of Words를 사용해서 속성을 할당하고, Neo4j를 사용해서 시스템에 통합했어요. 그런 다음 다양한 요소로 다양한 음식에 태그를 지정했는데, 예를 들어 쿠키, 파이, 케이크와 같은 음식에 설탕을 할당했죠. 좀 조악하고 빠르게 처리했지만, 꽤 괜찮은 결과가 나왔어요.

점심을 먹는 여성들: 예

Neo4j에서 데이터가 어떻게 보이는지 한번 살펴볼까요? 다음은 점심을 먹고 있는 두 여성의 데이터에요.

파란색 node는 여성을 나타내고, 각각 "점심" 이벤트와 연결되어 있어요. 만약 이게 라이브 데모였다면 각 이벤트 위에 마우스를 올려서 어디에서 식사하고 있는지 확인할 수 있었을 텐데, 여기서는 레스토랑에서 식사했네요. 두 사람은 버터밀크 파이를 공유했는데, 그 외에는 서로 다른 음식을 먹었어요.

이 그래프에는 다른 음식에 대한 연결 방법을 제공하는 녹색 node(파이 및 버터밀크)로 표시되는 음식 특성도 포함되어 있어요. 이 경우 버터밀크는 실제 버터밀크, 지방이 1% 및 2%인 버터밀크, 지방이 없는 버터밀크와 연결되죠. 즉, 이 특성은 다양한 유형의 음식을 서로 연결하는 데 도움이 된다는 거에요.

데이터 모델 확인

우리가 작업 중인 CDC 데이터는 미국에서 나온 데이터이기 때문에, 전 세계의 비만 추세에 초점을 맞출 거예요. 데이터 과학자로서 여러분이 가장 먼저 물어야 할 질문은 "내 데이터가 내가 모델링하고 있다고 생각하는 이 세계를 실제로 나타내는가?"일 거예요. 이에 답하기 위해 저는 아주 간단한 작업을 수행했어요. 이 데이터 세트에서 사람들이 소비하는 최고의 음식과 음료를 살펴봤죠.

좋은 소식은 사람들이 물을 많이 마신다는 점이에요. 하지만 양상추와 토마토는 뭘까요? 겉보기엔 사람들이 샐러드를 많이 먹는 것 같지만, 실제로는 사람들이 함께 먹는 음식 조합을 알아보기 위해 시장 바구니 분석을 해봤어요. 분석 결과, 사람들은 주로 햄버거나 샌드위치의 일부로 양상추와 토마토를 먹고 있더라구요.

커피와 설탕도 비슷한 패턴을 보이는데요. 사람들은 커피에 설탕을 넣어 마시죠. 케첩은 보통 튀긴 음식과 함께 먹고, 그 다음으로는 빵, 콜라, 마요네즈 등이 있어요. 이 정보를 보면 건강에 그다지 좋지 않은 데이터 세트를 보고 있다는 느낌이 들어요.

비욘세처럼 먹는 법

이건 Neo4j가 통찰력을 제공하고 고품질 추천 엔진으로 작동하는 접근 가능한 모델을 제공할 수 있는지 확인하기 위해 제가 수행한 개념 증명에 대한 개요예요. 저에게는 아주 잘 되는 것이 분명하죠. 하지만 사람들이 실제로 사용하고 싶어하는 즉시 생산 가능한 제품을 만들려면 더 많은 데이터 포인트가 필요해요. 현재 저는 특정 하위 집단에 대한 정보를 이틀 동안만 가지고 있거든요.

피드백 루프도 필요해요. 제가 누군가에게 한 추천이 실제로 그 사람이 할 수도 있는 일인지, 실제로 했는지 아닌지, 그리고 그것이 긍정적인 변화를 가져오는지 여부를 알아야 하죠. 생활 방식, 수면 등 더 많은 유형의 데이터 포인트도 도움이 될 거예요.

즉, 여러 가지 가능성도 있다는 거죠. 비욘세의 다이어트로 돌아가 보자구요. 구조 내에서도 맞춤 추천을 통해 누군가가 비욘세의 라이프스타일에 더 가까워지도록 도울 수 있을 거예요. 고기, 글루텐 또는 콩이 포함되지 않은 모든 유형의 식사를 검색하고 유기농 식품이 비싸기 때문에 유기농 식품(예: 20% 또는 30%)을 반환하는 `Query`를 작성할 수 있어요. 또한 개인화 측면을 추가할 수도 있구요.

크런치처럼 여러분이 좋아하는 음식과 비슷한 특징을 가진 비건 음식을 추천해서, 음식 대체가 더 쉬워지도록 할 수도 있어요.

Neo4j를 사용해서 가능해진 연결된 데이터의 힘! 정말 대단하죠? 덕분에 사람들이 실제로 어떻게 먹는지 이해하고, 정말 도움이 되는 추천을 해줄 수 있게 되었어요.

Neo4j 기반 추천 엔진에 대해 더 자세히 알아보고 싶으신가요? 그렇다면 이 백서를 읽어보세요!그래프 데이터베이스로 추천 강화를 읽고, 차세대 추천 엔진 구축을 시작해 보세요.

CDC
질병관리센터
그래프 데이터 모델

에이치시스템즈의 LogTree는 Neo4j 기반 GraphRAG 플랫폼으로, 데이터를 자동으로 지식그래프화하고 자연어 질의로 즉시 답을 제공합니다.

👉 에이치시스템즈 홈페이지

저작자표시 비영리 변경금지 (새창열림)

'GraphRAG' 카테고리의 다른 글

Novartis의 초기 신약 개발, 점들을 잇다: Neo4j와 GraphRAG의 활약 (2)	2026.04.26
헬스케어를 연결하다: Neo4j와 GraphRAG로 혁신을 이루는 방법 (0)	2026.04.25
Amnesia Is All You Need (0)	2026.04.25
세계 리더를 위한 글로벌 이슈 그래프 구축: Neo4j와 GraphRAG 활용기 (2)	2026.04.24
Neo4j Aura Agent: 단 몇 분 만에 나만의 GraphRAG Agent 만들기 (1)	2026.04.24

Graph Note