요즘 뜨거운 감자인 GraphRAG (그래프 기반의 Retrieval-Augmented Generation)는 Knowledge Graph를 활용한 GenAI (Generative AI) 기술인데요, 관련 연구 논문, 오케스트레이션 프레임워크, 컨퍼런스 등에서 자주 언급되고 있어요. 메모리, 설명 가능성, 확장된 데이터 표현을 위해 Knowledge Graph를 사용하는 것에 대한 관심이 높아지면서 Neo4j는 이 분야 전문가들의 의견을 듣고 싶어졌어요. 그래서 진짜 현실은 어떤지, 어떤 경험들을 하고 있는지, 앞으로 더 배우고 조사해야 할 부분은 무엇인지 논의하기 위해, 지난 5월 말 샌프란시스코 프레시디오에 모여 함께 이야기 나누고 배우는 시간을 가졌답니다.
Neo4j는 자유로운 아이디어 교환을 장려하기 위해 채텀 하우스 룰을 적용하여 모임을 주최했어요. 참석자들은 정보를 공유하고 자신의 참석 여부를 공개할 수 있지만, 다른 참석자나 소속을 밝히거나 공개할 수는 없어요. 이 블로그에 언급된 모든 내용은 공유 허가를 받은 내용이니 안심하세요!
아시다시피 Neo4j는 오픈 소스 Graph Database와 Knowledge Graph를 통해 Large Language Model (LLM)을 강화하는 것으로 유명한 회사죠. LLM 제작자, RAG 오케스트레이터, Knowledge Graph 디자이너, 연구원 등 GenAI 분야의 다양한 전문가들이 함께 해주셨어요. 모두 호기심과 적극적인 참여 의지를 가지고 세션에 참여했고, 쉬는 시간인 Fika break, 점심, 저녁 시간에도 열띤 토론이 계속되었답니다.
GraphRAG 프레이밍
에밀 아이프렘 님은 GraphRAG의 기회와 과제를 간략하게 설명하고, 고객 인사이트와 질문을 공유하면서 토론의 틀을 잡았어요. 핵심은 Knowledge Graph와 LLM을 GraphRAG 기술로 결합하면 사실에 기반한 대화형 인터페이스를 만들 수 있다는 것이었어요.

GraphRAG의 장점으로는 더 높은 정확성, 쉬운 개발, 결과에 대한 설명 가능성이 꼽혔어요. 하지만 Knowledge Graph 구축이 더 쉬워져야 하고, 그래프 작업을 처음 접하는 개발자를 위한 학습 곡선도 존재한다는 과제도 있었죠.

흥미로운 점은 "어휘 그래프 (lexical graph, 문서, 섹션, 챕터, Vector Embedding을 포함한 청크)"와 전통적인 엔터티 Knowledge Graph를 나타내는 "도메인 그래프 (domain graph)"를 구분해야 한다는 점이었어요. 이 둘을 결합하면 LLM 기반으로 활용할 수 있는 정확한 구조와 컨텍스트 정보를 제공할 수 있게 되죠.

저희는 Knowledge Graph 구축, GraphRAG 기술, 실제 경험에 중점을 두고 그룹 토론을 진행했어요. 다음은 마이클 헝거 님이 정리해주신 공유 노트의 주요 내용이에요.
Knowledge Graph 구축
일반적으로 Knowledge Graph는 엔터티와 엔터티 간의 관계를 사용하여 정보를 표현하는 데이터 모델이에요. 좀 더 구체적인 내용이 궁금하실 텐데요, 저희가 조사한 내용을 한번 살펴볼까요?
참고:
- 가장 큰 질문 중 하나는 데이터베이스 내부의 그래프 데이터 표현과 LLM에 정보를 제공하는 방법이었어요.
- LLM이 엔터티 추출에 가장 적합할까요? 아니면 초기 단계에서는 괜찮지만 대용량 데이터에는 너무 느리거나 비용이 많이 들기 때문에 전용 Named Entity Recognition (NER) 모델을 사용하는 것이 더 나을까요?
- 대부분의 사용 사례에는 다양한 데이터가 혼합되어 있기 때문에, 데이터 수집 단계에서 구조화된 정보와 구조화되지 않은 정보로부터 연결을 구성할 수 있어야 해요.
그래프 검색 패턴
데이터 표현 외에도 GraphRAG는 정보 검색을 위한 다양한 기술을 포함하고 있어요.
- 정보 검색 (Information Retrieval) — 사용자 질문에 답변하기에 충분한 정보를 가지고 있을 가능성이 높은 텍스트를 찾는 거예요. 단순한 청크부터 계층적 요약까지 모든 형태의 어휘 그래프가 될 수 있죠. 여기서 그래프는 페이지 순위와 같은 기술을 통해 결과 순위를 매기는 데 도움이 될 수 있어요.
- 패턴 매칭 (Pattern Matching) — 간접적이지만 관련성 있는 정보에 대한 컨텍스트를 확장하는 방법이에요. Graph Pattern Matching으로 시작해서 관련 텍스트를 포함하거나, 관련 텍스트로 시작해서 로컬 그래프 패턴으로 확장할 수 있어요.
- 그래프 쿼리 (Graph Query) — 자연어 질문을 데이터베이스 쿼리로 직접 변환하는 방법이에요. 잘 활용하면 강력한 효과를 낼 수 있죠.

실제 경험
PDF와 채팅하는 건 GenAI의 "hello world" 같은 걸지도 몰라요. 사람들은 실제로 GenAI 애플리케이션으로 뭘 하고 있을까요?
참고:
- 오늘날 많은 RAG 애플리케이션은 연구, 법률, 고객 지원과 같이 텍스트가 많은 영역에 있는데, 이는 텍스트 벡터 검색의 우위를 설명해줘요. GenAI 애플리케이션에서 기존 기업 및 구조화된 데이터가 더욱 중요해짐에 따라 다른 데이터베이스 모델이 대신하게 될 거예요.
- Knowledge Graph의 경우 청크를 넘어 명시적 및 파생된 상호 참조가 있는 구조화된 문서 표현으로 이동하는 추세에요.
- Graph의 추가 GenAI 사용 사례는 대화형 메모리, 개인화된 시스템 및 설명 가능성에 있어요.
언컨퍼런스 세션
초기 토론에 이어 우리는 특정 주제에 대해 계속해서 언컨퍼런스 형식을 따랐어요.
RAG에서 GraphRAG로— 기존 RAG 파이프라인이 설정되어 있는 경우 중단 없이 GraphRAG를 점진적으로 추가하려면 어떻게 해야 할까요?
- 구조화되지 않은 데이터에 대한 Green-field RAG 프로젝트는 Vector Database로 시작하지만 문제와 한계에 직면하게 돼요. Knowledge Graph를 파이프라인에 점진적으로 추가하고 중단 없이 GraphRAG 사용을 시작할 수 있는 쉬운 방법이 있죠.
- 벡터 검색 기능을 갖춘 일반 데이터베이스를 사용하면 고급 RAG 패턴 및 쿼리가 더 쉬워져요. Graph는 높은 도메인 복잡성과 풍부한 데이터를 캡처하죠.
- 요구 사항에는 애플리케이션을 성공적으로 만들기 위한 강력한 인프라, 우수한 데이터 엔지니어링/준비, 보안 및 주제별 전문 지식이 포함돼요.
평가 전략(테스트)
- 최적의 데이터 세트/기준선—인간이 생성한 최고의 LLM, 인간 검증을 통해 검증된 두 번째 최고의 LLM.
- LLM은 생성과 평가 모두에서 숫자에 취약해요. 숫자를 카테고리에 매핑하려고 노력해보세요.
- 생성된 쿼리 및 결과에 대한 Semantic Search 뿐만 아니라 특히 쿼리 생성에 대한 콘텐츠 검증 및 품질도 수행해야 해요.
AutoGen이 포함된 그래프 에이전트
- 이 세션에서는 AutoGen과 에이전트 시스템 구축 기능을 간략하게 소개했어요.
- 그런 다음 도구에 액세스할 수 있는 보조 에이전트와 기능을 실행할 수 있는 관리 사용자 에이전트인 Neo4j용 프로토타입 AutoGen 설정을 구축하는 데 시간을 사용했죠.
- 데이터베이스를 쿼리하고, 시스템 프롬프트에 스키마를 제공하고, Cypher 문을 반복적으로 구축 및 실행하고, 데이터를 검색하고, 답변에 대한 정보를 집계하는 기능이에요.
연결된 LLM 데이터의 의미 및 표현
- LLM과 상호작용하는 데 가장 적합한 구조 표현(Graph 패턴, 트리플, 중첩 구조(YAML))은 무엇일까요?
- Graph를 사용하여 구조적 정보와 일치하도록 원래 질문을 다시 작성할 수 있을까요?
- 임베딩(유사성)을 기반으로 인덱스와 같은 Graph를 역으로 구축한 다음 의미를 기반으로 Node와 Relationship에 라벨을 지정할 수 있을까요?
다중 에이전트 시스템
- 다중 에이전트 시스템은 실행(순서) 결정에 일반 소프트웨어에 비해 비용(비용, 대기 시간, 오류 전파)이 발생하므로 언제 사용해야 하는지 아는 것이 중요해요.
- 하위 도메인/하위 그래프별로 에이전트를 보유하는 것이 합리적일까요? 시작하려면 특정 상담원이 일반 상담원 외에도 해당 분야에 대한 전문 지식을 갖추고 있어야 해요.
- 생성이 아닌 소규모 컨텍스트에 대한 유효성 검사와 같이 필요한 경우에만 헤비급 에이전트를 호출하세요. 상담사를 위한 마스터-견습생 접근 방식도 살펴보세요.
LlamaIndex Property Graph Index
알겠어요. 공식적으로 모임의 일부는 아니지만 주제를 강조하는 것은라마인덱스(LlamaIndex) Property Graph Index의 멋진 출시같은 주에요.
참고:
- 사전 정의된 추출기 또는 사용자 정의 추출기 세트에 따라 Knowledge Graph를 구성해요.
- 키워드, 벡터 검색, 텍스트-암호화 등을 결합할 수 있는 수많은 검색기로 Knowledge Graph를 쿼리하세요.
- 검색 중에 엔터티/관계와 함께 텍스트를 포함해요.
- 결합 벡터 검색/그래프 검색을 수행해요.
- 관심이 있었기 때문에,마이클 헝거그의 보여주었다LLM 그래프 빌더, LangChain과의 통합을 기반으로 구축되었어요. 백지 문제 없이 시작하고 그러한 시스템이 어떤 모습일지 보여주는 것이 목표에요.
- PDF, Wikipedia 페이지, YouTube 스크립트에서 Neo4j에 저장된 Graph를 추출하고 선택적으로 스키마를 제공할 수 있어요.
- GraphRAG 기반의 챗봇(벡터+검색 쿼리)을 이용하여 문서에 대한 질의를 해요.
마무리
늘 그렇듯이, 참여하는 전문가와 함께 깊이 생각하고, 질문하고, 주제를 탐구하다 보면 시간이 빨리 가네요.
피드백 라운드가 끝났어요. The Gathering은 다양한 분야의 전문가들을 모아서 하는 자리였는데, 그래프를 LLM과 통합하기 위한 과제와 아이디어에 대한 논의가 정말 활발했답니다. 참가자들은 기술적인 깊이와 다양한 관점에 깊은 인상을 받았다고 해요. 덕분에 기본 개념 설명 없이도 복잡한 문제를 해결하는 풍부한 토론이 가능했죠. 앞으로도 협력을 계속하기로 했어요. 지속적인 소통을 위한 채널을 찾고, 다음 GenAI 그래프 모임의 시기와 장소를 고려할 예정이에요. 관심 있으신 분들은 언제든지 연락 주세요! 저녁에는 Spruce에서 맛있는 저녁 식사를 하면서 하루를 마무리했어요. 편안한 분위기에서 서로의 배경과 관심사에 대해 더 깊이 알아갈 수 있었답니다. 이 기억에 남을 멋진 날을 함께 만들어주신 모든 분들께 진심으로 감사드립니다!에이치시스템즈의 LogTree는 Neo4j 기반 GraphRAG 플랫폼으로, 데이터를 자동으로 지식그래프화하고 자연어 질의로 즉시 답을 제공합니다.
'Ontology & Knowledge Graph' 카테고리의 다른 글
| Google Gemini Pro를 활용한 ER 다이어그램에서 Graph 모델로의 혁신적인 생성 변환 (0) | 2026.06.27 |
|---|---|
| 생성형 AI 윤리: 원칙과 리스크 완벽 분석 (0) | 2026.06.27 |
| GDPR 준수: GDPR 솔루션 구축을 위한 4가지 간단한 단계 (0) | 2026.06.26 |
| AI의 미래: Machine Learning과 Knowledge Graph의 만남 (0) | 2026.06.26 |
| I built a digital twin of my amateur-built airplane (0) | 2026.06.26 |
