반응형

유행어를 좋아하든 싫어하든 '빅데이터'는 피할 수 없는 현실이에요. 비즈니스 인텔리전스든 생물정보학이든, 추천 엔진이든 위험 분석이든 상관없이, data는 계속 증가할 뿐이죠.

그래프는 빅데이터 작업을 위한 강력한 도구라는 건 의심할 여지가 없어요. 안타깝게도 그래프의 가장 큰 장점 중 하나인 직관적인 시각화는 기본적으로 고정된 리소스인 화면 크기로 인해 제한되죠. 아무리 큰 모니터라도 수백 개의 Node만 수용하면 그래프 구조를 분석하기 어려워져요.

너무 빽빽해요

2012년에 제가 처음 시작한 스타트업은 공유 경제를 위한 신뢰 기반으로 소셜 네트워크를 활용했어요. (이건 전문 용어 빙고 at 그래프커넥트 2018에서 훌륭한 연습이 되기도 했죠). 우리는 많은 실제 및 가짜 소셜 네트워크 계정의 그래프 서명을 살펴봤어요. 이러한 계정 간의 차이를 정량화하기는 어렵지만, 시각화하면 패턴의 차이가 명확하게 나타나요.

하지만 우리는 인기 있는 사람들 덕을 보지는 못했어요. 예를 들어 아래 그래프는 최대 2,000명의 친구를 보유한 사용자를 보여줘요. 별도의 커뮤니티를 나타내는 다양한 색상의 그래프 레이아웃은 Gephi를 사용하여 2D로 만들었어요.

이건 꽤 멋지고 몇 가지 뚜렷한 클러스터를 보여주지만, 이 접근 방식의 단점도 드러내죠. 가장 눈에 띄는 건 모든 것이 겹쳐 보이는 왼쪽의 거대한 Node 덩어리예요. 2D 레이아웃은 개별 클러스터를 효과적으로 분리하지만, 해당 클러스터가 서로 연결되어 있으면 답이 없어요.

이제 남은 건 그래프만 보여주는 그래프 시각화뿐이에요. 연결 수, 활동 수준, 위치 등과 같은 매개변수별로 클러스터링하려는 경우 색상이나 크기를 다시 할당하는 것 외에는 할 수 있는 일이 많지 않아요. Node를 시각적으로 정렬하고 분류하는 건 쉽지 않죠.

물론 데이터를 별도의 애플리케이션으로 가져와 해당 속성의 2D 산점도를 생성하거나 지도에 Node를 펼칠 수도 있어요. 하지만 우리는 그래프에 의해 직관적으로 포착된 차트와 관계 사이의 연결을 잃게 될 거예요.

게다가, 저는 그 사이를 쉽게 전환할 수 없어요.(u0:User)-[:friend_of]-(u1:User)위의 관점을 다음과 같이 표현합니다.

  1. (u:User)-[:mentioned_in]->(p:Post)
  2. (p0:Post)-[:mentioned_same_user_with]-(p1:Post)
  3. (u0:User)-[:mentioned_in_same_post_with]-(u1:User)

3차원으로!

2년 후 저는 현재의 스타트업인 키네비즈를 설립했어요. 첫 번째 클라이언트인 Box는 파일 공유 플랫폼에서 협업을 시각화하기 위해 우리를 초대했죠. 이 "콜라보 그래프"는 BoxWorks 고객 컨퍼런스를 위해 만들어졌고, 참석자들은 제스처 컨트롤을 사용하여 대형 화면에서 그래프와 상호 작용했어요.

제스처 인터페이스를 최대한 활용하기 위해 우리는 레이아웃을 3D로 하기로 결정했어요. 우리를 놀라게 한 첫 번째 점은 3,000개 이상의 Node가 있는 이 3D 그래프가 300개 이상의 Node로 구성된 2D 그래프만큼 빽빽해 보이지 않는다는 것이었어요!

클러스터는 상호 연결을 잃지 않고 시각적으로 분리돼요. 직관적으로 고차원 정보는 고차원 시각화에서 이점을 얻는다는 것을 알 수 있었죠 (그래프의 각 연결이 차원으로 간주된다는 점을 고려하면). 2D에서 3D로의 선형적 증가는 편안하게 배치할 수 있는 데이터 양의 기하급수적인 증가를 의미해요.

VR을 이용한 소수자 신고

3D 데이터 시각화는 완전히 새로운 건 아니고 단점이 없는 것도 아니에요. 2D 화면에서는 깊이 정보가 손실되죠. 그리고 모든 화면 기반 시각화는 글로벌 컨텍스트를 유지하면서 로컬 구조를 조사하는 것 사이의 단절로 인해 어려움을 겪어요 (일명 Google 지도 문제: 거리를 확대하면 도시의 컨텍스트를 잃게 되잖아요).

2014년에 Oculus DK2 가상 현실 헤드셋이 막 출시되었을 때, 저희는 그걸 한번 시험해보고 싶었어요. 왜냐하면 WebGL에서 Collab Graphs를 개발하고 있었거든요. WebXR 표준 덕분에 큰 어려움 없이 VR로 가져올 수 있었죠. 멋질 것 같기도 했고, 2D 화면에서 3D의 단점을 해결할 수 있을 거라는 직감도 있었거든요.

결과는 정말 영감을 줬어요! 하이브리드 VR 및 2D 데이터 시각화 플랫폼인 GraphXR을 만들게 되었죠. VR을 사용해 보지 않았다면 물리적 공간의 경험을 얼마나 잘 반영하는지 전달하기 어려울 거예요. 지금 당장 뒤에 누군가가 서 있는지(야유!) 뒤돌아 볼 필요 없이 문이 어디에 있는지 아는 것처럼, VR은 지속적으로 확대/축소하거나 뷰 사이를 이동하지 않고도 복잡한 패턴에 대한 상황 인식을 제공하거든요.

VR 데이터 시각화의 효율성에 대한 확실한 주장을 하기 전에 많은 연구가 이루어져야 하겠지만, 초기 도구 사용자들은 데이터 분석 속도가 15배에서 150배(!) 향상되었다고 보고했어요.

확장 현실(XR은 VR과 증강 현실의 상위 집합)의 미래는 밝지만, VR 데이터 시각화의 이점이 AR로 이어지는 것을 아직 보지 못했다는 점을 언급할 가치가 있어요.

현재 세대의 AR 헤드셋은 시야가 좁아서 시야 영역이 화면으로 제한되거든요. 콘텐츠는 시청자의 주변 시야에 절대 들어가지 않기 때문에 VR에서 보는 것처럼 뇌의 공간 버퍼에 로드되지 않아요. 이러한 제한은 차세대 AR 헤드셋에서는 의심할 여지 없이 제거될 거예요.

큰 그림

특히 시각화가 작업에서 중요한 역할을 하는 경우, 데이터 전문가가 되기에는 정말 흥미로운 시기인 것 같아요. 저는 큰 그래프를 시각화하는 데 따른 몇 가지 과제와 솔루션만 다루었지만요.

Bloom and 의 데이터 시각화 파트너로 구성된 전체 생태계는 빅데이터 작업을 위한 다양한 전략을 제공해요. 급증하는 GPU 성능을 통해 Graphistry는 대규모 그래프 레이아웃 문제를 해결할 수 있고, 3Data 및 Virtualitics와 같은 회사는 VR 데이터 시각화의 가능성을 탐색하고 있죠. 빅데이터 및 그래프 채택과 마찬가지로 시각화 옵션도 계속 늘어날 거예요.

키네비즈GraphConnect 2018의 실버 스폰서입니다. 코드 사용KIN10컨퍼런스 및 교육 세션 티켓을 10% 할인받으실 수 있으며, 뉴욕에서 뵙겠습니다!

9월 20~21일에 열리는 GraphConnect 2018에 참가하여 이와 같은 프로젝트에 참여하는 전 세계의 그래프 전문가를 만나보세요. 오늘 위의 할인 코드를 받아 티켓을 받으세요.

내 (할인!) 티켓 받기


에이치시스템즈LogTree는 Neo4j 기반 GraphRAG 플랫폼으로, 데이터를 자동으로 지식그래프화하고 자연어 질의로 즉시 답을 제공합니다.

👉 에이치시스템즈 홈페이지

반응형

+ Recent posts