2007년 6월 18일 월요일

시맨틱 웹, 2.0으로 거듭나라!

윤석찬 (다음 R&D 센터 팀장) 2006/05/16

얼마 전 우리 나라 블로거들 사이에 국내 시맨틱 웹 연구의 현황에 대한 논쟁이 있었다. 이 논쟁은 ETRI의 전종홍 선임연구원은 최근 인공지능(AI)이나 자연어 처리(NLP) 같은 시맨틱 기술 중심으로만 관심을 가진 연구자들이 “시맨틱 웹(Semantic Web)”이라는 이름을 빌어 연구를 계속 하면서도 정작 산업적으로 중요한 “웹”이 빠져 있는 국내 연구 실정을 개탄 하면서부터 시작되었다.

…처음에는 늘 시맨틱 웹이라는 이름으로 시작하는 논리가 마지막에 가서는 "웹"은 어디론가 스리슬적 사라지고, 거창하고 복잡한 온톨로지와 추론에 대한 이야기, 그리고 지능 정보 처리에 대한 이야기들만 남는 식이죠… 도대체 "시맨틱 웹"으로 시작한 이야기의 결론에서 우리의 "웹"은 어디에 있습니까? 온톨로지만으로 웹을 위해 무엇을 할 수 있습니까?
(출처: HolloBlog ‘온톨로지 유감’ 중에서)

전 연구원은 유명 블로거이자 웹 표준 연구자로 필자와 국내 웹 초창기 때부터 인트라넷, 지식 기반(KB) 연구를 지속해 왔으며, ETRI 내에 W3C 한국 사무국을 유치하는데 일조 했을 뿐 아니라 2002년부터 국내에 시맨틱 웹을 소개하고 관련 연구를 지속해 왔다. 그런 사람이 마치 국내 시맨틱 웹 연구 자체를 부정하는 듯한 이야기를 하는 것이 이상하게 여겨질 수 있다.
시맨틱 웹의 현재그런데 전 연구원이 말하는 국내 문제를 이해하기 위해서는 해외의 시맨틱 웹 표준 연구 속의 현실도 알 필요가 있다. 1992년 웹을 처음 만들었던 팀 버너스 리는 하이퍼텍스트(HTML)와 HTTP라는 아주 간단한 기술 사양 만으로 정보를 연결하고 기술할 수 있다는 점에서 매우 성공을 거두었다. 그는 나아가 인간뿐만 아니라 기계도 이해할 수 있는 상호 호환성을 위한 시맨틱 웹을 제창 했다. 이것은 정보의 접근 자체에 대한 제악이 없어야 한다는 비전에 근거한다.
이러한 목표를 통해 나온 각종 웹 표준이 XML, Web Services, RDF, OWL, 온톨로지(Ontology), 추론 엔진 등등이다. 그런데, 온톨로지니 추론이니 하는 말 자체 어감에서 풍기듯 시맨틱 웹의 실제 정의는 기계들간의 소통 수단을 위해 인간이 개입할 여지가 없는 매우 복잡한 기술 사양으로 가고 있는 것이 사실이다(독자들은 지금 이러한 용어들을 이해할 필요가 없다.). 이것은 팀 버너스리가 과거 인공 지능을 연구했던 사람들을 W3C에 끌어 들이면서 필연적으로 생겨난 현상이다. 기계가 읽을 수 있는(Machine-readable) 웹이라는 것이 결국은 인공 지능, 기계 학습 등과 같은 방향으로 갈 수 밖에 없기 때문이다.
시맨틱 웹 이야기가 나온 지 7년이 지났지만 표준 사양 외에 무슨 산업적 공헌을 했는지 이야기하라고 하면 할말이 없다. 시맨틱 웹 연구와 기술이 미완성이라 부족하다 하고 현업 엔지니어들은 어떻게 써야 할지 모르겠다고 하는 것이 현재 상태다. 이런 이유로 W3C는 작년부터 RDF 중심의 접근 방식으로 변경을 시도하면서, 시맨틱 웹을 잘 사용하는 사례들을 수집하고 다양한 의료/생명과학 분야 등과 같은 고유한 응용 분야를 찾기 위한 노력들을 거듭하고 있다.
인간 중심(Human-readable) 시맨틱 웹이런 지루한 기계 중심 시맨틱 웹 연구가 계속 되는 동안 소위 말하는 “문서 중심 혹은 인간 중심 웹”은 매우 비약적인 성공을 거두었다. 많은 사람들이 HTML을 이용하여 웹에 정보를 기술하고 이를 상호간 이용하게 되었다는 것이다. 브라우저 전쟁이라는 암흑시대도 있었지만, 오히려 그 후 웹 표준이 활성화 되고 좀 더 구조적인 문서를 만들어 내려는 웹 표준 홍보 활동도 강해졌다. 그 와중에 웹2.0이라는 트렌드가 이슈화 되었다. 필자는 한 컨퍼런스에서 시맨틱 웹이 바로 웹2.0의 기술적 배경이라고 언급한 바 있다. 그러나 그것은 기계 중심이 아니라 바로 인간 중심(Human-readable) 시맨틱 웹이다.
최근 전 세계적인 유행이 된 블로그 서비스의 가장 큰 특징을 꼽으라고 한다면, RSS(Really Simple Syndication)라는 콘텐츠 소통 방식을 사용한다는 것이다. RSS는 과거 넷스케이프의 CDF 또는 포인트 캐스트의 채널과 유사하지만, 컴퓨터 소프트웨어의 일방향성에만 의존한 결과 실패했다면 RSS는 네트워크에 분산된 사람들의 콘텐츠를 소통시켜 주는 이해하기 쉬운 아주 간단한(Really Simple) 사양이었기 때문에 성공했다. RSS는 정보 제공자를 기술하고 항목을 나누어 제공해 주는 읽어 보면 무엇을 제공하는지 사람도 이해할 수 있는 간단한 표준이다. 즉, RSS는 시맨틱 웹의 대표 사양인 정보 표현 프레임웍(RDF)의 2차 산물이다.
시맨틱 웹의 사례를 찾고자 노력했던 W3C 입장에서는 그렇게 간단한 사양이 인기를 끌지는 생각도 못했을 것이다. 시맨틱 웹뿐 아니라, 웹서비스(Web Services)도 마찬 가지이다. 구글, 아마존, 이베이 등은 축적한 사용자 데이터를 근간으로 이를 Open API라는 데이터 유통 구조를 만들어 내고 서비스를 플랫폼화 하는 노력을 견지해 왔다. 이 때 사용했던 기술이 바로 사람들이 쉽게 이해할 수 있는 간단한 XML 사양과 HTTP를 이용한 웹 서비스의 구현이다. XML-RPC, REST+XML, SOAP 등의 메커니즘으로 제공되는 웹 서비스 환경에서 REST+XML 방식이 주로 사용되고, SOAP은 전체 통신량 중에 5%도 채 되지 않았다. 이들은 모두 인간과 기계 모두가 소통 가능한 시맨틱 웹을 아주 잘 응용한 기술들이다. 현재 웹2.0의 주요 키워드 중 하나인 태깅(Tagging)이나 콘텐츠를 기계가 이해하도록 사람이 작성하는 마이크로포맷(Microformat.org) 같은 것도 사람 중심 시맨틱 웹의 예다.
웹2.0의 성공이 주는 교훈은 인간이 이해하기 어렵고, 전문가 중심의 고도로 복잡한(?) 시맨틱 웹 기술들이 정말 상용화 될 수 있을 것인가 하는 것이다. 왜냐하면, 웹은 필연적으로 사람이 관련되어 있고 사람과 기계가 동시에 읽을 수 있는 기술이어야만 네트워크 효과를 얻어 낼 수 있음이 증명 된 것이기 때문이다. 물론 그러한 시맨틱 웹 기술들이 소프트웨어 산업에 긴요하게 쓰일 수 있을 지는 몰라도 웹이라는 세상에서 쓰이기에는 한계가 분명히 있다. 간단하고 이해하기 쉬운 사양이야 말로 웹에서는 선(善)이다.
기술 발전은 과거에 대한 반성에서 출발해야2004년 4월 W3C는 웹에서 좀 더 확장된 애플리케이션을 만들기 위한 의견을 청취하는 워크샵을 열었다. 이 워크샵의 쟁점은 오페라/모질라 재단 연합이 발표한 웹 애플리케이션 방향에 대한 것이었다. 이들은 HTML과 DOM 등 기존 웹 표준 기술을 활용한 중간 단계의 웹 애플리케이션 표준을 빨리 만들자고 제안했다. 이에 대해 많은 참석자들은 부정적인 반응을 나타냈다. 이런 문제를 다룰 워킹 그룹이 아직 존재하지 않는다는 이유를 달았지만, 이미 W3C는 기존 XML을 기반으로 하는 상호 연동에 더 관심이 많았다.
결국 문제는 엉뚱한 곳에서 터지고 말았다. 그 해, 구글로 부터 시작된 Ajax라고 불리는 웹 애플리케이션 기법이 힘을 얻기 시작한 것이다. Ajax가 웹 서비스 업계로부터 힘을 얻기 시작하자, W3C는 작년에 Rich Web Client Activity를 만들고 2006년 4월 XMLHTTPRequest에 대한 첫 표준 초안을 만들 수 밖에 없게 되었다.
필자는 표준 무용론을 이야기하려는 것은 아니다. 혁신을 위해서는 과거에 대한 반성을 통해 변화해야 한다는 것이다. HTML이나 XML은 SGML의 반성에서 출발했고, RSS는 CDF의 반성에서 출발했다. 언젠가 기계 중심의 시맨틱 웹이 활성화 될 날이 올지도 모르겠지만 기술은 계속적인 자기 부정을 통해 발전할 수 밖에 없다. 기술적 난이도와 완성도도 중요하지만 더욱 중요한 것은 얼마나 많은 사람이 어떻게 어디에 쓸 수 있는 가이다. 복잡한 수만 개의 온톨로지와 추론 엔진들보다 RSS라는 작은 포맷 하나가 더 큰 경제적/산업적 효과들을 가져올 수 있기 때문이다.
지금까지 이야기한 사례들은 국제적인 W3C 활동과 국내 시맨틱 웹 연구자들에게 시사해 주는 바가 크다고 하겠다. 시맨틱 웹 연구자들이 웹이 아닌 시맨틱에만 관심을 기울이면 결국 현실과 괴리될 수 밖에 없다. 시맨틱 웹은 웹을 위한 기술이어야 하며, 웹은 지극히 인간적이고 때문이다. 과거에 대한 반성을 기초로 연구자들이나 산업계 종사자들이 인간 중심의 시맨틱 웹을 그리는 노력을 지속적으로 할 때, 연구를 위한 연구에 매몰 되지 않을 것이다.@

댓글 없음:

댓글 쓰기

이 블로그 검색

팔로어

블로그 보관함