• 이글은 외부 Blog에도 작성된 글입니다 [1] (02/19/2006).

멀티미디어 관련 연구가 여러가지로 힘든 점은 말 그대로 멀티미디어(Multi-Media) 이기 때문이다. 다뤄야 할 자료의 종류도 많고 (Heterogeneous sources) 각각의 처리 방식도 다르기 (Disparate processing) 때문인데 이런 점 들 때문에 아직까지도 멀티미디어 연구라고 발표되는 내용을 실제로 자세히 보면 멀티미디어 중에 한가지 타입의 자료만를 다루고 있는 경우가 많다. 예를 들어 멀티미디어 프로세싱을 한다고 하는 연구가 사실은 미디어에서 영상 자료만 추출해서 영상 처리만 한다던지 또는 음성신호만 추출해서 음성처리만 하는 경우인데 이건 사실 멀티미디어 처리가 아니다. 한가지의 신호만으로 어떤 상황을 이해한다는 것은 매우 제한적이므로 조금 더 발전되어져서 여러개의 다른 타입의 미디어를 동시에 처리해서 예를 들어 음성과 영상 신호를 동시에 다루어서 조금 더 높은 레벨의 상황인식을 위한 연구 (Multimodal processing)의 발전 현황을 살펴보면 의외로 서로 다른 타입의 저수준 특성(Low level features)들을 합쳐서 그들의 연관 관계를 이해하는 기술은 수준이 매우 낮고 그 발전 속도도 느린 것이 현재의 실정이다.

왜 같은 상황에서 발생한 두개나 그 이상의 신호로부터 추출한 특징들을 합쳐서 새로운 특징을 추출하는 것이 어려울까? 이는 다른 종류의 신호 간의 관계는 단순히 같은 시간과 공간상에서 발생 했다는 공통 점만으로는 (Spatio-temporal relationships) 관계 짓기 어렵기 때문이다. 이를 인간이 이해하는 방식으로 생각해 보자면 현재 무슨일이 일어났을때 인간도 여러 다른 종류의 센서 (시각, 청각, 촉각, ..)를 이용해서 동일한 사건을 인지하지만 이것이 무슨 일인지를 이해하기 위해서는 이전에 어떤 일들이 일어났고 이 일들이 어떤 관계로 진행이 되어 와서 현재에 이런 일이 발생했다는 인과 관계가 우리가 사회생활을 하면서 축적해온 경험(Common knowledge or social knowledge)과 일치를 해야 이해할 수 있기 때문이다 (Knowledge understanding).

따라서 현재의 데이타만 저장하고 처리해서는 아무리 데이터 수와 종류가 많다고 하더라도 그것이 무엇을 의미하는 지를 알아내는데는 확연히 한계가 있다.

그러면 무슨 일이 발생했을때 (Event) 가능한 한 수집할 수 있는 관련된 모든 데이터 (Data and its metadata)를 추출하고 이런 다양한 데이터 (Heterogeneous data)를 동일한 방식으로 검색 가능하게 저장하고 (Unified indexing and storage) 다음 일이 발생했을때 그들 간의 인과 관계를 (causal relationship: 현재는 Spatio-temporal and Semantic relationship 까지가 많이 연구되어 지고 있다.) 를 파악해서 향후 재사용 가능한 형태로 축적해 나갈 수 있을까? 신호처리 분야에서는 어떤 사건 간의 인과관계는 (State machine, hidden markov model 등등) 아직도 단일데이터 형태에 국한되어 연구되고 있는데 이것을 데이터의 형태나 특성에 독립적인 형태로 만들려면 할때 한가지 가능한 방법은 데이터 자체의 값이 아니라 데이터가 뜻하는 의미학적 레벨 (Semantic level)에서 처리를 하는 것이 한가지 방법이 될 수 있을 것이다.

여기까지만 봤을때 현재 우리가 사용하고 있는 저장장치나 데이터 표현 방식들을 둘러보자. 파일저장장치, 데이터 베이스, 메타데이타(Meta-data), XML, 시멘틱 웹(Semantic web), 온톨로지(Ontology) 등등이 현재 활발히 사용되거나 연구되고 있지만 이 글에 제시된 문제를 해결하기 위해서는 언급된 모든 기술에 더해 매우 잘 발전된 지식처리 시스템(Knowledge system)까지 합쳐져서 하나로 동작하는 시스템이 만들어졌을때야 복합정보 통합처리 시스템(Unified information system for heterogenous information sources)의 가장 기초적인 기반을 구축했다고 할 수 있을 것이다.

현재의 멀티미디어 연구는 이 목표까지 도달하기에는 현실적으로 갈길이 매우 멀다. 그러나 적어도 희망적인 것은 이런 문제점에 대한 인식을 보여 주는 연구가 조금씩 나오고 있다는 것이다. 개인적으로는 되도록 더 많은 멀티미디어 분야의 연구자들이 이런 문제를 깊이 인지하고 무엇보다 이 문제가 너무 어렵다는 비관보다는 할 수 있다는 의지를 가지고 더 큰 노력을 같이 기울일 수 있게 되길 기원한다.