본문 바로가기

TREND

음란물 차단 기술과 현실 - 어떻게 음란물을 찾아낼 것인가?

최근 일주일 동안 전자신문, 블로그, 뉴스 등을 접해보면
인터넷 상의 음란물 문제가 많이 거론되는 것을 볼수 있었습니다.
(얼마전 야후에 6시간동안 음란물이 방치된 사건을 포함하여..)

유튜브(YouTube) 가 뜨면서 국내 판도라 TV 를 포함한 각종 동영상 UCC 제공 사이트들에서
대선 동영상이 가장 먼저 문제로 붉어 졌었습니다. 이것을 어떻게 필터링 하느냐가 광건이었죠.
이제는 음란물 필터링이 문제가 되고 있습니다.
심지어 어떤 기자는 구글의 검색 기술을 언급하면서 구글은 음란물까지도 잘 검색된다라고 소개하고 있었습니다.

아마 이 기술을 가진자가, 누가더 100% 가까이 결과값을 내놓느냐에 따라서
다시금 구글, 유튜브의 신화가 나올지도 모르겠습니다.
네이버는 살색 검출로 음란물을 걸러낸다라고 하고 있는데

뭔가 더 획기적이고 좋은 방법은 없을까요?

이제 내용기반검색 CBIR (Content-based Image Retrieval) 이 뜰 이유가 생겼나요?
음란물의 특징(feature) 들을 학습하고(?)
인터넷에 돌아다니는 사진, 동영상 들을 분석 & 검색해서 필터링 해야겠죠..
관리자에게 Automatic 하게 걸러서 음란물 가능성을 척도로 보여주는 정도.
그러면 관리자는 2차로 보면서 심의를 하고..

그냥 막연히 드는 생각들을 적어보면..
- Haar-like feature 와 Adaboost 을 이용 : 음락 부위(?) 특징을 Haar-life 로 뽑아 Adaboost 로 학습시켜서 필터링 한다.
- HMM 을 이용 : 음란물에 숨겨진 어떤 규칙을 찾아서. 어떤 규칙?
- PCA 를 이용 : 음란물의 주요인을 분석해서?
- Bayesian : 음란물의 확률적인 어떤 요소들을 추출. 어떤 요소?
- DFT : Discrete Fourier Transform 주파수 영역으로? 유사도 측정?

이런 생각들을 해보았습니다. 생각하면 할 수록 어렵네요.

사실 이런 기술적인거 막론하고..
중고등학생들의 호기심이야 말로 19금 자료들을 검색하는데 가장 좋은 엔진(?)이 되지 않을까요.

- 관련글: 음란물 차단 기술과 현실
http://www.ringblog.net/868
http://cafe.naver.com/opencv/2046