isdead: The Cynical Felix.
by 이즈데드 이글루스 피플

View isdead's LinkedIn profileView isdead's profile
isdead.kr
카테고리
어떤 글의 퀄리티를 기계적으로 측정하는 방법이 없을까?
 꾸준히 나오는 WhiteRoom 클론들과 q10의 레이아웃을 보며 다양한 잡생각을 해봤는데, 문득 웹 상에 게재되는 글의 가치를 특정 수치로 1차 평가를 할 수 있지 않을까라는 생각을 해봤다. 매일 매일 수 많은 (그리고 개중엔 쓸데없기도 한) RSS Feed를 보는 나로선, 확실히 이 문제를 한번쯤 고려하게 될 수 밖에 없었고...

 일단 글을 평가하기 전에, 절대적 평가 기준과 상대적 평가 기준을 몇가지 떠올렸는데, 평가 기준을 두기 전에 일단 어디서부터 어디까지 수치화 할 수 있는가를 정리해봤다.

- 글의 총량
- 문장의 길이(period로 파악)
- 문단의 갯수
- 특정 키워드의 반복 횟수
- 오타 개수
- 글의 작성 시간
- 수정 횟수
- 문법 활용 지수
- 단어의 수준
- 문법 정확도
- 제목과 본문의 연관성
- 참고 자료의 수
- 링크 개수

 하지만 변수들을 정리하다가 갑자기 드는 생각. 글을 평가하는 기준이란게 과연 어디에 있을까? 글의 논리성? 자료의 신뢰도? 하지만 그런 내용들을 어떤 기계적인 방법으로 평가하긴 힘들지 않나? 그래서 좀 더 명확한 '평가의 기준'을 떠올려봤다.

 일단 글을 평가하자면, 글의 종류가 중요하다는 생각이 들었다. 낚시글은 떡밥이 좋으면 좋은 평가를 받을테고, 공개적인 영화 리뷰는 스포일러를 잘 고려해야할꺼고... 이래선 어떤 보편적인 평가의 가치를 제시할 수 없지 않은가?

 그래서 다시 생각을 바꿔, 사람들이 바로 보고 글을 평가할 수 있는 어떤 기준을 축약하여 제공하면 어떨까, 라는 단계까지 넘어왔다. 보통 사람들이 많은 커뮤니티나 게시판에선 조회수, 댓글수, 스크린샷 유/무(?) 등의 중요한 요소를 보고 0.2초 안으로 이 글을 볼지 말지 생각하지 않는가.

 그래서 기존에는 중요하게 평가하지 않았지만, 정보가 넘치는 웹에서 사람들이 자신이 원하는 글을 능동적으로 선택할 수 있도록 하려면 무엇을 노출해야할까? 한 번 개인적인 시각으로 정리를 해봤다.


1. 글의 양

 확실히 글의 양은 글을 평가할 때 여러가지로 고려되는 요소다. 너무 길어도 문제, 짧아도 문제. 게다가 글이 쓸 데 없이 긴 경우엔 엄청난 배신감이 들기 마련. 그래서 마음의 준비, 혹은 기본적인 평가 기준으로서 글의 양을 넣는건 제대로 된 선택인 것 같다.
다만 보여주는 방식이 중요한데, 문자 수/줄 수/단어 수/ 문장 수/문단 수 등의 다양한 형태가 있으니, 적절히 골라야 하겠다.

2. 작성에 들어간 시간 

 글의 초벌 작성부터 시작해서, 최종적으로 나오는데까지 들어간 시간. 이 시간은 여러가지 의미를 가진다. 정성이 담겨있다고 할 수도 있고, 글 쓰는데 딴 짓 하면서 쓴다는게 눈에 보일 수도 있고... 해석하기 나름이긴 하지만, 글쓴이가 투자한(혹은 브라우저를 띄워놓은) 시간을 보여주는건 충분히 의미가 있다.

3. 글의 참고 자료, 혹은 링크의 개수

 최근 보여지는 수많은 고증들이나 주장들은 자료의 확장을 통해 신뢰성 확보를 하려고 노력하는데, 이것 또한 평가의 지표가 될 수 있으리라본다. 다만 글을 쓰는 과정에서 "이 것은 참고자료입니다. 저건 그냥 뻘 링크고요." 라고 쓰질 않으니, 참으로 애매할 수도 있겠지만...


 일반적인 글은 위에 나열한 이슈 이외의 다른 변수를 활용하기가 매우 힘든데, 이는 현재 존재하는 텍스트 입력기가 어떤 전문적인 글을 쓸 수 있도록 지원하지 않아서 그런 것이라고 생각한다. 뻘 글이 쓰기 편하면 뻘 글을 쓰는게 유저들의 심리.

 그래서 만약 추가적인 기능을 지원한다면, 위에 나열했던 데이터들을 통합하여, (장난삼아) 퍼센테이지로 보여주는 것도 재밌을 것 같다.


 다시 원점으로 돌아와서, 그럼 결국 기계적으로 평가할 수 있는 방법은 없을까? 뭔가 좀 더 명확한 평가 수치가 없을까? 여전히 다른 도구는 떠오르지 않는다.
by 이즈데드 | 2008/07/09 04:14 | Civilization | 트랙백 | 덧글(20)
트랙백 주소 : http://isdead.egloos.com/tb/4476229
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Commented by object at 2008/07/09 04:52
"결국 기계적으로 평가할 수 있는 방법은 없을까?" 그게 바로 Machine Learning에서 풀려고 하는 문제죠. 좋은 글들을 줘서 학습을 시킨 뒤에 새로운 글이 왔을 때 좋은 글인지 아닌지를 밝혀내는... 통계기반의 알고리즘 학문입니다. 물론 쉽지 않죠...
Commented by 이즈데드 at 2008/07/09 04:59
사실 '좋은 글'이라는 예제를 충분히 제공하고, 그 사이에 존재한 패턴을 가지고 좋은 글을 정의하는 것이 가장 좋은 예가 될 수 있을 것 같은데요, 아무래도 웹 서비스에선 그런 연산을 일상적으로 할 수 없으니까요...

그래서 뭔가 연산이 필요없는 (인간의 습관으로 인한) 수치를 가지고 글을 평가할 수 있는 방법이 없을까, 라는 쓸데없는 고민을 하게 되는 것 같아요.
Commented by Realkai at 2008/07/09 06:22
머신 러닝이라... 왠지 흥미있어 보이네요.
Commented by object at 2008/07/09 10:14
사실 지금 이글루스에서 보는 '연관글' 검색도 머신러닝의 일종이랍니다. 텍스트 서머라이제이션이라고해서 주어진 글에서 그걸 잘 요약할 수 있는 단어를 뽑아내는 기술이죠. 이미 일상생활에 꽤 많이 사용되고 있습니다. 대표적으로 지문인식도 패턴을 학습한 뒤, 지문이 입력되었을 때 얼마나 높은 확률로 잘 맞추느냐.. 다 통계기반의 머신러닝으로 볼 수 있습니다.
Commented by object at 2008/07/09 10:15
글에서 써주신 각종 팩터들도 좋은 글을 기계적으로 판단할 수 있는데 쓰일 수 있는 객관적인 데이터이죠. 잘 정리해주셨어요 ㅎㅎ
Commented by 이즈데드 at 2008/07/09 10:44
근데 텍스트 서머라이제이션은 아무리 생각해도 배경이 되는 글이 많고, 태그라는 보조도구가 있기 때문인 것 같아요. 영어를 기준으로 생각할땐 머신러닝이 충분히 가능할 것 같지만, 한국어의 특성상 패터나이즈가 쉽지 않을 것 같고;;

그래서 뭔가 새로운 팩터가 있지 않을까 골싸매고 있습니다 ㅎㅎ
Commented by isgray at 2008/07/09 06:13
결국은 사용자의 평가 밖에 없지 않을까요. '좋은 글'...이라는 건 자동으로 판단하기엔 너무나 변수도 많고 주관적이니까요.
결국 남는 건 별점을 준다거나, 추천을 하는 식으로 평가를 한 후, 조회수나 다른 요소들을 종합하여 평점을 내는 정도 밖에 없어 보입니다. ;
Commented by 이즈데드 at 2008/07/09 10:48
네. 제가 도출한 결론도 그것과 비슷한데, 다만 기존에는 관심가지지 않았던 특정한 요소를 추가하면, 제목에 낚여서 글을 읽게되는 확률이 낮아질 것 같아요.
그리고 자신의 글이 낮은 평가를 받는다면 수준을 끌어올리기 위해 노력할 수도 있겠죠.

그러다 꼭 이상한 짓을 하는 사람도 생기긴 하지만;
Commented by joogunking at 2008/07/09 09:20
딜리셔스 같은 소셜 북마크나 디그 같은 사이트에서도 수동 입력에 의한 추천 기능이 있기는 하지만 사용자의 참여가 있어야 하는 한계가 있죠.
검색 로봇의 성능이 좀 더 향상되면 가능하지 않을까 하는 생각도 듭니다.
Commented by 이즈데드 at 2008/07/09 11:02
배경에 깔린 데이터 말고 평가할 수 있는 다른 기준이 없을까요?
Commented by 이노윈드 at 2008/07/09 10:01
전에 검색엔진 배울때 알게된 가중치 판단 기준중에 하나가
"해당 페이지가 얼마나 많이 다른 싸이트에 링크되었는가" 가 있다고 하더군요 :)
페이지뷰나 링크당한 횟수도 좋은 정량화 방법중 하나인 듯 합니다.
Commented by 이즈데드 at 2008/07/09 11:04
아, 그렇죠. 그 부분도 평가되는 부분이네요. 확실히 이글루스에서 핑백이라는 개념이 추가 된 후로는, 글의 말미에서 의식적으로 확인하곤 합니다.
Commented by 페르시안 at 2008/07/09 10:01
문득 그런 글이 생각나는군요
이미 수천년전 아리스토텔레스가 시를 짓는 기술 -운율 등- 을 정의했는데
그 기술만으로 제대로 된 시가 만들 수 있느냐는 별개의 문제다 라고 하는 내용의 것입니다
따라서 과연 위의 규칙을 제대로 지켰을 때 그 글의 가치가 높다고 판단할 수 있는가는 미지수 입니다
예컨대 '영희가 강아지를 낳았다' 같은 문장은 분명 문법에는 어긋나지 않는 문장이라
프로그램은 옳은 문장으로 인지하겠지만
사람이라면 누구나 이 문장이 잘못되었음을 알아차릴 수 있습니다
과연 이런 것을 걸러낼 능력이 있는 프로그램이 현존하는가나
사람의 대처능력을 따라갈 수 없기 때문에 AI가 고차원적인 기술-예컨대 공군파일럿- 인간의 자리를 대체할 수 없다 라는 것도 비슷한 맥락이라 생각되는데

앞으로 기술일 얼마나 발전할 수 있느냐에 따라 혹 달라질지느느 모르겠으나
현재로는 좀 무리가 아닐까 생각됩니다
Commented by 이즈데드 at 2008/07/09 11:09
사실 그래서 1차적인 평가라는 전제를 둔건데요, 우리가 보통 사람 많은 게시판에서 글을 보기 전에 본능적으로 시간에 따른 조회수, 추천수를 보잖아요?
그런 개념을 더 추가할 여지가 있지 않을까, 라는 생각에서 출발한 고민이에요.
Commented by 돌다리 at 2008/07/09 10:02
수치로 측정할 수가 없기에 가치가 있는걸로 생각됩니다만..
Commented by 이즈데드 at 2008/07/09 11:08
가치도 인간이 해석하는거니까요 ^^;
Commented by blesshy at 2008/07/09 10:40
평가기준의 모호성때문에 자동으로 평가하기가 참 어렵죠,
MT도 마찬가지입니다. 특히나 SMT같은 경우에는 BLEU값이 좋다고 사람이 보기 좋은게 아니기 때문에..;;;
Commented by 이즈데드 at 2008/07/09 11:08
오호 Statistical machine translation이라고 하는군요. 구글 번역이 가장 대표적인 예겠군요ㅋㅋㅋ
위 이야기와는 상관 없지만, 구글 번역 보고있으면 참 다양한 감정이 들긴 합니다; (구글)웹 사용자가 꽤 오덕하다는 느낌도 들고요(...)
Commented by 최종욱 at 2008/07/14 08:07
' 아 이런 단어와 문장 패턴이 나타나면 많이 보겠구나/추천하겠구나' 예측하는 놈을 정량적으로 만드는 방법이야 무궁무진하지만 그게 TFCV라는 철저한 검증법이 나왔을 때 얼마나 유효한지도 정량적으로 나올 겁니다.

예 를 들어, 한 가지 피쳐를 보자면 - 좋은 글들은 맞춤법이 철저하기도 하고, 작가마다 어휘도 꽤 제한되어 있어서 찾아내기가 그렇게 어렵지는 않죠. '슴가'라는 단어가 나오면 많이 읽는다거나, '이명박'이라는 단어가 나오면 추천이 높아지는 현상 정도야 쉽게 예측 가능하구요. 어떻게든 피쳐셋 많이 뽑으면 정확도 80%까지는 잡아낼 수 있을 것 같긴 합니다.

그런데 조회수나 추천수가 개인의 감동을 보장하지도 않거니와 의도적으로 좋은 피쳐들을 섞어놓은 글(=떡밥)에게는 속수무책으로 당한다는 단점이 있어요. 여튼 믿을 게 못 됩니다.
Commented by 냥냥이 at 2008/07/14 20:29
좋은 글을 집어내는 데는 한계가 있습니다만
양질의 글을 많이 검증해 낼 수 있다면 작가로서도 좋은 일이죠ㅇㅅㅇ

:         :

:

비공개 덧글



<< 이전 페이지 다음 페이지 >>


최근 등록된 덧글
7 jeans sale
by 7 jeans sale at 12/24
샤나 우마 버젼이 젤 귀여웠..
by 쿈군 at 08/12
그런데 하야토 머신빨... ..
by 천사코미 at 08/04
기존에 만들어진 시리즈와 신..
by 이즈데드 at 06/01
하야토는 TV판 까지만 머..
by 처초 at 05/31
이거 예전에 SK Telecom에..
by radiostar1 at 05/07

by 이즈데드 at 04/16
가지마오 가지마예
by 지름판™ at 04/15
ㅜ_ㅜ/
by eviltwin at 02/10
나무야 : 플래시,컴퍼넌트 ..
by eviltwin at 01/20
이글루링크
rss

skin by 이글루스