Papers/Others

A Search Engine is a box of chocolates

tomato13 2007. 11. 28. 16:48

강사: 서울대 심규석 교수

제목: A Search Engine is a box of chocolates.
(You never know what you get!)

내용: 인터넷 검색 엔진들이 대중화 되고 있지만 아직도 유저가 원하는 정보를 제공하기에는 미흡한 면이 많다. 인터넷상에 수많은 웹 페이지가 존재하고 또 매일 생겨나고 있는 시점에서 수많은 웹 페이지들을 검색엔진이 잘 처리하기에는 너무나 어려운 점이 많기 때문이다.
본 발표에서는 검색엔진들의 중요한 연구주제에 대해서 공부하면서 현재 어떤 연구가 되어있고 또 어떤 문제점을 아직도 해결하고 못하고 있는지 그리고 앞으로 나가야 할 방향에 대해서 설명한다. 같이 공부할 주제는 (1) Google Bigtable & Google File System, (2) Template Detection, (3) Duplicated Web Page Detection, (4) Opinion Mining, (5) Product Search 등이다.

 

내가 참석한 부분은 아래와 같다.

(1) Google Bigtable & Google File System

- Oracle과 같이 정교하고 대규모의 데이터를 관리하지는 못한다.

- only append 만 가능하다.(update는 불가능, 불필요한 부분제거)

- Grib computing방식의 성능이 작은 수많은 computer를 연결가능

- master server가 존재하여 slave(?) server관리

- compression제공

- GFS사용자는 Map/Reduce에 대한 구현필요

(Map: ex)keyword, contents mapping, url, content mapping, Reduce: mapping된 데이터를 검색하여 필요한 것을 retrieve)

 

(2) Template Detection

- Script page내부 tag기반 혹은 GUI page기반 template작성

(template은 user의 keyword(request)와 real stored data간의 mediator수단으로 활용)

- XML은 senmentic tagging이 잘 되어 있어 용이하나 HTML은 그렇지 못함

- 많은 detection algorithm존재

 

(3) Duplicated Detection

- Hash algorithm적용(ex. hash function사용)