아이스파이더 개발을 책임지고 있는 이용환팀장입니다.
매번 통신체로 장난스럽게 쓰다가 이렇게 공식블로그에 글을 올리려니 좀 어색하네요 흠흠

울팀원인 동현씨와 제가 새끼키우는 마음으로 개발하고 있는 아이스파이더에 대해 몇자 적어볼까 합니다.

웹문서를 수집한다고 하면 보통은 web-robot을 떠올리게 됩니다.
하지만, 일반 포털에서의 검색 대상인 웹문서를 수집하는 것과,
다이퀘스트 같은 솔루션회사에서 웹문서를 수집하는 로봇과는 다소 차이가 있습니다.

우리는 고객사가 검색대상으로 지정하는 사이트, 혹은 게시판을 정해진 규칙에 맞게 그리고 원하는 필드로 검색이 용이하게 수집을 하기때문에 일반적인 웹수집 방식을 사용하기에는 다소 제한이 따릅니다.

그래서 우리는 각 사이트나 게시판등 성격에 맞도록  선택적 정보,수집,추출, 저장을 자유로이 설정 변경및 추가할 수 ISPIDER라는 수집 솔루션을 개발하고 있습니다. (현재는 버전 3)

ISPIDER3에서는 수집/추출면에서는
기본적으로 자바스크립트처리, 인증처리등은 기본적으로 제공하고 수집된 정보를 원하는 필드에 자유로이 저장 할 수있습니다. 아쉬운점이 있다면 depth가 좀 제한적이고 html의 테이블이 복잡하면 직접 제어해야 하는 문제가 있는 것이죠..흠..
그러나 저장 기능은 jdbc를 지원하는 모든 db에 저장 가능하고 ,파일로도 저장가능합니다.

정보분석은 우리의 다른 솔루션이 이미 자연어처리기술로 처리하고 있어서 skip ㅎㅎ
정보의 관리는 db로 저장된 경우 수집문서에 대해 확인이 가능하고 수집히스토리나, 오류로그 각종 수집로그 데이타를 볼 수 있습니다.

그리고 처음 위에서 말한것과 같이 특정 사이트 게시판에 맞도록 선택적추출/수집 에 중점을 두다 보니 일반 웹로봇과는 조금은 다른 부분이 있습니다.
따라서 향후에는 ISPIDER3의 기본기능은 물론이고 정보수집의 범위를 확대하여,
일반 웹(xml, 사이트, 게시판, 댓글...) 대상 모두를 수집 가능하도록 할 예정입니다.

부족한 점도 많고 나아가야 할 길도 멀고 험하지만
애정어린 마음으로 아이스파이더를 봐 주시길 바랍니다
아이스파이더가 잘 되야..동현씨나 저도 장가갈텐데 ㅎㅎ

Posted by

2008/06/26 15:51 2008/06/26 15:51
, ,
Response
287 Trackbacks , 2 Comments
RSS :
http://blog.diquest.com/rss/response/85


블로그 이미지

-

Notices

Archives

Authors

Calendar

«   2012/02   »
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29      

Site Stats

Total hits:
207017
Today:
166
Yesterday:
337