Heritrix使用摘要

loveofgod

浏览: 742590 次
性别:
来自: 北京

最近访客更多访客>>

u012363178

piggysnoopy

落林是尘啊

dev灰色天空

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

信息检索

Eclipse JSP IE Firefox Windows

1. 在Eclipse下新建立一个Java Project（名字随便起），把提供的heritrixSpider下的内容全部拷贝到刚才建的工程的Eclipse目录下；
2. 在Eclipse工程目录下，找到org.archive.crawler包下的Heritrix.java文件，选择该文件，点右键->Run As->Java Application，运行程序，当Eclipse Console里出现“Heritrix version: 1.10.0”信息时，表示heritrix已经正常启动；
3. 打开浏览器（Firefox或IE），输入http://127.0.0.1:8888，会显示一个登陆框，输入用户名：admin和密码：akalius；
4. 进入主页面后，选择“Jobs”->“With defaults”后，Name of new job和Description随便写，Seeds下输入要作为起点的web url（可以填写多个url，每行一个url，无需任何分隔符），Seeds的选择很关键，好的Seeds可以使spider过滤掉无关的页面；
5. 填好Seeds后，选择“Settings”，修改user-agent为Mozilla/5.0 (compatible; heritrix/1.10.0 +http://192.168.208.130)（192.168.208.130为自己机子的IP地址），修改from为test@163.com（Email随便写，格式对就行）；
6. 选择“Modules”，Select Crawl Scope选择“BroadScope”，Select URI Frontier选择BdbFrontier，Select Pre Processors选择“Preselector”和“PreconditionEnforcer”，Select Fetchers选择“FetchDNS”和“FetchHTTP”，Select Extractors选择“ExtractorHTTP”、“ExtractorHTML”，Select Writers选择“MirrorWriterProcessor”，Post Processors选择“CrawlStateUpdater”、“LinksScoper”和“FrontierScheduler”（最好自己写一个FrontierScheduler来替换heritrix自己的FrontierScheduler，因为heritrix的FrontierScheduler没有对网页进行相应的过滤，这样就会爬下所有的页面，自己写个FrontierScheduler可以采取一定的过滤机制来获得相对少且与主题相关的页面）；
7. 设置完“Modules”后选择“Submit job”，进入主页面，选择“Console”，点击“Start”开始爬网页；
8. 正常开始爬后，会显示一个进度条和相关的性能数据，并且在heritrix的Eclipse工程目录下的jobs目录下会自动生成一个文件夹，文件夹名为“创建的job名-创建的时间”，该文件夹的mirror目录就是heritrix爬到内容所在的目录。

0
顶

0
踩

分享到：

CVS与Eclipse使用摘要 | ServletContext和ServletConfig深度分析

2008-04-14 21:15
浏览 6385
评论(3)
分类:企业架构
查看更多

3 楼 javaliver 2010-10-02

2010.10.02 只恨相见太晚

2 楼 gml520 2008-11-12

很不错的 GetStarted 。谢谢！

1 楼 richiewlq 2008-08-01

刚接手heritrix,试了一试，抓取文件很顺利，可是却发现了一个问题。
用heritrix抓取了jsp文件，可是抓取的文件名如下：show_hotelshopid=102&catid=2.jsp
可实际想要的url是show_hotel.jsp？shopid=102&catid=2
如何将文件名与url相关联起来？
要重写writer么？或是其他
由于windows file system不允许"?"出现在文件名中，这个限制造成了这一麻烦，可是怎么解决呢？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论