配置一下环境变量 添加 CYGWIN_HOME
在path中添加%CYGWIN_HOME%\\bin
5、安装nutch1.4 官方网站http://nutch.apache.org/,下载地址http://apache.etoak.com/nutch/我选择的是apache-nutch-1.4-bin.zip 解压后目录为:E:\\Mysdk\\apache-nutch-1.4-bin
Cmd 到E:\\Mysdk\\apache-nutch-1.4-bin 执行ant
然后就耐心等待一下吧!
6导入eclipse中新建工程
点击下一步找到conf文件夹 选择Add folder ‘conf’to buid path 我将default output folder设置为Nutch/conf
点击finish
如果一切正常将没有错误
7修改nutch1.4配置信息
(1) 修改conf下nutch-default文件将plugin.folders 的值由plugins修改为./src/plugin
(2) 按照官方网站说明在工程目录下建立urls目录在目录下建立txt文件,文件名字
随意填写一个网址作为爬虫的目标网址
相关推荐: