第一范文网 - 专业文章范例文档资料分享平台

网络爬虫Java实现原理

来源:用户分享 时间:2025/5/25 18:14:02 本文由loading 分享 下载这篇文档手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

} /**

* Called to start the spider */

public void begin() {

cancel = false;

while ( !getWorkloadWaiting().isEmpty() && !cancel ) { Object list[] = getWorkloadWaiting().toArray(); for ( int i=0;(i

/**

* A HTML parser callback used by this class to detect links *

* @author wuhailin * @version 1.0 */

protected class Parser

extends HTMLEditorKit.ParserCallback { protected URL base;

public Parser(URL base) {

this.base = base; }

public void handleSimpleTag(HTML.Tag t, MutableAttributeSet a,int pos)

{

String href = (String)a.getAttribute(HTML.Attribute.HREF);

if( (href==null) && (t==HTML.Tag.FRAME) ) href = (String)a.getAttribute(HTML.Attribute.SRC);

if ( href==null ) return;

int i = href.indexOf('#'); if ( i!=-1 )

href = href.substring(0,i);

if ( href.toLowerCase().startsWith(\) { report.spiderFoundEMail(href); return; }

handleLink(base,href); }

public void handleStartTag(HTML.Tag t, MutableAttributeSet a,int pos) {

handleSimpleTag(t,a,pos); // handle the same way

}

protected void handleLink(URL base,String str) { try {

URL url = new URL(base,str);

if ( report.spiderFoundURL(base,url) ) addURL(url);

} catch ( MalformedURLException e ) { log(\malformed URL: \+ str ); } } }

/**

* Called internally to log information * This basic method just writes the log * out to the stdout. *

* @param entry The information to be written to the log. */

public void log(String entry) {

System.out.println( (new Date()) + \+ entry ); } }

4.HTMLParse .java

import javax.swing.text.html.*;

public class HTMLParse extends HTMLEditorKit { public HTMLEditorKit.Parser getParser() {

return super.getParser(); } }

搜索更多关于: 网络爬虫Java实现原理 的文档
网络爬虫Java实现原理.doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/c0463u8hrgx9da6a52izb_5.html(转载请注明文章来源)
热门推荐
Copyright © 2012-2023 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top