第一范文网 - 专业文章范例文档资料分享平台

网页分类

来源:用户分享 时间:2020-06-26 本文由伉俪情深 分享 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:xxxxxx或QQ:xxxxxx 处理(尽可能给您提供完整文档),感谢您的支持与谅解。

摘 要

随着互联网的高速发展,web上的信息越来越丰富,为了让人们更快捷轻松的找到需要的信息,网页分类的方法越来越多的得到应用。本文描述的分类方法采用基于支持向量机(Support Vector Machine)的分类方法。 本文首先介绍了网页分类的整体框架,包括特征提取、训练数据的整合、模型训练以及基于模型文件对网页进行分类。特征提取是网页分类的基础,它主要是通过对页面进行解析,得到页面的节点信息,以结构+属性的形式来描述页面特征,其中结构代表页面中特定元素的集合,属性代表结构具备的一些基本信息。根据结构和属性的配置,我们对每个页面可以提取到若干特征。 SVM是一种有监督的学习方法,它的任务是通过对训练数据的学习得到分类超平面,然后以此对随机数据进行二分类,所以首先我们需要构建一批训练数据。特征提取为我们提供了这样的帮助,通过对一批页面进行特征提取,以及一些相关的数据处理如规范化、离散化、信息统计、过滤等操作,我们得到一批可以用来进行SVM训练的数据,并且通过SVM模型训练得到模型文件。在对随即页面进行分类时,首先进行特征提取的工作,然后根据模型文件及特征提取结果进行相关计算,进而判断页面是否为某一类型。 对不同类型以及不同语言的分类步骤大致相同,我主要进行了两种类型的网页分类工作,最后得到的类型A准确率和召回率分别为92.3%和86.7%,类型B的准确率和召回率分别为82.0%和84.5%,基本符合预期。

关键词 SVM,特征提取,网页分类,二分类

I

ABSTRACT

With the rapid pace of Internet’s development, web becomes informative. The methods of web page classification are widely applied to make it more convenient for individuals to find the needed information. The methods of classification adopt the methods of classification based on Support Vector Machine.

This paper initially introduces the whole structure of web page classification, including feature extraction, training data integration, model training and the classification based on the model file. Feature selection that obtains the inode of html page by analyzing the pages is the basis of web page classification. It describes the feature of page in the form of structure and attribution, where the structure refers to the specific elements sets and the attribution stands for some basic information of the structure. According to structure and attributive configuration, we can select several features in each page.

SVM is supervised learning method whose task is to obtain classification hyperplane by learning the training data, thus, 2-class the random data. Due to that, we initially need structure a chain of training data. Feature selection offers help by conducting feature selection in pages and by dealing with some relevant data, such as normalization, discretization, information statistics and filter. We gain several data for SVM training, and from that we gain the model file. For classifying the random pages, we are expected to conduct feature selection firstly. Then according to the model file and feature selection results, we perform relevant calculation. So we can determine the type of the page

The procedure of classifying the different types is similar to that of different language. I mainly conduct the page classification of two language types, finding that the accuracy and the recalling rate of type A are 92.3% and 86.7% respectively, and that the accuracy and the recalling rate of type B are 82.0% and 84.5% respectively, they all generally meet the expectation.

KEYWORDS SVM, feature extraction, web page classification, 2-class

II

目录

摘 要............................................................................................................................... I ABSTRACT ....................................................................................................................... II 目录............................................................................................................................... III 第1章 前 言 ............................................................................................................... 1

1.1项目意义及来源 .............................................................................................. 1 1.2 项目内容 ......................................................................................................... 1 1.3 作者完成的工作 ............................................................................................. 2 1.4 论文章节安排 ................................................................................................. 2 第2章 网页分类技术简介 ......................................................................................... 3

2.1 网页分类基本步骤 ......................................................................................... 3 2.2 常用分类算法 ................................................................................................. 4 第3章 网页分类过程概述 ......................................................................................... 6

3.1 网页分类流程 ................................................................................................. 6 3.2 特征提取概述................................................................................................. 6 3.3 模型训练概述................................................................................................. 7 3.4 结果评估 ......................................................................................................... 8 3.5 小结................................................................................................................. 8 第4章 SVM简介 ......................................................................................................... 9

4.1 最大边缘超平面............................................................................................. 9 4.2 线性支持向量机........................................................................................... 10

4.2.1 线性分类器的边缘............................................................................ 10 4.2.2 线性SVM模型.................................................................................... 11 4.3 非线性支持向量机....................................................................................... 12 4.4 核技术 ........................................................................................................... 14 4.5 小结............................................................................................................... 14 第5章 页面特征提取 ............................................................................................... 16

5.1 网页预处理 ................................................................................................... 16

5.1.1 网页解析 ............................................................................................. 16 5.1.2 语义信息的提取 ................................................................................. 17 5.1.3 对DOM树分块 ................................................................................... 18 5.2 网页特征提取 ............................................................................................... 18

5.2.1 特征的表示形式 ................................................................................. 19 5.2.2 特征提取 ............................................................................................. 19 5.3 特征筛选 ....................................................................................................... 20

5.3.1 特征频率 ............................................................................................. 20 5.3.2 文档频率 ............................................................................................. 20 5.3.3 信息增益 ............................................................................................. 21 5.3.4 期望交叉熵 ......................................................................................... 21

III

5.3.5 ?2统计法 ............................................................................................ 22

5.3.6 互信息法 ............................................................................................. 22 5.4小结 ................................................................................................................ 23 第6章 网页分类 ....................................................................................................... 24

6.1训练数据的组织 ............................................................................................ 24 6.2 模型训练 ....................................................................................................... 25 6.3 网页分类 ....................................................................................................... 26

6.3.1 初过滤 ................................................................................................. 26 6.3.2模型加载 .............................................................................................. 26 6.4 数据结果以及分析 ....................................................................................... 27 6.4 小结 ............................................................................................................... 28 第7章 总结与展望 ................................................................................................... 30 参考文献...................................................................................... 错误!未定义书签。 致谢.............................................................................................. 错误!未定义书签。 毕业设计小结.............................................................................. 错误!未定义书签。

IV

第1章 前 言

1.1项目意义及来源

随着internet的高速发展,尤其是WWW的全球普及,web上的信息资源已经涵盖了生活中方方面面的东西,我们也越来越依赖于网络,在网络上寻求我们想要的信息,而这些庞大的信息往往是纷乱无章的,网络信息过载的问题也日益突出,于是web挖掘技术和web信息检索技术也随之迅速发展。

Web信息处理的重要手段是搜索引擎,目前的搜索主要是采用基于关键字搜索的技术,而在实际的应用中,互联网数据太过庞大,这势必会影响到检索的效率以及准确度,往往会导致收索到的结果相关性不高。处理海量数据的一个重要方法就是将它们分类,网页分类是web文本挖掘领域的一个重要的研究方向,通过自动分类可以将网页按照类别建立相应的数据库,提高收索引擎的搜索效率以及查全率和准确率,从而建立自动的分类信息资源,为用户提供良好的分类信息目录。

1.2 项目内容

网页分类是对互联网页面进行某一类型的判断,为二分类问题,当然一个页面也可以被分类成若干种类型,其中每一种类型对应一个分类任务。我们通过对网页进行分类,相当于给每个页面打上标签,比如某个页面可能被标记为论坛或者新闻页面。 网页分类是一个偏向于应用性的项目,它依赖于很多基础模型和算法比如朴素贝叶斯、支持向量机、神经网络等,这里我们选取的是支持向量机(SVM)的算法。我们还需要对数据的进行一些预处理,由于网页是一堆文本信息,要想对网页进行分类,首先要对网页进行解析,最简单的就是构造DOM树,这是根据了html语言特有的结构性,将网页解析并存储成树的结构,有助于我们对信息的查找以及相关计算。 支持向量机算法很重要的一步就是构造训练语料,这里我们需要寻找到一批具有典型特征的页面,并对其进行解析等操作,构造一批适合SVM模型的训练集,通过对训练集的学习,SVM模型会输出模型参数,根据模型参数我们可以对随机页面进行分类。为了使SVM取得良好的效果,我们还需要对训练语料进行调整以得到最佳模型参数。 构造训练语料是SVM训练中重要的一步,我们得到的原始语料只是一批随即网页,这些网页是复杂且无规则的,为了让其适合SVM模型的训练,我们需

1

搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新资格考试认证网页分类 全文阅读和word下载服务。

网页分类 .doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印
本文链接:https://www.diyifanwen.net/wenku/1103347.html(转载请注明文章来源)

相关推荐:

热门推荐
Copyright © 2018-2022 第一范文网 版权所有 免责声明 | 联系我们
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ:xxxxxx 邮箱:xxxxxx@qq.com
渝ICP备2023013149号
Top