L一_一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一-一一一一 一一一
下面对该系统中关键模块采用的技术进行介绍。2 1技术路线 .
中文文本分类领域,处理主要完成标点符号的预
只有分值超过指定阈值的类别才判定为文本 d的类别。
去除、的切分、用词的删除等功能。中文分词是自词停 然语言处理领域的一个研究热点和难题,常用的几种机械分词方法有正向最大匹配分词方法、向最大匹逆
K N算法在文本分类中的具体实现步骤如下: N①根据特征项集合重新描述训练文本向量; ②把待分类文本导人后,据特征词分词该文根本,确定待分类文本的向量表示; ③在训练文本集中选出与待分类文本最相近 (相似)的 K个文本,计算公式为:厂■——————一
配分词方法、最少切分方法。一般说来,向匹配的切逆分精度略高于正向匹配,到的歧义现象也比较少。遇 有研究显示,向最大匹配的错误率为 11 9左右,正/6逆向最大匹配的错误率为 12 5右-。因此逆向最大/4左 6 J匹配分词方法可以达到较好的分词效果。因此,中文设计的医药信息分类系统采用了逆向最大匹配法对医
d加=2/ w ( a )^∑ b一 q。 a b
() 1
药信息文本进行分词。医药信息文本分类的预处理主要包括分词和停用词处理两部分
内容。分词是利用特定词典 (通用集和医药信息专用集结合 )行分词,进停用词处理则是利用禁用词集去除文档中的语义虚泛的禁用词,如:例 “,地”“等。的”“,得” 为了配合本系统的逆向最大匹配分词方法,建在
其中,是待分类文本 P和训练样本 q d距离;是属性 总数,是待分类文本 P中的第 h个属性;是第 h a 个属性的权重。
④在待分类文本的 K个最相近 (相似 )的训练文
本中,依次计算每类的权重,计算公式为:三
px )=∑ s a, P(pc) (, i m( )a日, qP= J
() 2
立医药信息分词字典时,用长词优先的法则进行建采
其中, s (p ) C个最近邻中∑ i a,是5 e r 的k的样本a和 p 立。即在收集医药信息词里,把词语的长度也计尽量z之间的相似度。 ( p c)= 1 p a,。,是类别的样本; P ( p f)=0 p是类别 C的样本。。“,。,不。 ⑤根据公式 ( ) 1计算待分类文本 X和每个训练样本的距离,选择与待分类样本距离最小的 K个样本作
算在内,:风湿性关节炎”如“收集为一个词,同时“风湿”“与关节炎”收集在字典里。在建立字典时,医也把
药信息的词语与通用的词语相结合,这对医药信息文献的文本训练与分类提供更多的特征词的提取。查阅大量的医药类的书籍,经过分析,建立字典如下:吖啶、
为X的K个最近邻。根据公式 ( ) 2计算待分类文本与 x 的 K个最近邻样本的权重。把各类的权重进行比较, 把文本分类到权重最大的那个样本所属的类别中。
吖啶橙、吖啶黄、吖啶黄素、阿克拉霉素、阿霉素、米阿巴、阿米巴病、阿米巴痢疾、阿米卡星、阿米替林、阿米
28 0
汁算机技术与发展
第 1 9卷
妥、阿奇霉素、阿奇霉素分散片、阿奇霉素片、司咪阿唑、司匹林等。阿
2 4系统实现 .
文中没计的医药信息文本分类系统考虑了系统的
另外,文本表示方法采用向量空问模型,特征选择方法使用方法,分类算法采用 K NN算法。2 2数据集 .
可扩展性、用户的习惯以及系统的保密性等问题,包含了添加类别、用户管理等模块,系统功能模块图如图 2 所
示。下面对主要模块分别进行介绍。医药文本分类系统
根据国家的药品分类管理办法,品的分类体系药包括如:处方药与非处方药 J 7 。根据资料整理,现在得出以下分类:中药(神药、安补虚药、活血化瘀药、气理药、清热药等)西药 (、维生素、抗病毒药、减肥药、毒解药、抗疟药、喘药、平抗真菌药等 )保健品(、美容祛斑、 营养强化、抗疲劳、调节血脂等 )医疗器械 (、护理设备、 能量治疗器械、医用敷料、植入器械等 )仪器设备 (、包系统操作
用户管理
装设备、分析和检测仪器、粉碎机械、片机械等 )饮等15 2类。文中根据实际情况,构建的数据集包括理气药、清热药、抗肿瘤药、化痰止咳平喘药和影响血液及造血系统的药物共五个类别,训练样本与测试样本的数量分布如表 1所示。训练集和测试集彼此之间不重叠,不包括任何重复的文本。 表 1数据集的各类别文本分布主题类理气清热抗肿化痰止咳影响血液及造药药瘤药平喘药血系统的药物 5 5 2 0 9 2 2 5 4 5 3 5
①添加词典:把建立的词典加载记录在一个临时②清除词典:把记录词典临时哈希表里的信息清
①添加类别:加训练样本的类别,增并记录在类②清空特征:空该类别的特征表示,清把该类别
训练样本集 7 1 9 15 2 0 0 测试文本集 2 4
为了测试特征集规模对分类效果的影响,在选择
理气药的特征词时总量与其它类别相对较少,而其他类别的特征词总量大体相当。然后对此语料库进行训
练,最后使用测试集文本进行测试并进一步分析实验结果。 2 3性能评价 .
①加载样本:载属于同一类的训练样本,加并在
系统评价采用经典的指标查准率、全率、 查 F值进行评价,各指标定义如下: 准确率是某类别中所有判为该类的文本中分类正
每一个训练样本进行提取特征表示,并存储在该类别③继续学习:当该类别的训练样本增加时,不必重新训练,只需要把再学习的 C ek o勾上, hcb x然后把
确的文本所占的比率,其计算公式为:
准率确=
髅
㈥() 4
召回率是某类别中所有应分为该类的文本中分类正确的文本所占的比率,其计算公式为:
召回率=这
垂奎该类所有参与分类文本数
准确率与召回率反映了分类质量的两个不同方面,二者必须综合考虑,不可偏废,因此,现在在分类系统中,存在一种综合评估指标,即为 F测试值, 其计算公式为:
②文本分类:每一个待分类文本先进行预处把表,通过公式( ) 1计算每~个待分类文本与训练样本的
距离,然后再通过公式 ( ) 2计算权重,把待分类文本分
F值器 1=分类系统的性能。
㈤①系统管理:系统管理员对系统进行管理,包括
最后通过准确性、回率、召宏平均 F值来衡量该
第 4期
许
幸等:于 KNN算法的医药信息文本分类系统的研究基
2 9 0
搜索“diyifanwen.net”或“第一范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,第一范文网,提供最新教学研究基于KNN算法的医药信息文本分类系统的研究(2)全文阅读和word下载服务。
相关推荐: