文本情感分析
赵妍妍, 秦兵, 刘挺 - 软件学报, 2010 - jos.org.cn
按粒度,情感分析可分为词语级、短语级、句子级、篇章级、多篇章级;按文本类别,可分为基于新闻评论和基于产品的情感分析。
情感分析的研究任务:情感信息的抽取、分类以及检索与归纳。 一、情感信息抽取(评价词语、评价对象、观点持有者)
1. 评价词语的抽取:基于语料库的抽取;基于词典的抽取;基于图的方法。
2. 评价对象的抽取:基于规则/模板的方法(词序列、词性、句法规则、关联规则挖掘);评
价对象最为产品属性,考察评价对象与领域指示词的关联度来获取;多粒度的话题模型方法。
3. 观点持有者抽取:命名实体识别技术(人名或机构名)、语义角色标注;分类任务,看做
序列标注问题,使用CRF融合特征抽取;名词短语作为候选,使用ME模型计算。 4. 组合评价单元的抽取:
主观表达式:Wiebe的主观表达式库(抽取n元词语/词组作为候选,对比训练预料判断) 评价短语抽取(程度副词-评价词语):情感词典的方法;依存句法解构(ADV,ATT,DE)。 评价搭配抽取(评价词语-评价对象):基于模板的方法(8个共现模板、句法关系模板)。 二、情感信息分类
1. 主客观信息分类:文本是否含情感知识方法;组合评价单元判断;情感模板识别;基于
分类器和分类特征的二元分类任务(词语特征,标点、人称代词、数字特征,基于图); 2. 主观信息情感分类(句子级、篇章级):基于情感知识、基于特征分类的方法(n-gram词语
特征和词性特征、位置特征、评价词特征)。 三、情感信息的检索与归纳 1. 情感信息检索 2. 情感信息归纳
基于产品属性的情感文摘:识别评论信息中的产品属性,抽取描述产品属性的情感句,判断其倾向性。
基于情感标签的情感文摘:标签可定义为评价搭配形式,建立标签库,相似度聚类的方法聚类得到相似的情感标签,每一类视为潜在的话题(即产品属性)。 基于新闻评论的文摘 四、情感分析的评测与资源
1. 情感分析的评测:TREC,NTCIR的MOAT(新闻观点检测,情感问答,跨语言情感分析),
国内的COAE。
2. 情感分析的语料:康奈尔大学的影评数据集,UIC的Hu和Liu的产品领域的评论语料,
Wiebe的MPQA新闻评论深度标注语料,MIT的多角度餐馆评论语料,中科院的中文酒店评论语料。
3. 词典资源:GI(general inquirer)评价词词典,NTU评价词词典(繁体中文),主观词词典(英
文),HowNet评价词词典(简体中文、英文) 问题:情感信息抽取忽略词语所在语境的影响;评价对象的情感分类,而非句子级或篇章级;基于情感标签的情感文摘的深入研究;
基于层次结构的多策略中文微博情感分析和特征抽取
谢丽星, 周明, 孙茂松 - 中文信息学报, 2012 - nlp.csai.tsinghua.edu.cn
三种情感分析方法的研究:表情符号的规则方法、情感词典的规则方法、基于SVM的层次结构的多策略方法。
主题无关的情感分析:不关心情感极性所描述的对象,有基于词典的方法、有监督的机器学习和无监督的方法。
主题相关的情感分析:基于规则的方法;基于特征(属性)的方法。
主客观分类特征、极性分类特征:链接、表情、情感词典、情感短语、上下文 微博消息句子构成特征:首句、尾句情感极性,正负中情感句数
主题相关的句子筛选:包含主题词的句子、零指代情感、主题词相邻的一定范围内。
本文中主题无关的最佳组合方法:单句用一步三分类,特征为表情+词典+短语+上下文,整体为句子组成SVM,特征为首句尾句极性+三种情感极性句子数。
主题相关的特征(本文提供主题词来获取数据):测试三种主题相关句子筛选方法。 本文后续工作:构建网络用语词典;深入研究主题相关的特征;构建图模型。
Cross-Lingual Mixture Model for Sentiment Classification
X Meng, F Wei, X Liu, M Zhou, G Xu… - Proceedings of the 50th …, 2012 - dl.acm.org
问题:英语的标记数据比其他语言多,很多现存的方法都是直接用机器翻译将源语言翻译为目标语言,以获取标记数据,但是翻译后的词典覆盖率有限,且翻译本身的准确性限制。
解决:提出跨语言混合模型,利用平行语料库,可以提高词典覆盖率,通过在飞标注的平行语料中学习情感词,同时在源语言与目标语言间传递极性标签信息。
思路:把平行语料库中的未标注数据的极性当做隐变量,而语料库中的可观察的词语当做是基于隐变量的词语生成分布来生成的。给定一个平行语料库,通过最大化生成这个语料库的似然值来fit CLMM模型,通过最大化似然值,CLMM可以估计没在标记数据中出现但是在平行语料中出现的词语的产生概率,进而扩展词典。另外,CLMM还能利用源语言和目标语言中的词语来判断平行语料中句子的极性。
Cross-Domain Co-Extraction of Sentiment and Topic Lexicons
F Li, SJ Pan, O Jin, Q Yang, X Zhu - … of the 50th Annual Meeting of the …, 2012 - dl.acm.org
问题:之前的工作表明监督方法的有效性,但是却需要人工标注训练数据。
解决:本文提出一个domain自适应的方法来得到情感和主题词典,不需要任何标注数据,但是需要另外一个相关领域的标注数据。首先,在目标域中生成一些有高置信度的情感和主题词种子,然后提出一个新的Relational Adaptive bootstraPping算法根据源域中标注数据的情感词和主题词的关系来在目标域中扩展种子,进而得到目标域的情感主题词典。
1. 情感词种子生成:源域中的情感词作为候选,用公式(1)得到得分最高的top r 个词汇作
为情感词种子
2. 主题词种子生成:在源域中抽取出情感词与主题词的所有pattern及主题词作为候选,
根据公式(2)得到pattern的得分,Acc(Rj)是在源域中pattern Rj的准确率,Freq(Rj)是在目标域中的出现频率。选取得分最高的top r个pattern作为种子,然后根据公式(3)选取得分最高的top r 个词作为主题词种子。B是情感词种子集合,A是满足wi,wk的模式集合。
3. 种子扩展:
Twitter Sentiment Classification using Distant Supervision
A Go, R Bhayani, L Huang - CS224N Project Report, Stanford, 2009 - cs.wmich.edu Tweets出现在新闻标题中或者维基百科中,则认为其为中性。
Tweets的特性:长度,可用数据多,语言模型(数据格式杂乱,错误常出),没有特定领域。 方法:分类器用了NB,最大熵,SVM,特征用了unigrams,bigrams,两个的结合,unigrams结合POS(词性标注) tags。 训练数据:用twitter API检索:)和:(下载包含emotion(分为正负极性两种表情符号)的tweets数据,对数据进行预处理(去掉emotions,删去有两种极性emotion的tweet,删去重复数据
相关推荐: