等等),最终得到1600000个tweets。训练数据中要把emotion去掉,引发的问题是由于训练数据没有用emotion特征,因而测试数据中有emotion特征时,对其分类无影响,这是一个需要解决的问题。
测试数据:用不同的领域的query term检索tweets,对其标注形成测试数据。
实验后发现,单独的unigrams比bigrams效果好,因为bigram数据稀疏,两种结合的特征,NB和最大熵正确率提高,但是SVM降低。而POS特征对分类无明显影响。
以后需要解决的问题:语义问题,特殊领域的情感分类,中性tweets的处理,其他语言的情感分类,测试数据中emotion特征的应用。
Target-dependent Twitter Sentiment Classification
L Jiang, M Yu, M Zhou, X Liu, T Zhao - ACL, 2011 - aclweb.org
问题:以往的工作大多是target无关的情感分析,即只分析情感,而没有考虑情感对应的对象;由于tweets的特殊性(短小且多歧义,一个tweets中可能涉及多个target,或者同一个tweet中有很多与target无关的说明),情感分析时会造成内容不够,数据稀疏。所以有必要进行target相关的情感分析,同时扩展相关的tweets,综合分析得到结果。 方法:采用三步进行分析:主客观分类,极性分类,基于图的优化。前两步采用相同的特征,SVM分类器。
1. 数据预处理:tweets标准化,词性标注,词干,句法分析
2. target无关的特征:词、标点、表情符号、hashtag、情感词典特征(即句子中有多少正负
极性词语) 3. Target扩展:首先,包含target的名词短语作为扩展目标;然后,与target有co-reference
的也作为扩展目标;用点互信息求出与target最相关的K个名词和名词短语,抽取出所有扩展目标的中心名词,如果其与target的点互信息大于阈值,则也作为扩展目标。 Target有关的特征:依靠句法分析树,得到多种特征,比如,I love iPhone得到 love_arg2, Flower is beautiful得到Flower_arg1,等等。 4. 基于图的情感优化:
相关tweets的获取:retweets(转发的),同一人发的包含target的tweets,对该tweet的回复。对于不同扩展,将其用不同的连线与原本的tweet连接,形成图。进而:
对于图中的每个tweet,计算出p(c|t,G),输出其中p最大的一个。
5. 实验:实验的训练和测试数据用不同的query term(Obama,Google,iPad,Lakers,Lady Gaga)
从twitter上获取,人工标注其极性,得到459个+,268个-,1212个中性tweets。
Future work:探索target与扩展target的关系,哪些情感有相关,哪些不会。
相关推荐: