【原创】附代码数据
有问题到淘宝找“大数据部落”就可以了
对推特数据进行文本情感分析
美国调查公司盖洛普公司(Gallup poll found)民调显示,至少51%美国人不赞同总统特朗普的政策。据外媒报道,特朗普上任8天以来引发51%美国人的不满,42%美国人赞同新总统的政策。该项调查共有1500名成年美国人,误差为3%。
为了验证美国民众的不满情绪,我们以R语言抓取的特朗普推特数据为例,对数据进行文本挖掘,进一步进行情感分析,从而得到很多有趣的信息。
找到推特来源是苹果手机或者安卓手机的样本,清理掉其他来源的样本
tweets <-trump_tweets_df %>%
select(id, statusSource, text, created) %>%
extract(statusSource, \, \) %>% filter(source %in%c(\, \))
对数据进行可视化计算不同时间,对应的推特比例.
并且对比安卓手机和苹果手机上的推特数量的区别
【原创】附代码数据
有问题到淘宝找“大数据部落”就可以了
从对比图中我们可以发现,安卓手机和苹果手机发布推特的时间有显著的差别,安卓手机倾向于在5点到10点之间发布推特,而苹果手机一般在10点到20,点左右发布推特.同时我们也可以看到,安卓手机发布推特数量的比例要高于苹果手机
然后查看推特中是否含有引用 ,并且对比不同平台上的数量
ggplot(aes(source, n, fill = quoted)) +
geom_bar(stat =\, position =\) + labs(x =\, y =\, fill =\) +
ggtitle('Whether tweets start with a quotation mark (\)
【原创】附代码数据
有问题到淘宝找“大数据部落”就可以了
从对比的结果来看,安卓手机,没有引用的比例要明显低于苹果手机。而安卓手机应用的数量要明显大于苹果手机。因此可以认为,苹果手机发的推特内容大多为原创,而安卓手机大多为应用内
然后查看推特中是否有链接或者图片,并且对比不同平台的情况
ggplot(tweet_picture_counts, aes(source, n, fill = picture)) + geom_bar(stat =\, position =\) + labs(x =\, y =\, fill =\)
【原创】附代码数据
有问题到淘宝找“大数据部落”就可以了
从上面的对比图中,我们可以看到安卓手机没有图片或者链接的情况要多与苹果,也就是说,使用苹果手机的用户在发推特的时候一般会发布照片或者链接 同时可以看到安卓平台的用户把推特一般不使用图片或者链接,而苹果手机的用户恰恰相反
spr <-tweet_picture_counts %>% spread(source, n) %>%
mutate_each(funs(. /sum(.)), Android, iPhone)
rr <-spr$iPhone[2] /spr$Android[2]
然后我们对推特中的异常字符进行检测,并且进行删除 然后找到推特中关键词,并且按照数量进行排序
library(tidytext)
reg <-\ tweet_words <-tweets %>%
filter(!str_detect(text, '^\)) %>%
mutate(text =str_replace_all(text, \, \\)) %>%
unnest_tokens(word, text, token =\, pattern = reg) %>%
相关推荐: