【写在前面】 数据科学家David Robinson分析8月9日Trump的Twitter文本后发现,Trump安卓手机和iPhone发布的tweet差别太大,应该是由不同人发布,Robinson认为,Trump本人使用安卓手机发布带有更多负面情感的消息,iPhone则由选举工作人员负责。其他人考察过Trump发Twitter的时间线,认为确实是有不同人在掌管Trump的Twitter账号——而且Trump本人应该是用一台三星Galaxy手机在发消息。但如何定量衡量这件事情是否属实呢?最近,我在写一些关于文本挖掘和语义分析的文章,与JuliaSilge一起在开发R语言的软件包,正好借此机会来分析一下Trump Twitter的数据。 根据我的分析,很明显安卓手机和iPhone发布的信息是不同的人发布的,这些tweet发布的时间不一样,使用的#、超链接以及转发也各有不同。不仅如此,从安卓手机发出的tweet要更加愤怒、情感更负面,而从iPhone发出的tweet则要相对缓和,同时附带图片。 总的来说,我同意Twitter用户@tvaziri的分析:我们能够看出iPhone手机发布的是大选策划信息,安卓手机则是Trump自己发布的信息。 数据库 首先,我们使用twitteRpackage中的“Timeline函数”,提取DonaldTrump的时间线, 信息发布时间也可以作为用户“签名”,很明显两种不同信息分成两种不同时间 此外,我们还能看出在共享超链接和图片方面,安卓手机和iPhone的不同, 好,现在我们可以看出,iPhone与安卓手机发布的tweet有明显不同,那么,它们究竟不同在哪里呢? 使用我和JuliaSilge开发的文本分析方法,我们发现,Trump的Twitter中最常见的词汇是 “参与”(join)、“明天”(tomorrow),以及“下午7点”(7pm)这些词,只会从iPhone发布。iPhone负责发布活动宣告,比如下面这条“明晚7点在德克萨斯Houston跟我一起来!” 很多“饱含”感情的词,比如“糟糕”(badly)、“疯狂”(crazy)、“软弱”(weak)和“无力”(dumb)基本上都由安卓手机发布。这一点也支持了我们一开始的假设:安卓手机发布的消息更加“愤怒”。 语义分析:Trump发布的负面意味更浓 好,我们从安卓手机和iPhone发布的tweet里已经看出用词情感不同,那么接下来,我们就来量化一下这个不同。 使用NRCWord-EmotionAssociation,这个标准将词语分为10个属性:正面、负面、愤怒、期待、厌恶、恐惧、欣喜、悲伤、意外和信任。 我们想要知道安卓手机使用饱含情感成分词语的几率,比iPhone使用这些词语多多少。由于统计数字是依照出现次数计算的,因此使用泊松测试转变,再用95%的置信区间可视化如下 再具体来看对这些情感变化影响最大的词语。 结论 《纽约客》上关于Trump的影子写手TonySchwartz的文章中写道,Schwartz专门模仿Trump的口气,达到炉火纯青的地步,以至于Schwartz事后十分后悔,认为自己创造了一个比Trump更加赢得人心的形象。 跟任何新闻一样,数据新闻的根本也是人的兴趣。我尤其关注的一点是:究竟是谁写了这些iPhone的tweet? TrumpiPhone发布的消息大多数都是无关痛痒的公告,但看下面两则tweet,都是从iPhone发布的。这两条tweet看上去都很像我们所熟知的Trump。 有可能Trump偶尔会用iPhone发布消息(要么Trump口述,工作人员记录后发布;要么Trump本人在安卓手机没电时会用一下iPhone)。 但万一都不是,而是有人故意模仿Trump的口气发布的消息呢? 再看这条(也是从iPhone发布的),内容虽然支持Trump选举口号,但表述却并不像出自Trump之口: 这位(或者这些)工作人员是真正100%坚信Trump的理念,还是仅仅身为巨大政治机器中的小小螺丝钉,将接收到的主流观点搅拌后用@realDonaldTrump这一身份输出? 希望他们不要像TonySchwartz一样,有一天后悔自己的参与。 (责任编辑:) |