用社会化媒体预见未来(Part 1/2)

MENU

SocialBeta

个人主页>>
上一篇
社会化媒体话题微博一周(0410-0416)

用社会化媒体预见未来(Part 1/2)

SocialBeta | 2010-04-18 22:31
因为这是我在SocialBeta的首篇博文,所以自我介绍如下:
译者简介:John Geng
从事神经科学/心理学统计定量研究。有兴趣从事社会化媒体应用中(包括社会化媒体营销)的心理和行为学模型和测量研究及应用。

作者:S. Asur and B.A. Huberman
Social Computing Lab, HP Labs, Palo Alto, California
译者:John Geng

摘要
近些年,社会化媒体已成为建立社交网络和分享内容的普及和重要的工具。但是,这些社会化媒体网站的内容大体上还没有被利用。 我们在本文中验证社会化媒体内容怎样能被用于预测现实世界发生的事件。我们具体应用Twitter上的内容来预测电影票房。我们证明一个基于发表tweets频率的关于特定话题的简单模型能够比基于实际市场的测量更好的预测票房。我们进一步验证从Twitter自动提取的结果怎样能被用来进一步提高社会化媒体的预测能力。

总体发现和观点:
1。社会化媒体可以用来定量的预测现实世界的事件,其准确性超过虚拟市场。
2。社会化媒体可以比问卷调查更准确的提取扩散的信息。
3。社会化媒体可以在不需要市场机制的条件下进行预测。
4。我们可以建立模型来统计大众的看法并获得有用的关于人们行为的观点。
5。同时,采集人们对产品的看法有助于设计营销和广告策略。

研究课题:
用Twitter预测电影票房收入,选择电影票房的原因有两条:
1。Twitter用户喜欢电影
2。实际电影票房收入是公开的,便于对照Twitter的预测结果。

研究目的:
1。评价对不同电影的注意力是怎样形成并随时间变化的。
2。在Twitter上作市场宣传的机制
3。注意力在预报现实票房中的作用。我们的假设是越是更多被提到的电影票房越好。
4。研究Twitter用户整体对一个电影的看法是怎麽形成的,正面和负面的意见是怎样传播的,怎麽影响
人们的。对一个烂片,最初的影评可能已经足够阻止其他人去看这个电影。但另一方面,正面的影评和意见也可能随着时间让人产生兴趣。处于这个目的,我们用文字分类(text classifiers)来区别正面和负面的tweets.



主要结论:
1。社会化媒体上的内容可以有效的预测现实世界的表现
2。发表tweets的频率可以被用来建立预测电影票房的强有力模型。
而且这种模型预测的准确性持续性的好于消息市场,比如电影界的权威标准:Hollywood Stock Exchange。
3。对Tweets内容的分析可以改善电影上映后对电影票房的预测能力。

研究数据:
1。用Twitter Search API采集。对每条tweet,采集timestamp, author, tweet text.
共2.89 million tweets来自1.2 million用户,关于3个月内上映的24部电影。
2.电影通常周五首映,个别在周三(美国)。平均每周有两部电影首映。我们采集了从11月到2月共3个月的数据。为保持一致,所选的电影都是周五上映的,并且都是大规模上映的。
3。对每个电影,定义了一个critical period,是从上映前的一周(市场宣传到达高峰)到上映后的两周(最初的热评开始退去,同时人们的看法已经传播开来)。
4。所选择的电影(表1,下图) (有些电影由于技术问题没被选择,如2012,名字有歧义,难以过滤)


                                                                       (表一)


5。在所研究的时间段内每天相关电影Tweets数量的时序(图1)。可见Tweets数量的最高峰出现在首映日附近,之后逐渐减少。这个时序上的规律跟实际电影票房变化一致。


                                                             (图 1)


6。图2显示平均每个作者发表tweets的数量随时间的变化。我们发现这一比例总是在1到1.5之间。




                                                           (   图 2)

 
7。图3是在critical period时不同作者发表tweets的分布。X轴是log scale的tweets数量,Y轴是log scale的发表相应数量tweets的作者的数量,例如,在critical period里发表log(number of tweets)=3 个tweets的作者数量大致是在log(frequency of authors)=6~8之间.这接近一个Zipfian分布,其中少量读者会发表大量的相关tweets.这跟其他网络的结果一致[12].



                                                        (图 3)

 
8.我们接着分析关于不同电影的作者数量的分布。图4显示作者数量随其评论的电影数量的分布。我们发现这同样是一个power-law curve,其中大多数作者只评论1,2个电影。



                                                      (图 4)

关注程度(Attention)和大众程度(Popularity)
A. 首映前关注程度
即对电影相关宣传的关注程度,包括广告,网上图片,片花。用Twitter上链接到相关电影内容(图片,片花等)的url和转贴(retweet)来衡量。

我们首先测量tweets对不同电影的分布,然后我们测量这些分布与电影票房表现的相关性。

表2显示含有广告url的tweets,和retweets占全部电影tweets的百分比在critical period的变化。
从表2中可见,相比首映之后两周,较高比例的带有电影宣传链接的tweets被发表于首映前一周,与我们的期望一致。



                                                       (表 2)
但是retweets的数量在这三周之内保持一致。我们总体上发现retweets在所有关于电影的tweets里属于significant minority.一个可能的原因是人们倾向于发表自己的期望和经验,而不是传递别人的看法。

我们想要确定是否公众认知程度更高的电影,也就是带有url的相关tweets比较多的电影,其票房表现更好。
当我们开始测量url和retweets跟票房表现的相关性时,我们发现中度的正相关(表3)。但是,adjusted R^2值
很低,表明这两个测量对电影票房的相对表现预测性不强。这个结果有些出人意料,因为我们本来期望宣传材料对票房
收入的贡献很大。



                                                            (表3)

B.预测第一个周末的票房收入
下面,我们研究社会媒体预测现实世界收入的能量。我们的目标是观察是否从tweets里得到的知识能够得出合理的
准确的对现实世界未来收入的预测。

我们想要解决的问题如下:
我们能否用发表于首映之前的关于电影的tweets来准确的预测电影在首映那个周末的票房收入?为了定量测量tweets,我们定义tweet-rate (微薄率,by John Geng),也就是每小时发表的关于某个特定电影的tweets的数量。

Tweet-rate(mov) = |tweets(mov)| / |Time (in hours)| (1)

我们最初对平均微薄率和票房相关性的分析显示很强的正相关,其中相关系数是0.9。这表明一个所考虑变量之间
的强线性关系。我们据此用首映前发表的关于24个电影的tweets的平均值的least square建立一个线性回归模型。
我们得到一个0.8的adjusted R^2值,和一个3.65e-09*的p-value,其中‘*'表示0.001的显著程度(significance). 这表明一个很强的预测关系。注意取得这个结果只用了一个变量-平均微薄率。为了评价我们的预测,我们使用了从Box Office Mojo website得来的实际票房信息。

12月4日上映的电影Transylmania在所有电影中有最低的微薄率。电影上映前一周,该电影每小时收到2.75个tweets.
由于缺乏关注,影片在1000家放映点收到了最低的毛上座率,在上映的那个周末知收到$263,941票房,并因此被在第二周结束时停演。另一方面,两个电影在上映时大热:Twilight: New Moon收到$142 million, Avatar收到$77 million.在这两部电影上映前的一周,它们收到的平均微薄率是1365.8和1212.8条tweets每小时。这再一次显示社会媒体中关注程度的重要性。

下面我们对微薄率在首映前七天变化的时序进行了线性回归分析。我们用了7个变量,每个代表特定一天的微薄率。此外,我们用了另外一个变量,thcnt,就是电影首映的剧院数。线性回归的结果见表4。注意在表中各测量中,我们都只用了首映前的数据来预测上映那周的票房。



原文网址:www.hpl.hp.com/research/scl/papers/socialmedia/socialmedia.pdf
作者:S. Asur and B.A. Huberman  Social Computing Lab, HP Labs, Palo Alto, California
译者:John Geng
本文地址:http://www.socialbeta.com/articles/predicting_the-future-with-social-media-part-one.html

欢迎转载,请保留以上信息,更多社会化媒体相关内容,请订阅SocialBeta

共有 0 条评论

请先 登录 再发表评论
暂时木有评论
TOP