天津在线

首页> 科技频道> IT业界> 正文

研究人员创造新算法可提前预测微博热门话题

研究人员创造新算法可提前预测微博热门话题

(过客/编译)信息和决策系统实验室的达文特-沙赫教授和他的学生斯塔尼斯拉夫-尼科洛夫声称他们的运算法则能以95%的准确度预测出哪些词语、句子或者标题将成为流行趋势,甚至能够提前到4到5小时。他们通过“训练”它来进行预测,教导它如何计算出什么样的显示形式很可能成为一个流行话题。

按照惯例来说,像这样的一个预测系统将会查看微博的流量并且把它所观察到的与一个特定的模型进行匹配。当一个话题与普通背景话题相比更加突出的时候,你可以通过设定程序来寻找一个特定的‘阶梯’。沙赫解释道:“这是一个非常简单的模型。根据数据分析,你可以设法训练它什么时候会出现跳跃以及会发生多大的跳跃。”

最终他们的运算法则并不是寻找微博流量样本的一种特定模式,而是着眼于每个新话题的微博数量随着时间的变化并且与训练组的每个样本随着时间的变化进行比对。如果一个新话题从统计学上类似于其中一个样本,这就会为它预测新话题是否将趋于流行增加砝码。事实上每一个训练样本都会对一个新话题流行与否进行“投票”,而一些样本的得票数比其它的更高。这些投票就会传递一种新话题可能会流行的指示。

沙赫和尼科洛夫借助含有200个微博流行话题和200个非流行话题的训练组对这种运算法则进行训练。他们让这种算法开始工作而且它成功的以95%的正确率从非流行的话题中筛选出成功流行的话题。

然而这种模型有效的原因是它并不过滤它感兴趣的流量,与传统模型想比它需要更强大的计算能力。沙赫称,由于这种算法的数据比例,除了谷歌(微博)、脸谱网、亚马逊和其它拥有最大云计算能力的公司之外,它或许并不能用于非常庞大的数据组。虽然它会对微博本身产生商业影响,但微博公司或许能够借助它对流行话题的广告链接进行收费。这种运算法则也能够培训用于各种各样的其它情况,甚至能够预测股票价格。

版权声明

一、凡注明来源为"天津在线"的所有作品文字、图片、音视频、美术设计和程序等作品,版权均属天津在线或相关权利人专属所有或持有所有。

二、未经本网书面授权,不得进行一切形式的下载、转载或建立镜像。否则以侵权论,依法追究相关法律责任。

三、凡本网注明"来源:XXX(非天津在线)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。

四、转载声明:如本网转载作品涉及版权等问题,请在作品于本网发表之日起30日内及时同本网联系,否则视为放弃相关权利。

免责声明:本文仅代表作者个人观点,与天津在线无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们删除:jubao@72177.com

今日天津