(过客/编译)信息和决策系统实验室的达文特-沙赫教授和他的学生斯塔尼斯拉夫-尼科洛夫声称他们的运算法则能以95%的准确度预测出哪些词语、句子或者标题将成为流行趋势,甚至能够提前到4到5小时。他们通过“训练”它来进行预测,教导它如何计算出什么样的显示形式很可能成为一个流行话题。
按照惯例来说,像这样的一个预测系统将会查看微博的流量并且把它所观察到的与一个特定的模型进行匹配。当一个话题与普通背景话题相比更加突出的时候,你可以通过设定程序来寻找一个特定的‘阶梯’。沙赫解释道:“这是一个非常简单的模型。根据数据分析,你可以设法训练它什么时候会出现跳跃以及会发生多大的跳跃。”
最终他们的运算法则并不是寻找微博流量样本的一种特定模式,而是着眼于每个新话题的微博数量随着时间的变化并且与训练组的每个样本随着时间的变化进行比对。如果一个新话题从统计学上类似于其中一个样本,这就会为它预测新话题是否将趋于流行增加砝码。事实上每一个训练样本都会对一个新话题流行与否进行“投票”,而一些样本的得票数比其它的更高。这些投票就会传递一种新话题可能会流行的指示。
沙赫和尼科洛夫借助含有200个微博流行话题和200个非流行话题的训练组对这种运算法则进行训练。他们让这种算法开始工作而且它成功的以95%的正确率从非流行的话题中筛选出成功流行的话题。
然而这种模型有效的原因是它并不过滤它感兴趣的流量,与传统模型想比它需要更强大的计算能力。沙赫称,由于这种算法的数据比例,除了谷歌(微博)、脸谱网、亚马逊和其它拥有最大云计算能力的公司之外,它或许并不能用于非常庞大的数据组。虽然它会对微博本身产生商业影响,但微博公司或许能够借助它对流行话题的广告链接进行收费。这种运算法则也能够培训用于各种各样的其它情况,甚至能够预测股票价格。