互联网视频网站评分作弊分析
发布时间:2019-08-02 来源:原数据
涉及到商业利益的造假行动,如今早已席卷了各行各业。在这个时代,数据的“漂亮”与否俨然已经成为了一件关乎企业生存的大事。从这个角度讲,造假可能已经由面子深入骨髓,到了一种不刷量就会死的程度。
以影视播放量为例,最近两年不断有影视剧播放量超百万,可由此造成的质疑却此起彼伏、不减反增。从《花千骨》、《青云志》再到《三生三世十里桃花》,这些所谓的热播剧几乎都陷入了播放量造假的疑云,甚至到了挑战观众接受下限的地步,比如播放量在某天爆炸式增长15亿的新闻,视频平台的解释反而暴露了所谓视频播放量的真正含金量。或许这件事本身已经说明影视行业的数据造假已蔚然成风。
当今的主流播放网站大多有其优势所在。如老牌网站爱奇艺,有很多经典版权;b站用户以青少年为主,活跃度高,网站年轻化,容易吸引更多用户;而豆瓣则以用户质量和粘度见长。各个网站都有其优势所在,在这样的环境下,视频的数据就成了一个重要的衡量标准。 数据本该是反映网站流量与用户活跃度的重要评估指标,能体现出网站的价值和优势所在。而数据造假则使这项指标失去了原有的价值。下面原数据团队通过拆分常见的作假手段和建模分析来验证视频数据的真实性。
从用户的角度来说,会倾向于点击评分和播放量更高的视频;而对于企业来说,用户的点击可以反过来提高视频的数据量,增加网站流量。这二者形成一个循环,数据的价值正是由此而来,数据造假原始动因由此形成。
常见的视频数据造假手段有: ① 对原始数据进行有偏的解读或计算(有偏的解读或计算:对原始数据进行不正确的解读或计算,得出与事实不符的结论,以达到数据造假的目的),例如我们统计了截止7月24日,《择天记》某平台播放量的主要构成是,正片部分占比65.4%,预告内容占比33.1%,花絮、精彩片段剪辑和周边宣传视频占比为1.5%。这也侧面解释了一个“热门”的影视,为何有如此多且内容重复的花絮,和多集的预告。
② 采集有偏的原始数据(不完整但正确的原始数据);,比如A影视剧某网站没有版权,但该网站会提供第三方链接,供用户观看,这看上去是没有问题的,但在网页代码里,却将此次数据计算在自己的网站内。
对此原数据团队对某A站、某B站、某C站、某D站(代指)评分真实度进行举例分析
1 对某A站、B站、C站、D站流量进行分析,我们使用PV(page view页面浏览量),IP(独立IP值 一天之内访问网站的不重复的IP数)衡量一个网站的日活跃用户量。
2 我们从谷歌,百度,360,搜狗浏览器统计到各站近一年的IP与PV值,根据数据的真实性赋予不通的权重。
2.1 以均值的标准差为参考,对数据进行去噪处理:
2.2 对某A站数据进行拟合:
我们可以看出一个网站日活跃用户维持在固定范围内,我们根据此值对后续结果分别赋相应权重。
3 我们获取到某A站视频的信息中包括:
3.1. 以某A站为例,我们使用t-SNE算法对每个视频进行特征提取,过程如下:
3.2. 将降维后的值映射到0~10范围(评分范围),再进行分析。
我们均衡选取各类型影视共1200条,将处理后结果与原数据进行对比:
4. 根据偏差的定义:
同理我们对某B站、某C站、某D站进行分析并且与权重相乘,然后作聚类分析:
可以直观的看出D站数据与其他三站数据差异较大。
再将误差代入模型进行分析后得出结论:以某A站、B站、C站为参考,以我们估计D站37%的数据不合理,其中评分偏高1.5~1.7。
当数据造假大行其道时,我们更需要一支专业的团队,一个专业的数据审查机构,执行数据尽职调查工作,让数据去伪存真,还原互联网企业真正的价值。
原数据团队核心成员来⾃知名互联网企业,精通人工智能、自然语言处理、机学学习、大数据分析等技术,曾在谷歌、IBM、BAT等一线企业任职,拥有多款千万DAU产品实战背景,拥有多年反作弊实践经验。原数据团队对目标公司数据仓库中的原始信息进行提取、清洗、建模、运算、分析、验证,帮助投资机构和监管机构还原互联网企业真实数据水平,降低投资与合作风险。