作者丨Alfred

责编 | 伍杏玲

本文经授权转载自 Alfred数据室(ID:Alfred_Lab)


315晚会揭露各企业的造假,怎么也没看看流量明星的数据造假呢?作为一名数据猿,我们秉着好奇心点开了NBA新春贺岁形象大使蔡徐坤的微博,发现他的微博转发量除了最新一条之外,其它的基本每条都是转发100万+。


在我们的印象中,转发100万+可是某些明星官宣结婚、或者某些明星吸毒出轨被爆等能让微博服务器奔溃的流量呀。蔡徐坤真的那么火吗?他的100万+转发里到底是否存在假流量?假流量所占比重有多少呢?

为了解答这个问题,我们通过微博移动端随机抓取了蔡徐坤最新一条微博《再见,“任性的”千千…》的10万条
转发数据(时间节点2019年3月11日10时)。这条讲诉蔡徐坤关爱小动物的短视频微博,于2019年3月9日01:23发布,到2019年3月10日18:00的时候已经被转发100万+。

 



数据的维度包括转发者的相关信息(昵称、性别、关注者数量和被关注者数量等)以及转发时的评论等。

 



蔡徐坤的微博转发是否存在假流量?

 

解答这个问题之前,我们其实对于蔡徐坤的粉丝性别比例更加感兴趣。按理来说应该他的女粉丝所占比例应该更大,但是我们统计了102313条转发数据中,
有93618条是男粉丝转发的,只有8695条是女粉丝转发的。

 



这不对呀,难道更多的男生喜欢蔡徐坤吗?而且这比例也太悬殊了一点吧?于是我们随机抽取了男生转发的数据,发现这些转发的男粉丝基本上都是关注0,粉丝1的用户。



我们合理地推测:这些流量就是所谓的假流量。

那假流量所占的比例有多少呢?在这随机抓取的10万条转发数据中,有多少是假的流量呢?

 



真假流量所占的比例各有多少?

 

通过一番探索分析,
我们把转发数据中转发者的关注或者粉丝数少于等于5、没有简介、转发之后被点赞数评论数再转发数都为0、微博会员等级为0级的数据,以及转发者的关注或者粉丝数大于等于5但昵称长“用户XXXXXXXX”这样的数据抽取了出来。

这部分数据,便是我们所说的假流量。



可见,102313条转发数据中,有95397条是由假粉丝转发的,占了总转发的93.24%,只有6916条是由真粉丝转发的,占6.76%
。原来假流量占的比重那么高啊!


那么6919条真粉丝转发的数据中,除去重复转发刷榜的数量,里面一共有多少个真粉丝在转发呢?我们把这部分数据按照粉丝微博ID进行去重。发现这里面只有3926个真粉丝在转发,也就是说,
真实转发的粉丝数量,占总转发量的3.84%。



按照这个比例,可以推算出100万的转发中,真实转发的粉丝数为3.84万,说明蔡徐坤的粉丝群和影响力还是很大的,但远没有微博显示的全是100万+转发量那么大。


你可能会说:我们自己的微博,平时也有一些假粉丝在转发呀。为了进行对比,我们还抓取了最近活跃在《歌手》舞台的吴青峰叔叔(粉丝数1377万)最新的一条微博转发数据10006条(时间节点2019年3月11日10时)。



我们把这些数据按照跟上面一样的步骤提取出真假粉丝转发量,发现只有很少比例的假粉丝量,绝大部分都是真粉丝转发的。



并且,在9658条真粉丝转发数据中,真粉丝量也高达9318,说明不存在粉丝打榜的情况。跟蔡徐坤的数据相比,可以发现有明显的不同。

 



 



假流量粉丝是如何生产出来的?

 

在高达93.24%的假转发量中,这些假粉丝都是如何生产出来的呢?有什么共同的行为特征呢?我们先给假粉丝进行了用户画像。



可见95397条假转发中,有40838个假粉丝。其中男性的比例高达95.42%!

我们把转发中所携带的评论进行计数,看看假粉丝在转发的时候都喜欢说什么,却发现了一些更有趣的事。



 


很多假粉丝去转发微博用户“蔡徐坤的南岸末阴大小姐”和“超超超超爱蔡蔡的思思”的微博(大家千万不要去攻击他们哈),我们搜索了一下这两个人,发现她们的粉丝量只有一两百人,转载的全是蔡徐坤的微博,并且很多微博再转发量为0,却有少数的微博再转发量高达好几千!

 



这,估计就是自己花钱为偶像买流量的粉丝。

另外,我们发现很多假流量粉在转发的时候喜欢携带英文评论。搜索了一下发现,这些英文评论,要么是英文歌词、要么是美剧台词、要么是泰戈尔或者聂鲁达的诗句。





在假粉丝使用的Top10转发设备中,Android高居榜首,这也再次证明了这些粉丝是假粉丝。



另外还有一些有趣的发现:
假粉丝的平均关注是3.44,平均粉丝数是1.04,没有简介,昵称基本上都是“中文+英文和数字”这个格式,很多假粉丝的昵称都带有“坤”、“蔡”、“葵”、“kun”等字,头像都是蔡徐坤(说明很多都是定制粉啊)




 



真流量粉的粉丝画像

 

先来看看真粉丝的性别比例。可见3926个真粉丝中,女生占了绝大部分,这才是符合逻辑的粉丝比例嘛。



在这些粉丝转发所携带的评论中可以看到,很多都是支持蔡徐坤拿下#明星势力榜#或者#东方风云榜#第一名而转发的。



真粉丝所使用的转发设备,各种设备分布都比较均匀,最受欢迎的是iPhone客户端。



真粉丝的平均关注量为222,平均粉丝数是179,同样,很多粉丝名字中喜欢带有“坤”、“蔡”、“葵”、“kun”等字。

我们把真粉丝的简介做成了词云图。




可见,真粉丝们的简介都喜欢带上蔡徐坤的名字,很喜欢蔡徐坤,想要一直陪着他走下去。看着里面的“少年”、“努力”、“自由”“追梦”等字眼,发现这就是我们以前的青春呀。

另外还把转发所带的评论做成了词云图。




可见,粉丝们都很在乎“风云榜”这件事,并且要帮助蔡徐坤拿第一名。里面有早安打卡的,有超级话题的,还有很多“开心”、“比心”、“温暖”等字眼。说明绝大部分真粉还是很温暖的。

 



总 结

 

数据显示,蔡徐坤动辄100万+的微博转发中,确实存在绝大部分的假流量。这些假流量估计有两方面的来源:一是自身经纪公司购买的,二是忠实的粉丝自费购买的。


若是自身经纪公司购买的话,这确实扰乱了整个娱乐圈市场的运作,对于娱乐圈乃至整个社会风气都是不好的。若是忠实粉丝购买的,笔者觉得,数据只是一个数据,这其中的资金,可以通过其它方面更好的方面去给自己的偶像添加影响力呀。我看最近蔡徐坤转发的#脱贫攻坚战星光行动# 这个话题就很好呀,通过自己的影响力,去做更多正能量的事情。
(作者满满的求生欲看到没?!)

 

作者简介:Alfred,毕业于暨南大学,数据挖掘算法工程师,主要研究领域为数据挖掘、机器学习。

源码:

https://github.com/Alfred1984/interesting-python/tree/master/CaiXuKun

 2019 年,开发者如何占领快应用技术风向的高地?

https://edu.csdn.net/topic/python115?utm_source=cxrs_bw
<https://edu.csdn.net/topic/python115?utm_source=cxrs_bw>







 热 文 推 荐 

☞京东强推 995 工作制,中国式变态加班何时休?
<https://blog.csdn.net/csdnsevenn/article/details/88609312>

☞315 后,等待失业的程序员 <https://blog.csdn.net/csdnsevenn/article/details/88630558>

☞我的手机,被“探针”了吗? <https://blog.csdn.net/csdnsevenn/article/details/88630559>

☞中国程序员在德国:海外版抖音火爆,IT 人才稀缺!| 畅言
<https://blog.csdn.net/csdnnews/article/details/88609561>

☞再不编程就老了!05 后比特币专家准备赚个 134,000,000 元!
<http://mp.weixin.qq.com/s?__biz=Mzg3MDA4NDkxMQ==&mid=2247483728&idx=1&sn=34b9ae80938286e69bc9e8c904d331ea&chksm=ce927910f9e5f0063bcdb6fcfd32f5d0795dfed13741a46406d60f5f6d5d503fe9435a5954fb&scene=21#wechat_redirect>

☞大数据背后的无奈与焦虑:“128元连衣裙”划分矮穷挫与白富美?
<https://blog.csdn.net/FL63Zv9Zou86950w/article/details/88630656>

☞麦克阿瑟奖得主Dawn Song:区块链能保密和保护隐私?图样图森破!
<https://blog.csdn.net/Blockchain_lemon/article/details/88609293>

☞Pig变飞机?AI为什么这么蠢 | Adversarial Attack
<https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/88634807>

☞那些简历造假拿 Offer 的程序员,后来都怎样了?
<http://mp.weixin.qq.com/s?__biz=MzA5MjcxNjc2Ng==&mid=2650559599&idx=1&sn=4d3a908dbbad2abe7ebac619c9319fdd&chksm=88601fdebf1796c8fc2ea8960735aceaedbc02d98a9bd0dd3cc8679ee433a5abf040aa36b200&scene=21#wechat_redirect>
 
System.out.println("点个好看吧!");
console.log("点个好看吧!");
print("点个好看吧!");
printf("点个好看吧!\n");
cout << "点个好看吧!" << endl;
Console.WriteLine("点个好看吧!");
Response.Write("点个好看吧!");
alert("点个好看吧!")
echo "点个好看吧!"

喜欢就点击“好看”吧!

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:ixiaoyang8@qq.com
QQ群:637538335
关注微信