为了防止腾讯微博某一天被腾讯关停,使我初中时发的上千条微博灰飞烟灭。遂使用 Python 爬虫外加 React 搭建了一个微博复刻小站,将我的回忆放心地永远留在了自己的服务器中。相关技术介绍: https://hzy.pw/p/2554
在这上千条微博存入数据库之后,我便开始对其进行大数据分析了,包括我最喜欢转发谁的微博、我在星期几最喜欢发微博,以及微博当中包含最多的关键词等等。很是有趣。
我的微博复刻网站欢迎访问: https://hzy.pw/i/qqweibo/
相关技术介绍: https://hzy.pw/p/2554
下面是对我的腾讯微博的大数据统计。
我一共发布了 1620 篇微博,其中转发和原创的比例如图。可以看出,初中时候的我可以说是很认真地在更新自己的微博(就像现在认真的写这个博客一样 :P),没有灌水。
将所有微博正文提取、分词处理后,使用 NLP 中关键词提取的相关算法,得到了我微博中最常见的 30 个关键字,按照面积比例做成了这幅统计图。
可以看到那时的我完完全全就痴迷于 iOS,从越狱到汉化 App 到开发小程序。不得不承认乔布斯时代的苹果真的是秒杀竞争对手的存在,有着极大的魅力,不过我现在更喜欢安卓就是啦~
这时我顺便还进行了所有微博正文的情感分析,后来发现意义不大,模型输出结果显示积极情感 >99.999%(如果是对单条微博进行情感分析,则输出正常,但我懒得去处理和统计了)
我从 PC 网页端发布的微博占接近 40%,实际上在 2011 年前后,使用手机发微博真的是一件值得炫耀的厉害事情,但如今正好相反,手机发微博才是理所当然的主流。互联网的发展令人感叹。
很有趣的微博附图统计。在当时很长一段时间,微博只允许上传一张图。至于 “无图”,在微博最开始时还真是大家的选择,以现在移动互联网的思维来思考是难以理解的。
发了两百多条微博那个月我也是够闲。。。PS:我离开腾讯微博,来到新浪微博的时间是 2012 年 12 月。
将数据结构化地存在数据库中就是方便,大多数数据都是一条 SQL 搞定,于是随手统计了一下每周和每日的发微博时间分布。
能得出来的结论就是:我是一名周内认真学习,每天按时睡觉的好孩纸。
我转发微博真的挺少,而且转的最多的还是我自己的微博,因为我最喜欢的就是我自己。
最后一张是我的的微博的热度统计,热度定义为评论和转发的总数。不过我一直不太在意就是了。各条微博按照时间升序在横轴上排列。
结语
腾讯微博对我来就像自己的日记本一般,有着特别的意义,但是目前已经淡出舞台。
欢迎大家关注来我的个人网站、新浪微博,以及 Github 和知乎:https://hzy.pw/connect
1ynaju
jumoxw
xr7f0s
4cze03
32e4f8