标签为 [爬虫] 的文章

成功拾取我在互联网中最早留下的足迹

我们曾经以为互联网能够忠诚地记录世间每时每刻发生的信息,并且永久地保存。然而事实上,不仅互联网的记忆比较短,记录在网络服务器上的信息根本不可能永久保存,曾经火爆的网络服务,今天或许就因为服务器关停,所有数据灰飞烟灭。不是危言耸听,百度贴吧、QQ 空间、新浪微博,这些承载了很多人回忆的站点都有可能成为互联网的历史。

就像之前将自己腾讯微博的历史数据归档存储起来,这次我赶在百度空间彻底关站之前,使用爬虫将小时候写的文章给迁移到了本站永久保存。其中最早的一篇博文发布于 2006-12-22,当年我 10 岁,毫无疑问是我在互联网上最早留下的足迹,现在读起来别有一番风味。^O^

目前所有小时候的文章均已转载到本站,来自我的小学和初中的稚嫩文字:https://hzy.pw/p/tag/hibaidu/page/23

复刻在腾讯微博中的回忆

大概是微博这个东西刚刚流行起来之时,也就是我初中的时候,我便用心的经营着我的腾讯微博,倒不是想要成为微博大咖,只是认为在同龄人坐在电脑前都只会打游戏时,我刷刷微博、发表一下自己的看法和见解,是更有意思的一件事。

然而腾讯微博迅速就被新浪微博超越,市场占有率几乎为 0 了。我自然也投靠了人多势众的新浪微博,但之前在腾讯微博中发的超过 1000 条微博是我的回忆 —— 中二青春。

我有一种预感,过不了多久腾讯微博就要被腾讯关停了,我可不能让之前写的那些碎碎念就这么消失,于是我用 Python 写了一个爬虫,将所有 [微博+图片+时间+转发微博+转发微博的所有信息] 都给爬到了本地数据库中,然后使用 React 做成了一个网站,名曰“复刻版腾讯微博”,将我发的微博放心地永远留在了自己的服务器中。

查看我的腾讯微博复刻网站,请点击:

https://hzy.pw/i/qqweibo/