(一)项目目标

本次要练习的目标时起点中文网里面的免费小说。

1. 如下图,找到免费小说的目录:







2. 点击更多后,随便找一本免费小说打开:







3. 点击中间的目录按钮,进入小说目录:







可以看到,该小说一共有83章,这就是本次目标。




(二)网页分析

1. 在目录页中点击一章,进入阅读页面,并同时检查网络,查看内容来源。

请注意下图中标注的三个部分:







2. 这样,我们找到了获取内容的请求。下面仔细分析该请求:




从上面截图可以看到,请求的类型是GET,url与页面url相同。

这样,只要通过页面url就能拿到小说这一章的数据。

那么,其他章的url从哪里可以获取呢?




3. 还是回到最初的目录页,审查元素,发现其中包含了所有章节的相对url。







4. 至此,网页分析完毕。思路如下:

- 通过目录页,拿到所有章节页面url

- 通过章节页面url,拿到小说原文。




(三) 核心代码实现

本次代码比较简单,我是直接用jupyter写的,下面将jupyter代码页面直接粘贴如下:













(四)结果展示

由于内容不多,大概程序在20秒左右执行完毕,打开Mongodb查看,爬取结果如下:






友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:[email protected]
QQ群:637538335
关注微信