python爬虫——爬起点中文网小说 - 好文

（一）项目目标

本次要练习的目标时起点中文网里面的免费小说。

1. 如下图，找到免费小说的目录：

2. 点击更多后，随便找一本免费小说打开：

3. 点击中间的目录按钮，进入小说目录：

可以看到，该小说一共有83章，这就是本次目标。

（二）网页分析

1. 在目录页中点击一章，进入阅读页面，并同时检查网络，查看内容来源。

请注意下图中标注的三个部分：

2. 这样，我们找到了获取内容的请求。下面仔细分析该请求：

从上面截图可以看到，请求的类型是GET，url与页面url相同。

这样，只要通过页面url就能拿到小说这一章的数据。

那么，其他章的url从哪里可以获取呢？

3. 还是回到最初的目录页，审查元素，发现其中包含了所有章节的相对url。

4. 至此，网页分析完毕。思路如下：

- 通过目录页，拿到所有章节页面url

- 通过章节页面url，拿到小说原文。

(三) 核心代码实现

本次代码比较简单，我是直接用jupyter写的，下面将jupyter代码页面直接粘贴如下：

（四）结果展示

由于内容不多，大概程序在20秒左右执行完毕，打开Mongodb查看，爬取结果如下：

热门工具换一换