1.使用命令行工具下载工具包 scrapy_redis,命令:pip install scrapy_redis
2.下载完成之后使用pycharm打开项目,找到settings文件,配置scrapy项目使用的调度器及过滤器
3.修改spider爬虫文件
4.如果有连接的远程服务,列如MYSQL,Redis等,需要将远程服务连接开启,保证在其他主机上能够连接成功
5.配置远程连接的MYSQL及redis地址
分布式方式用到的代码应该是同一套代码
1.先把项目配置为分布式
2.把项目拷贝到多台服务器中
3.把所有项目的跑起来
4.在主redis-cli中lpush你的网址即可
5.效果:所有爬虫都开始运行,并且数据还都不一样
热门工具 换一换