python爬虫去重策略

1、将访问过的URL保存到数据库中

2、将访问过的URL保存到set中,只需要o(1)的代价就可以查询URL

       1000000000*2byte*50个字符/1024/1024/1024 = 9G


3、URL经过md5等方法哈希后保存到set中

4、用bitmap方法,将访问过的URL通过hash函数映射到某一位



        5、bloomfilter方法对bitmap进行改进,多重hash函数降低冲突

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:ixiaoyang8@qq.com
QQ群:637538335
关注微信