python爬虫去重策略
发布时间:2018-03-01 22:34,
浏览次数:298
, 标签:
python
python爬虫去重策略
1、将访问过的URL保存到数据库中
2、将访问过的URL保存到set中,只需要o(1)的代价就可以查询URL
1000000000*2byte*50个字符/1024/1024/1024 = 9G
3、URL经过md5等方法哈希后保存到set中
4、用bitmap方法,将访问过的URL通过hash函数映射到某一位
5、bloomfilter方法对bitmap进行改进,多重hash函数降低冲突