python爬虫去重策略1、将访问过的URL保存到数据库中2、将访问过的URL保存到set中,只需要o(1)的代价就可以查询URL 1000000000*2byte*50个字符/1024/1024/1024 = 9G3、URL经过md5等方法哈希后保存到set中4、用bitmap方法,将访问过的URL通过hash函数映射到某一位 5、bloomfilter方法对bitmap进行改进,多重hash函数降低冲突
热门工具 换一换