<http://mp.weixin.qq.com/s?__biz=MzUxNDYzNDkxOA==&mid=2247484732&idx=1&sn=cd5e598738b09a86531fbddc643d0225&chksm=f943a0f5ce3429e3b5708214be4aee14bbec5ceb4c73364944cc04541658e036bbb769536cf6&scene=21#wechat_redirect>






访问flyai.club <http://www.flyai.club>,一键创建你的人工智能项目











作者 | IFTC

源自 | https://www.jianshu.com/p/bdcd11afcc2b




前言




这个没什么技术难度,懂爬虫的人和程序员都可以用学的语言写出来。




只是很多安全问题的存在,的确影响着我们的生活。




希望大家可以认识到一些网站的后台密码的规则与自己的安全性。




简单的说,就是是程序员的懒,让用户的信息暴露在互联网上。




还有一点:




就是希望正在接触python,和快要放弃学习的同学,可以试试换种思路,




来试试爬虫,这样有成就感的累积,可以慢慢提升你的自信。




爬虫开始前的准备:




*
python2.7

*
库文件(xlwt,urllib2,BeautifulSoup4,xlrd)




安装库文件的方法:




最好在你的python2.7/script/下面打开power shell(可以shift+右击) 执行下面的:




安装库文件




pip install *** ***是指上面的库文件,下面不一定都用,只要上面的,以后出什么错,你就继续pip install











观察网站结构(密码规则)









首先这个规则是针对大二和已经毕业了的




密码规则没有添加验证码(其实添加验证码也没什么用,只是添加了爬取门槛)




规则是 用户名==密码




符合条件









这里的用户信息




不要在意这些细节(马赛克) 朦胧美一直是我的追求




具体思路:模拟登陆 ==》制作学号规则==》信息查询(爬取)==》存入xls模拟登陆:因为我们是用爬虫取信息,每次访问,肯定是登陆了以后才可以访问我们的信息
==》模拟登陆




当我们用脚本访问下一个页面,需要一个cookie信息,就好比,当你打开qq空间,其实是想腾讯那里提交了自己的信息,而我们的信息就存在cookie中




python 中cookie维持会话访问:









模拟登陆




具体网址不分享,避免带来不必要的麻烦









学号的列表




用户信息的获取









这里用的的是beautifulsoup库









写入xls(这个是思路)测试用的函数




因为在写的时候因为编码问题,不能写入中文











开始行动




添加上延迟访问: time.sleep(1)




因为爬虫访问的不和人一样,访问会很快,这样可以避免被封ip,还有避免给站点带来不好的影响。











程序执行结束:




部分截图:有图有真相,避免无知的喷子




学号规则很好找的,这样就获取半个学校的call和qq啦,至于能干嘛,自己脑补。。。









—  End —





<http://mp.weixin.qq.com/s?__biz=MzUxNDYzNDkxOA==&mid=2247484522&idx=1&sn=1cdf80c3aa7f59cf9e06ee3d14224f76&chksm=f943a1a3ce3428b54e4a011c3a3f0396c41094782e1a949bf66559b45b0b081445d23737abb2&scene=21#wechat_redirect>





友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:ixiaoyang8@qq.com
QQ群:637538335
关注微信