python 如何爬取审查元素中Elements里有的元素，而源代码里没有的标签？ - 好文

网址：http://gpj.mofcom.gov.cn/article/ch/201808/20180802773240.shtml
<http://gpj.mofcom.gov.cn/article/ch/201808/20180802773240.shtml>

在这里我们可以看到，这个网站的新闻页面的作者，发布时间那一栏的标签在审查元素的Elements里有的元素，而源代码里却没有，如果单纯的使用xpath或者css无法匹配解析出想要的信息。

并且我们可以看到这个元素是使用JavaScript进行渲染的，在源代码中的开头我们可以看到以下这张图片的代码：

解决方案有很多，接下来我们来看看

方法1：正则表达式

在这推荐一个验证正则表达式的网站：http://tool.oschina.net/regex <http://tool.oschina.net/regex>

因此这里举一个例子，解析代码是这样的：
news_author =
response.xpath('//script').re('v.{2}\ss.{4}e\s=\s\"[\u4e00-\u9fa5]+\"')[0][13:].replace('"','')

其他方法后续再补充

« 上一篇：产品经理面试习题大汇总
» 下一篇：linux下使用openssl生成自签名，配置单向认证，实现https加密请求的方法

热门工具换一换

1 进制转换
2 GIF生成器
3 时间戳转换器
4 Cron表达式生成器
5 身份证归属地、性别、出生日期、年龄查询
6 计算器
7 衣服尺码计算
8 文本对比
9 图像颜色识别
10 图像文字识别
11 Base64编码解码
12 日期计算器
13 人脸识别
14 照片转素描
15 摩斯电码
16 颜色选择器
17 文字加密解密
18 单位换算
19 端口扫描器
20 卡通头像制作