• 首页 首页 icon
  • 工具库 工具库 icon
    • IP查询 IP查询 icon
  • 内容库 内容库 icon
    • 快讯库 快讯库 icon
    • 精品库 精品库 icon
    • 问答库 问答库 icon
  • 更多 更多 icon
    • 服务条款 服务条款 icon

scrapy学习笔记三-动态加载网页的爬取序

武飞扬头像
weixin_45669978
帮助1

一、尝试

对于我要爬取的网站内容,按照网上普遍的步骤:直接通过xpath获取到对于数据,再记录到item中,只适用于静态html网页,但是如今的互联网大部分的web页面都是动态的,经常逛的网站例如京东、淘宝等,商品列表都是js,并有Ajax渲染, 下载某个链接得到的页面里面含有异步加载的内容,这样再使用之前的方式我们根本获取不到异步加载的这些网页内容,返回空的数据。

网上大部分方法都是通过splash 做中转实现的方法,但我觉得太麻烦,便开始尝试其他方案。

踩坑:比如模拟ajax请求,构造headers、url,去获取对应的json数据解析,但总会返回鉴权失败的错误;
后来发现headers的sign属性好像只能用一次,每一次请求都会变化,想自己构造还得去解析对应的js文件(js逆向分析),获得对应加密方法和参数,尝试了一下后,顿时劝退。
学新通
学新通
学新通

二、总结

还是老老实实使用主流方案Splash去进行Javascript渲染,返回渲染好的画面再进行解析吧。

这篇好文章是转载于:学新通技术网

  • 版权申明: 本站部分内容来自互联网,仅供学习及演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,请提供相关证据及您的身份证明,我们将在收到邮件后48小时内删除。
  • 本站站名: 学新通技术网
  • 本文地址: /boutique/detail/tanhgfieig
系列文章
更多 icon
同类精品
更多 icon
继续加载