scrapy学习笔记三-动态加载网页的爬取序

weixin_45669978

2024-04-25 帮助1人

一、尝试

对于我要爬取的网站内容，按照网上普遍的步骤：直接通过xpath获取到对于数据，再记录到item中，只适用于静态html网页，但是如今的互联网大部分的web页面都是动态的，经常逛的网站例如京东、淘宝等，商品列表都是js，并有Ajax渲染，下载某个链接得到的页面里面含有异步加载的内容，这样再使用之前的方式我们根本获取不到异步加载的这些网页内容，返回空的数据。

网上大部分方法都是通过splash 做中转实现的方法，但我觉得太麻烦，便开始尝试其他方案。

踩坑：比如模拟ajax请求，构造headers、url，去获取对应的json数据解析，但总会返回鉴权失败的错误；
后来发现headers的sign属性好像只能用一次，每一次请求都会变化，想自己构造还得去解析对应的js文件(js逆向分析)，获得对应加密方法和参数，尝试了一下后，顿时劝退。
学新通

二、总结

还是老老实实使用主流方案Splash去进行Javascript渲染，返回渲染好的画面再进行解析吧。

这篇好文章是转载于：学新通技术网

scrapy学习笔记三-动态加载网页的爬取序

一、尝试

二、总结

photoshop保存的图片太大微信发不了怎么办

《学习通》视频自动暂停处理方法

Android 11 保存文件到外部存储，并分享文件

word里面弄一个表格后上面的标题会跑到下面怎么办

photoshop扩展功能面板显示灰色怎么办

微信公众号没有声音提示怎么办

excel下划线不显示怎么办

excel打印预览压线压字怎么办

TikTok加速器哪个好免费的TK加速器推荐

怎样阻止微信小程序自动打开