Python3商业爬虫案例实战(二期)-廖雪峰

资源下载
下载价格9.9
单买课程不是很划算,开通本站会员可免费下载所有课程,全站课程不加密,稳定运行多年,比我们便宜的没有我们全,和我们一样全的没我们便宜,累积更新一百多T,超划算。

├──-Python3商业爬虫案例实战(二期)-廖雪峰
| ├──1爬虫的基本框架及知识
| ├──2scapy框架及爬虫进阶
| ├──3爬虫高级知识及就业培训
| ├──资料
| | ├──1
| | ├──2
| | ├──3
| | └──课件
| └──总结.mp4 3.68M

京东商业化数据分析师

这里我们定义了一个 scrape_index 方法,它接收一个参数 page,该参数代表列表页的页码。

这里我们先构造了一个 url,通过字符串的 format 方法,传入 limit 和 offset 的值。这里 limit 就直接使用了全局变量 LIMIT 的值;offset 则是动态计算的,就是页码数减一再乘以 limit,比如第一页 offset 就是 0,第二页 offset 就是 10,以此类推。构造好了 url 之后,直接调用 scrape_api 方法并返回结果即可。

这样我们就完成了列表页的爬取,每次请求都会得到一页 10 部的电影数据。

由于这时爬取到的数据已经是 JSON 类型了,所以我们不用像之前那样去解析 HTML 代码来提取数据了,爬到的数据就是我们想要的结构化数据,因此解析这一步就可以直接省略啦。

到此为止,我们能成功爬取列表页并提取出电影列表信息了。

5. 爬取详情页

这时候我们已经可以拿到每一页的电影数据了,但是看看这些数据实际上还缺少了一些我们想要的信息,如剧情简介等信息,所以需要进一步进入到详情页来获取这些内容。

这时候点击任意一部电影,如《教父》,进入其详情页,这时可以发现页面的 URL 已经变成了 https://spa1.scrape.center/detail/40,页面也成功展示了详情页的信息,如图所示:

声明:所有内容均收集于网络,收集的内容仅供内部学习和讨论,建议您在下载后的24个小时之内从您的电脑或手机中删除上述内容,如果您喜欢该内容,请支持并购买正版资源。如若本站内容侵犯了原著者的合法权益,请联系邮箱648765304@qq.com,我们将及时处理,本文链接:https://dbbp.net/3122.html
0

评论0

站点公告

小虎资源网因各项成本逐渐加大,优质课程资源不断增多,明日将会恢复至原价499一年,今日只需299开通svip会员。网站始于2020年,稳定运行超过5年,每日更新,全站课程不加密,目前已收录全网五十多家机构,累积更新各大机构一百多T教程,总课程价值超过百万,比我们便宜的没有我们全,和我们一样全的没我们便宜,抓紧时间提升自己最重要。会员权益查看:点击会员介绍 其他加密课程或者代找其他课程联系微信:648765304
没有账号?注册  忘记密码?