本文主要讲解“Python如何抓取JD.COM商城的评价”。本文的解释简单明了,易学易懂。请跟随边肖的思路,一起学习学习《Python如何捕捉JD.COM商城的评价》!
分布式抓取京东商城的评价信息
分布式捕获的目的是在短时间内快速捕获尽可能多的商品评价,使分析结果更加准确。
找出评估请求网址的规则,并获得以下网址组合链接
使用Chrome插件Postman测试链接是否可用,发现JD.COM没有验证Cookie等防爬措施来获取评估信息。
该代码通过scrapy开始捕获JD.COM商城的商品评价信息,并存储在数据库中使用。
数据分析
从数据库中获取相应的数据并开始分析。
利用python的扩展库Wordcloud,分别提取好评、中评、差评的关键词,生成相应的词云图。
分析产品不同颜色的销售比例,生成直方图,比如iphone7不同颜色的比例,比如金色、玫瑰金、银色、黑色、亮黑色、红色。
分析该产品不同配置的销售比例,生成柱状图,如iphone7 32G、64G、128G存储。
分析产品的销量和评论时间,生成折线图,找出产品什么时候卖得最好。
分析用户购买该产品的渠道,如用户通过JD.COM安卓客户端、微信JD.COM、JD.COM iPhone客户端购物的比例,生成柱状图。
分析购买产品的用户的地理省份。例如,在北京、上海和广州,在JD.COM购买iPhone7的人更多。
上述所有分析结果均被保存和保留。
Django 后台 WEB
使用Django构建一个简单的后台jd_analysis,将分布式捕获数据与数据分析连接起来,并将分析结果返回给前端显示器。
Jd_analysis提供了一个接口,接受用户请求分析的JD.COM商城产品的URL链接。
Jd_analysis收到产品链接后启动爬虫进程,开始抓取待分析产品的名称和评价数量。
组装一个完整的评测链接,插入redis中,实现分布式爬虫抓取,在尽可能短的时间内抓取到足够的该产品的评测信息(我现在30秒就能抓取到3000条左右的评测信息)。
主服务器等待一定的抓取时间,比如主服务器等待30s,30s后分析结果必须返回前端,所以30s后清除redis中该产品的链接,从服务器不读取需要抓取的链接会自动关闭。
开始分析过程,开始分析所有捕获的数据,并生成图标等信息。
前端展示
当客户端请求* * *次时,会生成一个GUID并存储在cookie中。然后,启动一个定时器,带上GUID,不断向jd_analysis后台请求结果。Jd_analysis后台使用请求的GUID从redis获取抓取信息的所有内容和分析结果,并返回给前端。前端显示请求的结果。
***附上两张效果图
和购买时间折线图。
购买渠道直方图
感谢阅读,以上就是《Python如何抓取JD.COM商城评价》的内容。看完这篇文章,相信你对Python如何抓取JD.COM商城的评价有了更深的理解,具体用法还需要实践验证。在这里,边肖将为您推送更多关于知识点的文章,敬请关注!
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/128962.html