今天,爬上一个专门用来感受快乐的网站!什么都懂~
读者:哦,嗬!有这么好的东西,赶紧写!我想快乐!
马上,进入正题。
用到的环境:
python 3.8
pycharm 2021专业版激活码。
请求pip安装请求
parsel pip安装parsel
大致分为两步
一、分析网站(思维分析)
1.确定需要爬网的内容。
2.通过查看源代码来分析数据内容。
二.爬虫进程
1.向目标网站发送请求(获取、发布)。
2.获取数据(网页源代码)。
3.解析网页(关于正则表达式、css选择器、xpath、bs4、json)并提取每个细节页面的链接。
4.向详细信息页面发送请求。
5.获取数据(网页源代码)。
6.解析网页(提取图片链接)。
7.向图片链接发送请求。
8.获取数据(图片二进制数据)。
9.保存数据。
这是一个通用的爬虫程序,我们直接点代码吧!
import request import parse limport在范围(1,11): print(f '======================================)# 1内重新导入页面的osfor。向目标网站发送请求(获取,发布)响应=请求。获取(https://www.kanxiaojiejie.com/page/{page}')# 2。获取数据(网页源代码)data_html=response.text # 3。解析网页(re正则表达式、css选择器、xpath、Bs4、json)提取每个详细页面的链接和标题zip _ data=re.findall ('a href='(。*?)' target='_blank'rel='bookmark '(。*?)/a ',url的data_html),Inzip _ data:print (f' - 4。send request resp=requests . get(URL)# 5。获取数据(网页源代码)url_data=resp.text # 6。解析网页(提取图片链接)选择器=parsel.selector (URL _ data)。img _ list=selector . CSS(' PIM g :3360 attr(src)')。img _ list: # 7中img的getall()。向图片链接# 8发送请求。Get data(图片二进制数据)img_data=requests.get(img)。内容# 9。用open (f' img/{title}/{img _ name},mode=' WB ')将数据img _ name=img.split ('/') [-1]保存为f : f . write(img _ data)print(img _ name,)打印(标题,‘爬行成功!)效果太好了,就不展示了。我们自己试试吧~
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/52008.html