本文主要讲解“python起点网月票榜字体反向爬有什么方法”,感兴趣的朋友不妨看看。本文介绍的方法简单、快速、实用。让边肖带你学习“python起点月票榜字体反爬有什么方法”!
00-1010和往常一样,我们先进入起点月票榜f12进行调试,找出书名及其对应的月票数据,尝试用xpath进行提取。
你可以只看到20条数据,然后找到月票数据:
这到底是什么?xpath检索20条数据,但是数据是空的,元素中的数据显示为未知符号。好像没有数据。这时,当我们查看源代码并搜索关键字font-face时,我们可以看到这种难以理解的编码,这就是前言中提到的字体编码。
接下来,我们寻找字体文件数据包。
Woff文件和请求地址与上面显示的地址相同,但这里需要注意的是,每个请求地址不一样,文件名也不一样,所以我们每次抓取都需要单独抓取字体加密数据,字体加密数据可以通过第三方库fonttools进行分析。
我们现在拥有:
1.书名
2.月票数据的密文
3.月票数据密文对应的字体文件
00-1010首先定义函数get_book_name获取书名并测试:
导入请求
fromlxmlimportetree
defget_book_name(xml_obj):
name _ list=XML _ obj . XPath('//div[@ class=' book-mid-info ']/H5/a/text()')
returnname_list
if__name__=='__main__':
#设置我们的一般请求头,以避免被反抓取拦截。
headers _={ 0
用户代理' : ' Mozilla/5.0(windowsnt 10.0;Win64x64)applebwebkit/537.36(KHTML,likeGecko)Chrome/96 . 0 . 4664 . 45 safari/537.36 ',
refer ' : ' https://www . qidian.com/rank/',
cookie ' : ' E1={ " PID ":" qd _ P _ rank _ 19 "、" eid ":"、" L1 ":5 };E2={“PID”:“qd _ P _ rank _ 19”、“eid”:“,“L1”:5 };_ Yep _ uuid=6a2ad 124-678 f-04d 3-7195-2e4e 9 F5 c 470 e;_ GID=GA1 . 2 . 501012674 . 16383333111newstatisticUUID=1638335311 _ 1217304635;_ csrfToken=adbfl5dzru0kuzvgljpxtse 8 zqcfgzt8mzkf 0 AMS;E2=;e1={"pi
d%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
}
url_ = 'https://www.qidian.com/rank/yuepiao/'
# 请求网页源代码
str_data = requests.get(url_, headers=headers_).text
# 使用xpath解析书名
xml_obj = etree.HTML(str_data)
print(get_book_name(xml_obj)) # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运,悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']
2.请求月票数据密文,并进行测试:
import re import requests from lxml import etree # 获取书名 def get_book_name(xml_obj): name_list = xml_obj.xpath("//div[@class='book-mid-info']/h5/a/text()") return name_list # 获取月票加密数据 def get_yuepiao(str_data): # 这里我们之前分析发现xpath取出来的数据是空值,我们直接对网页源代码使用re正则匹配获取加密数据 yuepiao_list=re.findall(r'''</style><span class=".*?">(.*?)</span>''',str_data) return yuepiao_list if __name__ == '__main__': # 设置我们通用的请求头,避免被反爬拦截 headers_ = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36', 'referer': 'https://www.qidian.com/rank/', 'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1' } url_ = 'https://www.qidian.com/rank/yuepiao/' # 请求网页源代码 str_data = requests.get(url_, headers=headers_).text # 使用xpath解析书名 xml_obj = etree.HTML(str_data) print(get_book_name(xml_obj)) # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运,悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手'] print(get_yuepiao(str_data)) # ['𘢒𘢒𘢐𘢉𘢎', '𘢌𘢋𘢐𘢐', '𘢌𘢏𘢌𘢑', '𘢑𘢉𘢒𘢎', '𘢑𘢎𘢋𘢔', '𘢑𘢏𘢏𘢉', '𘢎𘢑𘢐𘢉', '𘢎𘢏𘢑𘢔', '𘢎𘢒𘢉𘢏', '𘢏𘢎𘢏𘢎', '𘢔𘢑𘢑𘢔', '𘢔𘢎𘢐𘢓', '𘢔𘢔𘢑𘢐', '𘢔𘢒𘢑𘢏', '𘢔𘢐𘢒𘢐', '𘢒𘢌𘢉𘢌', '𘢒𘢑𘢌𘢓', '𘢒𘢑𘢎𘢓', '𘢒𘢎𘢓𘢉', '𘢒𘢎𘢏𘢐']
3.获取字体加密文件里的对应关系:
安装fonttools库
由于第一次使用fonttools库,在使用时遇到了以下错误 查询百度得知可能是由于字体文件名字有误,把名称换成url上面带的就成功的提取出来键值对了
(也可能是我使用re正则提取font_url时候不规范造成url错误)
只是这个键值对怎么编码对应英文,程序员为何为难程序员呢,不说了我们要定义一个英语与阿拉伯数字对应的字典进行对英文的替换
def get_font(xml_obj, headers_): # 使用xpath与re获取字体加密数据包地址 font_div = xml_obj.xpath("//span/style/text()")[0] font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0] font_name = str(font_url).rsplit('/', 1)[1] # 获取font文件进行本地保存 font_data = requests.get(font_url, headers_).content with open(f'{font_name}', 'wb') as f: f.write(font_data) # 加载字体文件 font_data = TTFont(f'{font_name}') # font_data.saveXML('字体.xml') font_doct01 = font_data.getBestCmap() font_doct02 = { 'period': '.', 'zero': '0', 'one': '1', 'two': '2', 'three': '3', 'four': '4', 'five': '5', 'six': '6', 'seven': '7', 'eight': '8', 'nine': '9' } for i in font_doct01: font_doct01[i]=font_doct02[font_doct01[i]] return font_doct01
程序完美运行:
总代码如下:
import re import requests from lxml import etree from fontTools.ttLib import TTFont # 获取书名 def get_book_name(xml_obj): name_list = xml_obj.xpath("//div[@class='book-mid-info']/h5/a/text()") return name_list # 获取月票加密数据 def get_yuepiao(str_data): # 这里我们之前分析发现xpath取出来的数据是空值,我们直接对网页源代码使用re正则匹配获取加密数据 yuepiao_list = re.findall(r'''</style><span class=".*?">(.*?)</span>''', str_data) return yuepiao_list def get_font(xml_obj, headers_): # 使用xpath与re获取字体加密数据包地址 font_div = xml_obj.xpath("//span/style/text()")[0] font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0] font_name = str(font_url).rsplit('/', 1)[1] # 获取font文件进行本地保存 font_data = requests.get(font_url, headers_).content with open(f'{font_name}', 'wb') as f: f.write(font_data) # 加载字体文件 font_data = TTFont(f'{font_name}') # font_data.saveXML('字体.xml') font_doct01 = font_data.getBestCmap() font_doct02 = { 'period': '.', 'zero': '0', 'one': '1', 'two': '2', 'three': '3', 'four': '4', 'five': '5', 'six': '6', 'seven': '7', 'eight': '8', 'nine': '9' } for i in font_doct01: font_doct01[i] = font_doct02[font_doct01[i]] return font_doct01 def jiemi(miwen_list, font_list): yuepiao = [] for i in miwen_list: num = '' mw_list=re.findall('&#(.*?);', i) for j in mw_list: num += font_list[int(j)] yuepiao.append(int(num)) return yuepiao if __name__ == '__main__': # 设置我们通用的请求头,避免被反爬拦截 headers_ = { 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36', 'referer': 'https://www.qidian.com/rank/', 'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1' } url_ = 'https://www.qidian.com/rank/yuepiao/' # 请求网页源代码 str_data = requests.get(url_, headers=headers_).text # 使用xpath解析书名 xml_obj = etree.HTML(str_data) # print(get_book_name( # xml_obj)) # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运,悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手'] # print(get_yuepiao( # str_data)) # ['𘢒𘢒𘢐𘢉𘢎', '𘢌𘢋𘢐𘢐', '𘢌𘢏𘢌𘢑', '𘢑𘢉𘢒𘢎', '𘢑𘢎𘢋𘢔', '𘢑𘢏𘢏𘢉', '𘢎𘢑𘢐𘢉', '𘢎𘢏𘢑𘢔', '𘢎𘢒𘢉𘢏', '𘢏𘢎𘢏𘢎', '𘢔𘢑𘢑𘢔', '𘢔𘢎𘢐𘢓', '𘢔𘢔𘢑𘢐', '𘢔𘢒𘢑𘢏', '𘢔𘢐𘢒𘢐', '𘢒𘢌𘢉𘢌', '𘢒𘢑𘢌𘢓', '𘢒𘢑𘢎𘢓', '𘢒𘢎𘢓𘢉', '𘢒𘢎𘢏𘢐'] # print(get_font(xml_obj, headers_)) # 书名列表 book_name_list = get_book_name(xml_obj) # 月票列表 yuepiao_list = jiemi(get_yuepiao(str_data), get_font(xml_obj, headers_)) for i in range(len(book_name_list)): print(f'{book_name_list[i]}:{yuepiao_list[i]}')
到此,相信大家对“python起点网月票榜字体反爬的方法是什么”有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/136808.html