python起点网月票榜字体反爬的方法是什么-柠檬ai自媒体

本文主要讲解“python起点网月票榜字体反向爬有什么方法”，感兴趣的朋友不妨看看。本文介绍的方法简单、快速、实用。让边肖带你学习“python起点月票榜字体反爬有什么方法”！

00-1010和往常一样，我们先进入起点月票榜f12进行调试，找出书名及其对应的月票数据，尝试用xpath进行提取。

python起点网月票榜字体反爬的方法是什么

你可以只看到20条数据，然后找到月票数据：

python起点网月票榜字体反爬的方法是什么

这到底是什么？xpath检索20条数据，但是数据是空的，元素中的数据显示为未知符号。好像没有数据。这时，当我们查看源代码并搜索关键字font-face时，我们可以看到这种难以理解的编码，这就是前言中提到的字体编码。

接下来，我们寻找字体文件数据包。

python起点网月票榜字体反爬的方法是什么

Woff文件和请求地址与上面显示的地址相同，但这里需要注意的是，每个请求地址不一样，文件名也不一样，所以我们每次抓取都需要单独抓取字体加密数据，字体加密数据可以通过第三方库fonttools进行分析。

我们现在拥有：

1.书名

2.月票数据的密文

3.月票数据密文对应的字体文件

00-1010首先定义函数get_book_name获取书名并测试：

导入请求

fromlxmlimportetree

defget_book_name(xml_obj):

name _ list=XML _ obj . XPath('//div[@ class=' book-mid-info ']/H5/a/text()')

returnname_list

if__name__=='__main__':

#设置我们的一般请求头，以避免被反抓取拦截。

headers _={ 0

用户代理' : ' Mozilla/5.0(windowsnt 10.0；Win64x64)applebwebkit/537.36(KHTML，likeGecko)Chrome/96 . 0 . 4664 . 45 safari/537.36 '，

refer ' : ' https://www . qidian.com/rank/'，

cookie ' : ' E1={ " PID ":" qd _ P _ rank _ 19 "、" eid ":"、" L1 ":5 }；E2={“PID”:“qd _ P _ rank _ 19”、“eid”:“，“L1”:5 }；_ Yep _ uuid=6a2ad 124-678 f-04d 3-7195-2e4e 9 F5 c 470 e；_ GID=GA1 . 2 . 501012674 . 16383333111newstatisticUUID=1638335311 _ 1217304635；_ csrfToken=adbfl5dzru0kuzvgljpxtse 8 zqcfgzt8mzkf 0 AMS；E2=；e1={"pi

d%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
    }
    url_ = 'https://www.qidian.com/rank/yuepiao/'
    # 请求网页源代码
    str_data = requests.get(url_, headers=headers_).text
    # 使用xpath解析书名
    xml_obj = etree.HTML(str_data)
    print(get_book_name(xml_obj))   # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运，悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']

2.请求月票数据密文，并进行测试：

import re
 
import requests
from lxml import etree
 
# 获取书名
def get_book_name(xml_obj):
    name_list = xml_obj.xpath("//div[@class='book-mid-info']/h5/a/text()")
    return name_list
 
# 获取月票加密数据
def get_yuepiao(str_data):
    # 这里我们之前分析发现xpath取出来的数据是空值，我们直接对网页源代码使用re正则匹配获取加密数据
    yuepiao_list=re.findall(r'''</style><span class=".*?">(.*?)</span>''',str_data)
    return yuepiao_list
 
if __name__ == '__main__':
    # 设置我们通用的请求头，避免被反爬拦截
    headers_ = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
        'referer': 'https://www.qidian.com/rank/',
        'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
    }
    url_ = 'https://www.qidian.com/rank/yuepiao/'
    # 请求网页源代码
    str_data = requests.get(url_, headers=headers_).text
    # 使用xpath解析书名
    xml_obj = etree.HTML(str_data)
    print(get_book_name(xml_obj))   # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运，悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']
    print(get_yuepiao(str_data))    # ['𘢒𘢒𘢐𘢉𘢎', '𘢌𘢋𘢐𘢐', '𘢌𘢏𘢌𘢑', '𘢑𘢉𘢒𘢎', '𘢑𘢎𘢋𘢔', '𘢑𘢏𘢏𘢉', '𘢎𘢑𘢐𘢉', '𘢎𘢏𘢑𘢔', '𘢎𘢒𘢉𘢏', '𘢏𘢎𘢏𘢎', '𘢔𘢑𘢑𘢔', '𘢔𘢎𘢐𘢓', '𘢔𘢔𘢑𘢐', '𘢔𘢒𘢑𘢏', '𘢔𘢐𘢒𘢐', '𘢒𘢌𘢉𘢌', '𘢒𘢑𘢌𘢓', '𘢒𘢑𘢎𘢓', '𘢒𘢎𘢓𘢉', '𘢒𘢎𘢏𘢐']

3.获取字体加密文件里的对应关系：

安装fonttools库

python起点网月票榜字体反爬的方法是什么

由于第一次使用fonttools库，在使用时遇到了以下错误查询百度得知可能是由于字体文件名字有误，把名称换成url上面带的就成功的提取出来键值对了

（也可能是我使用re正则提取font_url时候不规范造成url错误）

只是这个键值对怎么编码对应英文，程序员为何为难程序员呢，不说了我们要定义一个英语与阿拉伯数字对应的字典进行对英文的替换

def get_font(xml_obj, headers_):
    # 使用xpath与re获取字体加密数据包地址
    font_div = xml_obj.xpath("//span/style/text()")[0]
    font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0]
    font_name = str(font_url).rsplit('/', 1)[1]
    # 获取font文件进行本地保存
    font_data = requests.get(font_url, headers_).content
    with open(f'{font_name}', 'wb') as f:
        f.write(font_data)
    # 加载字体文件
    font_data = TTFont(f'{font_name}')
    # font_data.saveXML('字体.xml')
    font_doct01 = font_data.getBestCmap()
    font_doct02 = {
        'period': '.',
        'zero': '0',
        'one': '1',
        'two': '2',
        'three': '3',
        'four': '4',
        'five': '5',
        'six': '6',
        'seven': '7',
        'eight': '8',
        'nine': '9'
 
    }
    for i in font_doct01:
        font_doct01[i]=font_doct02[font_doct01[i]]
    return font_doct01

程序完美运行：

python起点网月票榜字体反爬的方法是什么

总代码如下：

import re
 
import requests
from lxml import etree
from fontTools.ttLib import TTFont
 
 
# 获取书名
def get_book_name(xml_obj):
    name_list = xml_obj.xpath("//div[@class='book-mid-info']/h5/a/text()")
    return name_list
 
 
# 获取月票加密数据
def get_yuepiao(str_data):
    # 这里我们之前分析发现xpath取出来的数据是空值，我们直接对网页源代码使用re正则匹配获取加密数据
    yuepiao_list = re.findall(r'''</style><span class=".*?">(.*?)</span>''', str_data)
    return yuepiao_list
 
 
def get_font(xml_obj, headers_):
    # 使用xpath与re获取字体加密数据包地址
    font_div = xml_obj.xpath("//span/style/text()")[0]
    font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0]
    font_name = str(font_url).rsplit('/', 1)[1]
    # 获取font文件进行本地保存
    font_data = requests.get(font_url, headers_).content
    with open(f'{font_name}', 'wb') as f:
        f.write(font_data)
    # 加载字体文件
    font_data = TTFont(f'{font_name}')
    # font_data.saveXML('字体.xml')
    font_doct01 = font_data.getBestCmap()
    font_doct02 = {
        'period': '.',
        'zero': '0',
        'one': '1',
        'two': '2',
        'three': '3',
        'four': '4',
        'five': '5',
        'six': '6',
        'seven': '7',
        'eight': '8',
        'nine': '9'
 
    }
    for i in font_doct01:
        font_doct01[i] = font_doct02[font_doct01[i]]
    return font_doct01
 
 
def jiemi(miwen_list, font_list):
    yuepiao = []
    for i in miwen_list:
        num = ''
        mw_list=re.findall('&#(.*?);', i)
 
        for j in mw_list:
            num += font_list[int(j)]
        yuepiao.append(int(num))
    return yuepiao
 
 
if __name__ == '__main__':
    # 设置我们通用的请求头，避免被反爬拦截
    headers_ = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
        'referer': 'https://www.qidian.com/rank/',
        'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
    }
    url_ = 'https://www.qidian.com/rank/yuepiao/'
    # 请求网页源代码
    str_data = requests.get(url_, headers=headers_).text
    # 使用xpath解析书名
    xml_obj = etree.HTML(str_data)
    # print(get_book_name(
    #     xml_obj))  # ['从红月开始', '人族镇守使', '全属性武道', '深空彼岸', '我的云养女友', '我用闲书成圣人', '明克街13号', '星门', '东晋北府一丘八', '夜的命名术', '这个人仙太过正经', '顶级气运，悄悄修炼千年', '不科学御兽', '我的治愈系游戏', '这游戏也太真实了', '长夜余火', '赤心巡天', '轮回乐园', '合道', '宇宙职业选手']
    # print(get_yuepiao(
    #     str_data))  # ['𘢒𘢒𘢐𘢉𘢎', '𘢌𘢋𘢐𘢐', '𘢌𘢏𘢌𘢑', '𘢑𘢉𘢒𘢎', '𘢑𘢎𘢋𘢔', '𘢑𘢏𘢏𘢉', '𘢎𘢑𘢐𘢉', '𘢎𘢏𘢑𘢔', '𘢎𘢒𘢉𘢏', '𘢏𘢎𘢏𘢎', '𘢔𘢑𘢑𘢔', '𘢔𘢎𘢐𘢓', '𘢔𘢔𘢑𘢐', '𘢔𘢒𘢑𘢏', '𘢔𘢐𘢒𘢐', '𘢒𘢌𘢉𘢌', '𘢒𘢑𘢌𘢓', '𘢒𘢑𘢎𘢓', '𘢒𘢎𘢓𘢉', '𘢒𘢎𘢏𘢐']
    # print(get_font(xml_obj, headers_))
    # 书名列表
    book_name_list = get_book_name(xml_obj)
    # 月票列表
    yuepiao_list = jiemi(get_yuepiao(str_data), get_font(xml_obj, headers_))
    for i in range(len(book_name_list)):
        print(f'{book_name_list[i]}:{yuepiao_list[i]}')

到此，相信大家对“python起点网月票榜字体反爬的方法是什么”有了更深的了解，不妨来实际操作一番吧！这里是网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

内容来源网络，如有侵权，联系删除，本文地址：https://www.230890.com/zhan/136808.html

python起点网月票榜字体反爬的方法是什么

相关推荐

mysql如何给大表添加字段(mysql数据表怎么添加字段)

IdentityServer4迁移至3.x版本的注意问题有哪些

云数据库安全的解决方案是什么

机器学习knn 算法之手写数字识别(knn算法之手写数字识别)

CF1506C Double-ended Strings 题解

写颜色的四字词语,表示“颜色多”的四字词语有哪些