Python用正则表达式教你如何处理JD.COM商品信息的样本分析,但我相信很多没有经验的人对此无能为力。因此,本文总结了出现问题的原因和解决方法,希望大家可以通过这篇文章来解决这个问题。
JD。COM(JD.com)是中国最大的自营电商企业,2015年第一季度在中国自营B2C电商市场的市场份额为56.3%。对于这么庞大的电商网站来说,上面的商品信息是巨大的。今天,边肖将带着他的朋友们使用正则表达式,实现基于输入关键词的主题爬虫。
首先,去JD.COM。并输入您想要查询的产品。边肖在这里使用了关键词“狗”。粒”作为搜索对象,然后得到后面这串URL:
https://search.jd.com/Search?Word=狗粮enc=utf-8。
其实参数狗粮解码后就是“狗”。食物的意义”。所以很明显,只要输入关键字参数并编码,就可以得到我们的目标网站,请求网页并得到响应,然后使用选择器进行下一次精准采集。
在JD.COM互联网上,狗。JD.COM官方网站粮食信息的网站源代码如下图所示:
狗。JD.COM官方网站粮食信息源代码。
话不多说,直接抹掉代码,如下图所示。Py3在边肖使用,建议大家以后多使用py3。一般来说,URL的编码方式是把要编码的字符转换成%xx的形式。一般来说,URL的编码都是基于UTF-8的,有些和浏览器平台有关。Python的urllib库中提供了quote方法,可以对URL字符串进行编码,使其可以进入相应的网页。
正则表达式,也称为正则表达式、正则表达式、正则表达式和正则表达式(英语:正则表达式,在代码中通常缩写为regex、regexp或re),是模式匹配和替换的强大工具。找到目标网页后,调用urllib中的urlopen函数打开网页并获取源代码,然后使用正则表达式准确收集目标信息。
通过正则表达式精确收集目标信息。
在这个程序中写正则表达式真的很复杂,占用很多行,但是使用的主要正则表达式是[wW]?还有[sS]?
[sS]或[wW]表示完全通用。s指空格,包括空格、换行符、制表符缩进等。但S正好相反。这意味着所有的字符都是完整的,没有遗漏一个单词。此外,符号[]表示其中包含的单个字符出现的顺序不受限制,如以下规律性:【ace】*,这意味着只要出现三个任意字母a/c/e,它们就会匹配。
此外,[s]表示只要有空白就匹配;[S]表示如果不为空,则匹配。那么它们的组合就意味着都匹配,对应的就是[wW]等。它们有完全相同的含义。实际上,像[sS]和[wW]这样的用法比“.”多,因为“.”无法匹配换行。当有linefeed匹配时,人们习惯于使用完全通用的匹配模式,如[sS]或[wW]。
最终输出渲染如下:
输出渲染。
这样,朋友就可以养狗了。粮食商品信息,当然,边肖只是想在这里吸引玉石,只匹配四条信息,只做单页收购。需要更多数据的朋友可以通过改变正则表达式,自己设置多个页面来达到想要的效果。在下一篇文章中,边肖将使用BeautifulSoup美人汤对目标数据进行匹配,实现目标信息的准确获取。
最后给大家简单介绍一下正则表达式。正则表达式使用单个字符串来描述和匹配一系列符合特定语法规则的字符串。在许多文本编辑器中,正则表达式通常用于检索和替换符合特定模式的文本。
正则表达式对于初学者来说确实比较难,但是慢慢学习就可以掌握,不需要完全记下来。但是,你需要知道什么时候需要什么参数,这样才能顺利使用。
看完以上内容,你是否掌握了Python大神教你的用正则表达式做JD.COM商品信息样本分析的方法?如果您想学习更多技能或了解更多相关内容,请关注行业资讯频道。感谢阅读!
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/48489.html