Python大神利用正则表达式教你搞定京东商品信息的示例分析

技术Python大神利用正则表达式教你搞定京东商品信息的示例分析Python大神利用正则表达式教你搞定京东商品信息的示例分析,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能

Python用正则表达式教你如何处理JD.COM商品信息的样本分析,但我相信很多没有经验的人对此无能为力。因此,本文总结了出现问题的原因和解决方法,希望大家可以通过这篇文章来解决这个问题。

JD。COM(JD.com)是中国最大的自营电商企业,2015年第一季度在中国自营B2C电商市场的市场份额为56.3%。对于这么庞大的电商网站来说,上面的商品信息是巨大的。今天,边肖将带着他的朋友们使用正则表达式,实现基于输入关键词的主题爬虫。

首先,去JD.COM。并输入您想要查询的产品。边肖在这里使用了关键词“狗”。粒”作为搜索对象,然后得到后面这串URL:

https://search.jd.com/Search?Word=狗粮enc=utf-8。

其实参数狗粮解码后就是“狗”。食物的意义”。所以很明显,只要输入关键字参数并编码,就可以得到我们的目标网站,请求网页并得到响应,然后使用选择器进行下一次精准采集。

在JD.COM互联网上,狗。JD.COM官方网站粮食信息的网站源代码如下图所示:

Python大神利用正则表达式教你搞定京东商品信息的示例分析

狗。JD.COM官方网站粮食信息源代码。

话不多说,直接抹掉代码,如下图所示。Py3在边肖使用,建议大家以后多使用py3。一般来说,URL的编码方式是把要编码的字符转换成%xx的形式。一般来说,URL的编码都是基于UTF-8的,有些和浏览器平台有关。Python的urllib库中提供了quote方法,可以对URL字符串进行编码,使其可以进入相应的网页。

正则表达式,也称为正则表达式、正则表达式、正则表达式和正则表达式(英语:正则表达式,在代码中通常缩写为regex、regexp或re),是模式匹配和替换的强大工具。找到目标网页后,调用urllib中的urlopen函数打开网页并获取源代码,然后使用正则表达式准确收集目标信息。

Python大神利用正则表达式教你搞定京东商品信息的示例分析

通过正则表达式精确收集目标信息。

在这个程序中写正则表达式真的很复杂,占用很多行,但是使用的主要正则表达式是[wW]?还有[sS]?

[sS]或[wW]表示完全通用。s指空格,包括空格、换行符、制表符缩进等。但S正好相反。这意味着所有的字符都是完整的,没有遗漏一个单词。此外,符号[]表示其中包含的单个字符出现的顺序不受限制,如以下规律性:【ace】*,这意味着只要出现三个任意字母a/c/e,它们就会匹配。

此外,[s]表示只要有空白就匹配;[S]表示如果不为空,则匹配。那么它们的组合就意味着都匹配,对应的就是[wW]等。它们有完全相同的含义。实际上,像[sS]和[wW]这样的用法比“.”多,因为“.”无法匹配换行。当有linefeed匹配时,人们习惯于使用完全通用的匹配模式,如[sS]或[wW]。

最终输出渲染如下:

Python大神利用正则表达式教你搞定京东商品信息的示例分析

输出渲染。

这样,朋友就可以养狗了。粮食商品信息,当然,边肖只是想在这里吸引玉石,只匹配四条信息,只做单页收购。需要更多数据的朋友可以通过改变正则表达式,自己设置多个页面来达到想要的效果。在下一篇文章中,边肖将使用BeautifulSoup美人汤对目标数据进行匹配,实现目标信息的准确获取。

最后给大家简单介绍一下正则表达式。正则表达式使用单个字符串来描述和匹配一系列符合特定语法规则的字符串。在许多文本编辑器中,正则表达式通常用于检索和替换符合特定模式的文本。

正则表达式对于初学者来说确实比较难,但是慢慢学习就可以掌握,不需要完全记下来。但是,你需要知道什么时候需要什么参数,这样才能顺利使用。

看完以上内容,你是否掌握了Python大神教你的用正则表达式做JD.COM商品信息样本分析的方法?如果您想学习更多技能或了解更多相关内容,请关注行业资讯频道。感谢阅读!

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/48489.html

(0)

相关推荐

  • Java Servlet时遇到的小问题是怎样的

    技术Java Servlet时遇到的小问题是怎样的今天就跟大家聊聊有关Java Servlet时遇到的小问题是怎样的,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

    攻略 2021年11月20日
  • 微服务设计的方法是什么

    技术微服务设计的方法是什么这篇文章主要讲解了“微服务设计的方法是什么”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“微服务设计的方法是什么”吧!一、微服务架构理论1.六边形

    攻略 2021年11月16日
  • python和sqlite3数据库如何实现简单登陆注册功能

    技术python和sqlite3数据库如何实现简单登陆注册功能这篇文章将为大家详细讲解有关python和sqlite3数据库如何实现简单登陆注册功能,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后

    攻略 2021年12月4日
  • leetcode翻转链表(leetcode如何删除链表)

    技术LeetCode怎样反转链表这篇文章主要为大家展示了“LeetCode怎样反转链表”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“LeetCode怎样反转链表”这篇文章吧。

    攻略 2021年12月15日
  • Java基于NIO怎么实现聊天室功能

    技术Java基于NIO怎么实现聊天室功能Java基于NIO怎么实现聊天室功能,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。Sever端package com

    攻略 2021年11月24日
  • 207所,中国兵器工业集团207所怎么样

    技术207所,中国兵器工业集团207所怎么样答207所:中国兵器工业集团公司自2004年以来连年获A级中央企业,位居央企前列。发展现状
    兵器工业是国家安全的战略基础。
    人民兵工是我党领导和创建的第一个工业部门,历经无数战

    生活 2021年10月25日