Python正则表达式初识(一)

首先跟大家简单唠叨两句为什么要学习正则表达式,为什么在网络爬虫的时候离不开正则表达式。正则表达式在处理字符串的时候扮演着非常重要的角色,在网络爬虫的时候也十分常用,大家可以把它学的简单一些,但是不能不学。

尽管网络爬虫相关库给我们提供了丰富的库如css、bs4、lxml等等,让我们可以通过选择器去匹配字符串,但是在HTML中数据往往存在标签之中。通过选择器确实可以匹配到标签的内容,但是有时候标签中存在的许多内容是冗余的,而我们只需要匹配其中部分内容即可(如匹配数字、时间等),如下图所示。通过选择器,我们一般可以获取到“782好笑”这个字符串,但是我们只需要“782”这个数字的话,此时正则表达式就要派上用场了。

正则表达式可以帮我们判断某个字符串是否符合某一个模式,其次正则表达式可以帮我们提取某个字符串中的重要部分,做子字符串的提取。今天简单的给大家讲解几个正则表达式的特殊字符—— “^”、“.”、“*”,并且用实例进行演示,让大家对正则表达式有个初步的了解。

小编用的Python是3版本,开发环境用的是pycharm,首先在本地新建一个demo.py文件,接下来开始进行演示。

1、正则表达式在Python中有个专门的库叫re模块,首先进行导入模块。再定义一个字符串str,然后定义一个正则表达式匹配规则regex。

2、“^d”代表的意思是以d元素开头的任意一个字符串,也就是说只要是以d开头的字符串,后面的元素不论是什么,都是符合规则的,总之必须要以d开头。

3、“.” 较为常用,其代表的意思是任意字符,其表示的范围非常广,可以接任意字符,不论是中英文,还是下划线之类的特殊字符,都是可以代表的。举个栗子,正则表达式“^d.”就是代表以d开头的字符串,b后边接任意字符都可以。

4、“*” 也十分常用,其代表的意思是前面的字符可以重复任意多遍,可以是0次,1次,2次等任意多次。

5、了解好这几个特殊字符的用法之后,接下来通过代码简单的感受一下。如下图所示,如果匹配成功,则返回yes;如果没有匹配成功,则不返回任何东西。

可以看到程序运行之后,返回的结果为yes,说明匹配成功。正则表达式“^d.*”代表的意思是以d开头的字符串,后面跟着任意字符,出现任意多遍。显然,通过匹配可以得知该正则表达式匹配的结果和原始字符串一致,之后if判断返回值为true,所以打印出结果为yes。

6、为了进一步验证这个模式是否正确,我们将b改为a,其代表的意思该模式下的字符串是否以a开头的。之后再次运行程序,如下图所示。

此时可以看到无任何输出,说明特殊字符“^”起到了作用。

小伙伴们,快去打开Python,感受一下正则表达式的大法吧~~~

(0)

相关推荐

  • 大话 Python:python 基础巩固 -- 灵活运用正则表达式完成数据提取与筛选

    原创 Sir 老王 Python 集中营 3天前 在一般的后端语言中都有正则表达式的使用,个人觉得正则表达式的难点就是有比较多的元字符比较难记,所以建议大家收藏.而在 python 的编程中,特别是爬 ...

  • GREP

    七. grep家族:1.  grep退出状态:0: 表示成功:1: 表示在所提供的文件无法找到匹配的pattern:2: 表示参数中提供的文件不存在.见如下示例:/> grep 'root' / ...

  • 学习python 正则表达式——与你同行!

    正则表达式定义   又称为规则表达式,是一个特殊的字符序列,利用事先定义好的一些特定字符以及它们的组合组成一个'规则',检查一个字符串是否与这种规则匹配来实现对字符的检索.过滤.匹配.替换.正则表达式 ...

  • 代码详解:Python正则表达式的终极使用指南

    全文共8032字,预计学习时长16分钟 处理文本数据的一个主要任务就是创建许多以文本为基础的特性. 人们可能想要在文本中找出特定格式的内容,比如找出存在于文本中的电子邮件,或者大型文本中的电话号码. ...

  • Python正则表达式中的re.S的作用详解

    Python 正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式. r ...

  • Python 正则表达式 | 菜鸟教程

    Python 正则表达式 正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配. Python 自1.5版本起增加了re 模块,它提供 Perl 风格的正则表达式模式. r ...

  • Python正则表达式很难?一篇文章搞定他,不是我吹!

    Python正则表达式很难?一篇文章搞定他,不是我吹!

  • Python正则表达式指南

    https://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html本文介绍了Python对于正则表达式的支持,包括正则表达式基础以及Python正 ...

  • Python正则表达式之re.match()分组

    https://www.jianshu.com/p/cc26837242b1 我们在面对生物数据,比如序列信息(比如碱基序列.氨基酸序列等)的时候, 会时常要问,这其中是否包含着且含有多少某种已知的模 ...

  • Python正则表达式,看完这篇文章就够了!

    玩转正则表达式 本文中介绍的是主要是 3 个知识点: 正则表达式的相关知识 Python的中 re 模块,主要是用来处理正则表达式 一个利用 re 模块通过正则表达式来进行网页数据的爬取和存储 使用的 ...

  • 【齐活】Python 正则表达式大全,必要时一定用得上哦

    来源:博客园-Huny 链接:https://www.cnblogs.com/huny/p/14040416.html 1 前言 正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特 ...