Python正则表达式：入门示例与应用

小蓝

2024 年 01 月 15 日

126 次浏览

暂无评论

2127字数

Linux 技术杂烩

Python的正则表达式是一种强大的字符串匹配工具，它通过特定的模式来识别文本中的字符串序列。这种方法在文本处理、数据提取和数据验证等方面有着广泛的应用。

正则表达式的基本概念

字符匹配：
- 普通字符：匹配字符本身。
- 特殊字符：如 .匹配任意单个字符，[ ]匹配括号内的任意字符等。
预定义字符类：
- \d：匹配任何数字，等价于 [0-9]。
- \D：匹配任何非数字字符，等价于 [^0-9]。
- \s：匹配任何空白字符。
- \S：匹配任何非空白字符。
- \w：匹配任何字母数字字符，等价于 [a-zA-Z0-9_]。
- \W：匹配任何非字母数字字符。
量词：
- *：匹配前面的子表达式零次或多次。
- +：匹配前面的子表达式一次或多次。
- ?：匹配前面的子表达式零次或一次。
- {n}：匹配确定的 n次。
- {n,}：至少匹配 n次。
- {n,m}：最少匹配 n次且最多匹配 m次。
定位符：
- ^：匹配输入字符串的开始位置。
- $：匹配输入字符串的结束位置。
- \b：匹配一个单词边界。

Python中的正则表达式应用

在Python中，正则表达式的操作主要依赖于内置的 re模块。

基本匹配：
- re.match(pattern, string)：从字符串的起始位置匹配一个模式。
- re.search(pattern, string)：扫描整个字符串并返回第一个成功的匹配。
查找所有匹配：
- re.findall(pattern, string)：找到字符串中所有与模式匹配的项。
替换字符串：
- re.sub(pattern, repl, string)：替换字符串中的匹配项。
分割字符串：
- re.split(pattern, string)：根据模式的匹配项来分割字符串。

示例

假设我们需要从一段文本中提取所有的邮箱地址：

import re

text = "联系邮箱是contact@example.com, alternate.email@example.org"
pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
emails = re.findall(pattern, text)

print(emails)  # 输出: ['contact@example.com', 'alternate.email@example.org']

在这个例子中，我们使用了 re.findall方法和一个匹配电子邮箱的正则表达式来提取文本中的所有邮箱地址。