什么是 正则表达式?

正则表达式(Regex)是定义搜索模式的字符序列,主要用于字符串中的模式匹配。正则表达式提供了一种强大而灵活的方式来搜索、匹配和操作文本。

快速了解

全称Regular Expression(正则表达式)
创建时间1951 年由 Stephen Cole Kleene 提出(1968 年正式化)
规范文档官方规范

正则表达式 工作原理

正则表达式使用字面字符和元字符的组合来定义模式。元字符如 .(任意字符)、*(零个或多个)、+(一个或多个)、?(零个或一个)和 [](字符类)提供模式匹配能力。锚点如 ^(开始)和 $(结束)指定位置。分组 () 捕获匹配的文本,交替 | 提供或逻辑。大多数编程语言通过内置函数或库支持正则表达式,尽管不同实现(PCRE、JavaScript、Python 等)之间的语法可能略有不同。

主要特点

  • 基于模式的文本匹配和操作
  • 支持量词(*、+、?、{n,m})
  • 字符类和范围([a-z]、[0-9]、\d、\w)
  • 位置匹配锚点(^、$、\b)
  • 使用括号进行分组和捕获
  • 前瞻和后顾断言

常见用途

  1. 表单验证(邮箱、电话、密码模式)
  2. 文本编辑器中的搜索和替换操作
  3. 数据提取和网页抓取
  4. 日志文件解析和分析
  5. 输入清理和安全过滤

示例

邮箱验证:
^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$

中国手机号:
^1[3-9]\d{9}$

URL 提取:
https?://[\w.-]+(?:/[\w.-]*)*

QubitTool 相关工具

相关概念