CMSware采集常用正则介绍
来自站长百科
导航:返回上一页
特殊字符[ ]
因为正则和php的语法要应用到一些符号,所以我们在表达式中要对这些符号特别标明以便区别他是做为普通字符还是语法的特殊符号出现,常用的有以下一些:
$ ( ) * + [ ] ? \ / ^ { } | ' " ;
也就是说如果你的正则中做为字符串出现了这些字符请在前面加上转义符“\”
- 举个例子:
我们要截取标准url,也就是类似http://www.163.com这种形式的内容是就要在/前加\既:/http:\/\/www.163.com/isU这也是很多时候采集出错的原因
- 中括号表达式
这个是我最喜欢用的东东,形式为:[];他确定了一段字符集比如所有所有大写字母:[A-Z]所有数字:[0-9]
在后面加一个+号对应1个以上的字符,比如我们要采集www.cmsware.com中img目录下中出现的第一个以字母和数字命名的jpg或者JPEG或者gif图片就可以用以下表达式:
/http:\/\/www.cnsware.com\/img\/[a-z0-9]+.[jpegif]+/isU