ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 3396|回复: 10

[转帖] “正则打油诗”(猜想对网页数据抓取可能有用)

[复制链接]

TA的精华主题

TA的得分主题

发表于 2012-6-25 21:29 | 显示全部楼层 |阅读模式
正则其实也势利,削尖头来把钱揣; (指开始符号^和结尾符号$)
特殊符号认不了,弄个倒杠来引路; (指\. \*等特殊符号)
倒杠后面跟小w, 数字字母来表示; (\w跟数字字母;\d跟数字)
倒杠后面跟小d, 只有数字来表示;
倒杠后面跟小a, 报警符号嘀一声;
倒杠后面跟小b, 单词分界或退格;
倒杠后面跟小t, 制表符号很明了;
倒杠后面跟小r, 回车符号知道了;
倒杠后面跟小s, 空格符号很重要;
小写跟罢跟大写,多得实在不得了;
倒杠后面跟大W, 字母数字靠边站;
倒杠后面跟大S, 空白也就靠边站;
倒杠后面跟大D, 数字从此靠边站;
倒框后面跟大B, 不含开头和结尾;
单个字符要重复,三个符号来帮忙; (* + ?)
0 星加1 到无穷,问号只管0 和1; (*表0-n;+表1-n;?表0-1次重复)
花括号里学问多,重复操作能力强; ({n} {n,} {n,m})
若要重复字符串,园括把它括起来; ((abc){3} 表示字符串“abc”重复3次 )
特殊集合自定义,中括号来帮你忙;
转义符号行不通,一个一个来排队;
实在多得排不下,横杠请来帮个忙; ([1-5])
尖头放进中括号,反义定义威力大; ([^a]指除“a”外的任意字符 )
1竖作用可不小,两边正则互替换; (键盘上与“\”是同一个键)
1竖能用很多次,复杂定义很方便;
园括号,用途多;
反向引用指定组,数字排符对应它; (“\b(\w+)\b\s+\1\b”中的数字“1”引用前面的“(\w+)”)
支持组名自定义,问号加上尖括号; (“(?<Word>\w+)”中把“\w+”定义为组,组名为“Word”)
园括号,用途多,位置指定全靠它;
问号等号字符串,定位字符串前面; (“\b\w+(?=ing\b)”定位“ing”前面的字符串)
若要定位串后面,中间插个小于号; (“(?<=\bsub)\w+\b”定位“sub”后面的字符串)
问号加个惊叹号,后面跟串字符串;
PHPer都知道, !是取反的意思;
后面不跟这一串,统统符合来报到; (“\w*d(?!og)\w*”,“dog”不符合,“do”符合)
问号小于惊叹号,后面跟串字符串;
前面不放这一串,统统符合来报到;
点号星号很贪婪,加个问号不贪婪;
加号问号有保底,至少重复一次多;
两个问号老规矩,0次1次团团转;
花括号后跟个?,贪婪变成不贪婪;
还有很多装不下,等着以后来增加。

评分

1

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2012-6-25 21:31 | 显示全部楼层
本帖最后由 引子玄 于 2012-6-25 21:32 编辑

学习网页数据数据抓取,我想:一是要会写正则表达式,二是要下载一个正则工具,作为分析网页用的.

TA的精华主题

TA的得分主题

发表于 2012-6-25 21:34 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2012-6-25 21:35 | 显示全部楼层
本帖最后由 节节高高 于 2012-6-25 21:35 编辑

这个,不错,呵呵

TA的精华主题

TA的得分主题

 楼主| 发表于 2012-6-25 21:41 | 显示全部楼层
liucqa 发表于 2012-6-25 21:34
不用吧,会replace和split就行

在替换和分裂之前的工作,应该要看得懂网页源代码吧?不然咋么下手抓取呢?

TA的精华主题

TA的得分主题

发表于 2012-6-25 21:52 | 显示全部楼层
本帖最后由 liucqa 于 2012-6-25 21:53 编辑
引子玄 发表于 2012-6-25 21:41
在替换和分裂之前的工作,应该要看得懂网页源代码吧?不然咋么下手抓取呢?

抓取用httpfox看链接,抓到的内容知道th tr  td是啥就行。其实不知道也行,就当普通字符串处理了

TA的精华主题

TA的得分主题

 楼主| 发表于 2012-6-25 21:59 | 显示全部楼层
liucqa 发表于 2012-6-25 21:52
抓取用httpfox看链接,抓到的内容知道th tr  td是啥就行。其实不知道也行,就当普通字符串处理了

哦,那就不学这个打油诗了,差点浪费了时间,本来学VBA就很累,多谢指点

TA的精华主题

TA的得分主题

发表于 2012-6-25 22:22 | 显示全部楼层
引子玄 发表于 2012-6-25 21:59
哦,那就不学这个打油诗了,差点浪费了时间,本来学VBA就很累,多谢指点

http://tieba.baidu.com/f?kz=267197381

正则在匹配括号方面还是有作用的,看一下这篇文章

TA的精华主题

TA的得分主题

发表于 2012-6-25 23:35 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
个人感觉   如果以前你对word的查找替换了解得比较深的话,学正则还是很简单的,每天抽点时间看一下记一下很快就会了
事实上,正则加网页提取还是有点搞头的。。
可惜俺的网页还没入门。。
看楼主以前的帖子网页学得挺不错的嘛
向您学习!

TA的精华主题

TA的得分主题

发表于 2012-6-26 16:26 | 显示全部楼层
liucqa 发表于 2012-6-25 21:34
不用吧,会replace和split就行

非常赞成  包括正则去html代码也可以通过循环加replace来搞定
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-5-5 02:12 , Processed in 0.044722 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表