翻看各大插件,都不约而同地出现系列文本处理的功能,自己在使用Excel过程中,在临时性的需求时,也会用上这几种文本处理,但仅适用于小范围的使用,使用这些功能不是数据处理的正确的之道,数据处理的核心需求是:不破坏原有数据的情况下,通过逻辑关系处理,生成符合分析需要的目标数据。文本处理系列功能将有违此原则。。另外提供高阶用户的文本处理最爱的正则表达式处理方法,相信此系列功能将老少咸宜,各取所需。
此篇提及的功能,其实有违数据处理的原则,尽可能地少范围使用,可能性能也有瓶颈。Excel催化剂的系列功能没有相应的撤销功能,没有后悔药可吃,使用前请记得对文档进行保存。
文本处理功能总览
文本处理的几大快捷操作,小白适用转换组文本转数值、数值转文本,不详细解释了,有Excel数据结构基础的都好理解。 因Excel本质是3大类型数据结构:文本、数值、和其他错误、逻辑值等。其中特殊点在于数字可以表示为数值和文本还种,文本型数字不能进行计算汇总,需转换为数值,而身份证类的数字,最好保存为文本,防止15位数据有效性原因丢失数据精度。 显示转文本有时对数值进行了数字格式的设置,使原本的数字在显示层面表现不同,若想重新存储显示层面的数据,可用显示转文本实现。
数字格式影响数据显示
用显示转文本后的效果
插入组前面插入、后面插入也好理解,不细说。 中间插入特意做了个示例效果,花了不少功夫,如果不记得可查看示例效果的展示,为了小白们,我也是拼了!
同时有从右边数起第几位,算是个小特色。
中间插入操作,有示例指引
插入后效果
清除和正则提取清除等文本清除有按内容类型清除和文本位置清除两种,同样花大力气做了动态示例演示清除的效果。
快速清除,针对特定类型的文本进行清除
清除中文后效果
一般建议用一下清除【非可见字符】就差不多,其他的数据,建议用自定义函数来提取出来或清除,Excel催化剂有一整套非常好用的正则自定义函数,值得你投入时间学习正则的知识。 另外的位置清除,杀伤力较小,也较可控,对规则数据清除效果也不错。
按位置清除,同样可分从左还是从右数起
快速清除和位置清除是互斥关系,一次仅能处理其中一类。具体看示例中演示的作用效果。 正则匹配与替换在字符串处理的世界中,没有比正则表达式处理更合适的了,若想从各种奇葩的文本字符串中找寻想要的信息,最好还是静下心来,学习掌握下正则表达式.
Excel催化剂已经把它实现在自定义函数和界面操作上,学习完知识,就算没有编程技术一样可以使用起来,投资回报率极高。
正则匹配与替换界面
左侧正则表达式匹配Pattern记录表方便对曾经使用过,或收集回来有复用价值的Pattern匹配字符进行记录,方便再次调出使用。可以写上自己理解的标识描述文本。填写完内容按回车即可保存。
若需调用,双击Pattern内容的对应的行单元格位置,即可自动把内容存到右则的【正则Pattern参数】区。 正则表达式Options设置此处的Options,用于辅助Pattern内容的设置,如提取英文时,是否忽略大小写,如果勾上,就可以在[a-z]这样的表达式上,无论大小写都进行匹配,具体可百度学习下细节。 匹配区域选择因文本处理为破坏性操作,正则也很难一次性保证书写正确,可先用【匹配区域选择】,查看下写的Pattern和Options配置,是否和预期想要匹配的相符,对应到相关的单元格上被选择出来。 保留匹配字符此处为正则匹配到的内容,重写到单元格内覆盖原内容,并且匹配只会对首次匹配到的内容进行重写,例如: 内容为:中国人真是牛B,能在中国活着就是牛。匹配Pattern为:[\u4e00-\u9fa5]+ 只会匹配到【中国人真是牛】,被B隔开的第2组【能在中国活着就是牛】不匹配。
最终重写到单元格中也只有【中国人真是牛】,想更灵活地匹配,建议使用Excel催化剂的正则自定义函数实现。 替换匹配字符此处为把匹配到的文本,替换为【正则替换参数】,若留空将进行删除操作,替换为空字符就是删除了原匹配到的内容。
替换功能会把所有匹配到的内容组都进行替换,和上面保留匹配字符的仅取首次匹配到的内容不同。如上例中,匹配中文,替换为空,将只剩下【B】字。 正则查询
右侧任务窗格展示保存过的Pattern字符
此为快捷操作调出任务窗格显示Pattern字符串列表,可用于自定义函数编写时调用。
只需鼠标双击Pattern内容列的对应行位置,即可把内容保存到剪切板内,写正则自定义函数时可粘贴出来使用。
鼠标左键双击箭头位置即可复制
|