ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 2720|回复: 6

[分享] 一个不规则的提取引发的PowerQuery中的M语言的练习

[复制链接]

TA的精华主题

TA的得分主题

发表于 2018-8-18 23:30 | 显示全部楼层 |阅读模式
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖最后由 雷公子 于 2018-8-18 23:33 编辑

来混个脸熟顺便分享篇自己整理的内容

需要解决的问题:
我们提取网址中的页面ID,页面ID在任意两个"/"之间,但是位置不固定,前后字符不固定,长度不固定,唯一的特征是开头是{“pw-”,“py-”,“my-”,“mw-”}



解决方法1 正则表达式1(效率一般)
使用M语言+正则表达式的方式提取
Web.Page("<script> document.write('"&[网址]&"'.match(/(pw|mw|my|py)-(\w+-)+\w+(?=\/)/g))</script>")[Data]{0}[Children]{0}[Children]{1}[Text]{0}

方法2 正则表达式2(效率一般)Web.Page("<script> document.write('"&[网址]&"'.match(/([pm][wy])-[^/]*/g))</script>")[Data]{0}[Children]{0}[Children]{1}[Text]{0}

方法3List.RemoveNulls(  List.Transform(    {"pw-","mw-","my","py-"},    (x)=>[a=Text.BetweenDelimiters([网址],x,"/"),b=if a<>"" then x&a else null]    )  ){0}?

方法4 目前测试效率最高List.RemoveNulls(  List.TransformMany(    Text.Split([网址],"/"),    each {"py","pw","my","mw"},    (x,y) => if Text.StartsWith(x,y) then x else null     )  ){0}?

List.Max(  List.TransformMany(    Text.Split([网址],"/"),    each {"py","pw","my","mw"},    (x,y) => if Text.StartsWith(x,y) then x else null   ) )


方法5List.Mode(  Text.Split([网址],"/")&{"py","pw","my","mw"," "},(x)=>Text.Start(x,2))


方法6 效率与方法4相当List.Accumulate(  Text.Split([网址],"/"),  "",  (x,y)=>x&(if List.Contains({"py","pw","my","mw"},y,(a,b)=>Text.StartsWith(b,a)) then y else ""))

特别说明:以上方法来自群讨论各位大神的方法,有需要的小伙伴可以自行学习

评分

3

查看全部评分

TA的精华主题

TA的得分主题

发表于 2018-9-2 00:14 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
再来个相对常规思路的解法:
=List.Select(
     Text.Split([网址],"/"),
     (x)=>List.AnyTrue(
             List.Transform(
                 {"pw-","mw-","my-","py-"},
                 (y)=>Text.StartsWith(x,y)
             )
           )
)

最后在展开结果列表。

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2018-9-5 23:59 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2019-10-23 20:48 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
本帖最后由 libo5563 于 2019-10-24 10:07 编辑

Text.BetweenDelimiters(文本,"/","/",{1,0})
Text.BeforeDelimiter()  函数的第4参数修改一下,文本都是第2个“/”,和 第3个“/”之间的字符,很适合这个题   有1个不规则的数据需要另外处理一下 这样算不算投机取巧了

TA的精华主题

TA的得分主题

发表于 2019-10-25 09:28 来自手机 | 显示全部楼层
上述JS正则的写法要改一下,可以实现秒速加载十万行。

TA的精华主题

TA的得分主题

发表于 2019-10-25 21:15 | 显示全部楼层
hugo_huang 发表于 2018-9-2 00:14
再来个相对常规思路的解法:
=List.Select(
     Text.Split([网址],"/"),

大海老师这个套路用的太绝妙了,学习了

TA的精华主题

TA的得分主题

发表于 2020-4-24 13:20 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
赞,学习了
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-4-27 09:18 , Processed in 0.040310 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表