一个不规则的提取引发的PowerQuery中的M语言的练习

雷公子 · 发表于 2018-8-18 23:30

本帖最后由雷公子于 2018-8-18 23:33 编辑

来混个脸熟顺便分享篇自己整理的内容

需要解决的问题：

我们提取网址中的页面ID，页面ID在任意两个"/"之间，但是位置不固定，前后字符不固定，长度不固定，唯一的特征是开头是{“pw-”，“py-”，“my-”，“mw-”}

解决方法1 正则表达式1(效率一般)

使用M语言+正则表达式的方式提取

Web.Page("<script> document.write('"&[网址]&"'.match(/(pw|mw|my|py)-(\w+-)+\w+(?=\/)/g))</script>")[Data]{0}[Children]{0}[Children]{1}[Text]{0}

方法2 正则表达式2(效率一般)Web.Page("<script> document.write('"&[网址]&"'.match(/([pm][wy])-[^/]*/g))</script>")[Data]{0}[Children]{0}[Children]{1}[Text]{0}

方法3List.RemoveNulls(  List.Transform( {"pw-","mw-","my","py-"}, (x)=>[a=Text.BetweenDelimiters([网址],x,"/"),b=if a<>"" then x&a else null] )  ){0}?

方法4 目前测试效率最高List.RemoveNulls(  List.TransformMany( Text.Split([网址],"/"), each {"py","pw","my","mw"}, (x,y) => if Text.StartsWith(x,y) then x else null    )  ){0}?

List.Max(  List.TransformMany( Text.Split([网址],"/"), each {"py","pw","my","mw"}, (x,y) => if Text.StartsWith(x,y) then x else null ) )

方法5List.Mode(  Text.Split([网址],"/")&{"py","pw","my","mw"," "},(x)=>Text.Start(x,2))

方法6 效率与方法4相当List.Accumulate(  Text.Split([网址],"/"),  "",  (x,y)=>x&(if List.Contains({"py","pw","my","mw"},y,(a,b)=>Text.StartsWith(b,a)) then y else ""))

特别说明：以上方法来自群讨论各位大神的方法，有需要的小伙伴可以自行学习

hugo_huang · 发表于 2018-9-2 00:14

再来个相对常规思路的解法：
=List.Select(
   Text.Split([网址],"/"),
   (x)=>List.AnyTrue(
         List.Transform(
               {"pw-","mw-","my-","py-"},
               (y)=>Text.StartsWith(x,y)
         )
         )
)

最后在展开结果列表。

江南月 · 发表于 2018-9-5 23:59

都是高手呀!受教了!

libo5563 · 发表于 2019-10-23 20:48

本帖最后由 libo5563 于 2019-10-24 10:07 编辑

Text.BetweenDelimiters(文本,"/","/",{1,0})
Text.BeforeDelimiter() 函数的第4参数修改一下，文本都是第2个“/”,和第3个“/”之间的字符，很适合这个题有1个不规则的数据需要另外处理一下这样算不算投机取巧了

飞天篮球猪 · 发表于 2019-10-25 09:28

上述JS正则的写法要改一下，可以实现秒速加载十万行。

AbleZeng · 发表于 2019-10-25 21:15

hugo_huang 发表于 2018-9-2 00:14
再来个相对常规思路的解法：
=List.Select(
Text.Split([网址],"/"),

大海老师这个套路用的太绝妙了，学习了

skull322 · 发表于 2020-4-24 13:20

赞，学习了

		自动登录	找回密码
密码			免费注册

[分享] 一个不规则的提取引发的PowerQuery中的M语言的练习

评分

评分