ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: 眼泪的姐

[求助] 批量词频分析 提取关键词

[复制链接]

TA的精华主题

TA的得分主题

 楼主| 发表于 2016-4-8 09:46 | 显示全部楼层
liulang0808 发表于 2016-4-8 09:22
楼主是先设定好关键词,然后再在内容中查找出现次数,还是所让程序去根据内容自动提取关键词?

事先不知道有什么关键词,需要程序自己提取,就像我附件里的那一个词频统计工具,运行后自动就出来哪些词出现了几次

TA的精华主题

TA的得分主题

发表于 2016-4-8 09:51 | 显示全部楼层
问题是,哪些字符组合在一起算词,有规范吗?

TA的精华主题

TA的得分主题

 楼主| 发表于 2016-4-8 10:00 | 显示全部楼层
liulang0808 发表于 2016-4-8 09:51
问题是,哪些字符组合在一起算词,有规范吗?

没有规范……实际我这个问题的来源是 里面的每个词条对应的都是某一个顾客所购买的所有商品名称,我想要提取出来这些个顾客所买商品的高频词,以求给这个顾客打个标签,您看有思路吗?

TA的精华主题

TA的得分主题

发表于 2016-4-8 10:10 | 显示全部楼层
眼泪的姐 发表于 2016-4-8 10:00
没有规范……实际我这个问题的来源是 里面的每个词条对应的都是某一个顾客所购买的所有商品名称,我想要 ...

还是多分析一下具体字段吧,因为商品名称里有关键字的

TA的精华主题

TA的得分主题

发表于 2016-4-8 11:40 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
把原附件中用到的分词引擎的相关代码提取出来,简单应用一下:
  1. Dim tempstr
  2. Public attr As String
  3. Public topnum As Integer
  4. Sub SplitCN(Target, attr, topnum) '参数1:Target 为待统计的Unicode字符串;参数2:为要求统计的词语类型代码,其中,名词为n;参数3:要求列出统计结果最高的topnum项
  5.     Dim StrHTML$, lStart&, lEnd&, dua$, Ign$

  6.     sendstr = "mydata=" & Target & "&stats=yes&limit=" & topnum & "&xattr=" & attr
  7.     With CreateObject("Msxml2.XMLHTTP")
  8.         .Open "POST", "http://www.xunsearch.com/scws/demo/v48.php", False '由"http://www.xunsearch.com/scws 提供的分词引擎
  9.         .setRequestHeader "Content-Type", "application/x-www-form-urlencoded"
  10.         .send sendstr
  11.         StrHTML = .responseText
  12.     End With

  13.     lStart = InStrRev(StrHTML, "<textarea")
  14.     lEnd = InStrRev(StrHTML, "</textarea>")
  15.     StrHTML = Mid(StrHTML, lStart, lEnd - lStart - 2)
  16.     StrHTML = Right(StrHTML, Len(StrHTML) - InStr(StrHTML, ">") - 1)
  17.     StrHTML = Right(StrHTML, Len(StrHTML) - InStr(StrHTML, "-" & Chr(10) & "01.") - 1)

  18. '    tempstr = Split(Trim(StrHTML), Chr(10))
  19.     tempstr = Trim(StrHTML)
  20. End Sub

  21. Sub cs()
  22.     Const attr = "n" '仅分析名词
  23.     Const topnum = 100 '列出词频最高的前100项
  24.     r = Cells(65536, 1).End(xlUp).Row
  25.     arr = Range("A1").Resize(r, 1)
  26.     For i = 2 To r
  27.         If Len(arr(i, 1)) Then Call SplitCN(arr(i, 1), attr, topnum) 'StrConv(InputB$(LOF(1), 1), vbUnicode)
  28.     arr(i, 1) = tempstr
  29.     Next
  30.     arr(1, 1) = "关键词统计结果"
  31.     Range("A1").CurrentRegion.Resize(, 1).Offset(, 1) = arr
  32. End Sub
复制代码

TA的精华主题

TA的得分主题

发表于 2016-4-8 14:08 | 显示全部楼层
附件在此: 问题.rar (38.43 KB, 下载次数: 400)

TA的精华主题

TA的得分主题

 楼主| 发表于 2016-4-8 14:16 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助

我滴天啊 我被震撼到了……
大神 神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神

TA的精华主题

TA的得分主题

 楼主| 发表于 2016-4-8 14:16 | 显示全部楼层
cbtaja 发表于 2016-4-8 11:40
把原附件中用到的分词引擎的相关代码提取出来,简单应用一下:

感恩!!!!!

TA的精华主题

TA的得分主题

发表于 2016-4-8 14:23 | 显示全部楼层
眼泪的姐 发表于 2016-4-8 14:16
我滴天啊 我被震撼到了……
大神 神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神神 ...

需要注意的是:
      这里使用了由http://www.xunsearch.com/scws 网站提供的在线分词引擎。所以,当没有网络时,就出不来结果了。

TA的精华主题

TA的得分主题

发表于 2016-8-23 19:29 | 显示全部楼层
cbtaja 发表于 2016-4-8 14:23
需要注意的是:
      这里使用了由http://www.xunsearch.com/scws 网站提供的在线分词引擎。所以,当没 ...

大神您好,我使用了你的代码,非常好用,但是现在有一个小问题,就是当我上传的文本量大了以后,send的信息量似乎受到了限制。比如我在一个单元格内输入10000字的文本,sendstr无损,但是我查看responseText就发现网页只接收了一千字左右。如果我手动把一万多字粘贴在网页上就不会出现这一问题。麻烦大神看看哪里需要微调啊?跪求解答,不胜感激!!!!
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-15 13:04 , Processed in 0.038171 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表