ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 13310|回复: 21

[分享] 自动提取高频词

[复制链接]

TA的精华主题

TA的得分主题

发表于 2018-4-26 17:17 | 显示全部楼层 |阅读模式
几点说明
1、中文有效;
2、字符串长为特定值;
3、目标是智能分词(长度、语义),路还很远。

自动提取高频词.zip (1.52 MB, 下载次数: 1129)

评分

3

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-4-26 17:17 | 显示全部楼层
Private Sub CommandButton1_Click()
Range("a2:b99999").ClearContents
Dim arr(), brr(), crr(), dic, dic2, k As Long
Set dic = CreateObject("Scripting.Dictionary")
Set dic2 = CreateObject("Scripting.Dictionary")
On Error Resume Next

arr = Range("d1:d" & [d65535].End(3).Row)
ReDim brr(1 To [d65535].End(3).Row, 1 To 1)
For i = 1 To UBound(arr)
   For j = 1 To Len(arr(i, 1))
       Str2 = Mid(arr(i, 1), j, 1)
       If (Asc(Str2) < 0 And Asc(Str2) > -22000) Or Asc(Str2) < -24300 Then
          brr(i, 1) = brr(i, 1) & Mid(arr(i, 1), j, 1)
       Else
          If Right(brr(i, 1), 1) <> " " Then brr(i, 1) = brr(i, 1) & " "
       End If
   Next j
Next i

ReDim crr(1 To 100000, 1 To 2)
k = 1
lxzf = [c3]
cp = [c5]
For i = 1 To UBound(brr)
   ltws = Split(brr(i, 1), " ")
   For s = 0 To UBound(ltws)
     If Len(ltws(s)) < lxzf Then GoTo haha
     For j = 1 To Len(ltws(s)) - lxzf + 1
       str3 = Mid(ltws(s), j, lxzf) '连续字符=
       dic(str3) = dic(str3) + 1
       If dic(str3) >= cp Then '词频>=
          If Not dic2.exists(str3) Then
             dic2(str3) = k
             crr(k, 1) = str3
             crr(k, 2) = dic(str3)
             k = k + 1
          Else
             crr(dic2(str3), 2) = dic(str3)
          End If
       End If
     Next j
haha:
   Next s
Next i

Range("a2").Resize(k - 1, 2) = crr
End Sub

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2018-9-30 17:38 | 显示全部楼层
你好,为什么把中文换成英文内容就无效了呢

TA的精华主题

TA的得分主题

发表于 2018-12-14 02:45 | 显示全部楼层
经书好看吗,这么神

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-12-14 08:41 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
v111v111v 发表于 2018-12-14 02:45
经书好看吗,这么神

如果有合适的 文字材料,可以继续讨论,基本目的是 实现本地智能分词。

TA的精华主题

TA的得分主题

发表于 2018-12-14 13:52 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
zopey 发表于 2018-12-14 08:41
如果有合适的 文字材料,可以继续讨论,基本目的是 实现本地智能分词。

说不上是“词”吧,只能是“高频连续字符”,如何识别是“词”(既定词组),还是“字符”,似乎还需再建立一个词库字典

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-12-14 13:58 | 显示全部楼层
aman1516 发表于 2018-12-14 13:52
说不上是“词”吧,只能是“高频连续字符”,如何识别是“词”(既定词组),还是“字符”,似乎还需再建 ...

事先不需要建立字典,常用词语 在一段话中 一般会出现多次, 用统计的方法寻找到它,这是我的初步思路。

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-12-14 14:08 | 显示全部楼层
统计举例,涂黄色单元格 我认为是 固定的词语。

105841k5bi66bllsfhv6fb.jpg

TA的精华主题

TA的得分主题

发表于 2018-12-14 16:32 | 显示全部楼层
zopey 发表于 2018-12-14 08:41
如果有合适的 文字材料,可以继续讨论,基本目的是 实现本地智能分词。

说不清楚,想实现把段落分成单词的,这个是独一无二的。

TA的精华主题

TA的得分主题

发表于 2018-12-14 19:46 | 显示全部楼层
zopey 发表于 2018-12-14 14:08
统计举例,涂黄色单元格 我认为是 固定的词语。

利害,很AI…………
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-18 01:29 , Processed in 0.034675 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表