ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 848|回复: 6

[求助] 单个word与整个word文件夹对比,选出相似度最高的,谢谢

[复制链接]

TA的精华主题

TA的得分主题

发表于 2024-9-13 00:31 | 显示全部楼层 |阅读模式
大神,求个思路过着软件。拿到一个新合同,如何快速在原有合同文件夹中(30多个合同,后续不断增加)选出与新文档相似度最高的一个合同,求教

TA的精华主题

TA的得分主题

发表于 2024-9-13 11:11 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
我暂时能想到方法是:给合同文档分类或者添加多种关键词(可以使用excel或word表格汇总,或者填写到word文档本身的标记或备注),然后查找合适的类型(查找word文档的标记或者备注需要写代码)

TA的精华主题

TA的得分主题

发表于 2024-9-13 16:31 | 显示全部楼层
本帖最后由 过客fppt 于 2024-9-14 16:00 编辑

我的思路很简单,就是比较当前文档与文件夹中每个文档的字符串相似度,相似度最高的选出来就可以,以下的结果是用AI得到的比较字符串的相似度的代码,还未经过验证

比较文本相似度.gif
image.png

TA的精华主题

TA的得分主题

发表于 2024-9-13 16:41 | 显示全部楼层
过客fppt 发表于 2024-9-13 16:31
我的思路很简单,就是比较当前文档与文件夹中每个文档的字符串相似度,相似度最高的选出来就可以,以下的结 ...

改进以下,将字符串中的回车去掉,会好一些


比较文本相似度1.gif

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2024-9-13 23:25 来自手机 | 显示全部楼层
过客fppt 发表于 2024-9-13 16:41
改进以下,将字符串中的回车去掉,会好一些

上面的方法并不好,对比的是两段文本每个汉字出现的相似程度。更好的应该是对比这本中每个词的相似程度更好

在中文环境中,对比两段文本的相似程度,余弦相似度(Cosine Similarity) 和Word2Vec是两种较为适用的算法。
余弦相似度:这种方法通过计算两个文本向量之间的夹角余弦值来衡量它们的相似度。中文文本可以通过分词工具处理后,构建词频向量或TF-IDF向量,然后应用余弦相似度进行比较。这种方法简单有效,特别适合于文本分类、信息检索等场景。
Word2Vec:Word2Vec模型能够将每个词表示成一个向量,这些向量能较好地捕捉词语之间的语义关系。对于中文文本,可以使用预训练的Word2Vec模型(如腾讯的Word2Vec中文模型)将文本中的词转换为向量表示,然后通过计算向量之间的距离来度量文本相似度。Word2Vec对于包含语义相似比较的文本匹配较为有效。
Jaccard相似度在处理文本去重或关键词匹配时也有一定的应用,但它的主要缺点是没有考虑词语出现的频率,因此可能不如余弦相似度和Word2Vec在需要考虑词语权重和语义的场合表现得好。

编辑距离(Edit Distance) 适用于基于字符的相似度比较,但在中文环境中,由于词语较多,且上下文语义丰富,编辑距离可能不是最佳选择。

因此,在中文环境中,余弦相似度和Word2Vec通常被认为是更好的选择,具体取决于特定的应用场景和需求。

TA的精华主题

TA的得分主题

发表于 2024-9-15 00:05 | 显示全部楼层
过客fppt 发表于 2024-9-13 23:25
上面的方法并不好,对比的是两段文本每个汉字出现的相似程度。更好的应该是对比这本中每个词的相似程度更 ...

我平时用的是余弦相似度算法,但是win7上没有离线的分词功能,word自带的分词效果较差

评分

2

查看全部评分

TA的精华主题

TA的得分主题

发表于 2024-9-15 14:27 | 显示全部楼层
batmanbbs 发表于 2024-9-15 00:05
我平时用的是余弦相似度算法,但是win7上没有离线的分词功能,word自带的分词效果较差

太厉害了,这个方法我感觉云里雾里的,好难懂
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-11-21 19:35 , Processed in 0.037789 second(s), 13 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表