ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
12
返回列表 发新帖
楼主: zpwr

[求助] 数据对比提取,量大,有好办法嘛?

[复制链接]

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-4-4 17:46 | 显示全部楼层
liulang0808 发表于 2023-4-4 07:59
楼主的实际数据,一列能存放下来吗?

再建议楼主结合需求模拟下具体结果,看不懂明白

新上传了数据

TA的精华主题

TA的得分主题

发表于 2023-4-5 19:21 | 显示全部楼层



这是一个非结构化文本的相似度识别问题,多字段记录级相似度匹配问题

例如,同一个公司名、项目名、产品名、产品规格或属性有多种写法和描述方式 我们要把他们归一化识别为一个ID


我们自己开发了一套文本相似度系统 datamatch.cn 支持用户自定义创建多个不同业务领域的主数据相似度模型,如公司名、项目名、产品名、产品规格或属性、生产企业、物料、材料、地址、物流线路等各行业领域的数据
支持一个主数据多个字段相似度,不同字段进行不同的相似度处理逻辑,以及支持字段依赖关系和优先级处理
支持在主数据上创建和管理行业知识库,进行同义词、扩展词、停用词配置
支持对相似度匹配结果进行人工修改和复核,导出相似度匹配结果


图片1.png
图片2.png

应用过的场景有,多字段的医疗药品信息匹配比对,ERP物料多字段相似度比对,物流线路比对等。

后台模型是基于传统的NLP无监督模型。

对比当下最先进的chatgpt模型,用chatgpt来做文本相似度:
chatgpt在单个字段相似度准确性更高,但在记录级多字段整体的相似度却不一定是最优的。
另一个问题是在这种专有领域的预料数据,千万×千万级别的比对中,chatgpt太费token,比对效率是个问题。

不过也许不久的将来,chatgpt也能很好地实现这类文本相似度比较问题。
对这个话题感兴趣的朋友可以深入交流。

图片3.png
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-9-29 08:19 , Processed in 0.037331 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表