ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 467|回复: 9

[求助] 找出并标记缺失数据【因有大佬回复了,解决后再删帖】

[复制链接]

TA的精华主题

TA的得分主题

发表于 2024-1-26 09:49 | 显示全部楼层 |阅读模式
本帖最后由 bug0088 于 2024-1-26 10:22 编辑

我问了GPT,给出了几种方案,但都不行,球球各位远胜GPT的大佬。


我有两份数据,分别储存在sheet1和sheet2的A列。其他情形如下:
(1)sheet1的数据有10000行,sheet2的数据有6000行。
(2)sheet2的数据全部来自于sheet1(包括顺序和内容),但是有一些整行缺失。
(3)sheet1和sheet2的数据本身存在一定的重复,比如sheet1的500行有数据“Hello, Tom.”,第700行可能也存在数据“Hello, Tom.”
要求:
(1)从sheet1的数据中找出sheet2的数据的缺失处,并以“Missing Data"在sheet1的B列中标识出来。
(2)考虑到数据本身存在一定的重复,sheet2的数据在进行匹配时只能按顺序使用一次。
(3)可能不要使用vlookup函数,因为有些单行里的数据太长,vlookup会返回#VALUE!。(我自己试过两边同时左取50个字符再V,但担心精度问题)


GPT给出的几种方案,分别是:
1.在 sheet1 的 B 列中使用
=IF(COUNTIF(Sheet2!$A$1:$A$6000, $A1) = 0, "Missing Data", "")
结论:估计是某些数据过长的原因,这个公式使用了之后,B列中有些返回错误#VALUE!
2.在 sheet1 的 B 列中使用
=IF(ISNUMBER(MATCH(A1, Sheet2!$A$1:$A$6000, 0)), "", "Missing Data")
结论:B列中"Missing Data"的数量远小于4000(10000-6000)
3.在 sheet1 的 B 列中使用
=IF(COUNTIF($B$1:B1, "")>0, "", IF(COUNTIF(Sheet2!$A$1:$A$6000, $A1)>COUNTIF($B$1:B1, ""), "Missing Data", ""))
=IF(COUNTIF($B$1:B1, "")>0, "", IF(ISNUMBER(MATCH(A1, Sheet2!$A$1:$A$6000, 0)), "", "Missing Data"))
结论:以上两个公式均提示循环引用
4.
在 sheet1 的 C 列中使用=IF(ISNUMBER(MATCH(A1, Sheet2!$A$1:$A$6000, 0)), "", "Missing Data")
在 sheet1 的 B 列中使用=IF(COUNTIF($C$1:C1, "Missing Data")>0, "", IF(ISNUMBER(MATCH(A1, Sheet2!$A$1:$A$6000, 0)), "", "Missing Data"))
结论:"Missing Data"的数量远小于4000(10000-6000)


再次,球球各位远胜GPT的大佬。

TA的精华主题

TA的得分主题

发表于 2024-1-26 09:58 | 显示全部楼层
又是一个数据比对问题,vba代码可以搞定,前提是上传附加

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-1-26 10:21 | 显示全部楼层
3190496160 发表于 2024-1-26 09:58
又是一个数据比对问题,vba代码可以搞定,前提是上传附加

大佬,附件给您,烦请看看 样本.part1.rar (1.8 MB, 下载次数: 5) 样本.part2.rar (1.35 MB, 下载次数: 4)

TA的精华主题

TA的得分主题

发表于 2024-1-26 11:09 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2024-1-26 11:21 | 显示全部楼层
power query 如附件,sheet1, sheet 2的数据行只保留了几千行,你粘贴过来,点击,工具栏,DATA 里面的全部刷新,就得到结果了

样本.zip

189.72 KB, 下载次数: 9

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-1-26 15:17 | 显示全部楼层
Sean_zhang810 发表于 2024-1-26 11:21
power query 如附件,sheet1, sheet 2的数据行只保留了几千行,你粘贴过来,点击,工具栏,DATA 里面的全部 ...

谢谢大佬,受你的启发,我想了个笨办法,sheet1前插一列,全部标记B;sheet2前插一列,全部标记A.然后在sheet3中先把sheet2的数据粘贴,然后在紧接着把sheet1的数据弄在同一列。然后再用自带的去重。
如果去重是默认保留位置靠前的数据,以及不限制数据长度,那么剩下的第一列是B的数据就是shee2中缺失的?请大佬指正

TA的精华主题

TA的得分主题

发表于 2024-1-26 15:26 | 显示全部楼层
建议你去研究POWER QUERY,明明可以简单化,标准化,自动化的处理,何必手工处理。 模板做好后,以后可以点击刷新即可。

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-1-26 15:34 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
Sean_zhang810 发表于 2024-1-26 15:26
建议你去研究POWER QUERY,明明可以简单化,标准化,自动化的处理,何必手工处理。 模板做好后,以后可以点 ...

好哒,明白了

TA的精华主题

TA的得分主题

发表于 2024-1-26 23:47 | 显示全部楼层
本帖最后由 cztanghao 于 2024-1-27 00:01 编辑

用python跑最方便,比pq快:
结果跟上面pq的大神对了一下,一模一样,看图,总得缺失值都是774个。
PixPin_2024-01-26_23-51-27.png

TA的精华主题

TA的得分主题

发表于 2024-1-26 23:54 | 显示全部楼层
用完整的10万条,你写的是1万条,但是我看数据是10万条。进行了python测试,花了5秒。pq肯定没这么快。找出来634个缺失,不知道对不对。
PixPin_2024-01-26_23-58-31.png
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-5-21 02:50 , Processed in 0.045580 second(s), 13 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表