ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 1084|回复: 22

[求助] 在海量数据中查到特殊文字(从没遇到过)

[复制链接]

TA的精华主题

TA的得分主题

发表于 2024-2-17 20:58 | 显示全部楼层 |阅读模式
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
本帖最后由 adad321 于 2024-2-17 21:13 编辑

如图,导出来的数据表中居然出现这种特殊文字,两个看上去一模一样的勇字都不一样的(截图中只有鑫和第二个勇字是正常文字),操作使用的时候,包含这种内容的表格会出现不兼容或不识别的情况,查了一下字符集也没有什么思路,之后就没有办法了。

帮忙想想办法怎样才能从大量数据中定位这种类型的特殊文字,然后后续就好办了。我导出到表格里了,文字复制不出来。


傲游截图20240217204851.png


提取出的特殊文字.rar (7.88 KB, 下载次数: 23)

TA的精华主题

TA的得分主题

发表于 2024-2-17 21:43 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2024-2-17 21:45 | 显示全部楼层
都没看到源数据,应该是无法定位的吧。

TA的精华主题

TA的得分主题

发表于 2024-2-18 04:50 | 显示全部楼层
还是用python吧,字符编码这块处理起来方便一点
也用vba试了,但在vba里,那个不能转为gbk的字符,已经被当成两个不显示字符也就是4个unicode编码了,也就是无法通过尝试转码gbk检测出来,但是也许可以用查找不可见字符的办法找出来,比如lenb再去除可见的那几个字符来检查,不过还是太麻烦了


批注 2024-02-18 044734.jpg

TA的精华主题

TA的得分主题

发表于 2024-2-18 05:53 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
py是对每个字符尝试转gbk,定位不能转的即可
vba试了一下,先去除所有单字节的可见字符,然后利用len和lenb的关系找出含有这种字符的单元格


批注 2024-02-18 055134.jpg

TA的精华主题

TA的得分主题

发表于 2024-2-18 07:28 | 显示全部楼层
如果有原始文本文件更方便一点
比如解压xlsx后里面的xml文件是utf-8编码,所以用iconv转码utf8到gbk,把不能转的字符换成问号,如图也能找到


批注 2024-02-18 072619.jpg

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2024-2-18 08:55 | 显示全部楼层
本帖最后由 wanghan519 于 2024-2-18 08:57 编辑

用lambda公式解决似乎不错,wps或office365
  1. E2=LET(f,LAMBDA(x,y,IF(x=127,y,f(x+1,SUBSTITUTE(y,CHAR(x),"")))),s,f(32,C2),LEN(s)*2=LENB(s))
复制代码

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-2-18 19:14 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
wanghan519 发表于 2024-2-18 07:28
如果有原始文本文件更方便一点
比如解压xlsx后里面的xml文件是utf-8编码,所以用iconv转码utf8到gbk,把不 ...

我的个天,真是实力碾压,我运气怎么这么好,居然能遇到专业解答。先膜拜一下吧

TA的精华主题

TA的得分主题

发表于 2024-2-18 19:49 | 显示全部楼层

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-2-18 20:09 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
wanghan519 发表于 2024-2-18 04:50
还是用python吧,字符编码这块处理起来方便一点
也用vba试了,但在vba里,那个不能转为gbk的字符,已经被 ...

for i in range(len(rng.value)):
    for j in range(len(rng.value)):
        try:
            rng.value[j].encode('gbk')
        except:
            print(i, j, rng.value)
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-9-29 22:27 , Processed in 0.040391 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表