ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 639|回复: 10

[讨论] Excel数据清理与整理思路讨论

[复制链接]

TA的精华主题

TA的得分主题

发表于 2024-7-24 18:16 | 显示全部楼层 |阅读模式
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
问题描述

在工作中,很多人都会遇到处理大量杂乱数据的情况,例如从多个来源导入的数据,可能包含重复项、不完整信息或格式不一致的问题。一个常见的情况是从不同部门汇总的客户信息,其中包括重复的客户记录、格式不一致的电话号码和缺失的电子邮件地址。

解决方案

步骤一:删除重复项

1. 选择数据区域。
2. 点击“数据”选项卡中的“删除重复项”按钮。
3. 在弹出的对话框中,选择要检查重复项的列(例如,客户ID或电话号码)。
4. 点击“确定”以删除重复项。

步骤二:统一数据格式

1. 电话号码格式化
    - 选择电话号码列。
    - 使用快捷键 Ctrl+H 打开“查找和替换”对话框。
    - 在“查找内容”框中输入不一致的格式,例如“(555) 123-4567”中的括号或空格。
    - 在“替换为”框中输入统一的格式,例如“5551234567”。
    - 点击“全部替换”。

2. 日期格式化
    - 选择日期列。
    - 右键点击选中的单元格,选择“设置单元格格式”。
    - 在弹出的对话框中,选择“日期”分类,并选择一致的日期格式(例如,YYYY-MM-DD)。
    - 点击“确定”。

步骤三:填补缺失信息

1. 使用条件格式标记缺失数据
    - 选择数据区域。
    - 点击“开始”选项卡中的“条件格式”,然后选择“新建规则”。
    - 选择“仅为包含以下内容的单元格设置格式”。
    - 在“单元格值”条件中,选择“等于”,并在右侧输入`=""`。
    - 设置一个醒目的填充颜色,点击“确定”。

2. 手动或自动填补缺失信息
    - 对于少量缺失信息,手动输入。
    - 对于大量缺失信息,可以使用VLOOKUP函数从另一个数据源中查找并填补。例如:

      =VLOOKUP(A2, '其他数据源'!$A$2:$C$100, 3, FALSE)

    - 如果有一致的模式,可以使用Excel的填充功能。例如,如果所有缺失的电子邮件地址都可以用`@qq.com`补全,可以使用公式:

      =IF(B2="", A2 & "@qq.com", B2)


步骤四:验证与审查

1. 使用数据验证
    - 选择需要验证的列。
    - 点击“数据”选项卡中的“数据验证”。
    - 在弹出的对话框中,设置验证条件。例如,电子邮件列可以设置为仅接受包含“@”和“.”的文本。
    - 点击“确定”。

2. 使用公式检测错误
    - 使用公式如 `ISNUMBER()` 或 `ISTEXT()` 检查数据类型。
    - 使用 `IFERROR()` 函数处理可能出现的错误。例如:

      =IFERROR(VLOOKUP(A2, '其他数据源'!$A$2:$C$100, 3, FALSE), "数据缺失")


总结思路

1. 识别问题:明确数据中的主要问题,如重复项、格式不一致和缺失数据。
2. 制定解决方案:根据问题类型,采用删除重复项、格式化数据和填补缺失信息的方法。
3. 逐步实施:按步骤依次操作,确保每一步操作都能解决对应的问题。
4. 验证与检查:使用数据验证和公式检查确保数据整理后的准确性和一致性。

通过这种系统化的方法,我们可以有效地清理和整理杂乱的数据,使其变得整洁和一致,从而提高数据的可靠性和可用性。

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-7-25 10:09 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
可以加入这,一起交流讨论~
image.png

TA的精华主题

TA的得分主题

发表于 2024-7-24 20:28 | 显示全部楼层

TA的精华主题

TA的得分主题

 楼主| 发表于 2024-7-24 21:09 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
laomu2010 发表于 2024-7-24 20:28
设置为一维表会省去无数麻烦

也确实是数据源格式统一很重要

TA的精华主题

TA的得分主题

发表于 2024-7-24 21:45 | 显示全部楼层
收集数据用WPS表单,会省去很多麻烦。

TA的精华主题

TA的得分主题

发表于 2024-7-25 09:50 | 显示全部楼层
我觉得在删除重复项之前还应该做一个更重要和基础的工作,就是全部转换为“数字”格式,不然有的是“数字”格式,有的是“文本”格式,删除重复项做不了

我就吃了这个亏,怎么也删除不了,原来是格式不统一

TA的精华主题

TA的得分主题

发表于 2024-7-25 09:52 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
sobili 发表于 2024-7-24 21:45
收集数据用WPS表单,会省去很多麻烦。

请问怎么操作呢?

TA的精华主题

TA的得分主题

发表于 2024-7-25 10:04 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
如果能给附上一个对应的练习附件就更好了,如是过分要求请忽略~

TA的精华主题

TA的得分主题

发表于 2024-7-25 18:54 | 显示全部楼层
本帖最后由 sobili 于 2024-7-25 18:58 编辑
MR奔赴 发表于 2024-7-25 09:52
请问怎么操作呢?

图片1.jpg

看一下,上图是你要的效果吗?

TA的精华主题

TA的得分主题

发表于 2024-7-26 09:00 | 显示全部楼层
首要前提是:观察数据 与 找出清洗数据 的思路;  这才是道;

后面的步骤都是 术;

术可以学,B站、论坛、百度、官方帮助文档~~~~
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-12-23 05:08 , Processed in 0.039304 second(s), 12 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表