ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

   
EH云课堂-专业的职场技能充电站 限时送,魔方网表将Excel变在线系统 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
Excel不给力? 何不试试FoxTable! Excel 2016函数公式学习大典 高效办公必会的Office实战技巧 免费下载Excel行业应用视频
300集Office 2010微视频教程 Tableau-数据可视化工具 ExcelHome出品 - VBA代码宝免费下载 13门Excel免费公开课任你学
你的Excel 2010实战技巧学习锦囊 欲罢不能, 过目难忘的 Office 新界面 免费的Excel考勤计算系统
查看: 779|回复: 64

[求助] 不打开excel如何从从20万份文件(200000)中批量提取手机号码在线急盼高手支持

[复制链接]

TA的精华主题

TA的得分主题

发表于 2019-2-11 16:57 | 显示全部楼层 |阅读模式
本帖最后由 好牛简历 于 2019-2-11 20:11 编辑

不打开excel如何从从20万份文件(200000)中批量提取手机号码在线急盼高手支持

现有200000(20万份格式不同的数据文件),需要从这20万份文件中提取手机号码
为了便于大家的帮助,专门提供示例
再把相关的情况描述出来
若是这样计算,我得干超过10年以上,都干不完
份数:200000份
分钟:5
(按最小时间来计算预估)
时间:16667(折算下来15000个小时以上)
工作日时间:6小时(咱们不可能100%全部是高效率的时间)
工作日:2278个工作日
1年220个工作日:12.62年以上的时间
20万.png

*所遇到的障碍与限制
1、文件数量巨大,不太可能每1份文件都打开一一查看,通过人工的方式显然不可行
2、文件中字段,格式,不统一,无法通过SQL数据库批量操作
3、若是通过程序的方式实现提取手机号码,现有操作是通过函数操作(前提情况是打开文件),这样也不太可靠,因为文件量级太巨大,只能应用在抽查,验证上面(假设是1000个文件看1个,0.1%的比例)

为了方便大家快速处理专门处理了样本示例
请更新一下
示例样本.rar (58.67 KB, 下载次数: 47)

示例.rar

906 Bytes, 下载次数: 25

TA的精华主题

TA的得分主题

发表于 2019-2-11 16:58 | 显示全部楼层

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-2-11 17:00 | 显示全部楼层
liulang0808 发表于 2019-2-11 16:58
http://club.excelhome.net/thread-1258425-1-1.html
遍历文件资料,楼主先参考下

这儿能解决掉的问题
1,就是把文件名提取出来(可以确认的)
2,如何批量提取当中的手机号码呢?非常感谢新年的回复^V^

TA的精华主题

TA的得分主题

发表于 2019-2-11 17:04 | 显示全部楼层

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-2-11 17:05 | 显示全部楼层
任飘渺 发表于 2019-2-11 17:04
文件里面数据够乱啊

确实是
1,文件量巨大
2,不可能一一打开文件来操作
。。。在如此限制条件下
不知道各位有没好的解法思路,非常感谢新年回复同样祝贺,^V^

TA的精华主题

TA的得分主题

发表于 2019-2-11 17:10 | 显示全部楼层

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-2-11 17:13 | 显示全部楼层

*所遇到的障碍与限制
1、文件数量巨大,不太可能每1份文件都打开一一查看,通过人工的方式显然不可行
2、文件中字段,格式,不统一,无法通过SQL数据库批量操作

这样的情况下,你能设想到,或者有碰到过
以及有没好的思路?非常期待你的分享帮助
同祝新春^V^

TA的精华主题

TA的得分主题

发表于 2019-2-11 17:15 | 显示全部楼层
好牛简历 发表于 2019-2-11 17:13
*所遇到的障碍与限制
1、文件数量巨大,不太可能每1份文件都打开一一查看,通过人工的方式显然不可行
2 ...

Python 读取数据

TA的精华主题

TA的得分主题

发表于 2019-2-11 17:21 | 显示全部楼层
好牛简历 发表于 2019-2-11 17:00
这儿能解决掉的问题
1,就是把文件名提取出来(可以确认的)
2,如何批量提取当中的手机号码呢?非常感 ...

楼主就是提取手机号码呗,并且仅仅第一列有数据呗?
没有具体模拟结果,附件里也仅仅一个文件啊

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-2-11 17:29 | 显示全部楼层
liulang0808 发表于 2019-2-11 17:21
楼主就是提取手机号码呗,并且仅仅第一列有数据呗?
没有具体模拟结果,附件里也仅仅一个文件啊

20万份文件,示例只是当中一个情况
而格式,字段,都不一统一哇
在这样的情况下
1,能通过代码 用ADO来进行数据汇总,这可以处理
2,再接下来就是碰上障碍
当你的表格文件【不同字段,格式,有的有,有的无】需要实现“盲拉”
盲拉(就是假设一下,把所有行+列,放进来)
再增加一个判断【有内容,拉】【无内容,不拉】
这样可行么,我再请教一下
^V^
这样表达,您这儿能模拟出来这样的随机数据文件么?
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

关注官方微信,每天学会一个新技能

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2019-2-20 19:40 , Processed in 0.110675 second(s), 14 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2017 Wooffice Inc.

   

沪公网安备 31011702000001号 沪ICP备11019229号

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:徐怀玉律师 李志群律师

快速回复 返回顶部 返回列表