ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

   
EH云课堂-专业的职场技能充电站 限时送,魔方网表将Excel变在线系统 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
Excel不给力? 何不试试FoxTable! Excel 2016函数公式学习大典 高效办公必会的Office实战技巧 免费下载Excel行业应用视频
300集Office 2010微视频教程 Tableau-数据可视化工具 ExcelHome出品 - VBA代码宝免费下载 13门Excel免费公开课任你学
你的Excel 2010实战技巧学习锦囊 欲罢不能, 过目难忘的 Office 新界面 免费的Excel考勤计算系统
楼主: 好牛简历

[求助] 不打开excel如何从从20万份文件(200000)中批量提取手机号码在线急盼高手支持

[复制链接]

TA的精华主题

TA的得分主题

发表于 2019-2-11 20:43 | 显示全部楼层
好牛简历 发表于 2019-2-11 20:36
这两者并不等价哇
为啥?
因为数据在这样的状态之下,是无意义的

数据需要花费这么长的时间来整理,如果只是一次性也就罢了,如果是日常性的工作,是不是值得开发一个专门处理数据的系统或者软件?干这活可真累啊

工作几十年了,也没干过复杂的工作,对这种工作真心不了解。每天处理的工作都是手工做表格,人工处理数据,函数公式都少用,看来真的是太悠闲了。

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-2-11 20:53 | 显示全部楼层
micch 发表于 2019-2-11 20:43
数据需要花费这么长的时间来整理,如果只是一次性也就罢了,如果是日常性的工作,是不是值得开发一个专门 ...

有,Google出了专门的软件(后来开源了)
不过这样的情况,他们估计也是巨大的挑战

TA的精华主题

TA的得分主题

发表于 2019-2-11 20:54 来自手机 | 显示全部楼层
请提出问题包括困难,上传各种类型示例文件,让大家帮忙。
而不要和帮助者讨论能不能实现。能实现自己用即可,实现不了,另当别论啊。
不过肯定可以解决的。

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-2-11 21:14 | 显示全部楼层
乐乐2006201505 发表于 2019-2-11 20:54
请提出问题包括困难,上传各种类型示例文件,让大家帮忙。
而不要和帮助者讨论能不能实现。能实现自己用即 ...

非常感谢你的回复
当下已经更新【示例样本】可以先下载,研究
^V^

1,各种文件格式(目前初步统计有几千种)不可能一一准备,也请理解
只能挑几种有代表性的
2,现实中的问题,还会有一大把,光把这个流程总结出来规律(都非常了不起)为会日后一大批处理类似工作的人,带来价值
即【数据清洗】

TA的精华主题

TA的得分主题

发表于 2019-2-11 21:23 来自手机 | 显示全部楼层
更新后的附件也看了,如果仅仅提取手机号码来说,已知的文件格式是能搞的,可以分类处理。主要是一些未知格式文件的处理,你说的几千种文件格式听起来有点怂。。。

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-2-11 21:26 | 显示全部楼层
2489586288 发表于 2019-2-11 21:23
更新后的附件也看了,如果仅仅提取手机号码来说,已知的文件格式是能搞的,可以分类处理。主要是一些未知格 ...

文件格式我做了初步的处理
当下就是2分法,能识别处理的先来
不能的,再单独处理(找出特征)
确实这样的任务,挑战巨大
光查找资料,就能学到一大把全新的知识
^V^

TA的精华主题

TA的得分主题

发表于 2019-2-11 21:32 来自手机 | 显示全部楼层
我提一个思路:
遍历这20万份资料的文件类型;把不同文件进行归类;可以处理的文件类型先行处理,不可处理的拿出来再分析。处理能力的问题可以考虑组个局域网,让不同的电脑根据配置处理不同的任务

TA的精华主题

TA的得分主题

发表于 2019-2-11 21:41 来自手机 | 显示全部楼层
我觉得你应该把这些文件分成两块一块是纯文本,另外一块是二进制的。
纯文本的,比如csv TXT,那你就直接一个copy把所有文件全部复制在一起,形成一个超大文件。
在想办法用正则匹配把手机号码查出来
xls,mdb等,你在一一处理吧,个人感觉应该全部导入数据库,在正则匹配一下就好了

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-2-11 21:50 | 显示全部楼层
12123 发表于 2019-2-11 21:32
我提一个思路:
遍历这20万份资料的文件类型;把不同文件进行归类;可以处理的文件类型先行处理,不可处理 ...

我提一个思路:
1,遍历这20万份资料的文件类型;把不同文件进行归类;
这个已经实现
还有一个细节,就是如何统计文件的大小?因为还要再根据文件大小来处理【特别是复制的时候,会占用时间】
这个你有好办法没?
----------------
2,可以处理的文件类型先行处理,不可处理的拿出来再分析。
这个2分法可行,就是这么来的
-----------------------
3,处理能力的问题可以考虑组个局域网,让不同的电脑根据配置处理不同的任务
这个牛X了,有实现的技术支持配套么?或者你的实践方法?
这就高大上起来了
^V^

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-2-11 21:54 | 显示全部楼层
lilyhcn1 发表于 2019-2-11 21:41
我觉得你应该把这些文件分成两块一块是纯文本,另外一块是二进制的。
纯文本的,比如csv TXT,那你就直接 ...

我觉得你应该把这些文件分成两块一块是纯文本,另外一块是二进制的。
--------------2分法 对路子
纯文本的,比如csv TXT,那你就直接一个copy把所有文件全部复制在一起,形成一个超大文件。
----------------
1,已经可以实现
2,就是文件过大的(再单独处理)若是还能统计出来文件大小,这样针对性处理,就更妥当
在想办法用正则匹配把手机号码查出来
xls,mdb等,你在一一处理吧,个人感觉应该全部导入数据库,在正则匹配一下就好了
--------------
mdb,再用数据库去处理
就是在不规则的情况下,是挑战障碍点
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

关注官方微信,每天学会一个新技能

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2019-2-20 07:30 , Processed in 0.103398 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2017 Wooffice Inc.

   

沪公网安备 31011702000001号 沪ICP备11019229号

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:徐怀玉律师 李志群律师

快速回复 返回顶部 返回列表