ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: 好牛简历

[求助] 不打开excel如何从从20万份文件(200000)中批量提取手机号码在线急盼高手支持

[复制链接]

TA的精华主题

TA的得分主题

发表于 2019-2-11 22:40 | 显示全部楼层
本帖最后由 duquancai 于 2019-2-11 23:46 编辑
  1. # -*- coding: utf-8 -*-
  2. import re, os, collections

  3. my_set = set()
  4. r = re.compile(r'(?=(1[3578]\d{9}))')

  5. def get_mobile(text):
  6.     my_set.add(text.group(1))

  7. def getAllDirQU(path):
  8.    queue=collections.deque()
  9.    queue.append(path)
  10.    while len(queue)!=0:
  11.        dirPath=queue.popleft()
  12.        for fileName in os.listdir(dirPath):
  13.            fileAbapath=os.path.join(dirPath,fileName)
  14.            if os.path.isdir(fileAbapath):
  15.               queue.appendleft(fileAbapath)
  16.            else:
  17.                get_str(fileAbapath)

  18. def get_str(path):
  19.     try:
  20.         with open(path, 'rb') as f:
  21.             data = f.read()
  22.             my_str = data.decode('ascii',errors='ignore')
  23.             r.sub(get_mobile, my_str)
  24.     except:
  25.         pass

  26. if __name__ == '__main__':
  27.     path = r'C:\Users\ADU\Desktop\示例样本'
  28.     getAllDirQU(path)
  29.     print(my_set)
复制代码

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2019-2-12 07:21 | 显示全部楼层
这个大部分是CPU密集型的.需要用到多进程。

TA的精华主题

TA的得分主题

发表于 2019-2-12 08:28 来自手机 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
好牛简历 发表于 2019-2-11 17:44
我还想请教一下
1,表格文件本身(有大,有小)
如有300MB的,3MB,500MB的

传一个300m的上来看看,

TA的精华主题

TA的得分主题

发表于 2019-2-12 08:39 来自手机 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
20万文件,占多大磁盘空间啊?

TA的精华主题

TA的得分主题

发表于 2019-2-12 08:54 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2019-2-12 11:14 来自手机 | 显示全部楼层
好牛简历 发表于 2019-2-11 21:50
我提一个思路:
1,遍历这20万份资料的文件类型;把不同文件进行归类;
这个已经实现

遍历文件夹内的文件时就可以提取文件大小了。论坛里有好多大佬发的遍历帖子可以学学,我用了这些方法来管理电脑里的文件,只要一个excel文件就好了,很方便。至于组队局域网,我的水平只能想到,先把文件放在共享盘里,然后通过outlook发指定邮件给网内的每个电脑,各自电脑里都通过outlook VBA事先分配好的任务来触发。

TA的精华主题

TA的得分主题

发表于 2019-2-12 11:30 来自手机 | 显示全部楼层
搞这么复杂干什么,每台电脑搞个远程桌面,把程序挂上面试行就好了

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-2-12 13:23 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
zpy2 发表于 2019-2-12 08:28
传一个300m的上来看看,

1,咱的贴子,还没有这样的权限呐
V^V
2,样本示例,已经有(不在于文件的大小,在于处理的技术应用)
^V^

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-2-12 13:25 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
12123 发表于 2019-2-12 11:14
遍历文件夹内的文件时就可以提取文件大小了。论坛里有好多大佬发的遍历帖子可以学学,我用了这些方法来管 ...

若是按这样的实施方式,预计有多少步骤呢?
还想多请教一下
^V^

TA的精华主题

TA的得分主题

发表于 2019-2-12 13:25 来自手机 | 显示全部楼层
好牛简历 发表于 2019-2-12 13:23
1,咱的贴子,还没有这样的权限呐
V^V
2,样本示例,已经有(不在于文件的大小,在于处理的技术应用)
...

版主代码都给你了。。。。。。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-3-29 18:21 , Processed in 0.042758 second(s), 8 queries , Gzip On, Redis On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表