ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

   
EH云课堂-专业的职场技能充电站 限时送,魔方网表将Excel变在线系统 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
Excel不给力? 何不试试FoxTable! Excel 2016函数公式学习大典 高效办公必会的Office实战技巧 免费下载Excel行业应用视频
300集Office 2010微视频教程 Tableau-数据可视化工具 精品推荐-800套精选PPT模板,点击获取 ExcelHome出品 - VBA代码宝免费下载
你的Excel 2010实战技巧学习锦囊 欲罢不能, 过目难忘的 Office 新界面 Excel VBA经典代码实践指南
楼主: 好牛简历

[求助] 不打开excel如何从从20万份文件(200000)中批量提取手机号码在线急盼高手支持

[复制链接]

TA的精华主题

TA的得分主题

发表于 2019-2-11 22:40 | 显示全部楼层
本帖最后由 duquancai 于 2019-2-11 23:46 编辑
  1. # -*- coding: utf-8 -*-
  2. import re, os, collections

  3. my_set = set()
  4. r = re.compile(r'(?=(1[3578]\d{9}))')

  5. def get_mobile(text):
  6.     my_set.add(text.group(1))

  7. def getAllDirQU(path):
  8.    queue=collections.deque()
  9.    queue.append(path)
  10.    while len(queue)!=0:
  11.        dirPath=queue.popleft()
  12.        for fileName in os.listdir(dirPath):
  13.            fileAbapath=os.path.join(dirPath,fileName)
  14.            if os.path.isdir(fileAbapath):
  15.               queue.appendleft(fileAbapath)
  16.            else:
  17.                get_str(fileAbapath)

  18. def get_str(path):
  19.     try:
  20.         with open(path, 'rb') as f:
  21.             data = f.read()
  22.             my_str = data.decode('ascii',errors='ignore')
  23.             r.sub(get_mobile, my_str)
  24.     except:
  25.         pass

  26. if __name__ == '__main__':
  27.     path = r'C:\Users\ADU\Desktop\示例样本'
  28.     getAllDirQU(path)
  29.     print(my_set)
复制代码

评分

参与人数 1鲜花 +2 收起 理由
Kaohsing + 2 优秀作品

查看全部评分

TA的精华主题

TA的得分主题

发表于 2019-2-12 07:21 | 显示全部楼层
这个大部分是CPU密集型的.需要用到多进程。

TA的精华主题

TA的得分主题

发表于 2019-2-12 08:28 来自手机 | 显示全部楼层
好牛简历 发表于 2019-2-11 17:44
我还想请教一下
1,表格文件本身(有大,有小)
如有300MB的,3MB,500MB的

传一个300m的上来看看,

TA的精华主题

TA的得分主题

发表于 2019-2-12 08:39 来自手机 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2019-2-12 08:54 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2019-2-12 11:14 来自手机 | 显示全部楼层
好牛简历 发表于 2019-2-11 21:50
我提一个思路:
1,遍历这20万份资料的文件类型;把不同文件进行归类;
这个已经实现

遍历文件夹内的文件时就可以提取文件大小了。论坛里有好多大佬发的遍历帖子可以学学,我用了这些方法来管理电脑里的文件,只要一个excel文件就好了,很方便。至于组队局域网,我的水平只能想到,先把文件放在共享盘里,然后通过outlook发指定邮件给网内的每个电脑,各自电脑里都通过outlook VBA事先分配好的任务来触发。

TA的精华主题

TA的得分主题

发表于 2019-2-12 11:30 来自手机 | 显示全部楼层
搞这么复杂干什么,每台电脑搞个远程桌面,把程序挂上面试行就好了

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-2-12 13:23 | 显示全部楼层
zpy2 发表于 2019-2-12 08:28
传一个300m的上来看看,

1,咱的贴子,还没有这样的权限呐
V^V
2,样本示例,已经有(不在于文件的大小,在于处理的技术应用)
^V^

TA的精华主题

TA的得分主题

 楼主| 发表于 2019-2-12 13:25 | 显示全部楼层
12123 发表于 2019-2-12 11:14
遍历文件夹内的文件时就可以提取文件大小了。论坛里有好多大佬发的遍历帖子可以学学,我用了这些方法来管 ...

若是按这样的实施方式,预计有多少步骤呢?
还想多请教一下
^V^

TA的精华主题

TA的得分主题

发表于 2019-2-12 13:25 来自手机 | 显示全部楼层
好牛简历 发表于 2019-2-12 13:23
1,咱的贴子,还没有这样的权限呐
V^V
2,样本示例,已经有(不在于文件的大小,在于处理的技术应用)
...

版主代码都给你了。。。。。。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

关闭

最新热点上一条 /1 下一条

关注官方微信,高效办公专列,每天发车

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2019-4-23 06:31 , Processed in 0.107611 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2017 Wooffice Inc.

   

沪公网安备 31011702000001号 沪ICP备11019229号

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:徐怀玉律师 李志群律师

快速回复 返回顶部 返回列表