ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 效率神器,一键搞定繁琐工作
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
让更多数据处理,一键完成 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
查看: 568|回复: 8

[求助] 请教几十G的文本文件处理方法

[复制链接]

TA的精华主题

TA的得分主题

发表于 2023-2-12 08:44 | 显示全部楼层 |阅读模式
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
现有一个几十G的TXT文本文本,如下图所示,每行需要提取 "Email" 和 "ScreenName",即提取红色标记的部分,由于文件大,不知如何处理,多谢帮助!

文件

文件

files1.zip

726.25 KB, 下载次数: 22

TA的精华主题

TA的得分主题

发表于 2023-2-12 09:31 | 显示全部楼层
文本处理三剑客,对超大文件最快,比如sed
  1. sed -r 's/.*Email: ([^ ]*) .*ScreenName: ([^ ]*) .*/\1,\2/g' 01.01.01.txt
复制代码



image.jpg

评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2023-2-12 10:03 | 显示全部楼层
本帖最后由 wanghan519 于 2023-2-12 15:08 编辑

把你提供的txt复制了5万遍,文件变成200多M,顺序执行用了1分多,用split分成两个文件,并发执行,用了40多秒,看来切开更快点

...这个时间可能是错的,因为处理unicode字符时出错了,txt第14行名字最后是一个4byte的字符这也不是utf8编码的txt啊啊啊。。。

image.png

评分

2

查看全部评分

TA的精华主题

TA的得分主题

发表于 2023-2-12 10:48 来自手机 | 显示全部楼层
wanghan519 发表于 2023-2-12 10:03
把你提供的txt复制了5万遍,文件变成200多M,顺序执行用了1分多,用split分成两个文件,并发执行,用了40多 ...

并发执行

这么厉害,咋实现的?多线程?

TA的精华主题

TA的得分主题

发表于 2023-2-12 11:05 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
学习了。。。

TA的精华主题

TA的得分主题

发表于 2023-2-12 11:19 | 显示全部楼层
本帖最后由 wanghan519 于 2023-2-12 11:20 编辑
zpy2 发表于 2023-2-12 10:48
并发执行

这么厉害,咋实现的?多线程?

抱歉抱歉,上面的结果有点问题,并发没错但这版sed处理utf8出问题了,放在那里当耻辱柱吧。。。



并发是先用split把大文件切小,之后xargs有一个参数-P是多进程处理后面的命令,0是自动决定几个进程,也可以自己写个cpu数量之类

用python和perl试了一下,python单线程20秒,perl单线程10秒,切两份并发4秒,看来正则处理文本perl还是最猛的
b.txt还是上面那个复制了5万次的txt,200多M


image.png




评分

1

查看全部评分

TA的精华主题

TA的得分主题

发表于 2023-2-12 11:26 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
wanghan519 发表于 2023-2-12 11:19
抱歉抱歉,上面的结果有点问题,并发没错但这版sed处理utf8出问题了,放在那里当耻辱柱吧。。。

所以几十个G,再怎么说也得处理几分钟

TA的精华主题

TA的得分主题

发表于 2023-2-12 11:45 来自手机 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
高个子 发表于 2023-2-12 11:26
所以几十个G,再怎么说也得处理几分钟

确实啊,而且再快也至少是复制几个G的文件的速度,我这十几分钟恐怕打不住

评分

1

查看全部评分

TA的精华主题

TA的得分主题

 楼主| 发表于 2023-2-12 15:38 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
本帖最后由 yytrans 于 2023-2-12 15:48 编辑

多谢各位帮助,文本中的邮件我可以用其他软件一次性提取,但“ScreenName” 则无法提取,请问可有其他方法只提取“ScreenName”?只要两次提取的次序一致,那么剩下的工作只是对照排列一下即可。
(即便如此,仍得对文本进行分割。)
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2025-1-8 21:04 , Processed in 0.032805 second(s), 18 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表