ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: On_fire

[求助] 恳请! 算法高手…出手帮忙解难题…

[复制链接]

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-1-20 15:44 | 显示全部楼层
microyip 发表于 2018-1-20 14:20
其实,到现在,我都不知道要排什么,哈哈,哪些数据莫名其妙,又没说明,所以基本没怎么认真看过

算法要求都说了, 没有说明甚么?

TA的精华主题

TA的得分主题

发表于 2018-1-20 17:04 | 显示全部楼层
On_fire 发表于 2018-1-20 15:44
算法要求都说了, 没有说明甚么?

我资质愚钝,没看懂说明,只是个人认为说明不清楚而已

TA的精华主题

TA的得分主题

发表于 2018-1-20 18:15 | 显示全部楼层
lxw6 发表于 2018-1-19 15:28
同意。几万*100,数据量也不大。数据放入数组,循环也用不了几秒

1000行原始数据,最后生成的结果数据将近100万行,如果不优化算法,一般计算机内存都不够用,几秒种内根本完不成。

TA的精华主题

TA的得分主题

发表于 2018-1-20 19:23 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
帮楼主顶一下,期待高手现身。

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-1-20 19:50 | 显示全部楼层
microyip 发表于 2018-1-20 17:04
我资质愚钝,没看懂说明,只是个人认为说明不清楚而已

老师您没错,

原来的截图跟模拟有点问题…

现在已经重新上传了…

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-1-21 09:35 | 显示全部楼层
[广告] VBA代码宝 - VBA编程加强工具 · VBA代码随查随用  · 内置多项VBA编程加强工具       ★ 免费下载 ★      ★使用手册
chxw68 发表于 2018-1-20 19:23
帮楼主顶一下,期待高手现身。

谢谢老师…
再顶一下…

TA的精华主题

TA的得分主题

发表于 2018-1-21 11:06 | 显示全部楼层
100列,3万行数据,300万个关键字,不重复的关键字大概有多少?

如果每一行与其他行有50%的概率出现相同的关键字,那就有3万*1.5万=4.5亿行的输出!
如果是10%的话,也有3万*0.3万=0.9亿行?
这样算应该没错吧。

如果输出的话,肯定要输出到txt,Excel放不下

所以这个重复的关键字概率大概有多大?

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-1-21 11:34 | 显示全部楼层
648555205 发表于 2018-1-21 11:06
100列,3万行数据,300万个关键字,不重复的关键字大概有多少?

如果每一行与其他行有50%的概率出现相同 ...

谢谢老师…

对, 你的理解是对的!

数据的概率真的不知道, 因为还没有运算,
请帮帮忙, 分别做两个输出?

TA的精华主题

TA的得分主题

发表于 2018-1-21 13:50 | 显示全部楼层
我模拟了些数据测试了下,模拟数据控制在10%左右的重复,3000行100列花了300多秒!
3000行100列.JPG

如果数据量到了30000行,110列,光读取数据,到处理完前10条就花了近60秒了!后面就没测试了!看来还得优化算法,实在不会了!
30000行110列.JPG

不知道你真实数据跑起来会怎么样
MatchTest.zip (49 KB, 下载次数: 8)

TA的精华主题

TA的得分主题

 楼主| 发表于 2018-1-21 14:00 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
648555205 发表于 2018-1-21 13:50
我模拟了些数据测试了下,模拟数据控制在10%左右的重复,3000行100列花了300多秒!

感谢老师…

因我现在要出去一下, 晚上回来再测试一下数据…
稍后再向您报告…谢谢...
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-4-27 01:19 , Processed in 0.041417 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表