ExcelHome技术论坛

 找回密码
 免费注册

QQ登录

只需一步,快速开始

快捷登录

搜索
EH技术汇-专业的职场技能充电站 妙哉!函数段子手趣味讲函数 Excel服务器-会Excel,做管理系统 Excel Home精品图文教程库
HR薪酬管理数字化实战 Excel 2021函数公式学习大典 Excel数据透视表实战秘技 打造核心竞争力的职场宝典
300集Office 2010微视频教程 数据工作者的案头书 免费直播课集锦 ExcelHome出品 - VBA代码宝免费下载
用ChatGPT与VBA一键搞定Excel WPS表格从入门到精通 Excel VBA经典代码实践指南
楼主: 香川群子

[原创] 跟我学算法 【初级篇】:求某个整数范围内所有素数

  [复制链接]

TA的精华主题

TA的得分主题

发表于 2015-1-30 09:48 | 显示全部楼层
收藏学习了,谢谢香川老师分享!每次看香川老师的帖子总会学到很多东西的!

TA的精华主题

TA的得分主题

发表于 2015-1-30 10:17 | 显示全部楼层
大师用意很明确,即如何节省代码运行时间,提高效率,时间就是金钱,感谢香川大师的无私奉献!

TA的精华主题

TA的得分主题

发表于 2015-1-30 10:27 | 显示全部楼层
hehex 发表于 2015-1-30 09:34
这是算法大O 阶的问题了,呵呵。
评价,无非就是时间效率和空间效率,现在貌似都更考虑时间效率更多一些 ...

你为什么看老严的书呢?你应该看国外的教材。数据结构和算法是计算机科学中最难的。

TA的精华主题

TA的得分主题

发表于 2015-1-30 10:38 | 显示全部楼层
bluexuemei 发表于 2015-1-30 10:27
你为什么看老严的书呢?你应该看国外的教材。数据结构和算法是计算机科学中最难的。

我是外行啊,后来知道应该看算法导论,可是又听说一样很难懂。专业的都不一定搞的来,俺这玩票的就算了吧。

TA的精华主题

TA的得分主题

发表于 2015-1-30 10:46 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2015-1-30 11:03 | 显示全部楼层
[广告] Excel易用宝 - 提升Excel的操作效率 · Excel / WPS表格插件       ★免费下载 ★       ★ 使用帮助
hehex 发表于 2015-1-30 10:38
我是外行啊,后来知道应该看算法导论,可是又听说一样很难懂。专业的都不一定搞的来,俺这玩票的就算了吧 ...

要学算法,先补补离散数学的知识吧

TA的精华主题

TA的得分主题

 楼主| 发表于 2015-1-30 11:15 | 显示全部楼层
hehex 发表于 2015-1-30 09:30
群子的算法讲解很精彩。依然按你的思路仅从效率而言,还有一小块地方可以优化哦。就是sqr(n) 这里,我们知 ...

如代码test2中 Sqr(i) 需要遍历多次使用的话,那么使用效率是有影响的。

但是,对于本题而言,从test3开始只需计算 Sqr(N)一次,其余都无需计算了……因此影响就可以忽略不计了。

呵呵。其实这也算是通过算法改进提高速度的一种方法:

【新的算法对需要耗时的计算依赖更少】
……更多地集中在利用数组无需计算,或尽量只进行Long整数的简单计算上。


TA的精华主题

TA的得分主题

发表于 2015-1-30 12:15 | 显示全部楼层
香川群子 发表于 2015-1-30 11:15
如代码test2中 Sqr(i) 需要遍历多次使用的话,那么使用效率是有影响的。

但是,对于本题而言,从test3 ...

其实求质数并不是很初级的算法,尤其到test5 已经很高深了,很不适合初学者了。
转发一篇一位大神(某大公司负责招聘的出算法题的质数算法分解)

-- 以下是引用:
题目
  好,言归正传。下面俺就由浅入深,从各种角度来剖析这道题目的奥妙。
  为了避免被人指责为"玩文字游戏"(有些同学自己审题不细,却抱怨出题的人玩文字游戏),在介绍各种境界之前,再明确一下题意。
  前一个帖子已经介绍过,求质数可以有如下2种玩法。


◇需求1
请实现一个函数,对于给定的整型参数 N,该函数能够把自然数中,小于 N 的质数,从小到大打印出来。
比如,当 N = 10,则打印出
2 3 5 7


◇需求2
请实现一个函数,对于给定的整型参数 N,该函数能够从小到大,依次打印出自然数中最小的 N 个质数。
比如,当 N = 10,则打印出
2 3 5 7 11 13 17 19 23 29


★试除法
  首先要介绍的,当然非"试除法"莫属啦。考虑到有些读者是菜鸟,稍微解释一下。
  "试除",顾名思义,就是不断地尝试能否整除。比如要判断自然数 x 是否质数,就不断尝试小于 x 且大于1的自然数,只要有一个能整除,则 x 是合数;否则,x 是质数。
  显然,试除法是最容易想到的思路。不客气地说,也是最平庸的思路。不过捏,这个最平庸的思路,居然也有好多种境界。大伙儿请看:


◇境界1
  在试除法中,最最土的做法,就是:
  假设要判断 x 是否为质数,就从 2 一直尝试到 x-1。这种做法,其效率应该是最差的。如果这道题目有10分,按照这种方式做出的代码,即便正确无误,俺也只给1分。


◇境界2
  稍微聪明一点点的程序猿,会想:x 如果有(除了自身以外的)质因数,那肯定会小于等于 x/2,所以捏,他们就从 2 一直尝试到 x/2 即可。
  这一下子就少了一半的工作量哦,但依然是很笨的办法。打分的话,即便代码正确也只有2分


◇境界3
  再稍微聪明一点的程序猿,会想了:除了2以外,所有可能的质因数都是奇数。所以,他们就先尝试 2,然后再尝试从 3 开始一直到 x/2 的所有奇数。
  这一下子,工作量又少了一半哦。但是,俺不得不说,依然很土。就算代码完全正确也只能得3分。


◇境界4
  比前3种程序猿更聪明的,就会发现:其实只要从 2 一直尝试到√x,就可以了。估计有些网友想不通了,为什么只要到√x 即可?
  简单解释一下:因数都是成对出现的。比如,100的因数有:1和100,2和50,4和25,5和20,10和10。看出来没有?成对的因数,其中一个必然小于等于100的开平方,另一个大于等于100的开平方。至于严密的数学证明,用小学数学知识就可以搞定,俺就不啰嗦了。


◇境界5
  那么,如果先尝试2,然后再针对 3 到√x 的所有奇数进行试除,是不是就足够优了捏?答案显然是否定的嘛?写到这里,才刚开始热身哦。
  一些更加聪明的程序猿,会发现一个问题:尝试从 3 到√x 的所有奇数,还是有些浪费。比如要判断101是否质数,101的根号取整后是10,那么,按照境界4,需要尝试的奇数分别是:3,5,7,9。但是你发现没有,对9的尝试是多余的。不能被3整除,必然不能被9整除......顺着这个思路走下去,这些程序猿就会发现:其实,只要尝试小于√x的质数即可。而这些质数,恰好前面已经算出来了(是不是觉得很妙?)。
  所以,处于这种境界的程序猿,会把已经算出的质数,先保存起来,然后用于后续的试除,效率就大大提高了。
  顺便说一下,这就是算法理论中经常提到的:以空间换时间。


◇补充说明
  开头的4种境界,基本上是依次递进的。不过,境界5跟境界4,是平级的。在俺考察过的应聘者中,有人想到了境界4但没有想到境界5;反之,也有人想到境界5但没想到境界4。通常,这两种境界只要能想到其中之一,俺会给5-7分;如果两种都想到了,俺会给8-10分。
  对于俺要招的"初级软件工程师"的岗位,能同时想到境界4和境界5,应该就可以了。如果你对自己要求不高,仅仅满足于浅尝辄止。那么,看到这儿,你就可以打住了,无需再看后续的内容;反之,如果你比较好奇或者希望再多学点东西,请接着往下看。


★筛法
  说完"试除法",再来说说筛法(维基百科的解释在"这里")。俺不妨揣测一下:本文的读者,应该有2/3以上,从来没有听说过筛法。所以捏,顺便跟大伙儿扯扯蛋,聊一下筛法的渊源。
  这个筛法啊,真的是一个既巧妙又快速的求质数方法。其发明人是公元前250年左右的一位希腊大牛——埃拉托斯特尼。为啥说他是大牛捏?因为他本人精通多个学科和领域,至少包括:数学、天文学、地理学(地理学这个词汇,就是他创立的)、历史学、文学(他是一个诗人)。真的堪称"跨领域的大牛"。
  他最让俺佩服的是:仅仅用简单的几何方法,测量出了地球的周长、地球与月亮的距离、地球与太阳的距离、赤道与黄道的夹角......而且,这些计算结果跟当代科学家测出的,相差无几。要知道他生活的年代,大概相当于中国的春秋战国。而咱们的老祖宗,一直到明朝还顽固地坚信:天是圆的、地是方的、月亮会被天狗给吃喽......
  好了,扯蛋完毕,言归正传。
  估计很多人把筛法仅仅看成是一种具体的方法。其实,筛法还是一种很普适的思想。在处理很多复杂问题的时候,都可以看到筛法的影子。那么,筛法如何求质数捏,说起来很简单:
  首先,2是公认最小的质数,所以,先把所有2的倍数去掉;然后剩下的那些大于2的数里面,最小的是3,所以3也是质数;然后把所有3的倍数都去掉,剩下的那些大于3的数里面,最小的是5,所以5也是质数......
  上述过程不断重复,就可以把某个范围内的合数全都除去(就像被筛子筛掉一样),剩下的就是质数了。维基百科上有一张很形象的动画,能直观地体现出筛法的工作过程。




  明白了"筛法"的原理,大伙儿应该看出,筛法在速度上是明显优于"试除法"的。当然,筛法的程序实现也分为不同的境界。而且,筛法可讲究的门道更多了。下面,俺分别从不同角度,聊一聊筛法都有哪些讲究。


◇如何确定质数的分布范围?
  这是采用筛法首先会碰到的问题。文本开头给出的那两种需求,其处理的方式完全不同,俺分别说一下。

需求1
  对于需求1,这个自然不是问题。因为在需求1中,质数的分布范围就是 N,已经给出了,很好办。

需求2
  但是对于需求2,就难办了。因为需求2给出的 N,表示需要打印的质数的个数,那么这 N 个质数会分布在多大的范围捏?这可是个头疼的问题啊。
  但是,来应聘的程序猿如果足够牛的话,当然不会被这个问题难倒。因为素数的分布,是有规律可循滴——这就是大名鼎鼎的素数定理。
  稍微懂点数学的,应该知道素数的分布是越往后越稀疏。或者说,素数的密度是越来越低。而素数定理,说白了就是数学家找到了一些公式,用来估计某个范围内的素数,大概有几个。在这些公式中,最简洁的就是x/ln(x),公式中的 ln 表示自然对数(估计很多同学已经忘了啥叫自然对数)。假设要估计1,000,000以内有多少质数,用该公式算出是72,382个,而实际有78,498个,误差约8个百分点。该公式的特点是:估算的范围越大,偏差率越小。
  有了素数定理,就可以根据要打印的质数个数,反推出这些质数分布在多大的范围内。因为这个质数分布公式有一定的误差(通常小于15%)。为了保险起见,把反推出的素数分布范围再稍微扩大15%,应该就足够了。

  可能有同学会质疑俺:谁有这么好的记性,能够在笔试过程中背出这些质数分布公式捏?
  俺觉得:背不出来是正常滴。但是,对于有一定数学功底的应聘者,假如他/她知道质数分布公式,即便不能完整写出来,只要在答题中体现出:"此处通过质数分布公式推算范围",那么俺也是认可滴。
  再啰嗦一次:关键是看idea!


◇如何设计存储容器?
  知道了分布范围,接下来就得构造一个容器,来存储该范围内的所有自然数;然后在筛的过程中,把合数筛掉。那么,这个容器该如何设计捏?不同层次的程序猿,自然设计出来的容器也不同啦。

境界1
  照例先说说最土的搞法——直接构造一个整型的容器。在筛的过程中把发现的合数删除掉,最后容器中就只剩下质数了。
  为啥说这种搞法最土捏?
  首先,整型的容器,浪费内存空间。比方说,你用的是32位的C/C++或者是Java,那么每个 int 都至少用掉4个字节的内存。当 N 很大时,内存开销就成问题了。
  其次,当 N 很大时,频繁地对一个大的容器进行删除操作可能会导致频繁的内存分配和释放(具体取决于容器的实现方式);而频繁的内存分配/释放,会导致明显的CPU占用并可能造成内存碎片。

境界2
  为了避免境界1导致的弊端,更聪明的程序猿会构造一个定长的布尔型容器(通常用数组)。比方说,质数的分布范围是1,000,000,那么就构造一个包含1,000,000个布尔值的数组。然后把所有元素都初始化为 true。在筛的过程中,一旦发现某个自然数是合数,就以该自然数为下标,把对应的布尔值改为 false。
  全部筛完之后,遍历数组,找到那些值为 true 的元素,把他们的下标打印出来即可。
  此种境界的好处在于:其一,由于容器是定长的,运算过程中避免了频繁的内存分配/释放;其二,在某些语言中,布尔型占用的空间比整型要小。比如C++的 bool 仅用1字节
注:C++标准(ISO/IEC 14882)没有硬性规定 sizeof(bool)==1,但大多数编译器都实现为一字节。

境界3
  虽然境界2解决了境界1的弊端,但还是有很大的优化空间。有些程序猿会想出按位(bit)存储的思路。这其实是在境界2的基础上,优化了空间性能。俺觉得:C/C++出身的或者是玩过汇编语言的,比较容易往这方面想。
  以C++为例。一个bool占用1字节内存。而1个字节有8个比特,每个比特可以表示0或1。所以,当你使用按位存储的方式,一个字节可以拿来当8个布尔型使用。所以,达到此境界的程序猿,会构造一个定长的byte数组,数组的每个byte存储8个布尔值。空间性能相比境界2,提高8倍(对于C++而言)。如果某种语言使用4字节表示布尔型,那么境界3比境界2,空间利用率提高32倍。


★总结
  看到俺写"总结"二字,很多网友心想:总算看完了,知道该怎么求质数才是最优的了。
  其实,你们又错了,本文才写了不到一半。考虑到篇幅已经有点长,而且俺打了这么多字,也有点累了,暂时刹住话匣子,下次接着聊。
  希望看了今天这个介绍,大伙儿应该明白一个道理:山外有山、天外有天。每一个技术领域里面的每一个细小的分支,深究下去都有很多的门道与奥妙。在你深究的过程中,必然会学到很多东西。深究的过程也就是你能力提高的过程。
  本文后续的内容,会介绍刚才提到的按位存储法还有哪些缺陷,该如何解决。另外,还会介绍其它一些求质数的方法。


上面引文中试除法,群子的vba 代码优化到大概倒数第二个境界, 筛法也是使用bool 数组,他给的c 代码用的char 数组,剔除掉语言执行效率因素,其实是一样的。 至于到位运算,一个byte 分8位 我大vba 似乎没这能力。
最后说一句,群子的代码中似乎使用了 Redim Preserve 这从效率讲是不可取的,因为数组的不变性,Redim Preserve 其实是对数组的复制和内存的移动,是一种慢速低效率的做法。宁可一次开一个大数组,用一个变量计数用到的位置,相当于c 里用指针。

点评

“以空间换时间”、“筛法还是一种很普适的思想”、“质数分布公式最简洁的就是x/ln(x)”……做个笔记,呵呵……其他的不太懂……高深!!!  发表于 2015-1-30 17:17
点评有水平。……话说我的帖子还没有写完,代码例子还没有全上来,你就剧透了!  发表于 2015-1-30 15:17

评分

4

查看全部评分

TA的精华主题

TA的得分主题

发表于 2015-1-30 13:44 | 显示全部楼层

TA的精华主题

TA的得分主题

发表于 2015-1-30 13:48 | 显示全部楼层
本帖最后由 Zamyi 于 2015-1-30 13:53 编辑
香川群子 发表于 2015-1-29 16:56
算法 真正的突破:

这个比test2速度又快了4-5倍……比test1已经快了50-60倍了。本次算法的重大改进,在于 ...
  1. Sub test()
  2. Dim i&, j&, k&, n&, s&
  3. n = [a1]
  4. ReDim a(1 To n) As Byte
  5. For i = 2 To Sqr(n)
  6.   If a(i) = 0 Then
  7.     For j = i + i To n Step i
  8.       a(j) = 1
  9.     Next
  10.   End If
  11. Next
  12. If n < 500 Then ReDim b&(1 To n) Else ReDim b&(1 To n * 0.2)
  13. For i = 1 To n
  14. If a(i) = False Then k = k + 1: b(k) = i
  15. Next
  16. End Sub
复制代码

复制代码
消耗内存为1.2n字节,比原来少了5倍。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

关闭

最新热点上一条 /1 下一条

手机版|关于我们|联系我们|ExcelHome

GMT+8, 2024-4-25 15:35 , Processed in 0.035045 second(s), 8 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 1999-2023 Wooffice Inc.

沪公网安备 31011702000001号 沪ICP备11019229号-2

本论坛言论纯属发表者个人意见,任何违反国家相关法律的言论,本站将协助国家相关部门追究发言者责任!     本站特聘法律顾问:李志群律师

快速回复 返回顶部 返回列表