以下是引用smhf_6在2007-1-23 19:44:42的发言:下载了,谢谢 这个是电子版,但是有点差异的电子版--不能编辑的电子版。我的电脑虽然安装了OCR识别,但这里还是用不上。 感觉与扫描件一样,但为什么又怎么小?只有15M。. 随着因特网的逐渐普及和扫描存储设备的成本逐步降低,越来越多的文件开始以数字化的形式在网上处理、传播和保存。人们对于信息的瞬间获取需要使得电脑屏幕成为各种信息的最佳显示媒介。然而世界上90%以上的信息仍然在纸上。大量纸质文件,包括经典印书籍、绘画、彩色图片和照片,都拥有十分珍贵的价值,而其中被发布在网络上的却寥寥无几。
制约这些信息在网上发布的一个瓶颈就在于扫描图像的文件大小问题。现阶段,如果要保证文字和影像的清晰效果,就必须要用较高的分辨率来进行扫描,其所得文件往往十分巨大,难以在网上下载。于是,为了达到差强人意的下载速度就不得不降低分辨率,这也意味着图像质量和可辨性得不到保证。传统的网络图像格式,如JPEG、GIF和PNG等,在普通分辨率下的图像大小都十分巨大。这也使得网络内容开发者们面对现存的印刷材料宝库只能望洋兴叹。
在过去数年中,人们对于有效处理彩色图像文件的技术的需求越来越强烈,而这种技术实际上就是一种有效的彩色图像的压缩技术。当人们试图建立古代或历史文献的网上数字图书馆,制作电子商务网站的网上购物索引,或进行网络出版时,这种技术就显得尤为重要。另外,低成本、高质量彩色扫描仪,以及高分辨率数码相机的出现,也为这类技术的应用提供了契机。
DjVu(念作 "déjà vu"),就是在这种背景下由美国电报电话公司实验室(AT&T Labs)于1996年开发成功的一项新的图片压缩技术。通过这项技术,几乎所有的传统印刷资料都可在网上以高速传播。
DjVu的原理
DjVu格式背后的一项主要技术是将图像分为背景层(纸的纹理和图片)和前景层(文本和线条)。传统的图像压缩格式对于简单的图片来说,还可以接受,但对于强对比色彩区域之间的色彩反差的表现则大打折扣,这也是为什么它们对于文字的还原难以另人满意的原因。一般来说,要确保文字和线条的清晰度需要较高的分辨率(通常为300dpi),而反映连续色彩图像和纸张的背景机理则不需要那么高的分辨率(通常为100dpi)。因此,要提高清晰度,最好的方法就是将这些元素分为不同的层来进行处理。通过将文字和背景分离开来,DjVu可以用高分辨率来还原文字,使锐利边缘得以保留,并最大限度地提高可辨性,同时用较低的分辨率来压缩背景图片,从而使整个图像的质量得到了保证。
使用DjVu格式,用户首先会很快得到页面的一个最初版本,这个版本主要是含有文字的前景层。随着后续信息的到达,图像质量不断提高。例如,一张普通杂志页面上的文字在56Kbps调制解调器的连接下只须3秒钟就可出现。在其后的1-2秒内,背景图片的初级版本也将出现。然后,再过几秒钟,最后的完整页面就可全部出现了。
DjVu的优势
通过DjVu压缩格式,以300dpi的分辨率扫描的彩色页面可以从25 MB缩小到30 至 80 KB,而且图像质量十分优秀。对于同时包括文字和图像的彩色文件来说,DjVu文件在同等质量下通常比JPEG文件小5到10倍。对于黑白页面来说,DjVu文件通常比JPEG文件小10到20倍,比GIF文件小5倍。对于那些由扫描文件制作而成的黑白PDF图像来说,DjVu文件也要小3 到8倍。
除了扫描文件之外,DjVu也可用于电子生成的文件,如阿杜比的PostScript 文件或PDF文件。以这些文件为对象压缩而成的DjVu文件,其每页大小在300dpi的分辨率下通常在15到20KB之间。
这使得高质量的彩色扫描页面的大小直逼普通的HTML页面(平均50KB)。通过插件,DjVu页面可以在浏览器窗口中任意放大和缩小,而无须占用25MB的内存来对图像进行全解码。通过将解码的图像部分存储在一种只占2MB内存的数据结构中,实际显示在屏幕上的像素是在传输过程中被解码的。这就使得图片下载的功效达到大幅度提高。
同时,由于采用分层显示,而不是等到整副图片都被解码之后才显示,也使得图片显示的速度大大提高,用户在两三秒之内就能够迅速看到文字,其他的图像信息也会在几秒钟之内陆续显示出来。这种网上高质量图像发布的体验在传统压缩格式上是无法实现的。
DjVu的另一个优点是,它是一个公开标准。其解码程序和部分编码程序可在网上免费获得。DjVu网络浏览器插件,也即DjVu文件的解码软件,可直接在LizardTech公司的主页上下载(http://www.lizardtech.com/download.html),而且有针对Linux, Windows 95/98/NT, Mac, 和各种 UNIX操作系统的不同版本可供选择。
DjVu的应用
DjVu的应用非常广泛,任何扫描的高分辨率图像和数字生成的文件都可以通过DjVu的方式在网上进行发布。有了DjVu,网络内容提供商们就可以将大量宝贵的书籍、杂志、索引、手稿、报纸和古代历史资料通过扫描而在网上发布了。原来被保存在这些物质载体上的信息,现在可以通过比特的形式被更为广泛的受众所获取了。
具体来说,DjVu的应用主要体现在以下几个方面:
1、 商业方面,产品照片的网上发布是一个重要用途。虽然电子商务正在逐渐普及,但网上产品的图像质量却另人难以满意。一般来说,这些产品图片不是只有邮票大小,就是要花上几分钟来下载,而且对于局部的细节无法放大观看。DjVu则可以解决这些问题。通过分层逐步解码,图像可以很快显示出来,而且还可以利用拖动和放大功能来观察所有细节。这些特点也非常适用于拍卖物品的图片发布。
商业应用的另一个方面是公司报告的网上发布。目前,PDF格式是公司报告的一个主要发布方式。一份60页A4大小公司报告用PDF格式来发布,其大小大概在4MB左右,而扫描之后以DjVu格式保存,其文件大小则不超过800K。此外,其他公司文件,如技术手册、CAD绘图、财务文件、税务和邮件等,都可通过DjVu在公司内部网中保存。
2、教育方面,DjVu将成为电子图书网上发行的最佳手段。即使已经有了完全电子生成的数字版本,DjVu仍然是屏幕显示的最佳选择。例如,对于页面上包括一定数量的颜色、图片、公式、线条和其它非文字对象(如大学教材)时,DjVu的超强压缩功能将大大缩小文件的尺寸,使其在性能上优于PDF格式。对于网页设计者来说,DjVu插件的压缩界面和自动装载功能,以及和网页浏览器的完全兼容等也是可圈可点之处。另外,DjVu格式的电子书也具有文字查找功能,对于读者查找关键词也非常方便。
对于学术作品的网络发布来说,DjVu也是很好的方式。目前,人们主要是将文字处理软件完成的作品压缩,然后在网上发布。这样做的缺点在于,必须先将整个文件下载,之后才能阅读,而且一旦文件当中插有图片时,文件又大得惊人。用DjVu则可以将数字生成或扫描生成的任何文件进行有效的压缩和快速的显示,而且不受文件内容的限制,这也是为什么越来越多的科学家、研究者和学生开始在网上利用DjVu来发布他们作品的原因。
图书馆的资料保存和文件管理也将受益于DjVu。原来以各种形态出现的文档,现在都可通过扫描压缩成DjVu格式,并在网络数据库中保存。这样一来,所有的资料都能十分逼真的转化为数字形式。读者也就可以更加便利地在网上获取一些以前很难看到的珍贵材料。
3、文学艺术方面,对人类早期的手稿和印刷品进行网上发布是DjVu的“杀手锏”。迄今为止,DjVu是唯一能够将这些材料丝毫毕现地在网上发布的压缩技术。公众以前基本无法接触到的稀有珍藏,如谷登堡于1450-1455年间用他发明的金活字印刷机印刷的著名的42行《圣经》(http://www.djvuzone.org/djvu/uva/gutenbe/index.html)、文艺复兴早期手工绘色的威尼斯木雕(http://www.djvuzone.org/djvu/rutgers/venetian/index.html),以及1776年7月4日颁布的美国独立宣言(http://www.djvuzone.org/djvu/uva/dec/index.html)等,现在都可以毫无限制地在网上传播,公众只需花几秒钟的时间就可以在自己家里的电脑屏幕上欣赏到这些珍贵的历史资料,而历史学家和研究者们则可以对所有的色彩和细节部分进行细致的分析。
除以文字为主的文献资料外,绘画作品也可通过DjVu在网上发布。虽然前文强调的是DjVu对文字边缘清晰呈现的能力,但对色彩的压缩和还原,DjVu的表现同样出色。通过基于微波理论的连续色彩压缩技术(continuous-tone image compression technology),DjVu对绘画图像的处理要优于JPEG格式。特别对于高压缩比例的图像来说,DjVu的优势比较明显。其连续显示、放大和移动功能也使用户的读图体验超越传统。而且,与文字资料不同的是,绘画图像的压缩显示没有前景和背景的分层,因此整幅图下载起来更为流畅。
4、行政司法方面,地图和土地登记文件可以通过DjVu在网上发布。由于地图对图例标记的清晰度要求极高,用传统的图像压缩技术很难将地图以高分辨率在网上发布。人们目前在网上能看到的JPEG格式的地图,要么根本看不清上面的文字和标记,要么就需要花很长的时间来下载,对电脑内存的要求也很高。通过DjVu,则可以轻松地将地图和各种土地登记文件在网上传播。例如,美国国会图书馆的一张1915年出版的黄石国家公园的地图,原始文件为5900x6900 像素,大小为121MB,用DjVu压缩后只有450KB,在当前任何一台电脑上都可以毫不费力地清晰显示(http://www.djvuzone.org/djvu/maps/loc/ye000009.djvu)。而用JPEG格式压缩的文件则有2.1MB大小,如果没有十分充裕的内存空间,是无法自如显示的。
另外,许多法律文件,如各种法庭记录(口供书、判决书等)、不动产记录(房屋平面图、买卖合同、抵押证书等)以及税收记录等,都可以通过DjVu方便地在网上保存和发布,有利于提高文件管理效率和司法透明度。例如,佐治亚州科布县克拉克最高法院就通过DjVu将所有的司法文件在网上进行发布(http://www.cobbgasupctclk.com/home.asp),用户可以通过各种标准对文件进行搜索。
DjVu的意义
DjVu,作为一种新的彩色文件压缩技术,在纸质世界和比特世界之间搭起了一座桥梁。它使得高质量的扫描图像可以轻易地在因特网上进行发布。专门针对网络发行而设计的DjVu技术,以其友好的用户界面和网络功能博得了越来越多的商业和非商业用户的垂青,其应用将会使方兴未艾的网络传播进入一个新的阶段。
1、使原有的网上图片传播更加便捷。随着读图时代的到来,网上图片传播的地位将越来越高。原来以JPEG、GIF和PNG等格式在网上发布的图片,不论是图像质量还是下载时间,都难以令人满意。DjVu以其科学有效的压缩模式,使网上图片传播的硬件和带宽瓶颈得以突破。普通网民可以在普通的计算机上方便快速地进行图片浏览和发布。
2、使原来无法上网的资料能够在网上发布。当人类网络传播逐步由初期的硬件建设发展为一种文化产业,网上内容的开发和建设成为当务之急。除了直接以数字方式进行网上内容生产(如直接在电脑上用字处理软件和图像制作软件进行生产)之外,一个资源最丰富的渠道就是将人类传统的纸质信息转化成数字信息而在网上发布,也就是将人类的文化遗产数字化。要成功地实现这一转化,除了扫描技术之外,还必须要有高效的图像压缩技术。DjVu技术就是解决这一问题的关键。它可以将以前由于扫描文件大小原因而难以在网上发布的资料轻易地搬上因特网,从而使人类宝贵的知识遗产能够得到更为广泛的传播。
3、有利于推进电子商务和电子政务的发展。消费者在网上无法得到全方位的产品外观,并对其细节进行研究,是制约电子商务发展的因素之一。DjVu技术的出现,使得产品图片的发布轻而易举,而且成本低廉,为电子商务的发展消除了这方面的障碍。对于电子政务来说,政府可以通过DjVu技术方便地将各种文件在网上存档和发布,不仅可以提高行政管理效率,也有利于保护公众的知情权。
OCR是不能再扫描它了。 |