1. 您的位置:首页 > 站群资讯 >内容

pdf:站群现在搜索扫描的文档

谁会想到即将到来,即使是通过扫描进行数字化处理的文档现在也可以由站群强大的搜索爬虫进pdf行搜索?以前,站群只能搜索从文本文件转换而来的PDF文档。站群机器人省去了那些通过扫描转换为PDF的PDF文档,无论是基于图像还是基于文本的文档。但是现在不行了。官方的站群博客刚刚宣布,站群的搜索机器人现在可以搜索通过扫描生成的所有PDF文档。

站群如何做到这一点?通过光学字符识别。那些使用Adobe Acrobat Professional的人都知道此过程。当通过扫描仪将打印的文档转换为PDF时,使PDF可搜索的唯一方法是通过OCR流程,该流程是Adobe Acrobat Professional(以及其他具有类似功能的软件)的一项功能。

OCR过程将图片转换为可以搜索和索引的单词。这是一个非常漂亮的海洋方式阅读PDF档案时,搜寻书籍和印刷文件的pdf章节。您不必再浏览页面就可以找到所需的内容。

坦率地说,这是站群搜索引擎的一个简单而有用的功能,而站群又一次增强了它的竞争能力。网上有如此多的PDF格式文件可供使用,搜索引擎现在正该做些事情,以使它们不仅可以通过元数据,而且更重要的是可以通过内容进行搜索。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.botadmin.cn/changjianwenti/7204.html