1. 您的位置:首页 > seo技术 >内容

网络营销策略-网络营销教程seo第2章搜索引擎(第1节)

第1节搜索引擎的基本工作机制
大型互联网搜索引擎的数据中心通常运行数千甚至数十万台计算机,此外,每天都有数十台机器添加到计算机集群中,以跟上发展的步伐。网络。收集机自动收集网页信息,平均速度为每秒数十个网页。检索机提供容错和可扩展的系统体系结构,以响应每天数千万甚至数亿用户的查询。企业搜索引擎可以基于不同的应用规模从单个计算机部署到计算机集群。
搜索引擎的一般过程是首先在互联网上收集网页,然后预处理收集的网页,并创建一个网页索引数据库,响应用户'实时查询请求,根据搜索结果对搜索结果进行排序某些规则,并将它们返回给用户。搜索引擎的一个重要功能是为互联网上的文本信息提供全文检索。

图1搜索引擎的工作流程
搜索引擎使用客户端程序接收来自用户的检索请求,目前最常见的客户端程序是浏览器。事实上,它也可以是用户开发的更简单的网络应用程序。用户输入检索请求通常是使用逻辑符号连接的关键字或多个关键字。搜索服务器根据系统关键字字典将搜索关键字转换为wordid,然后在索引数据库(反向文件)中转换为docid列表,扫描docid列表中的对象并匹配wordid。提取合格的网页,然后计算网页与关键字之间的相关性,根据相关性将前K篇文章(不同的搜索引擎在每页上有不同的搜索结果)的结果返回给用户n值,如过程1所示。
图2描述了一般搜索引擎系统体系结构,包括页面收集器,索引器,搜索器和索引文件,以下描述了主要功能的实现。

图2各种搜索引擎组件之间的关系

图3搜索引擎捕获网页流程
1。收集器

通过使用程序机器人(也称为Spider),收集器用于在互联网上漫游并发现和收集网络营销策略信息。它收集各种类型的信息,包括HTML页面,XML文档,新闻组文章,FTP文件,文字处理文档和多媒体信息。Searcher是一种计算机程序,它使用分布式和并行处理技术来提高信息发现和更新效率。商业搜索引擎收集者每天可以收集数百万或更多的网页。搜索者通常需要不断运行并在互联网上尽可能快地收集尽可能多类型的新信息。由于互联网上的信息很快更新,因此有必要定期更新已收集的旧信息,以避免死链接和无效链接。此外,由于Web信息正在动态更改,因此收集器,分析仪和索引器必须定期更新数据库。更新周期通常约为数周或数月。索引数据库越大,更新就越困难。互联网上的信息太多了。即使是强大的收藏家也无法收集互联网上的所有信息。因此,收集者使用某种搜索策略来遍历互联网和下载文档。例如,收集器通常使用由广度优先搜索策略主导并由线性搜索策略补充的搜索策略。当收集器实现时,一个超链队列或堆栈是mainta在包含一些起始URL(
理解imaging dmoz,Yahoo目录Google sitemap等)的系统中,收集器从这些URL下载相应的页面并将新的超链从它们提取到队列或堆栈中。上述过程重复队列,直到堆栈为空。为了提高效率,搜索引擎根据域名,IP地址或国家域名划分web空间,并使用多个收集器并行工作,以便每个搜索者负责搜索子空间。为了便于将来扩展服务,收集器应该能够更改搜索范围。

1. 线性搜索策略
线性搜索的基本思想是从起始IP地址开始,通过增加IP地址搜索每个后续IP地址中的信息,无论指向HTML中其他网站的超链接地址每个网站的文件。此策略不适用于大规模搜索(主要是因为IP地址可能是动态的),但它可用于小范围的全面搜索,使用此策略的收集器可以找到很少引用的新HTML文件的来源或未被其他HTML文件引用。

2. 深度优先级收集策略
深度优先级收集策略是许多早期开发人员用来实现搜索结构的叶节点的方法。深度搜索优先于HTML文件上的超链接,返回到先前联系人的HTML文件,并继续在HTML文件中选择其他超链接。如果没有其他超链接可用,则搜索完成。深度偏好搜索适用于遍历指定站点或深度嵌套的HTML文件集。但是,对于大规模搜索,由于web结构非常深,因此可能始终不可用。

3. 广度优先收集策略
广度优先收集策略首先搜索同一层中的内容,然后继续搜索下一层。如果HTML文件包含三个超链,请选择其中一个并处理相应的HTML文件(注意:此处的处理文件指的是检索文件内容,文件),然后返回并选择第一个网页的第二个超链接,处理相应的HTML文件,然后返回。一旦处理了同一层上的所有超链,您就可以开始在刚刚处理过的HTML文件中搜索其他超链。(广度链接的定义)
这确保了浅层的第一次处理。当遇到无尽的深枝时,它不会被困在。Width first collection易于实现并被广泛使用,但需要很长时间才能到达深度HTML文件。

4. 收集收集策略
可以通过用户提交收集一些网页。例如,一些商业网站向搜索引擎发送应用程序进行索引,收集器可以直接收集提交网站的网页信息,并将其添加到搜索引擎的索引数据库中。

2。分析仪
您必须首先分析收集器收集的网页信息或下载的文档进行索引。文档分析技术通常包括单词分割(一些仅从文档的某些部分提取单词,例如AltaVista),过滤(使用stopword表停止列表),转换(条目上的一些工作来转换单数和复数,删除后缀,并转换同义词),这些技术通常与特定语言和系统索引模型密切相关。

Iii。Indexer
Indexer分析和处理搜索者搜索的信息,并从中提取索引项以表示生成的文档库的文档和索引表。有两种类型的索引项:元数据dex项目和内容索引项目,例如作者姓名,URL,更新时间,编码,长度和链接流行度是元数据索引项目。内容索引项用于反映文档的内容,例如关键字及其权重,短语和单词。内容索引项可以分为单索引项和多索引项(或短语索引项)。单个索引是英语单词,由于单词之间存在自然分隔符(空格),因此易于提取。单词必须用中文和其他连续语言分隔。在搜索引擎中,通常为单个索引项分配权重值,以指示索引项与文档区分开并用于计算查询结果的相关性。通常,使用统计方法,信息论方法和概率方法。提取短语索引项的方法包括统计方法,概率方法和语言方法。
为了快速查找特定信息,创建索引数据库是一种常用方法。这意味着文档被表示为一种方便的检索方法并存储在索引数据库中。索引数据库的格式取决于索引机制和算法特殊数据存储格式。索引质量是Web信息检索系统成功的关键因素之一。一个好的索引模型应该易于实现和维护,检索速度快,空间要求低。搜索引擎通常在传统信息检索中使用索引模型,包括反向文档,矢量空间模型和概率模型。例如,在矢量空间索引模型中,每个文档D表示为归一化矢量V(D)=(T1,W1(D)。。。Ti,W1(d)。。。TN,Wn(d))。其中,Ti是条目项,WI(d)是d中Ti的权重,通常定义为d中Ti出现频率TFI(d)的函数。
indexer的输出是索引表。它通常使用反转列表,即索引项搜索相应的文档。索引表还可以记录索引项出现在文档中的位置,以便搜索者可以计算索引项之间的相邻或紧密关系html语言(接近度)。indexer可以使用集中或分布式索引算法。当数据量很大时,必须实现实时索引(即时索引)。否则,您将无法跟上信息量的急剧增加。索引算法对索引工具的性能(如大规模峰值查询期间的响应速度)有很大影响。搜索引擎的有效性在很大程度上取决于索引质量。

Iv。搜索程序
搜索程序功能是根据用户查询快速检查索引数据库中的文档,评估文档和查询之间的相关性,并对要输出的结果进行排序,并实现与用户相关的反馈机制。搜索者常用的信息检索模型包括一组理论模型,代数模型,概率模型和混合模型。您可以查询文本信息中的任何单词,无论是标题还是正文。
搜索者从索引中查找与用户查询请求相关的文档,并通过熟悉分析索引文档来处理用户查询请求。例如,在矢量空间索引模型中,用户's查询Q首先表示为扇形矢量V(Q)=(T1,W1(Q);…;Ti,WI(Q);…;TN,Wn(Q),然后根据某种方法计算用户查询和索引数据库中每个文档之间的相关性。相关性可以表示为查询向量V(q)文档V(d)和向量V(d)之间角度的余弦?文件内容、文件响应链接和质量)所有大于阈值的文档按相关性a的降序排列nd返回给用户。当然,搜索引擎的相关性判断不一定与用户'需求一致。

V.用户界面
用户界面的功能是为用户提供可视的查询输入和结果输出界面,便于用户输入查询条件,显示查询结果并提供用户相关性反馈机制,其主要目的是使用户更容易使用搜索引擎并获得有效来自搜索引擎的信息以多种方式高效地提供。用户界面的设计和实现必须基于人机交互的理论和方法,以适应人类的思维和使用习惯。
在查询页面上,您可以使用搜索引擎's查询语法设置要搜索的术语以及各种简单或高级的搜索条件。简单的界面仅为用户提供输入查询字符串的文本框。复杂的界面允许用户限制查询条件,例如逻辑操作(有或没有)和密切关系(相邻和附近),域名范围(如Edu,com),位置(如标题,内容),时间信息,长度信息等。目前,一些公司和组织正在考虑制定查询选项标准。
在查询输出页面,搜索引擎将搜索结果显示为线性文档列表,其中包含文档标题,摘要,快照和超链接信息。由于搜索结果中的相关文档和不相关文档是混合的,因此需要逐一浏览它们以查找所需文档。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.botadmin.cn/sylc/4533.html