1. 您的位置:首页 > seo技术 >内容

深圳分城市站群如何-网络营销教程seo第2章搜索引擎(第2节)

第2节搜索引擎的中文词分割技术

自动中文词分割是网络分析的基础。在网页分析过程中,中英文的处理方法不同,因为中英文信息存在显着差异:英文字之间有空间,中文字之间没有分隔符。这要求在分析中文网页之前,将网页中的句子切成中文单词序列,这是中文单词分割。中文自动词分割涉及许多自然语言处理技术和评估标准。在搜索引擎中,我们主要关注中文自动词分割的速度和准确性。单词分割精度对于搜索引擎非常重要。但是,如果单词分割速度太慢,即使精度更高,搜索引擎也不可用,因为搜索引擎需要处理数亿个网页,如果单词分割消耗的时间过长,搜索引擎内容更新速度将受到严重影响。因此,搜索引擎对单词分割的准确性和速度有很高的要求。

目前,中文自动词分割是一种基于词分割字典的机械词分割方法。此方法根据某些规则将要分析的中文字符串与字典中的条目进行匹配。基于不同的匹配策略,有几种机械词分割方法如下:算法:正向最大匹配算法,反向最大匹配算法,最小字分割算法等。该方法的优点是字分割速度快,精度得到保证,但是对未记录单词的处理效果很差。实验结果表明,最大pos正匹配错误率约为1/169,最大反向匹配错误率约为1/245。自动中文单词分割的另一种常用方法是基于统计的单词分割。该方法计算语料库中的单词组频率,不需要单词分割,因此也称为无字典单词分割方法。但是,此方法通常将不常用的单词组视为单词。常用词的识别精度较差,时空开销也较大。在搜索引擎领域的实际应用中,机械词分割方法一般结合统计词分割方法,首先进行字符串匹配词分割,然后利用统计方法识别一些未登录的新词,这不仅充分发挥了优势的快速有效的匹配词分割功能,还利用了统计词分割中自动识别新词的特点,并自动消除了词分割歧义。

词分割字典是影响字符自动分割的重要因素。它的大小一般约为6万字,字典太大或太小。字典太小,有些单词不能分割,字典太大,在分割过程中上升幅度会**增加,这也影响了单词分割的准确性。因此,严格选择单词分割。在不断出现新单词的网络领域,仅使用约6万字的分割字典是不够的。但是,向单词分割字典中添加新单词会导致单词分割精度降低,一般的解决方案是使用大小约为50万个条目的辅助字典。另外,自动中文单词分割的困难在于处理单词分割歧义和识别未注册的单词。如何处理这两个问题一直是该领域的热门话题。

1. 模糊处理
模糊意味着可能有两种或更多种分割方法。例如,短语"surface"可以分为"surface+"and"table+"因为"surface"and"surface"都是单词"。这被称为交叉模糊。像这样的交叉模糊是非常普遍的。"化妆和服装"可以分为"化妆+和+服装"或"化妆+泡菜+服装"。由于没有人能理解,计算机很难知道哪种解决方案是正确的。

交叉模糊比组合模糊更容易处理。组合歧义必须根据整个句子确定。

例如,

例如,在句子&35;#34;

例如,在句子&35;#34;这门门手柄被打破深圳分城市站群如何",该&35;#34;

例如,在句子"

例如,在句子"这门门门手柄是一个单词,但是在句子"

例如,在句子&35;#34;这门门门手柄是一个单词,但是在句子&###34;请是一个单词,但是在句子35;###34;,the 但在句子"产量将在三年内增加两倍,"中校"不再是一个词。计算机如何识别这些单词深圳分城市站群如何

即使计算机可以解决交叉模糊和组合模糊,仍然存在模糊性问题,这是真正的模糊性。真正的含糊不清意味着给出一个句子。人们无法确定应该是哪个词,不应该是一个词。例如,如果"网球拍卖超过",则可以将其分为"网球+球拍+出售+完成+"或"网球+拍卖+完成+&##34;,如果没有其他上下文句子,我是害怕没有人知道"拍卖"这里不是一个词。

通常,动态编程算法用于将模糊性解决为优化问题。在解决问题的过程中,我们通常使用诸如单词频率或概率之类的辅助信息来获得最可能的单词分割结果。这个结果在某种意义上是最佳的。

2,未记录的文字处理
未记录的单词是不在单词分割字典中的单词,也称为新词。最典型的例子是个人姓名,姓氏和术语。例如,在句子"中;王俊虎去了广州","王俊虎"是一个词,因为它是一个人'但是,它的名字很难计算机识别它。如果您在字典中包含"Wang-junhu"作为一个词,全世界有这么多名字,每一刻都有新名字。记录这些名字是一个巨大的项目。即使这项工作可以完成,仍然会有问题。例如,在句子"王军,胡虎,和他的大脑",可以"王俊虎"仍然被视为一个词?

除了姓名之外,组织名称,地点名称,产品名称,商标名称,缩写和遗漏都是难以解决的问题,这些词语经常被使用。因此,单词分割对于搜索引擎非常重要。当前,通常使用统计方法处理非登录词。首先,语料库用于计算频繁出现的单词组,并根据某些规则将它们作为新词添加到辅助字典中。

目前,中国自动词分割技术已广泛应用于搜索引擎,词分割精度已达到96%以上。但是,在大规模分析和处理时在网页上,现有的中文自动词分割技术还存在许多缺点,如上述模糊问题和处理非登录词的问题。因此,国内外科研机构,如北京大学,清华大学,中国科学院,北京语言研究所,东北大学,IBM研究所和微软中国研究所,一直在关注和研究中国自动词分割技术,这主要是因为互联网上有越来越多的中文信息,网络上中文信息的处理必将成为一个庞大的产业和广阔的市场,无限的商业机会。但是,为了更好地服务于中国网络信息的处理和产品的形成,中国自动词分割技术也需要在基础研究和系统集成方面做大量工作。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.botadmin.cn/sylc/2821.html