SEO高手必会的中文分词算法

2016-08-22 22:25 阅读 165 次 评论 2 条

做为一名SEO高手,搜索引擎中的中文分词算法必须掌握,当搜索引擎蜘蛛将网站内容索引后就会通过中文分词技术进行入库,这是一个非常庞大的工程,搜索引擎对中文分词技术掌握非常熟悉,SEO人员也应该有所了解。下面,星辰SEO为大家分享中文分词算法的相关问题。

一、中文分词是什么

中文分词是什么

中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。

 

二、中文分词的作用

 

中文分词是文本挖掘的基础,对于输入的一段中文,成功的进行中文分词,可以达到电脑自动识别语句含义的效果。

中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。

 

三、中文分词方法

中文分词方法

1、字符串匹配的中文分词方法分为:正向最大匹配法、反向最大匹配法、最短路径分词法。

    ①、正向最大匹配法

就是把一个词从左至右来分词。举个例子:“不知道你在说什么”,这句话采用正向最大匹配法是如何分的呢?分出来是:“不知道,你,在,说什么。”

    ②、反向最大匹配法

看上面我举的例子“不知道你在说什么”用反向最大匹配法如何分。答案是:“不,知道,你在,说,什么。”这个就分得比较多了,反向最大匹配法就是从右至左来分词。

   ③、最短路径分词法

这个怎么理解呢?就是对一段话切出最少的词数。还是用上面那句话“不知道你在说什么”举例,用最短路径分词法来分,就是把这句话分成最少的词。“不知道,你在,说什么”,这就是最短路径分词法,分出来后只有3个词。当然,上面三种可以相互结合组成一些分词方法。比如,正向最大匹配法和反向最大匹配法组合起来就可以叫作双向最大匹配法。

2、词义分词法

这其实就是一种机器语音判断的分词方法。很简单,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象进行分词。这种分词方法,现在还不成熟,处在测试阶段。

3、统计的分词方法

这个很简单,就是根据词组的统计,如果发现两个相邻的字出现的频率最多,那么这个词就很重要,就可以作为用户提供字符串中的分隔符。比如,“我的,你的,许多的,这里,这一,那里”等,这些词出现得比较多,就从这些词里面分开来。

这些分出来的词,把它们都作为你站点的主题页,导人链接权重上来了,竞争力就大了,因为这些页面把它内链起来。用锚链接,指向主页的目标关键词。这就是分词的好处。它能够提升目标关键词的排名的竞争力,同时给站点带来一定流量。一旦导人链接权重上来了,竞争力就大了,因为这些页面把它内链起来。

中文分词问题是绝大多数中文信息处理的基本问题,在搜索引擎、推荐系统(尤其是相关主题推荐和基于内容的过滤推荐)、大量文本自动分类等方面是一个关键部件。

 
 

总结:搜索引擎对页面的中文分词取决于词库的规模、准确性和分词算法的好坏,而不是取决于页面本身如何,所以SEO人员对分词所能做得很少。唯一能做的是在页面上用某种形式提示搜索引擎,某几个字应该被当作一个词处理,尤其是可能产生歧义的时候,比如在页面标题、hl标签及黑体中出现关键词。百度更喜欢查询词完整匹配出现的页面,谷歌不太要求完整匹配,这点做中文网站的朋友应该有所注意。



版权声明:本文著作权归原作者所有,欢迎分享本文,谢谢支持!
转载请注明:SEO高手必会的中文分词算法 | 星辰seo博客
分类:SEO基础 标签:

发表评论


表情

  1. 卢松松博客
    卢松松博客 【农民】 @回复

    不错,看完这个收获很大!

    • zhongguolxb
      zhongguolxb【站长】 @回复

      欢迎大神访问,做为SEO高手中文分词算法必须掌握!