时间:2011-04-22 23:29
中国电子商务研究中心讯分词算法以前偶尔也懂些,但是懂的不透彻,最近看了很多相关的书,然后去互联网上又学习了一部分,算是有了个大概的了解。其实了解分词算法无论对于个人站长一些中小型企业,都十分有帮助。通过这些词的拆分,能让我们对关键词的把握更加的精准。好了,下边开始今天的正文,如果有不对的的地方,还希望大家多指正。
通常的分词算法往往是针对中文搜索引擎而言,对于Google则不存在,在百度和Google上搜索同样一个关键词或者短语,返回的结果是不同的,这不仅仅是算法不同或者技术不同的原因,更多是因为分词算法的存在。百度会根据用户搜索的关键词去进行拆分,而Google更多地是把结果直接返回。
什么叫长尾幻影CEO:浅析中文分词算法自动更新关键字不论对于英文还是中文,自动采集的网站搜索引擎索引页面都是以词为基础的,由于中文的博大精深,和英文单词之间往往相差很多。有时同一句话,标点符号的位置不同,音调不同,语义就完全的不同,而英文则不存在这样的问题,英文更多的是把单词进行拆分。下边给大家介绍我对中文分词算法的一些理解。
一般中文分词分为基于词典和统计两种匹配,通常两种方法并不是单一存在着,而是在混合使用。
首先是基于词典的匹配方法,根据用户搜索的词语,搜索引擎会把这些词语与自己词典中的词条进行匹配,如果匹配成功,就切分出一个单词。同时根据方向的不同,分为正向和逆向两种匹配。在正向匹配中,按照词语长度的不同又细分为最大匹配和最小匹配。这种基于词典的匹配很大程度上取决于词典的完整性以及更新情况。
基于此,作为站长帝国CMS自动更新,我们无论选择首页的目标关键词还是内容页的长尾关键词,都应该根据这个原理,不要人为的造词,如果你的词语不是大众经常搜索的,也不是人们默认的词,那么在搜索时就不会被返回,所以在选择关键词的时候,不能想当然,要有准确的判断。
其次是基于统计的分词方法,搜索引擎会进行大量的计算,包括字与字相邻的概率,某个短语出现在什么地方最多,用户搜索某个短语或者词的时候回寻找什么样的内容,这些都是搜索引擎基于判断的依据。这种方法有明显的优点,就是对新出现的词有更快的反应,站群怎样搞比如当一个新闻出现的时候,如果大家都搜索这个新词语,而百度判断不出来,不能给予正确的搜索结果,那么用户就不会买搜索引擎的账。
基于此,我们应该联想到SEO中很重要的一点,那就是相关性。比如A5这样一个词,我们都知道是代表Admin5站长网,但是刚开始可能搜索引擎并不知道,如果大家搜索的多了,在不同的地方被提及的多了,那么搜索引擎就会判断出A5这个词应该和站长有着某种联系。因此,我们做优化网站的时候也要注意相关性,和相关性的网站做友情链接,或者是发布相关性的内容,都能提升网站在该领域的权威性,当用户搜索的时候动易自动采集,就能够更靠前、有更多的机会被搜索引擎展现。
好了,本文就到这里吧,中文分词算法是搜索引擎的一个特色地方,他针对的是自己的词库和更新率。除了上边提到的页面相关性以及关键词选择要遵循大众搜索习惯之外,还应该注意对词的特殊对待,比如加粗,加黑或者使用H标签。希望站长通过此篇文章对中文分词算法有个更加深入的了解,如果有不对的地方,也欢迎指正。文幻影CEO
(4)凡本中心注明“来源:xxx(非中国电子商务研究中心)”的稿件,均转载自其它媒体、网站与机构,其转载目的在于传递更多信息,并不代表本中心赞同其观点和对其真实性负责,请读者仅作参考,并请自行核实相关内容。
4月8日下午,国家工商管理部门将联合中国电子商务研究中心在杭州召开“2011年网络团购企业调研会”,届时工商行政管理局网络经济调研小组相关负责人将出席,对网络团购企业发展过程中的问题进行了解,...[详细]
B2B:金银岛
中国服装网
B2C:当当网
苏宁易购
支付:快钱
易宝
搜索:搜搜
B2C:顾备春
搜索:杨致远
专家:胡延平
关键字>>
商业模式
电子支付
电子政务
网店
团购