在搜索引擎技術(shù)中,中文分詞對(duì)于影響搜索引擎結(jié)果排序有著至關(guān)重要的作用。我們?cè)趯?shí)際的搜索引擎優(yōu)化中,為了避免很多主關(guān)鍵詞的大量競(jìng)爭(zhēng),也會(huì)使用到中文分詞技術(shù)來(lái)做SEO優(yōu)化。
舉個(gè)簡(jiǎn)單的例子,假如我們需要優(yōu)化一個(gè)內(nèi)容是“軸承”的網(wǎng)頁(yè),那么想要這個(gè)關(guān)鍵詞在搜索引擎中排名更好,那就是很難的一件事了。因?yàn)?ldquo;軸承”這個(gè)關(guān)鍵詞熱度太高,所以想要通過(guò)SEO手段去將其優(yōu)化到搜索結(jié)果的首頁(yè)是一件非常難的事。在這個(gè)時(shí)候我們經(jīng)常會(huì)使用長(zhǎng)尾關(guān)鍵詞去優(yōu)化這樣的高熱度關(guān)鍵詞,也就是說(shuō),我們經(jīng)常會(huì)優(yōu)化一些例如“北京軸承銷售商”、“北京進(jìn)口軸承”等這樣的關(guān)鍵詞。而想要把這樣的關(guān)鍵詞做到搜索結(jié)果的前列,對(duì)于中文分詞技術(shù)的把握和對(duì)于關(guān)鍵詞的布局,有很大的重要性。
中國(guó)的文字博大精深,不同的標(biāo)點(diǎn)符號(hào),不同的斷句就代表著不同的意思。所以,曾經(jīng)有一位Google的科學(xué)家說(shuō):“如果可以做好中文搜索引擎,那么我們就不怕任何語(yǔ)種的搜索引擎研究了。”
那么中文分詞在搜索引擎優(yōu)化中到底具有怎樣的意義呢?分詞對(duì)SEO的影響是多方面的,最重要的就是對(duì)長(zhǎng)尾流量的影響。例如說(shuō)我們常常見到很多很想做的長(zhǎng)尾關(guān)鍵詞,例如廣州進(jìn)口軸承銷售,上海進(jìn)口軸承銷售等等,但我們通過(guò)前文對(duì)于SEO的了解可以知道,一個(gè)頁(yè)面做關(guān)鍵詞不要超過(guò)三個(gè),因?yàn)槌^(guò)三個(gè)就會(huì)分散了每個(gè)關(guān)鍵詞的權(quán)重,反而一個(gè)都做不好。但如果我們想超過(guò)三個(gè)又不影響呢?那么我們這時(shí)候就需要利用中文分詞來(lái)對(duì)關(guān)鍵詞進(jìn)行組合了,例如:進(jìn)口軸承銷售-上海-廣州。這樣分出來(lái)的結(jié)果可能沒有廣州進(jìn)口軸承銷售或上海進(jìn)口軸承銷售的關(guān)鍵詞來(lái)的直接,但用這樣分詞的辦法卻使到很多詞都獲得不錯(cuò)的效果。多個(gè)詞排名在搜索引擎結(jié)果頁(yè)的首位,總是要比一個(gè)關(guān)鍵詞排名在第一位的覆蓋面要廣。久而久之,因?yàn)?廣州+進(jìn)口軸承銷售、上海+進(jìn)口軸承銷售這些頁(yè)面讓搜索引擎知道你的頁(yè)面和“進(jìn)口軸承銷售”這個(gè)關(guān)鍵詞相關(guān)度很高,因此進(jìn)口軸承銷售這個(gè)主關(guān)鍵詞的排名也會(huì)相對(duì)提高。
當(dāng)然,我們上面舉得例子是還沒有完全對(duì)于關(guān)鍵詞進(jìn)行完全的拆分。下面我們就對(duì)中文分詞做一個(gè)粗略的討論。
最早的中文分詞辦法是由北京航天航空大學(xué)的梁南元教授提出的,一種基于“查字典”的分詞辦法。例如這個(gè)句子:“著名導(dǎo)演張藝謀說(shuō)國(guó)慶節(jié)晚上將安排十萬(wàn)人到天安門聯(lián)歡。”
用 “查字典” 的分詞方法,我們要做的就是把整個(gè)句子讀一遍,然后把字典里有的詞都單獨(dú)標(biāo)示出來(lái),當(dāng)遇到復(fù)合詞的時(shí)候(例如北京大學(xué)),就找到最長(zhǎng)的詞匹配。遇到不認(rèn)識(shí)的字符串就分割成單個(gè)文字。根據(jù)這樣的辦法,我們以上的文字可以切分為:
“著名 | 導(dǎo)演 | 張藝謀 | 說(shuō) | 國(guó)慶節(jié) | 晚上 | 將 | 安排 | 十萬(wàn)人 | 到 | 天安門 | 聯(lián)歡”
這樣的分詞辦法雖然說(shuō)可以應(yīng)付很多的句子,但是由于細(xì)分的太多,在真正搜索引擎使用的過(guò)程中,到底哪一個(gè)詞才是重點(diǎn)就無(wú)法表述,從而搜索引擎搜索出的結(jié)果也不能達(dá)到最大的相關(guān)度。于是在80年代,哈爾濱工業(yè)大學(xué)計(jì)算機(jī)博士生導(dǎo)師王曉龍博士提出了“最少詞數(shù)”的分詞理論,即為,一句話應(yīng)該是分詞最少的字符串,這樣會(huì)更多的讓搜索引擎更明白這句話到底是什么意思。但是這樣的辦法雖然更好,新的問(wèn)題卻也顯現(xiàn)了出來(lái)。例如,我們?cè)谧?ldquo;二義性”關(guān)鍵詞組的時(shí)候,就不能說(shuō)最長(zhǎng)的分割就是最好的結(jié)果。舉個(gè)例子,“吉利大學(xué)城書店”這個(gè)關(guān)鍵詞正確的分詞應(yīng)該是“吉利 | 大學(xué)城 | 書店”而不是詞典中的“吉利大學(xué) | 城 | 書店 ”。
目前,主流的分詞辦法有兩種,一種是基于統(tǒng)計(jì)模型的文字處理,另外一種是基于字符串匹配的逆向最大匹配法。
樂(lè)發(fā)網(wǎng)超市批發(fā)網(wǎng)提供超市貨源信息,超市采購(gòu)進(jìn)貨渠道。超市進(jìn)貨網(wǎng)提供成都食品批發(fā),日用百貨批發(fā)信息、微信淘寶網(wǎng)店超市采購(gòu)信息和超市加盟信息.打造國(guó)內(nèi)超市采購(gòu)商與批發(fā)市場(chǎng)供應(yīng)廠商搭建網(wǎng)上批發(fā)市場(chǎng)平臺(tái),是全國(guó)批發(fā)市場(chǎng)行業(yè)中電子商務(wù)權(quán)威性網(wǎng)站。
本文內(nèi)容整合網(wǎng)站:百度百科、知乎、淘寶平臺(tái)規(guī)則
本文來(lái)源: 利用中文分詞技術(shù)來(lái)做SEO優(yōu)化