2010年12月21日 星期二

「華」字變「國」字 台政府錯印月曆

將改制為台中市豐原區的台中縣豐原市公所,印製約五萬份農民曆送給市民,卻被眼尖民眾發現,中華民國誤植為中「國」民國。更糟的是,農民曆已發出,就算印貼紙也無法遮蓋彌補,公所說是印製時遇到選舉忙碌,還特別強調,設計人與印刷廠沒有傾中情結。

民眾認為,封面字數不到五十字,中華民國一○○年的字體也不小,卻沒有校正出錯誤,未免太離譜,是否也顯示台中縣市合併,公務員工作態度散漫、螺絲鬆了?

對此,豐原市公所民政課說,原本封面設計是兩隻兔子在吃胡蘿蔔,但長官看了不喜歡,重新繪製封面,圖案改成一隻抱著金元寶的白兔子,卻又發現中華民國一○○年的字體顏色太暗,再度要求設計人與印刷廠改成黃色,比較顯眼

民政課說,更改封面的時間,巧逢公所忙辦三合一選舉,沒有注意到錯誤,等到發送出去,民眾告知才得知,印刷廠雖願意加印華字貼紙,把國字遮掉,但農民曆已發出,來不及貼了。

據指出,這批農民曆每本採購單價八元,約印製五萬本。民政課解釋說,可能是設計人在電腦上複製文字時,不小心弄錯,不是故意,更沒有傾中情結

甚麼是SEO (二)?

頻道規劃和內容處理
有很多朋友都在講優化,單純的累積關鍵詞已經沒有效果了,弄個非主流的站,非要把全部頻道的名稱都叫非主流XX,(XX代表任意字符)以為這就是優化,錯了! 想優化什麼詞就淡化什麼詞,比如我想優化站長中國,(當然,這個詞也沒人想優化,這不是舉例子嘛。)那麼,我只需要把我的首頁改名叫站長中國,而其他頻道名稱都刻意的淡化這個詞或者不出現這個詞,把所有的頻道總鏈到這個詞上面。效果他就真的來了。 搜索不是傻子,他很智能。 頻道規劃講究的是層次分明,有表有里,優化是引導蜘蛛抓取,而不是去刻意的強迫抓取,變被動為主動,勾引總比強暴來的好。表是意識形態,裡是最終效果。 至於什麼是層次,怎麼層次,這個不在此篇話題之內。 有機會在講。 內容處理方面,注意原創性,我們在第二篇就講了,搜索的原創和我們理解的原創有差異,它認為的是它不認識或在它的視角里從不存在的就叫原創,那麼,我們需要發布的內容就很關鍵了,你有精力,有耐心的,就像我這樣,鍵盤上多累積幾個字,自然是原創。沒那麼多閒功夫的,改標題會改吧? 改段落格式會改吧? 標題換換位置,多敲幾個ENTER,自然也就原創了。 當然,這裡講的只是初期的東西,關鍵還得有個悟性。悟到了。 也就成功了。 內容選擇上,最好是和站點主題相匹配的相關內容,不要自己搞個娛樂站,天天關注科技動態。 這樣的內容,搜索不喜歡,訪問者也不適應。

友情鏈接的處理和到底我要鏈什麼
友情鏈接是向外宣傳的窗口,也是蜘蛛爬取的標準之一,在以前,狐狸就講過,好的鏈接標準是成功誘惑搜索的一半。怎麼去選擇友情鏈接已經有很多文章在說了。 這裡也稍微提一下,一帶而過,做鏈接,要找對站,找對人。 第一,看是否是同類型,第二,查正反收錄,第三,看穩定性。 當然,中國人講的是人情事故,有的不符合標準的站,也被鏈了,那是賣的人脈帳,這裡沒啥好說的。關鍵問題就在友情鏈接鏈向的地址和名稱上。 以下幾點供參考。 一,對方站密密麻麻在首頁鏈了幾十個的,不做。 二,內頁的,不做。 三,經常訪問不了的,不是同類型的,不做。四,搜索收錄過頻繁,權重高的嚇人的同類型站,不做。 前三條很容易理解,後面的最後一條你可能迷糊,很簡單啊,你跟他做鏈接,明著是在幫你,其實,是在無情的貢獻你的關鍵詞。搜索太頻繁,權重太高,一搜,排在前面的是他,而非你。 這,這。 。 。 很難講的事情,不是嗎?

到底我們要鏈什麼? 鏈的是蜘蛛爬去,鏈的是來路推廣,那麼,是不是一定就要鏈首頁?答案是否定的,一般,我們做鏈接的時候,可以首頁給對方鏈他想要的,而自己去鏈一個自己站點獨有的,或想優化的詞,這就叫匯總效益。 套個現代名詞:長尾效益。 啥叫長尾效益,拿最低的去博取最多的 SEO

什麼叫搜索更新,怎麼才叫大更新
以前的文章裡有提過這個問題,這裡也不作詳談,只簡單提下,搜索對一個站點的考察有三個十五天的規律,第一個十五天,考察期,看看這個站穩定與否,是否值得收錄。第二個十五天,穩定增漲期,確定更新頻率,更新速度。 看要分配多少蜘蛛來抓取和拾取。 具體能吃多少,要看你站點的造化了。 搜索不是貪得無厭的,但絕對也不是小肚量。第三個十五天,穩定增長期,只要不是因為天災人禍,基本就靠譜了。 有很多人問,到底301404有什麼好處和壞處,這個很難說。 301永久重定向肯定是對搜索有利的,404單獨頁面也有助於搜索收錄,但404跳轉就奉勸各位悠著點,按照條例來講,是作弊技量,但又得看搜索心情,相對來講,權重越高成功越高。不過,被拔了可不要找我。 我可什麼也沒說。 回到問題,什麼叫大更新? 很多站長老是盯著禮拜一,四,六的更新,或者是每月的第一個工作日的更新,稱那個才叫搜索更新,其實,搜索每天都有來抓取你的站,不是說只有一,四,六來抓取。當然,抓取了,收錄不收錄是他們的事。 一般來講,搜索不會在一天更新你的站以後去更換總收錄的條數,而是七天一換總收錄數據條數。 所以,經常關注下搜索的高級選項裡的近一天收錄。大更新其實只是一個概量的重新評估過程而已 SEO

怎麼做才稱的上搜索優化
老是聽一些站長或優化專業人士講:我怎麼怎麼保證你怎麼怎麼排到怎麼怎麼頁的怎麼怎麼條,其實,優化無外乎以下幾個字:鏈,勤,廣,送。鏈,就是保證對外的友好鏈接曝光度。 勤就是勤快的去更新你的內容。 廣就是廣泛的參與熱門關鍵詞的累積和抓取。 送就是主動推送你的站點到其他搜索抓取的勤快的地方。就這麼簡單。 又有人有意見了,小樣,你說的這麼輕鬆,廣說不練假把式,你來練練! 我就要反駁了,你這不是強烈的要求我自我AD嗎?我可不敢在讓下面的評論罵我是軟文,說我是憤青,讓我去死。 我年輕,還不想死。 未來是廣闊的。 關於這四個字,又可以衍生出一篇老長的文章,畢竟,掌握了精髓,下面的就是圍繞著精髓發展的。至於作弊優化,那叫強迫主義,如果反應強烈,那咱在寫篇《怎麼去強迫搜索》的文章,這裡,咱這談的是搜索是個什麼東西。 而不是強迫是個什麼東西。 關於搜索優化的小竅門到是可以說幾個,僅供參考。一,泛域劫持。 二,關聯關鍵詞。 三,導航目錄性。 四,次熱門關鍵句。 五,隊形性關鍵詞。 六,時間性技巧

甚麼是SEO(一)?

現在很多的站長,優化愛好者都在談怎麼給自己的站點做優化,什麼叫優化? 講的白話一點,那就是利用自己站點的相關資源去換取搜索的好感而獲得很好的反饋流量。現在網絡上充斥著各種各樣的教程和優化心得。 都有可取之處,但往往和多新手朋友看了以後又覺得很茫然。 無從下手。 狐狸今天就從自己的站點的優化方式來談談搜索優化到底是個什麼東西。本文所談優化只針對中文搜索引擎百度,文章僅供討論研究,無任何學術見解。 歡迎更多朋友一起討論。

域名選擇和目錄分層
有看官問:選擇一個域名還能對搜索有啥影響啊?反正域名能用就行了,管那麼多幹啥。 看看,錯了吧,欲攻其害必先謀器,道理很簡單,想攻擊得到想要的,必須要獲得一件好的利器,沒有好的利器做起事情來肯定就會慢半拍。本人理解,ORG,NET,COM等域的搜索收錄權重比CN要好的多。業內消息人士透露,CN域名現在搜索採用的是人工審核制,來個新的,先要見見人,而不是機器,所以,CN域名收錄的很慢很慢。 慢到連自己都不能接受的程度。 有人看到這裡,就會喊:我的域名是CN的,怎麼收錄那麼快?您這不是廢話嗎? 凡事無絕對,就連下的雪都沒有一片一樣的,你又怎麼去乞求完美那? 所以那,域名選擇上,最好選擇COM類型的。關於域名長度問題,你有經濟基礎的,那就往好裡買,沒有的,那就盡量控制在五位以內,拼音或單詞最好,找不到拼音或單詞的,那混合型的最好是常見詞組,不推薦雜和型的域名 SEO

目錄分層這個東西說大可大,說小可小,大里說,那可以寫出本書,小里說,也就是幾十個字,咱又不准備寫書賺錢,咱就簡單點的說,分層遵守個原則:有序,精簡。能一層辦下來的,咱就一層辦,不要分到二層目錄三層目錄,越往下越收錄不到,這是真理,這裡也掃下盲,一層目錄,也可以說叫根目錄,二層那,就是在一層目錄下增加個/news這樣的。 是不是很簡單? 本來他就不太複雜。 三層,那就是news/news這樣。目錄命名最好使用拼音或熱門單詞,這樣有助於搜索識別。 如果你偏要問我為什麼,那我這能笑笑的說,請看開頭聲明 SEO

站點選擇和語言類型
域名咱選擇好了,目錄分層也想好了,那麼,下面缺了點什麼那?哦,對了,沒空間,咱怎麼做站? 不知道做什麼站,光個域名有啥用,旁邊有人看的不耐煩了,喊到:唉! 你這人,怎麼老說廢話? 沒辦法,我就這麼羅嗦,對不起對不起。怎麼去選擇空間這個咱就不用在這教了,大家可以百度下,很多相關的選擇技巧,實在不明白的,你也可以問我,我來告訴你怎麼選,我們現在要說的,就是怎麼在一個穩定,高速的空間上做站,前提條件必須滿足,不然,您買個空間,10天有9天不能訪問,除非李總是您家人,不然,神也救不了你。 選擇空間的時候,最起碼要知道這台服務器上有多少個站,IP有沒有被搜索處罰,有沒有屏蔽了蜘蛛抓取等簡單問題。 這些,可以翻翻我以前的文章,有提過。 實在找不到,你加我,我來告訴你。

一般來講,搜索喜歡原創性的內容,什麼是原創性?就是搜索以前從不曾接觸過的就叫原創。 這個很奇怪,反正他不管你是哪來的,只要是他沒見過的,都是叫原創。 這就好辦了,也就能明白為什麼博客類的站點在百度權重上那麼高的等級了。做站,可以掌控的範圍很廣,只要是和諧的,健康的,都可以去做,都能去做。 一般建議做點熱門的站。 又有所謂的專家反駁了,我們專家都建議做冷門的,你到好,哪里人多你叫我們往哪裡死。只不是明知道前面是死路,你還叫咱們往下跳嗎? 呵呵,難道你不明白絕處逢生的道理嗎? 滿島不穿鞋的,難道就沒有市場了? 就算全部有鞋了,難道就不需要其他種類的鞋了?做熱門,不是說做最新最流行,流行多了去了,你跟的過來嗎? 在說了,咱這是講搜索是個什麼東西,而不是講站點選擇運營,所以,只能簡單點概況,不然就喧賓奪主了。 不管什麼站,不管做什麼,都是有市場份額的。關鍵問題是:你怎麼做。 怎麼做? 下期的《運營到底是個什麼東西》裡會告訴你。 下面講講站點語言選擇。 總體來講,動態的沒有靜態的效果好,ASP,PHPASPXJSP等等的語言結構永遠沒有.HTM,.HTML,SHTML效果來的好。 最好選擇就是全站靜態化。 至於為什麼,百度下,你就知道。

站點TITLEMETA製作版權尾部處理
有人說,META已經是落伍的優化技巧了。 搜索不重視也看不起META,誰說的? 反正搜索沒有說。先來說說TITLE,搜索最看重的其實也就是開頭和結尾。 我想到了這個的開頭,可怎麼也看不到結尾。 好經典的愛情故事,標題最好長度是多少? 120個字符以內的都可以。 合計60個漢字。 一般一個詞使用一個標點隔開。至於什麼是標點,這個問題有很多人在爭議。 給個很好的理解,凡是空格了的非字母,非漢字的都可以作為標點來分割關鍵詞,常用的一般是冒號,或空格,也有使用其他方式的,選擇標點建議使用大家不常用的,比如“、”號。當然,如果你選擇使用省略號,我也不反對。 你可以實驗下,我看好你哦。 什麼? 關鍵詞密度? 那要看你怎麼理解了。 沒有收錄的站,一上來就來個40%的密度,你不死誰死? 權重穩定的站,你弄個50%,也不會死。 對了,想到了吧?凡事得講個策略。 建議新站點密度不要超過4%,抱怨太少? 又錯了吧,以後等權重上來了,咱在加不就可以了? META的問題,一般來講,新的站點的META還是有作用的,參考下TITLE製作。 談到版權尾部處理,這個說起來咱也小了說,大了,咱又要賣書了。 做到四個字就可以了。 頭尾呼應。 有頭有尾才好發展嘛。關於怎麼頭尾呼應,咱如果還有時間,專門就會說這事。 留點懸念在這裡,不然,下次還怎麼寫文章那? 您說對不

如何實施色彩管理技術?

印刷工藝的標準化管理
精心做好各道工序的標準化,數據化管理,在此基礎上建立各道工序設備 的特性文件,這樣才能進行準確的色空間轉換。

標準化:根據客戶要求的質量標準,制定承印物,油墨 等原輔材料的標準,還有 設備 、環境光源、 檢測 的標準並製定標準化管理文件。

規範化:嚴格按照作業指導書進行操作,特別關注控制點及控制要素。

數據化:在標準和規範化的基礎上進行量化,凡是可用數據表示的方方面面,都要通過測試手段,盡可能用數據表示,三者相輔相承,從而達到穩定的質量標準。

顯示器校正
顯示器是人和計算機對話的窗口,是印前色彩管理的軟打樣 工具。 是色彩控制中最重要的關鍵環節之一。 校正步驟(使用專業軟件)

設備檢測 ——開機預熱——連接測量儀器——使用校正軟件(設定目標,調節對比度、亮度、Gamma)——測量標準色塊——校正完成。

遠程數碼打樣的profile文件管理
如果製版 、印刷分屬兩地,例如:製版在深圳,印刷在昆明,數碼打樣經客戶確認後,將電子文件直接傳送到昆明,再進行數碼打樣,然後依樣印刷,此時,確保兩地的數碼打樣一致,欲達此目的,必須做到:

(1)對打印標準測試條進行檢查和控制,每週進行一次標準化校正。
(2)兩地建立的profile文件力求一致,使色彩和層次表現特性達到完全吻合。

圖像技術的管理
圖像技術處理是複制的基礎和關鍵。

根據印刷適性,做好內置的灰 平衡曲線和顏色校正量,以標準的黑白場定標,做到 掃描 的標準化還原。

認真執行灰 平衡 、階調複製、色彩校正、銳度增強的標準,力求做到:灰平衡 達到還原準確,充分利用網點階調的最佳實地密度值,達到色彩鮮豔飽和。 銳度增強,使圖像清晰、質感細膩。

根據客戶要求,修復原稿的缺陷,並進行藝術性處理。

為了使印刷品層次更加豐富,對印刷工藝階調的非線性傳遞作補償處理

2010年12月20日 星期一

識別印刷文字(二)

統計識別與結構識別的結合
結構模式識別與統計模式識別各有優缺點,隨著我們對於兩種方法認識的深入,這兩種方法正在逐漸融合。網格化特徵就是這種結合的產物。 字符圖像被均勻地或非均勻地劃分為若干區域,稱之為“網格”。 在每一個網格內尋找各種特徵,如筆劃點與背景點的比例,交叉點、筆劃端點的個數,細化後的筆劃的長度、網格部分的筆劃密度等等。特徵的統計以網格為單位,即使個別點的統計有誤差也不會造成大的影響,增強了特徵的抗干擾性。 這種方法正得到日益廣泛的應用。

人工神經網絡
人工神經網絡(Artificial Neural Network,以下稱ANN)是一種模擬人腦神經元細胞的網絡結構,它是由大量簡單的基本元件-神經元相互連接成的自適應非線性動態系統 。 雖然目前對於人腦神經元的研究還很不完善,我們無法確定ANN的工作方式是否與人腦神經元的運作方式相同,但是ANN正在吸引著越來越多的注意力。

ANN中的各個神經元的結構與功能較為簡單,但大量的簡單神經元的組合卻可以非常複雜,我們從而可以通過調整神經元間的連接係數完成分類、識別等複雜的功能。 ANN還具有一定的自適應的學習與組織能力,組成網絡的各個細胞可以並行工作,並可以通過調整“細胞”間的連接係數完成分類、識別等複雜的功能。這是馮·諾依曼的計算機無法做到的

ANN可以作為單純的分類器(不包含特徵提取,選擇),也可以用作功能完善的分類器。 在英文字母與數字的識別等類別數目較少的分類問題中,常常將字符的圖像點陣直接作為神經網絡的輸入。不同於傳統的模式識別方法,在這種情況下,神經網絡所提取的特徵並無明顯的物理含義,而是儲存在神經物理中各個神經元的連接之中,省去了由人來決定特徵提取的方法與實現過程。從這個意義上來說,ANN提供了一種字符自動識別的可能性。 此外,ANN分類器是一種非線性的分類器,它可以提供我們很難想像到的複雜的類間分界面,這也為複雜分類問題的解決提供了一種可能的解決方式。

目前,在對於象漢字識別這樣超多類的分類問題,ANN的規模會很大,結構也很複雜,現在還遠未達到實用的程度。 其中的原因很多,主要的原因還在於我們對人腦的工作方式以及ANN本身的許多問題還沒有找到完美的答案

識別印刷文字 (一)

識別方法是整個 系統 的核心。 用於漢字識別的模式識別方法可以大致分為結構模式識別、統計模式識別及兩者的結合。下面分別進行介紹。

結構模式識別
漢字是一種特殊的模式,其結構雖然比較複雜,但具有相當嚴格的規律性。換言之,漢字圖形含有豐富的結構信息,可以設法提取含有這種信息的結構特徵及其組字規律,作為識別漢字的依據,這就是結構模式識別。

結構模式識別是早期漢字識別研究的主要方法。其主要出發點是漢字的組成結構。 從漢字的構成上講,漢字是由筆劃(點橫豎撇捺等)、偏旁部首構成的;還可以認為漢字是由更小的結構基元構成的。由這些結構基元及其相互關係完全可以精確地對漢字加以描述,就像一篇文章由單字、詞、短語和句子按語法規律所組成一樣。 所以這種方法也叫句法模式識別。 識別時,利用上述結構信息及句法分析的方法進行識別,類似一個邏輯推理器。

用這種方法來描述漢字字形結構在理論上是比較恰當的,其主要優點在於對字體變化的適應性強,區分相似字能力強;但是,在實際應用中,面臨的主要問題是抗干擾能力差,因為在實際得到的文本圖像中存在著各種干擾,如傾斜,扭曲,斷裂,粘連,紙張上的污點,對比度差等等。這些因素直接影響到結構基元的提取,假如結構基元不能準確地得到,後面的推理過程就成了無源之水。 此外結構模式識別的描述比較複雜,匹配過程的複雜度因而也較高。 所以在印刷體漢字識別領域中,純結構模式識別方法已經逐漸衰落,句法識別的方法正日益受到挑戰。

統計模式識別
統計決策論發展較早,理論也較成熟。其要點是提取待識別模式的的一組統計特徵,然後按照一定準則所確定的決策函數進行分類判決。

漢字的統計模式識別是將字符點陣看作一個整體,其所用的特徵是從這個整體上經過大量的統計而得到的。統計特徵的特點是抗干擾性強,匹配與分類的算法簡單,易於實現。 不足之處在於細分能力較弱,區分相似字的能力差一些。 常見的統計模式識別方法有:

(1) 模板匹配。 模板匹配並不需要特徵提取過程。 字符的圖像直接作為特徵,與字典中的模板相比,相似度最高的模板類即為識別結果。這種方法簡單易行,可以並行處理;但是一個模板只能識別同樣大小、同種字體的字符,對於傾斜、筆劃變粗變細均無良好的適應能力

(2)利用變換特徵的方法。 對字符圖像進行二進制變換(Walsh, Hardama變換)或更複雜的變換(Karhunen-Loeve, Fourier,CosineSlant變換等),變換後的特徵的維數大大降低。 但是這些變換不是旋轉不變的,因此對於傾斜變形的字符的識別會有較大的偏差。二進制變換的計算雖然簡單,但變換後的特徵沒有明顯的物理意義。 KL變換雖然從最小均方誤差角度來說是最佳的,但是運算量太大,難以實用。總之,變換特徵的運算複雜度較高。

(3)投影直方圖法。 利用字符圖像在水平及垂直方向的投影作為特徵。 該方法對傾斜旋轉非常敏感,細分能力差。

(4)幾何矩(Geometric Moment)特徵。 MK Hu提出利用矩不變量作為特徵的想法,引起了研究矩的熱潮。 研究人員又確定了數十個移不變、比例不變的矩。我們都希望找到穩定可靠的、對各種干擾適應能力很強的特徵,在幾何矩方面的研究正反映了這一願望。 以上所涉及到的幾何矩均在線性變換下保持不變。 但在實際環境中,很難保證線性變換這一前提條件。

(5)Spline曲線近似與傅立葉描繪子(Fourier Descriptor)。 兩種方法都是針對字符圖像輪廓的。 Spline曲線近似是在輪廓上找到曲率大的折點,利用Spline曲線來近似相鄰折點之間的輪廓線。 而傅立葉描繪子則是利用傅立葉函數模擬封閉的輪廓線,將傅立葉函數的各個係數作為特徵的。前者對於旋轉很敏感。 後者對於輪廓線不封閉的字符圖像不適用,因此很難用於筆劃斷裂的字符的識別。

(6)筆劃密度特徵。 筆劃密度的描述有許多種,這裡採用如下定義:字符圖像某一特定範圍的筆劃密度是在該範圍內,以固定掃描 次數沿水平、垂直或對角線方向 掃描 時的穿透次數。 這種特徵描述了漢字的各部分筆劃的疏密程度,提供了比較完整的信息。 在圖像質量可以保證的情況下,這種特徵相當穩定。在脫機手寫體的識別中也經常用到這種特徵。 但是在字符內部筆劃粘連時誤差較大

(7)外圍特徵。 漢字的輪廓包含了豐富的特徵,即使在字符內部筆劃粘連的情況下,輪廓部分的信息也還是比較完整的。這種特徵非常適合於作為粗分類的特徵。

(8)基於微結構特徵的方法。 這種方法的出發點在於,漢字是由筆劃組成的,而筆劃是由一定方向,一定位置關係與長寬比的矩形段組成的。這些矩形段則稱為微結構。 利用微結構及微結構之間的關係組成的特徵對漢字進行識別,尤其是對於多體漢字的識別,獲得了良好的效果。 其不足之處是,在內部筆劃粘連時,微結構的提取會遇到困難。

(9)特徵點特徵。 早在1957年,Solatron Electronics Group公司發布了第一個利用窺視孔(peephole)方法的OCR 系統 。 其主要思想是利用字符點陣中一些有代表性的黑點(筆劃),白點(背景)作為特徵來區分不同的字符。後有人又將這種方法運用到漢字識別中,對其中的黑點又增加了屬性的描述,如端點、折點、交叉點等。 也獲得了比較好的效果。 其特點是對於內部筆劃粘連的字符的識別的適應性較強,直觀性好,但是不易表示為矢量形式,不適合作為粗分類的特徵,匹配難度大

當然還有許多種不同的統計特徵,諸如圖描述法、包含配選法、脫殼透視法、差筆劃法等,這裡就不一一介紹了

打造關鍵字技巧

對與百度的分詞研究原來也沒有在意,但有一次我在作優化時無意中發現一個詞也就是差了一個字,結果排名大不相同。我作的是二手房的關鍵詞,但是我的頁面上的關鍵詞設置卻是二手房源,可能有的朋友會說,這個沒什麼問題啊,二手房源不是包含了二手房這個關鍵詞嗎? 如果沒有仔細對百度的分詞進行研究,大家可能看不出這兩個詞會有什麼區別,不過大家只要稍微留心一下搜索出來的結果,就可以看出端倪了,百度在對二手房和二手房源這兩個詞分詞出來是不一樣的,百度自己建立有自己的詞庫,所以他會把二手房這個詞當作一個整體,但是對於二手房源這個詞,百度則拆分成了二手和房源兩個詞,自然別人在搜索二手房這個關鍵詞的時候就找不到我的頁面了。通過這個小細節,我覺得有必要對百度的分詞進行一下深入的研究,我大概地總結出了以下這麼幾點:

百度分詞是根據內容中,第一次出現關鍵詞相關詞為標準來分的。例如今日新開熱血江湖sf這個詞如果你的正文中第一個出現的是今日這個詞,那麼你的頁面上的關鍵詞就會被拆分成今日和新開熱血江湖sf兩個詞,標題中一定要包含關鍵詞,但不一定要完全匹配,但內容中出現的關鍵詞是要跟百度分詞完全匹配的,在完全匹配中又會根據文件URL路徑的深度來進行排序,在關鍵詞都完全匹配的情況下,比如說目錄比文件有優先權,根目錄下的文件要比二級目錄下的文件有優先權,完全匹配的會排在前面,然後再是部分匹配的。

在關鍵詞沒有完全匹配的情況下,如果有分詞,比如說:遊覽器下載
這個關鍵詞,有一個網頁裡第一次出現的關鍵詞是遊覽器,並且有較高的關鍵詞密度,但是這個網頁中卻沒有下載這個關鍵詞 SEO

而另一個網頁裡第一次出現的關鍵詞是下載,那麼這個網頁的關鍵詞就會被拆分成遊覽器下載兩個詞,雖然第二個網頁裡包含有遊覽器下載但是第一個網頁還是會排在第二個網頁的前面,這說明關鍵詞的前面部分是最重要的。

關鍵詞第一部分出現的頻率是排名的關鍵,比如說遊覽器下載,如果兩個網頁都沒有完全匹配,都是含有兩個分詞,那麼遊覽器這個分詞密度高的網頁將會排在前面。

如果完全匹配,但是關鍵詞第一出現是在頁面內容的最後面部分,那麼這個網頁的排名將比前面這些頁面還要低。所以關鍵詞儘早在內容中出現是非常重要的。

百度根據第一次出現的相關關鍵詞切詞,如果第一次出現的相關關鍵詞是關鍵詞的尾部,那麼就從後面開始切,如果是前面部分就從前面開始切,也就是根據網頁內容的順序和反序進行分詞,順序的時候就是以關鍵詞前半部分為起點,反序的時候就是以關鍵詞的後半部分為起點。例如:今日新開熱血江湖sf這個關鍵詞,如果你的網頁中第一次出現的關鍵詞是熱血江湖sf,那麼你這個頁面的關鍵詞會被拆分成熱血江湖sf和今日新開兩個詞。 SEO

可以根據百度的切詞原理,自己來選擇比較好作的關鍵詞頭部(也就是調整你網頁內容中第一次出現的關鍵詞)。也就是進行人為切詞,百度會進行從前往後判斷,也會從後往前面切。

如果切詞出現前半部分和後半部分有重複的話,那麼有重複的會比沒重複的排名低,但如果都有重複那麼就是根據前半部分的密度來判斷。

例如:今日新開熱血江湖sf 如果被切成今日新開熱血江湖|新開熱血江湖sf (這樣切出來的詞前半部分太長,所以排名不利)那麼排名肯定要比切成今日新開|熱血江湖|sf 的排名差

如果在關鍵詞沒有完全匹配的情況下,並且關鍵詞出現得不完整,比如說:今日新開熱血江湖sf,網頁的內容包含的關鍵詞中如果沒有今日這個詞,那麼切詞就會從新開開始,但是這樣的網頁都會排在比較靠後了,因為你關鍵詞的前部分都沒有包含

缺詞的情況下下,如果與不缺詞的網頁進行比較的話,那還是根據切詞前部分的密度進行排序,也就是說按照切詞的順序,如果切出來的詞,前部分的密度比後部分的密度比例是關鍵,例如一個網頁中,前部分與後部分關鍵詞的比例是12,另外一個網頁的比例是14,那麼當然前面的那個網頁排名要靠前。 同樣在缺詞的情況下,切出來前詞短的排名有優勢

如果不缺詞,但是關鍵詞後面部分比前面部分先出現,例如今日新開熱血江湖sf  sf這個詞先出現,但是今日新開熱血江湖這個詞的密度又不高的話,那麼排名會比那些缺詞的還要靠後

同樣是後詞出現在前面,但是前詞與後詞的比例是關鍵,例如一個網頁中包含有sf 今日新開熱血江湖這樣兩個詞,比例為11另外一個網頁包含的是新開熱血江湖 sf 今日新開 比例是211,那麼前面的那個網頁排名有優勢,關鍵詞的數量不是關鍵,出現的位置,以及分詞的比例是非常關鍵的。越靠後的分詞佔的比例越多,排名越不利

關鍵詞在正文中出現的位置過於靠後也是不利的,主詞的密度太低也不利,前面的網頁情況都是在主詞密度差不多的情況下進行比較的。

我研究出來的也就查不多這麼多了,不知道大家能不能看懂,如果能看懂的會,你就可以根據百度的分詞去調整自己網頁的關鍵詞權重設計,這樣就可以避免熱詞的競爭,但是又能作到熱詞