導航:首頁 > 源碼編譯 > 十大演算法超鏈分析

十大演算法超鏈分析

發布時間:2022-07-19 07:14:27

⑴ 如何通過SEO讓流量「飛」起來

由於,搜索引擎不斷在更新。因此,我們並不保證這些SEO建議的時效性。只能說是目前對於外貿網站來說,會起到一定的幫助。以下為思億歐對外貿網站SEO的建議,相信按此改進會讓您的網站流量飛起來。
一、英文B2C網站的結構優化:
網站結構是SEO中比較重要的一點,網站結構的設計需要根據網站規模的大小來定。它沒有一個既定通用的模式。網站結構設計的好壞會直接影響網站的PR值傳遞、網頁排名的提升,還有搜索引擎收錄等問題。
網站結構一般有兩種:1、樹型;2、扁平型。採用樹型網站結構的站點,佔多數。主要是因為這種類型的網站結構具有比較清晰的層次,邏輯關系。即從高到低,從總到細,一層層的細分。
扁平型的網站結構,就如http://www.seo.com.cn一樣。
大型網站數據量在幾萬、幾十萬級別的,比較適合應用樹型網站結構,因為條理清楚,邏輯清晰。
中小網站數據量在幾百,幾千級別的,比較適合用扁平型網站結構,文件數量不多的站點。這兩種網站結構對於一些長尾關鍵詞的競爭有明顯優勢。同時也因為網站的規模比較小,這種網站結構也更利於PR值的傳遞。
不管是這其中哪種網站結構,基本上不會影響到網站的收錄。因為現在搜索引擎的蜘蛛程序也已經相當高級。
我們需要做的就是布置合理的、清晰的網站結構,讓搜索引擎的蜘蛛能夠順暢的爬行到網站中的任何一個網頁即可。
二、英文B2C網站的URL優化:
即每個網頁的網址、路徑。網站文件的目錄結構直接體現於URL。清晰簡短的目錄結構和規范的命名不僅有利干用戶體驗和網址傳播,要是搜索引擎友好的體現。
網站的URL從網站規劃起,當固定了之後,就不應該再改變了。因為每一個URL當被搜索引擎收錄之後,就在慢慢的積累信用,也就是域名信任度。所以,如果能夠讓URL不發生變化的話就千萬不要去改動URL。
一些對搜索引擎不太了解的朋友常說,網站的URL太長了,搜索引擎好難收錄,其實這是一個錯誤的觀點。從現在的搜索引擎演算法來看,對於一些動態的URL,搜索引擎也能夠索引自如了。
對URL優化的幾個建議:
1、要保證URL不發生變化。
2、URL能靜態化的盡量靜態化,或者偽靜態。
3、每個網頁的URL盡量簡單好記,有含義,別太長。
4、通過幾個單詞可以體現出網頁的意思。
5、如果必須為動態URL,別夾帶太多的參數。
三、英文B2C網站的內容優化:
網站內容是搜索引擎優化中重要的優化點,盡管即使不是為了搜索引擎優化的話,網站內容也是一個網站的核心。
因為搜索引擎並不能夠很好的索引和理解圖片、Flash等多媒體信息的含義。所以文字信息,是被搜索引擎當作是一個網頁或網站中的核心。搜索引擎分析網頁文本內容的核心大意,判斷這些文章的質量,最終進行搜索排序。所以,內容有40%的因素可以決定排名的高低。
我們簡單將文本內容歸類為:權威性,信任度,唯一性,完整性等4個方面。搜索引擎判斷一段內容的質量,基本會從這4個方面進行判斷。
外貿網站通常都會有很多的產品頁面,而這些產品的信息又很大部分是差不多的。如果要降低頁面的重復度的話,那就要盡可能地把產品的重要信息,優先顯示在頁面的頂部。例如:
1、標題上調用出產品的重要屬性。即:產品名+重要屬性的組合方式。
2、網頁描述中結合多個產品屬性進行優化。
3、給產品圖片增加alt=」」屬性。例如:alt=」銀灰色諾基亞N82手機」
4、給產品寫200-300字左右的介紹。
5、多鼓勵用戶參與網站產品的評論,寫的越詳細越好。網站用戶的評論,也是豐富產品信息的主要方式。
四、英文B2C網站的關鍵詞分析:
關鍵詞,在SEO中扮演著重要的角色。其重要程度不亞於網站內容、內部鏈接與外部鏈接等因素。時至今日的SEO行業,各個企業在各個搜索引擎上已經展開了激烈的戰斗。除了比拼各自的SEO團隊實力、資源以及SEO策略外,還有重要的一點就是關鍵詞策略。所謂的關鍵詞策略就是如何選擇有效的關鍵詞以及如何進行關鍵詞部署。
每個SEO都會把關鍵詞分為三、六、九等,例如常說一些,一級關鍵詞、二級關鍵詞、長尾關鍵詞。將所有的關鍵詞分等級有助你清晰的知道,哪個等級的關鍵詞用什麼樣的網站頁面優化的SEO策略去進行優化。
在選擇關鍵詞的問題上,一般都會認為是一件很簡單的事,其實不然。如果不注意其中的技巧,往往會誤入歧途,造成投入和產出不成正比。在選擇關鍵詞時企業應該注意以下幾方面。
(1)選擇與網站內容相關的關鍵詞。即便是一個對關鍵詞選擇技巧一無所知的人,常識也會讓他避免在銷售家電時卻選擇諸如「食品」之類的毫不相乾的關鍵詞。同樣道理,如果靠不相關的關鍵詞吸引來的用戶,對企業產品/服務的銷售起不到任何作用。
(2)選擇具體的關鍵詞。關鍵詞覆蓋范圍並不是越寬越好,因為意義越寬泛的關鍵詞,其對應的信息需求種類也越多。有的用戶以該關鍵詞搜索的目的可能是要購買相關的產品,但更多的也許是其他方面的需求,並不一定會導致消費行為。
這一點在關鍵詞競價排名當中體現得尤為突出。由於企業必須為用戶的沒一次點擊付費,企業當然是希望盡量只為那些能夠轉化成企業客戶的人支付點擊費,而含義寬泛的關鍵詞卻恰好會產生相反的結果。
提供幾個建議:
1.https://adwords.google.cn/select/KeywordToolExternal Google關鍵詞工具。
2、從同行網站中尋找相關關鍵詞。
五、英文B2C網站的鏈接相關性優化:
相關性是搜索引擎排序的重要參考因素,一個網站、網頁的相關性越高,那麼它的排名可能就越高。大型網站信息量大,如何能做好相關性優化是SEO重點。對於相關性的搜索引擎工作原理,相信大部分的SEOER對於都缺乏了解。杭州思億歐致力於搜索引擎技術中的相關性排名技術研究,以有多年的時間。作為職業SEO對於搜索引擎演算法的研究是必須的,雖然說,我們不可能知道搜索引擎演算法的全部。但是我們應該盡可能掌握搜索引擎演算法的主流方向。
現階段的相關度排序技術主要有以下幾種:一是基於傳統信息檢索技術的方式,它主要利用關鍵詞本身在文檔中的重要程度來對文檔與用戶查詢要求的相關度做出測量,如利用網頁中關鍵詞出現的頻率和位置。一般而言,檢索出的網頁文檔中含有的查詢關鍵詞個數越多,相關性越大,並且此關鍵詞的區分度越高;同時,查詢關鍵詞如果出現在諸如標題欄位等重要位置上,則比出現在正文的相關度要大。二是超鏈分析技術,使用此技術的代表性搜索引擎有Google和Bai等。和前者相比,它以網頁被認可的重要程度作為檢索結果的相關度排序依據。相關度排序技術主要依賴於超鏈分析技術實現。超鏈分析技術可以提供多種功能,其中的主要功能就是解決結果網頁的相關度排序問題。它主要是利用網頁間存在的各種超鏈指向,對網頁之間的引用關系進行分析,依據網頁鏈人數的多少計算該網頁的重要度權值。一般認為,如果A網頁有超鏈指向B網頁,相當於A網頁投了B 網頁一票,即A認可了B網頁的重要性。深入理解超鏈分析演算法,可以根據鏈接結構把整個Web網頁文檔集看成一個有向的拓撲圖,其中每個網頁都構成圖中的一個結點,網頁之間的鏈接就構成了結點間的有向邊,按照這個思想,可以根據每個結點的出度和入度來評價網頁的重要性。
如何優化相關性,建議:盡可能地從相關類型的網站中獲得鏈接。不管是首頁、頻道頁、列表頁還是文章頁都好。只要是相關性的鏈接,鏈接的價值都不會低。當然來自於首頁的鏈接,肯定是會比其他頁面的價值要高。
六、英文B2C網站的標題優化:
標題雖然只有簡單的十多個文字,但它確實是文章精髓中的精髓。標題好比商品價碼標簽。用它來向你的潛在買主打招呼。我們並不主張純粹意義上的只從SEO的角度去優化網頁的標題。
標題的優化應該是結合SEO與客戶的實際營銷需求而制定,標題若能引起讀者的好奇心,他們很可能就會去讀你的廣告的正文。因此,在標題結尾前,你應該寫點誘人繼續往下讀的東西進去。避免使用有字無實的瞎標題,就是那種讀者不讀後面的正文就不明其意的標題,而大多數人在遇到這種標題時是不會去讀後面的正文的。
深度了解客戶的營銷需求,結合網路用戶在搜索引擎上的行為習慣,才能夠最大化發揮網頁標題的作用。讓網頁發揮營銷的價值,為客戶捕捉更多的潛在用戶。所以,標題看似簡單的十多個文字,但其實是所有優化的重中之重。我們提倡優化與營銷結合,只有這樣才能夠發揮SEO的作用。
提供以下幾個建議:
1、產品終端頁標題:產品名_分類名_網站名,絕大部分是這樣的格式。如果產品太長的時候,可以省去分類名。同時發現大部分的產品名都太長,建議外貿網站的SEO可以重點突出下產品名的核心關鍵詞。去掉沒有必要的文字。
2、列表頁標題:分類名_網站名,列表頁的標題基本上是這種格式。列表頁基本的內容都是一種產品的分類。在標題長度允許的情況下,結合營銷手段,在標題中經常更新推薦1、2款產品。沒有必要只是單獨考慮SEO。
3、頻道頁標題:頻道名_網站名。頻道頁通常是一個大分類的概括。建議在頻道頁的標題上增加相關的1、2個熱門關鍵詞。
4、首頁標題:通常格式為:核心關鍵詞_簡短描述。針對1、2個核心關鍵詞進行優化。

⑵ WEB超鏈分析演算法的WEB超鏈分析演算法

搜索引擎Google最初是斯坦福大學的博士研究生Sergey Brin和Lawrence Page實現的一個原型系統[2],現在已經發展成為WWW上最好的搜索引擎之一。Google的體系結構類似於傳統的搜索引擎,它與傳統的搜索引擎最大的不同處在於對網頁進行了基於權威值的排序處理,使最重要的網頁出現在結果的最前面。Google通過PageRank元演算法計算出網頁的PageRank值,從而決定網頁在結果集中的出現位置,PageRank值越高的網頁,在結果中出現的位置越前。
2.1.1PageRank演算法
PageRank演算法基於下面2個前提:
前提1:一個網頁被多次引用,則它可能是很重要的;一個網頁雖然沒有被多次引用,但是被重要的網頁引用,則它也可能是很重要的;一個網頁的重要性被平均的傳遞到它所引用的網頁。這種重要的網頁稱為權威(Authoritive)網頁。
前提2:假定用戶一開始隨機的訪問網頁集合中的一個網頁,以後跟隨網頁的向外鏈接向前瀏覽網頁,不回退瀏覽,瀏覽下一個網頁的概率就是被瀏覽網頁的PageRank值。
簡單PageRank演算法描述如下:u是一個網頁,是u指向的網頁集合,是指向u的網頁集合,是u指向外的鏈接數,顯然=| | ,c是一個用於規范化的因子(Google通常取0.85),(這種表示法也適用於以後介紹的演算法)則u的Rank值計算如下:
這就是演算法的形式化描述,也可以用矩陣來描述此演算法,設A為一個方陣,行和列對應網頁集的網頁。如果網頁i有指向網頁j的一個鏈接,則,否則=0。設V是對應網頁集的一個向量,有V=cAV,V為A的特徵根為c的特徵向量。實際上,只需要求出最大特徵根的特徵向量,就是網頁集對應的最終PageRank值,這可以用迭代方法計算。
如果有2個相互指向的網頁a,b,他們不指向其它任何網頁,另外有某個網頁c,指向a,b中的某一個,比如a,那麼在迭代計算中,a,b的rank值不分布出去而不斷的累計。如下圖:
為了解決這個問題,Sergey Brin和Lawrence Page改進了演算法,引入了衰退因子E(u),E(U)是對應網頁集的某一向量,對應rank的初始值,演算法改進如下:
其中,=1,對應的矩陣形式為V』=c(AV』+E)。
另外還有一些特殊的鏈接,指向的網頁沒有向外的鏈接。PageRank計算時,把這種鏈接首先除去,等計算完以後再加入,這對原來計算出的網頁的rank值影響是很小的。
Pagerank演算法除了對搜索結果進行排序外,還可以應用到其它方面,如估算網路流量,向後鏈接的預測器,為用戶導航等[2]。
2.1.2演算法的一些問題
Google是結合文本的方法來實現PageRank演算法的[2],所以只返回包含查詢項的網頁,然後根據網頁的rank值對搜索到的結果進行排序,把rank值最高的網頁放置到最前面,但是如果最重要的網頁不在結果網頁集中,PageRank演算法就無能為力了,比如在 Google中查詢search engines,像Google,Yahoo,Altivisa等都是很重要的,但是Google返回的結果中這些網頁並沒有出現。 同樣的查詢例子也可以說明另外一個問題,Google,Yahoo是WWW上最受歡迎的網頁,如果出現在查詢項car的結果集中,一定會有很多網頁指向它們,就會得到較高的rank值, 事實上他們與car不太相關。
在PageRank演算法的基礎上,其它的研究者提出了改進的PageRank演算法。華盛頓大學計算機科學與工程系的Matthew Richardson和Pedro Dominggos提出了結合鏈接和內容信息的PageRank演算法,去除了PageRank演算法需要的前提2,增加考慮了用戶從一個網頁直接跳轉到非直接相鄰的但是內容相關的另外一個網頁的情況[3]。斯坦大學計算機科學系Taher Haveliwala提出了主題敏感(Topic-sensitive)PageRank演算法[4]。斯坦福大學計算機科學系Arvind Arasu等經過試驗表明,PageRank演算法計算效率還可以得到很大的提高[22]。 PageRank演算法中對於向外鏈接的權值貢獻是平均的,也就是不考慮不同鏈接的重要性。而WEB的鏈接具有以下特徵:
1.有些鏈接具有注釋性,也有些鏈接是起導航或廣告作用。有注釋性的鏈接才用於權威判斷。
2.基於商業或競爭因素考慮,很少有WEB網頁指向其競爭領域的權威網頁。
3.權威網頁很少具有顯式的描述,比如Google主頁不會明確給出WEB搜索引擎之類的描述信息。
可見平均的分布權值不符合鏈接的實際情況[17]。J. Kleinberg[5]提出的HITS演算法中引入了另外一種網頁,稱為Hub網頁,Hub網頁是提供指向權威網頁鏈接集合的WEB網頁,它本身可能並不重要,或者說沒有幾個網頁指向它,但是Hub網頁確提供了指向就某個主題而言最為重要的站點的鏈接集合,比一個課程主頁上的推薦參考文獻列表。一般來說,好的Hub網頁指向許多好的權威網頁;好的權威網頁是有許多好的Hub網頁指向的WEB網頁。這種Hub與Authoritive網頁之間的相互加強關系,可用於權威網頁的發現和WEB結構和資源的自動發現,這就是Hub/Authority方法的基本思想。
2.2.1HITS演算法
HITS(Hyperlink-Inced Topic Search)演算法是利用Hub/Authority方法的搜索方法,演算法如下:將查詢q提交給傳統的基於關鍵字匹配的搜索引擎.搜索引擎返回很多網頁,從中取前n個網頁作為根集(root set),用S表示。S滿足如下3個條件:
1.S中網頁數量相對較小
2.S中網頁大多數是與查詢q相關的網頁
3.S中網頁包含較多的權威網頁。
通過向S中加入被S引用的網頁和引用S的網頁將S擴展成一個更大的集合T.
以T中的Hub網頁為頂點集Vl,以權威網頁為頂點集V2,Vl中的網頁到V2中的網頁的超鏈接為邊集E,形成一個二分有向圖SG=(V1,V2,E)。對V1中的任一個頂點v,用h(v)表示網頁v的Hub值,對V2中的頂點u,用a(u)表示網頁的Authority值。開始時h(v)=a(u)=1,對u執行I操作修改它的a(u),對v執行O操作修改它的h(v),然後規范化a(u),h(v),如此不斷的重復計算下面的操作I,O,直到a(u),h(v)收斂。(證明此演算法收斂可見)
I 操作: (1) O操作: (2)
每次迭代後需要對a(u),h(v)進行規范化處理:
式(1)反映了若一個網頁由很多好的Hub指向,則其權威值會相應增加(即權威值增加為所有指向它的網頁的現有Hub值之和)。式(2)反映了若一個網頁指向許多好的權威頁,則Hub值也會相應增加(即Hub值增加為該網頁鏈接的所有網頁的權威值之和)。
和PageRank演算法一樣,可以用矩陣形式來描述演算法,這里省略不寫。
HITS演算法輸出一組具有較大Hub值的網頁和具有較大權威值的網頁。
2.2.2HITS的問題
HITS演算法有以下幾個問題:
1.實際應用中,由S生成T的時間開銷是很昂貴的,需要下載和分析S中每個網頁包含的所有鏈接,並且排除重復的鏈接。一般T比S大很多,由T生成有向圖也很耗時。需要分別計算網頁的A/H值,計算量比PageRank演算法大。
2.有些時候,一主機A上的很多文檔可能指向另外一台主機B上的某個文檔,這就增加了A上文檔的Hub值和B上文檔的Authority,相反的情況也如此。HITS是假定某一文檔的權威值是由不同的單個組織或者個人決定的,上述情況影響了A和B上文檔的Hub和Authority值[7]。
3.網頁中一些無關的鏈接影響A,H值的計算。在製作網頁的時候,有些開發工具會自動的在網頁上加入一些鏈接,這些鏈接大多是與查詢主題無關的。同一個站點內的鏈接目的是為用戶提供導航幫助,也與查詢主題不甚無關,還有一些商業廣告,贊助商和用於友情交換的鏈接,也會降低HITS演算法的精度[8]。
4.HITS演算法只計算主特徵向量,也就是只能發現T集合中的主社區(Community),忽略了其它重要的社區[12]。事實上,其它社區可能也非常重要。
5.HITS演算法最大的弱點是處理不好主題漂移問題(topic drift)[7,8],也就是緊密鏈接TKC(Tightly-Knit Community Effect)現象[8]。如果在集合T中有少數與查詢主題無關的網頁,但是他們是緊密鏈接的,HITS演算法的結果可能就是這些網頁,因為HITS只能發現主社區,從而偏離了原來的查詢主題。下面討論的SALSA演算法中解決了TKC問題。
6.用HITS進行窄主題查詢時,可能產生主題泛化問題[5,9],即擴展以後引入了比原來主題更重要的新的主題,新的主題可能與原始查詢無關。泛化的原因是因為網頁中包含不同主題的向外鏈接,而且新主題的鏈接具有更加的重要性。
2.2.3HITS的變種
HITS演算法遇到的問題,大多是因為HITS是純粹的基於鏈接分析的演算法,沒有考慮文本內容,繼J. Kleinberg提出HITS演算法以後,很多研究者對HITS進行了改進,提出了許多HITS的變種演算法,主要有:
2.2.3.1Monika R. Henzinger和Krishna Bharat對HITS的改進
對於上述提到的HITS遇到的第2個問題,Monika R. Henzinger和Krishna Bharat在[7]中進行了改進。假定主機A上有k個網頁指向主機B上的某個文檔d,則A上的k個文檔對B的Authority貢獻值總共為1,每個文檔貢獻1/k,而不是HITS中的每個文檔貢獻1,總共貢獻k。類似的,對於Hub值,假定主機A上某個文檔t指向主機B上的m個文檔,則B上m個文檔對t的Hub值總共貢獻1,每個文檔貢獻1/m。I,O操作改為如下
I 操作:
O操作:
調整後的演算法有效的解決了問題2,稱之為imp演算法。
在這基礎上,Monika R. Henzinger和Krishna Bharat還引入了傳統信息檢索的內容分析技術來解決4和5,實際上也同時解決了問題3。具體方法如下,提取根集S中的每個文檔的前1000個詞語,串連起來作為查詢主題Q,文檔Dj和主題Q的相似度按如下公式計算:
,,=項i在查詢Q中的出現次數,
=項i在文檔Dj中的出現次數,IDFi是WWW上包含項i的文檔數目的估計值。
在S擴展到T後,計算每個文檔的主題相似度,根據不同的閾值(threshold)進行刷選,可以選擇所有文檔相似度的中值,根集文檔相似度的中值,最大文檔相似度的分數,如1/10,作為閾值。根據不同閾值進行處理,刪除不滿足條件的文檔,再運行imp演算法計算文檔的A/H值,這些演算法分別稱為med,startmed,maxby10。
在此改進的演算法中,計算文檔的相似度時間開銷會很大。
2.2.3.2ARC演算法
IBM Almaden研究中心的Clever工程組提出了ARC(Automatic Resource Compilation)演算法,對原始的HITS做了改進,賦予網頁集對應的連結矩陣初值時結合了鏈接的錨(anchor)文本,適應了不同的鏈接具有不同的權值的情況。
ARC演算法與HITS的不同主要有以下3點:
1.由根集S擴展為T時,HITS只擴展與根集中網頁鏈接路徑長度為1的網頁,也就是只擴展直接與S相鄰的網頁,而ARC中把擴展的鏈接長度增加到2,擴展後的網頁集稱為增集(Augment Set)。
2.HITS演算法中,每個鏈接對應的矩陣值設為1,實際上每個鏈接的重要性是不同的,ARC演算法考慮了鏈接周圍的文本來確定鏈接的重要性。考慮鏈接p->q,p中有若干鏈接標記,文本1<a href=」q」>錨文本</a>文本2,設查詢項t在文本1,錨文本,文本2,出現的次數為n(t),則w(p,q)=1+n(t)。文本1和文本2的長度經過試驗設為50位元組[10]。構造矩陣W,如果有網頁i->j ,Wi,j=w(i,j),否則Wi,j=0,H值設為1,Z為W的轉置矩陣,迭代執行下面3個的操作:
(1)A=WH (2)H=ZA (3)規范化A,H
3.ARC演算法的目標是找到前15個最重要的網頁,只需要A/H的前15個值相對大小保持穩定即可,不需要A/H整個收斂,這樣2中迭代次數很小就能滿足,[10]中指出迭代5次就可以,所以ARC演算法有很高的計算效率,開銷主要是在擴展根集上。
2.2.3.3Hub平均( Hub-Averaging-Kleinberg)演算法
Allan Borodin等在[11]指出了一種現象,設有M+1個Hub網頁,M+1個權威網頁,前M個Hub指向第一個權威網頁,第M+1個Hub網頁指向了所有M+1個權威網頁。顯然根據HITS演算法,第一個權威網頁最重要,有最高的Authority值,這是我們希望的。但是,根據HITS,第M+1個Hub網頁有最高的Hub值,事實上,第M+1個Hub網頁既指向了權威值很高的第一個權威網頁,同時也指向了其它權威值不高的網頁,它的Hub值不應該比前M個網頁的Hub值高。因此,Allan Borodin修改了HITS的O操作:
O操作: ,n是(v,u)的個數
調整以後,僅指向權威值高的網頁的Hub值比既指向權威值高又指向權威值低的網頁的Hub值高,此演算法稱為Hub平均(Hub-Averaging-Kleinberg)演算法。
2.2.3.4閾值(Threshhold—Kleinberg)演算法
Allan Borodin等在[11]中同時提出了3種閾值控制的演算法,分別是Hub閾值演算法,Authority閾值演算法,以及結合2者的全閾值演算法。
計算網頁p的Authority時候,不考慮指向它的所有網頁Hub值對它的貢獻,只考慮Hub值超過平均值的網頁的貢獻,這就是Hub閾值方法。
Authority閾值演算法和Hub閾值方法類似,不考慮所有p指向的網頁的Authority對p的Hub值貢獻,只計算前K個權威網頁對它Hub值的貢獻,這是基於演算法的目標是查找最重要的K個權威網頁的前提。
同時使用Authority閾值演算法和Hub閾值方法的演算法,就是全閾值演算法 PageRank演算法是基於用戶隨機的向前瀏覽網頁的直覺知識,HITS演算法考慮的是Authoritive網頁和Hub網頁之間的加強關系。實際應用中,用戶大多數情況下是向前瀏覽網頁,但是很多時候也會回退瀏覽網頁。基於上述直覺知識,R. Lempel和S. Moran提出了SALSA(Stochastic Approach for Link-Structure Analysis)演算法[8],考慮了用戶回退瀏覽網頁的情況,保留了PageRank的隨機漫遊和HITS中把網頁分為Authoritive和Hub的思想,取消了Authoritive和Hub之間的相互加強關系。
具體演算法如下:
1.和HITS演算法的第一步一樣,得到根集並且擴展為網頁集合T,並除去孤立節點。
2.從集合T構造無向圖G』=(Vh,Va,E)
Vh = { sh | s∈C and out-degree(s) > 0 } ( G』的Hub邊).
Va = { sa | s∈C and in-degree(s) > 0 } (G』的Authority邊).
E= { (sh , ra) |s->r in T}
這就定義了2條鏈,Authority鏈和Hub鏈。
3.定義2條馬爾可夫鏈的變化矩陣,也是隨機矩陣,分別是Hub矩陣H,Authority矩陣A。
4.求出矩陣H,A的主特徵向量,就是對應的馬爾可夫鏈的靜態分布。
5.A中值大的對應的網頁就是所要找的重要網頁。
SALSA演算法沒有HITS中相互加強的迭代過程,計算量遠小於HITS。SALSA演算法只考慮直接相鄰的網頁對自身A/H的影響,而HITS是計算整個網頁集合T對自身AH的影響。
實際應用中,SALSA在擴展根集時忽略了很多無關的鏈接,比如
1.同一站點內的鏈接,因為這些鏈接大多隻起導航作用。
2.CGI 腳本鏈接。
3.廣告和贊助商鏈接。
試驗結果表明,對於單主題查詢java,SALSA有比HITS更精確的結果,對於多主題查詢abortion,HITS的結果集中於主題的某個方面,而SALSA演算法的結果覆蓋了多個方面,也就是說,對於TKC現象,SALSA演算法比HITS演算法有更高的健壯性。
2.3.1BFS(Backword Forward Step)演算法
SALSA演算法計算網頁的Authority值時,只考慮網頁在直接相鄰網頁集中的受歡迎程度,忽略其它網頁對它的影響。HITS演算法考慮的是整個圖的結構,特別的,經過n步以後,網頁i的Authority的權重是,為離開網頁i的的路徑的數目,也就是說網頁j<>i,對i的權值貢獻等於從i到j的路徑的數量。如果從i到j包含有一個迴路,那麼j對i的貢獻將會呈指數級增加,這並不是演算法所希望的,因為迴路可能不是與查詢相關的。
因此,Allan Borodin等[11]提出了BFS(Backward Forward Step)演算法,既是SALSA的擴展情況,也是HITS的限制情況。基本思想是,SALSA只考慮直接相鄰網頁的影響,BFS擴展到考慮路徑長度為n的相鄰網頁的影響。在BFS中,被指定表示能通過路徑到達i的結點的集合,這樣j對i的貢獻依賴就與j到i的距離。BFS採用指數級降低權值的方式,結點i的權值計算公式如下:
=|B(i)|+ |BF(i)| +|BFB(i)|+……+||
演算法從結點i開始,第一步向後訪問,然後繼續向前或者向後訪問鄰居,每一步遇到新的結點加入權值計算,結點只有在第一次被訪問時加入進去計算。 D.Cohn and H.Chang提出了計算Hub和Authority的統計演算法PHITS(Probabilistic analogue of the HITS)[12]。他們提出了一個概率模型,在這個模型裡面一個潛在的因子或者主題z影響了文檔d到文檔c的一個鏈接,他們進一步假定,給定因子z,文檔c的條件分布P(c|z)存在,並且給定文檔d,因子z的條件分布P(z|d)也存在。
P(d) P(z|d) P(c|z) ,其中
根據這些條件分布,提出了一個可能性函數(likelihood function)L,
,M是對應的連結矩陣
然後,PHITS演算法使用Dempster等提出的EM演算法[20]分配未知的條件概率使得L最大化,也就是最好的解釋了網頁之間的鏈接關系。演算法要求因子z的數目事先給定。Allan Borodin指出,PHITS中使用的EM演算法可能會收斂於局部的最大化,而不是真正的全局最大化[11]。D. Cohn和T. Hofmann還提出了結合文檔內容和超鏈接的概率模型[13]。 Allan Borodin等提出了完全的貝葉斯統計方法來確定Hub和Authoritive網頁[11]。假定有M個Hub網頁和N個Authority網頁,可以是相同的集合。每個Hub網頁有一個未知的實數參數,表示擁有超鏈的一般趨勢,一個未知的非負參數,表示擁有指向Authority網頁的鏈接的趨勢。每個Authoritive網頁j,有一個未知的非負參數,表示j的Authority的級別。
統計模型如下,Hub網頁i到Authority網頁j的鏈接的先驗概率如下給定:
P(i,j)=Exp(+)/(1+Exp(+))
Hub網頁i到Authority網頁j沒有鏈接時,P(i,j)=1/(1+Exp(+))
從以上公式可以看出,如果很大(表示Hub網頁i有很高的趨勢指向任何一個網頁),或者和都很大(表示i是個高質量Hub,j是個高質量的Authority網頁),那麼i->j的鏈接的概率就比較大。
為了符合貝葉斯統計模型的規范,要給2M+N個未知參數(,,)指定先驗分布,這些分布應該是一般化的,不提供信息的,不依賴於被觀察數據的,對結果只能產生很小影響的。Allan Borodin等在中指定滿足正太分布N(μ,),均值μ=0,標准方差δ=10,指定和滿足Exp(1)分布,即x>=0,P(>=x)=P(>=x)=Exp(-x)。
接下來就是標準的貝葉斯方法處理和HITS中求矩陣特徵根的運算。
2.5.1簡化的貝葉斯演算法
Allan Borodin同時提出了簡化的上述貝葉斯演算法,完全除去了參數,也就不再需要正太分布的參數μ,δ了。計算公式變為:P(i,j)=/(1+),Hub網頁到Authority網頁j沒有鏈接時,P(i,j)=1/(1+)。
Allan Borodin 指出簡化的貝葉斯產生的效果與SALSA演算法的結果非常類似。 上面的所有演算法,都是從查詢項或者主題出發,經過演算法處理,得到結果網頁。多倫多大學計算機系Alberto Mendelzon, Davood Rafiei提出了一種反向的演算法,輸入為某個網頁的URL地址,輸出為一組主題,網頁在這些主題上有聲望(repution)[16]。比如輸入,www.gamelan.com,可能的輸出結果是「java」,具體的系統可以訪問htpp://www.cs.toronto.e/db/topic。
給定一個網頁p,計算在主題t上的聲望,首先定義2個參數,滲透率和聚焦率,簡單起見,網頁p包含主題項t,就認為p在主題t上。
是指向p而且包含t的網頁數目,是指向p的網頁數目,是包含t的網頁數目。結合非條件概率,引入,,是WEB上網頁的數目。P在t上的聲望計算如下:
指定是既指向p有包含t的概率,即,顯然有
我們可以從搜索引擎(如Altavista)的結果得到,, ,WEB上網頁的總數估計值某些組織會經常公布,在計算中是個常量不影響RM的排序,RM最後如此計算:
給定網頁p和主題t,RM可以如上計算,但是多數的情況的只給定網頁p,需要提取主題後計算。演算法的目標是找到一組t,使得RM(p,t)有較大的值。TOPIC系統中是抽取指向p的網頁中的錨文本的單詞作為主題(上面已經討論過錨文本能很好描述目標網頁,精度很高),避免了下載所有指向p的網頁,而且RM(p,t)的計算很簡單,演算法的效率較高。主題抽取時,還忽略了用於導航、重復的鏈接的文本,同時也過濾了停止字(stop word),如「a」,「the」,「for」,「in」等。
Reputation演算法也是基於隨機漫遊模型的(random walk),可以說是PageRank和SALSA演算法的結合體。
3.鏈接演算法的分類及其評價
鏈接分析演算法可以用來提高搜索引擎的查詢效果,可以發現WWW上的重要的社區,可以分析某個網站的拓撲結構,聲望,分類等,可以用來實現文檔的自動分類等。歸根結底,能夠幫助用戶在WWW海量的信息裡面准確找到需要的信息。這是一個正在迅速發展的研究領域。
上面我們從歷史的角度總結了鏈接分析演算法的發展歷程,較為詳細的介紹了演算法的基本思想和具體實現,對演算法的存在的問題也做了討論。這些演算法有的處於研究階段,有的已經在具體的系統實現了。這些演算法大體可以分為3類,基於隨機漫遊模型的,比如PageRank,Repution演算法,基於Hub和Authority相互加強模型的,如HITS及其變種,基於概率模型的,如SALSA,PHITS,基於貝葉斯模型的,如貝葉斯演算法及其簡化版本。所有的演算法在實際應用中都結合傳統的內容分析技術進行了優化。一些實際的系統實現了某些演算法,並且獲得了很好的效果,Google實現了PageRank演算法,IBM Almaden Research Center 的Clever Project實現了ARC演算法,多倫多大學計算機系實現了一個原型系統TOPIC,來計算指定網頁有聲望的主題。
AT&T香農實驗室的Brian Amento在指出,用權威性來評價網頁的質量和人類專家評價的結果是一致的,並且各種鏈接分析演算法的結果在大多數的情況下差別很小[15]。但是,Allan Borodin也指出沒有一種演算法是完美的,在某些查詢下,結果可能很好,在另外的查詢下,結果可能很差[11]。所以應該根據不同查詢的情況,選擇不同的合適的演算法。
基於鏈接分析的演算法,提供了一種衡量網頁質量的客觀方法,獨立於語言,獨立於內容,不需人工干預就能自動發現WEB上重要的資源,挖掘出WEB上重要的社區,自動實現文檔分類。但是也有一些共同的問題影響著演算法的精度。
1.根集的質量。根集質量應該是很高的,否則,擴展後的網頁集會增加很多無關的網頁,產生主題漂移,主題泛化等一系列的問題,計算量也增加很多。演算法再好,也無法在低質量網頁集找出很多高質量的網頁。
2.噪音鏈接。WEB上不是每個鏈接都包含了有用的信息,比如廣告,站點導航,贊助商,用於友情交換的鏈接,對於鏈接分析不僅沒有幫助,而且還影響結果。如何有效的去除這些無關鏈接,也是演算法的一個關鍵點。
3.錨文本的利用。錨文本有很高的精度,對鏈接和目標網頁的描述比較精確。上述演算法在具體的實現中利用了錨文本來優化演算法。如何准確充分的利用錨文本,對演算法的精度影響很大。
4.查詢的分類。每種演算法都有自身的適用情況,對於不同的查詢,應該採用不同的演算法,以求獲得最好的結果。因此,對於查詢的分類也顯得非常重要。
結束語:當然,這些問題帶有很大的主觀性,比如,質量不能精確的定義,鏈接是否包含重要的信息也沒有有效的方法能准確的判定,分析錨文本又涉及到語義問題,查詢的分類也沒有明確界限。如果演算法要取得更好的效果,在這幾個方面需要繼續做深入的研究,相信在不久的將來會有更多的有趣和有用的成果出現。

⑶ google演算法提問

《最新google搜索引擎技術演算法研究和探討(詳細圖文論文)》
http://wangjifeixing.blog.163.com/blog/static/5023822007817101330646

最近幾年,許多研究者發現,WWW上超鏈結構是個非常豐富和重要的資源,如果能夠充分利用的話,可以極大的提高檢索結果的質量。基於這種超鏈分析的思想,Sergey Brin和Lawrence Page在1998年提出了PageRank演算法[1] ,同年J. Kleinberg提出了HITS演算法[5],其它一些學者也相繼提出了另外的鏈接分析演算法,如SALSA,PHITS,Bayesian等演算法。這些演算法有的已經在實際的系統中實現和使用,並且取得了良好的效果。

文章的第2部分按照時間順序詳細剖析了各種鏈接分析演算法,對不同的演算法進行了比較。第3部分對這些演算法做了評價和總結,指出了存在的問題和改進方向。

2.WEB超鏈分析演算法

2.1 Google和PageRank演算法

搜索引擎Google最初是斯坦福大學的博士研究生Sergey Brin和Lawrence Page實現的一個原型系統[2],現在已經發展成為WWW上最好的搜索引擎之一。Google的體系結構類似於傳統的搜索引擎,它與傳統的搜索引擎最大的不同處在於對網頁進行了基於權威值的排序處理,使最重要的網頁出現在結果的最前面。Google通過PageRank元演算法計算出網頁的PageRank值,從而決定網頁在結果集中的出現位置,PageRank值越高的網頁,在結果中出現的位置越前。

2.1.1 PageRank演算法

PageRank演算法基於下面2個前提:

前提1:一個網頁被多次引用,則它可能是很重要的;一個網頁雖然沒有被多次引用,但是被重要的網頁引用,則它也可能是很重要的;一個網頁的重要性被平均的傳遞到它所引用的網頁。這種重要的網頁稱為權威(Authoritive)網頁。

前提2:假定用戶一開始隨機的訪問網頁集合中的一個網頁,以後跟隨網頁的向外鏈接向前瀏覽網頁,不回退瀏覽,瀏覽下一個網頁的概率就是被瀏覽網頁的PageRank值。

《最新google搜索引擎技術演算法研究和探討(詳細圖文論文)》
http://wangjifeixing.blog.163.com/blog/static/5023822007817101330646

⑷ 百度的超鏈分析的原理是什麼百度的收錄網站規則和演算法是怎麼的呢

懸賞分5,哪怕後面再加N個0也沒有人回答

⑸ 求百度的超鏈分析和Google的pagerank技術的區別,要權威的

== 這是 中國WEB信息博物館 (Web InfoMall) 2003年10月09日 存儲的網頁 == 點擊這里查看本網頁的其他版本 請選擇: 2003年10月09日 2004年05月04日 當前最新網頁 隱藏InfoMall信息 -------------------------------------------------------------------------------- 轉到主要內容 竹筍炒肉 東坡有詩「無竹則俗,無肉則廋;不俗不廋,竹筍炒肉」。:) 歡迎光臨的每一位朋友。這是我的第一個BLOG,用來記錄我的所學、所做、所思、所想、所經歷、所感受。 « Log4J學習筆記(3) | Main | Google的PageRank演算法學習(2) » August 28, 2003 Google的PageRank演算法學習 據車東在CNBLOG推薦文章,作的學習筆記。 1、PageRank(網頁級別)的概念 互聯網發展早期的搜索引擎,對web頁面的排序,是根據搜索的片語(短語)在頁面中的出現次數(occurence ),並用頁面長度和html標簽的重要性提示等進行權重修訂。鏈接名氣(link popularity)技術通過其它文檔鏈接到當前頁面(inbound links)的鏈接數量來決定當前頁的重要性,這樣可以有效地抵制被人為加工的頁面欺騙搜索引擎的手法。 PageRank計算頁面的重要性,對每個鏈入(inbound)賦以不同的權值,鏈接提供頁面的越重要則此鏈接入越高。當前頁的重要性,是由其它頁面的重要性決定的。 2、PageRank演算法1 PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 其中:PR(A):頁面A的網頁級別, PR(Ti):頁面Ti的網頁級別,頁面Ti鏈向頁面A, C(Ti):頁面Ti鏈出的鏈接數量, d:阻尼系數,取值在0-1之間. 由此可見,1)這個演算法不以站點排序,頁面網頁級別由一個個獨立的頁面決定;2)頁面的網頁級別由鏈向它的頁面的網頁級別決定,但每個鏈入頁面的貢獻的值是不同的。如果Ti頁面中鏈出越多,它對當前頁面A的貢獻就越小。A的鏈入頁面越多,其網頁級別也越高;3)阻尼系數的使用,減少了其它頁面對當前頁面A的排序貢獻。 3、隨機沖浪模型 Lawrence Page 和 Sergey Brin 提出了用戶行為的隨機沖浪模型,來解釋上述演算法。他們把用戶點擊鏈接的行為,視為一種不關心內容的隨機行為。而用戶點擊頁面內的鏈接的概率,完全由頁面上鏈接數量的多少決定的,這也是上面PR(Ti)/C(Ti)的原因。一個頁面通過隨機沖浪到達的概率就是鏈入它的別的頁面上的鏈接的被點擊概率的和。阻尼系數d的引入,是因為用戶不可能無限的點擊鏈接,常常因勞累而隨機跳入另一個頁面。d可以視為用戶無限點擊下去的概率,(1-d)則就是頁面本身所具有的網頁級別。 4、PageRank演算法2(對演算法1的修訂) PR(A) = (1-d) / N + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) 其中N是互聯網上所有網頁的數量 由此,所有頁面的網頁級別形成的一個概率分布,所有頁面的網頁級別之和是1。在演算法1中,隨機沖浪訪問某個頁面的概率由互聯網的總頁數決定,在演算法2中,網頁級別是一個頁面被隨機訪問的期望值。 以下講解,皆基於演算法1,主要是計算簡單,因為不用考慮N的值。 5、PageRank的特性 所有頁面的網頁級別之和等於互聯網的總頁數。在網頁數比較少的情況下,網頁級別方程可以解出,而面對互聯網上成億的網頁,再解方程是不可能的。 此處設阻尼系數為0.5,雖然Lawrence Page 和 Sergey Brin在實際將其設為0.85. PR(A) = 0.5 + 0.5 PR(C) PR(B) = 0.5 + 0.5 (PR(A) / 2) PR(C) = 0.5 + 0.5 (PR(A) / 2 + PR(B)) 解得: PR(A) = 14/13 = 1.07692308 PR(B) = 10/13 = 0.7692307

⑹ 如何做好網站優化

如何讓網站的排名能顯示在網路首頁甚至第一第二位,相信這是絕大部分從事網站優化的朋友們日思夜想的一個問題。那麼我們首先應該想想,網站排名的原理是什麼呢?搜索引擎是根據什麼去排名網站的呢?同時又有另外一個問題,如果你稍微了解一點搜索引擎的知識,應該知道搜索引擎的演算法是不會公開的,那我們應該依據什麼去做網站優化呢?理論上說,優化排名的原理就是:在透徹了解搜索引擎的排名規則、更新規則、收錄規則、懲罰規則的情況下,通過各種方法讓網站盡可能符合搜索引擎的排名規則,從而獲得較好的排名。優就業SEO培訓學院認為,我們應該結合《網路搜索引擎工作原理》及《網路搜素引擎網頁質量白皮書》等網路官方發布的一些指導下文章,同時結合平時的觀察和經驗去做優化排名。

一、網站優化排名的對象是什麼
1、一個網站是由眾多的網頁組成的,網站是一個或者多個網頁組成的。(搜索引擎排名過程簡介)
2、seo優化的對象是網頁而不是網站,就像奧運會上的運動員得獎一樣,針對的對象是運動員,而不是運動員所在的國家。
關於網站優化排名的誤區就是,一般的人總是以為優化的對象是網站。我們平時所說的「網站排名」、「網站優化」是不正確的。
二、什麼是超鏈分析、超鏈分析簡介
1、「超鏈分析」是網路的一項專利,原理就是,通過分析鏈接網站的數量來評價其被鏈接的網站的質量如何,這樣的作用就是,保證了用戶在使用搜索引擎時,質量越高、越受歡迎的頁面越靠前。
網路總裁李彥宏是這項技術的唯一持有人,而且該技術已經被全世界的各大搜索引擎普遍採用了。
2、我們如何來理解超鏈分析技術呢?
簡單來講,確定某個頁面是否優秀或者權威,其它的頁面的「意見」是非常重要的。即便一個網頁並不那麼優秀,但是只要其他網頁對它的「信任投票」(反向鏈接)超過了其它頁面,那麼它的排名也會靠前,甚至排名第一。
比如,在阿里巴巴的網站上,整個網站都沒有「國際站」這個詞的出現,但是它在「國際站」這個詞的排名上卻非常好,原因就是阿里巴巴旗下的數量龐大的網頁都給了它一個「信任投票」(錨文本)。
需要注意的是,「超鏈分析」只是排名的一個重要參考,但不是唯一參考。
三、相關頁面的推薦
1、相關頁面就是內容相關的頁面。比如說,我這個頁面是關於手機功能介紹的,所連接的那個頁面是關於手機廠商介紹的,那麼這兩個頁面就是手機的相關頁面。
2、相關頁面之間的互相推薦很重要。比如,在我這個頁面介紹完了手機功能之後,我還要給訪客介紹一些手機製造商,那麼我會給他們推薦您的網頁,也就是在我的網頁上放置上了您這個網頁的鏈接,同樣的在您這個網頁介紹完手機製造商之後,您也可以給您的訪客推薦我的網頁,也就是在您的網頁上放上我網頁的鏈接,這就是相關推薦。
3、相關頁面對於排名的意義就是,它讓用戶對網頁有了更好的體驗,而且,搜索引擎會更加信任被推薦的網頁。
四、seo模型的重要性
1、全世界的網頁有很多,它們通過鏈接來聯系,搜索引擎通過鏈接來訪問他們, 搜索引擎會挑選獲得相關頁面鏈接有優勢的頁面排名靠前,這種優勢包括頁面的質量、給我們反向鏈接的頁面的權重和相關性非常的重要。
2、比如說,新浪首頁給我們網頁一個反向鏈接,跟新浪的一個個人免費博客頁給我們一個反向鏈接的效果肯定是不一樣的。如果我們的網站是賣汽車的,那一個賣輪胎的網頁給我們一個反向鏈接的效果肯定比一個賣鍋爐的網頁給的反向鏈接要好得多。
3、反向鏈接的數量很重要。五個網站的首頁給我們5個反向鏈接,和10個同等水平的網站首頁各給我們一個反向鏈接效果肯定是不一樣的。

⑺ 網站關鍵詞排名優化哪裡好

SEO由於容易入門,見效比較明顯,已經變得家喻戶曉。不過這個東西有的時候卻讓人捉摸不透,因為每次演算法的調整都可能引起一些無法解釋的現象,這樣導致有些時候,SEO的效果被抹殺,但最根本的優化演算法還是不會有過大變化,所以如果想優化有長久效果,可以用旺道營銷軟體。

⑻ 百度是啥

網路
網路(www..com)(Nasdaq:BIDU)是全球最大的中文搜索引擎,2000年1月由李彥宏、徐勇兩人創立於北京中關村,致力於向人們提供「簡單,可依賴」的信息獲取方式。 「網路」二字源於中國宋朝詞人辛棄疾的《青玉案》詩句:「眾里尋他千網路」,象徵著網路對中文信息檢索技術的執著追求。

網路以自身的核心技術「超鏈分析」為基礎,提供的搜索服務體驗贏得了廣大用戶的喜愛;超鏈分析就是通過分析鏈接網站的多少來評價被鏈接的網站質量,這保證了用戶在網路搜索時,越受用戶歡迎的內容排名越靠前。網路總裁李彥宏就是超鏈分析專利的唯一持有人,目前該技術已為世界各大搜索引擎普遍採用。

網路擁有全球最大的中文網頁庫,目前收錄中文網頁已超過12億,這些網頁的數量每天正以千萬級的速度在增長;同時,網路在中國各地分布的伺服器,能直接從最近的伺服器上,把所搜索信息返回給當地用戶,使用戶享受極快的搜索傳輸速度。

網路每天處理來自138個國家超過數億次的搜索請求,每天有超過7萬用戶將網路設為首頁,用戶通過網路搜索引擎可以搜到世界上最新最全的中文信息。2004年起,「有問題,網路一下」在中國開始風行,網路成為搜索的代名詞。

網路還為各類企業提供軟體、競價排名以及關聯廣告等服務,為企業提供了一個獲得潛在消費者的營銷平台,並為大型企業和政府機構提供海量信息檢索與管理方案。網路的主要商業模式為競價排名(P4P,Pay for Performance),即為一種按效果付費的網路推廣方式,該服務為廣大中小企業進行網路營銷提供了較佳的發展機會,但同時也引起了一些爭議;有人認為該服務會影響用戶體驗。

網路目前提供:網頁搜索、MP3搜索、圖片搜索、網路新聞搜索、網路貼吧、網路知道、網路空間、網路搜索風雲榜、網路硬碟搜索、網路、網路搜藏等主要產品和服務,同時也提供多項滿足用戶更加細分需求的搜索服務,如網路地圖搜索、網路地區搜索、網路國學搜索、網路黃頁搜索、網路文檔搜索、網路郵編搜索、網路政府網站搜索、網路教育網站搜索、網路郵件新聞訂閱、網路WAP貼吧、網路WAP知道、手機搜索(與Nokia合作)、網路少兒搜索等服務;同時,網路還在個人服務領域提供了包括網路影視、網路傳情、網路手機娛樂、網路視頻等服務。2004年8月,網路還收購了中國國內最大的個人網站Hao123.com,為初級網民提供網路站點導航等服務。2007年2月,網路風雲榜發布《家電行業報告》。通過跟蹤網路2006年關於家電產品的全年搜索數據,從品牌價值、消費傾向、娛樂偏好及信息獲取方式等幾大方向上全面透視中國家電市場。網路風雲榜是「關注度」,即「人氣」榜。

在中文搜索領域,網路首次提供了多項體貼普通用戶的搜索功能,包括相關搜索、中文人名識別、簡繁體中文自動轉換、網路快照等。
網路還為各類企業提供軟體、競價排名以及關聯廣告服務。每個月,有超過5千家的企業通過網路獲得商機,5萬家企業使用網路競價排名服務,超過300家大型企業使用網路搜索廣告服務。

網路不會因此而滿足,技術的創新永無止境。網路會一如既往地專注於互聯網搜索引擎,通過堅定不移地努力,以先進的搜索技術與優質的服務,讓人們的生活變得更美好。

網路是世界上規模最大的中文搜索引擎之一,擁有全球最大的中文網頁庫。

網路每天處理來自一百多個國家的超過一億人次的搜索請求。

網路簡單強大的搜索功能深受網民的信賴,每天有超過七萬用戶將網路設為首頁。

同時網路也為企業提供了一個獲得潛在消費者的平台,並為大型企業和政府機構提供海量信息檢索與管理方案。

在信息過剩的時代,網路憑借「簡單,可依賴」的搜索體驗使「網路一下」成為搜索的代名詞。

網路一直以開發最符合中國人使用習慣的搜索引擎為己任,目前,網路搜索引擎已成為世界上最強大的中文搜索引擎之一。

截止到2006年的第4季度,用戶最常用的搜索引擎為網路,這樣的一個份額已經上升到了62.6%。而如果按照搜索量來計算的話,我們市場份額已經達到了69%。在用戶覺得最離不開的互聯網品牌當中,網路也是排名最高,是高達65.8%。在用戶最願意就職的互聯網企業當中網路也排第一。

網路群體基本代表了中國互聯網整體用戶群體的形象。中國互聯網一共一億三千六百萬的用戶中,80%、90%都是使用網路的用戶。

⑼ 超鏈分析的歷史

這其實就是現實生活中類似於鏈接關系的應用。要判斷哪個頁面最具權威性,不能光看頁面自己怎麼說,還要看其他頁面怎麼評價。
李彥宏1997年就提交了一份名為「超鏈文件檢索系統和方法」的專利申請,這比GOOGLE創始人發明PR要早得多,不得不說這是非常具有前瞻性的研究工作。在這份專利中,李彥宏提出了與傳統信息檢索系統不同的基於鏈接的排名方法。
這個系統除了索引頁面之外,還建立一個鏈接詞庫,記錄鏈接錨文字的一些相關信息,如錨文字中包含哪些關鍵詞,發出鏈接的頁面索引,包含特定錨文字的鏈接總數,包含特定關鍵詞的鏈接都指向哪些頁面。詞庫不僅包含關鍵詞原型,也包含同一個詞乾的其他衍生關鍵詞。
根據這些鏈接數據,尤其是錨文字,計算出基於鏈接的文件相關性。在用戶搜索時,將得到的基於鏈接的相關性與基於關鍵詞匹配的傳統相關性綜合使用,得到更准確的排名。
在今天看來,這種基於鏈接的相關性計算是搜索引擎的常態,每個SEO人員都知道。但是在十三四年前,這無疑是非常創新的概念。當然現在的搜索引擎演算法對鏈接的考慮,已經不僅僅是錨文字,實際上要復雜的多。
這份專利所有人是李彥宏當時所在的公司,發明人是李彥宏本人。

⑽ 類似於搜索引擎的 對搜索結果排序的演算法急求。

理論上,我們可以根據任意的規則對搜索引擎結果進行排序,比如按照訪問量排序等,然而在Google使用的排序演算法問世後,上述的排序方試都被證明並不適用於互聯網。 Google是目前為止最流行的一個通用的搜索引擎,最初只是兩個斯坦福大學學生的科研項目,Sergey和Larry Page希望讓絕大部分使用搜索引擎的人都能搜索結果的第一頁找到他想要的結果,為了達到這個目的他們發明了開創時代的PageRank(據說名字來源於LarryPage)排序演算法,並將此發表在論文《The Anatomy of a Large-Scale Hypertextual Wed Search Engine》中,之後的實踐證明,PageRank對搜索結果的排序優於其他演算法。 PageRank的原理類似於科技論文中的引用機制:誰的論文被引用次數多,誰就是權威。在互聯網上,鏈接就相當於「引用」,在B網頁中鏈接了A,相當於B引用了A,如果在C、D、E、F中都鏈接了A,則說明A網頁重要,A網頁的PageRank值也就高。 計算PR值有一個簡單的公式: 網頁A級別=(1-系數)+系數*(網頁1級別/網頁1鏈出個數+網頁2級別/網頁2鏈出個數+++++ 網頁N級別/網頁鏈出個數)其中系數為一個大於0小於1的數。一般設置為0.85。網頁1、網頁N表示所有鏈接指向A的網頁。 由以上公式可以看出如下三點。 1、鏈指向A的網頁越多,A的級別越高。即A的級別和指向A的網頁個數成正比,在公式中表示,N越大,A的級別越高。 2、鏈指向A的網頁,其網頁級別越高,A的級別也越高。即A的級別成正比,在網頁中表示,網頁N級別越高,A的級別也越高。 3、鏈指向A的網頁,其鏈出的個數越多,A的級別越低。即A的級別和指向A的網頁的鏈出個數成反比,在公式中表示,網頁N鏈出個數越多,A的級別越低。 通俗的講,從網頁A導向網頁B的鏈接,可以看作是網頁A對頁面B 的支持投票,Google根據這個投票數來判斷頁面的重要性,但Google看了投票數之後還對投票者(鏈接的頁面)進行了分析、重要性較高的鏈接所投的票的價值會更高,比如新浪、雅虎、微軟的首頁都有某頁面的鏈接,可能比其在另外網站取得的30個鏈接都要有效。 通過上面公式,可以形成一個巨大的方程組,對這個方程組求解,就得到每個網頁的PR值。當然互聯網有數百億個網頁,那麼這個方程組就有數百億個未知數,方程組雖然是有解,但計算非常復雜。 每個網頁都有PR值。下載Google的免費工具欄後,沒打開一個網頁都可以清楚地看見其PR值(大概) 國內的網路是全球最重要的的搜索引擎,其創始人李彥宏在1996年申請了名為「超鏈分析」的專利。「超鏈分析」的原理和PR的原理類似,所以在搜索引擎的演算法上,兩種搜索引擎的主體很相近。 除了用PR演算法衡量網頁的重要程度意外,還有上百種因素參與排序。現在常用的演算法有如下3中: (1)HillTop演算法,HillTo是搜索引擎結果排序演算法,由Google工程師Bharat在2001年提出並獲得專利。Google自誕生之日起,其排序規則就經常變化,但變化最大的一次就是基於HillTo演算法進行的改進。 HillTo演算法的指導思想和PR是一致的,都是通過網頁被鏈接的數量和鏈接質量來確定搜索結果的排序權重,但HillTo認為只計算來自具有相同主題的相關文檔鏈接對搜索者的價值會更大:即主題相關網頁之間的鏈接對於權重計算的貢獻比主題不相關的鏈接價值要更高。如果網站是介紹服裝的,有10個鏈接都是從「服裝」相關網站鏈接過來,則這10個鏈接比另外10個從「電器」網站鏈接過來的貢獻大。Bharat稱這種對主題有影響的文檔為「專家」文檔,從這些專家文檔頁面到目標文檔的鏈接決定了被鏈接網頁的重要性。 PR與HillTop演算法結合後,在排序過程中就能更好的提現文檔與搜索關鍵詞之間的匹配程度,在兩個具有同樣主題且PR相近的網頁排序中,HillTop演算法顯得非常重要。HillTop同時也避免了許多想通過增加無效鏈接來提高網頁PR值的作弊方法。 (2)錨文本。錨文本就是鏈接文本。錨文本可以作為其所在內容的評估。正常來講,頁面中增加的鏈接都會個頁面本身的內容有一定關系。如服裝的行業網站上會增加一些同行網站的鏈接或者一些做服裝的致命企業的鏈接。另一方面,錨文本能作為所指向頁面的評估。錨文本能耐精確地描述所指向的內容,如個人網站上你增加Google的鏈接,則錨文本顯示問「搜索引擎」。這樣通過錨文本本身就能知道,Google是搜索引擎。 由此可見,在網頁中選擇合適的錨文本,則可讓所在網頁和所指向的網頁的重要程度有所提升。 (3)頁面板式。每個網頁都有板式,包括標題、字體、標簽等。搜索引擎也會利用這些板式來識別搜索詞也頁面內容的相關程度。以靜態的html格式的網頁為例,搜索引擎通過蜘蛛把網頁抓取下來後,需要圖區裡面的正文內容,過濾其他HTML代碼。在提取內容時,搜索引擎就可以記錄所有板式信息,包括:哪些詞在標題中出現,哪些詞在正文中出現,哪些詞比其他字體大,哪些詞加粗過,哪些詞用KeyWord表示過的等,這樣在搜索過程中就可以根據這些信息來確定所搜索詞的相關程度。 對於排序演算法的真正實現細節,Google等搜索引擎不會透露,但我們能掌握一些原則。MattCutts是一位Google的雇員,他在其博客上說「SEM工作中最明智的選擇是從下面這個問題得來的:對用戶最有用的是什麼?」而DannySullivan,這位當今搜索領域非常致命的權威人士,在回答「如何考慮SEO的真諦」這個問題事表示「好的Html標題。優秀的頁面正文、高價值的內容,同時還要確保蜘蛛能夠順利訪問網站,這些准則已經發揮了將近二十年的作用」。

閱讀全文

與十大演算法超鏈分析相關的資料

熱點內容
噴油螺桿製冷壓縮機 瀏覽:573
python員工信息登記表 瀏覽:373
高中美術pdf 瀏覽:157
java實現排列 瀏覽:510
javavector的用法 瀏覽:978
osi實現加密的三層 瀏覽:229
大眾寶來原廠中控如何安裝app 瀏覽:909
linux內核根文件系統 瀏覽:238
3d的命令面板不見了 瀏覽:520
武漢理工大學伺服器ip地址 瀏覽:143
亞馬遜雲伺服器登錄 瀏覽:520
安卓手機如何進行文件處理 瀏覽:68
mysql執行系統命令 瀏覽:925
php支持curlhttps 瀏覽:141
新預演算法責任 瀏覽:442
伺服器如何處理5萬人同時在線 瀏覽:246
哈夫曼編碼數據壓縮 瀏覽:421
鎖定伺服器是什麼意思 瀏覽:382
場景檢測演算法 瀏覽:615
解壓手機軟體觸屏 瀏覽:345