導航:首頁 > 源碼編譯 > 關鍵詞搜索演算法

關鍵詞搜索演算法

發布時間:2022-05-26 23:17:08

1. 百度等搜索網站的搜索原理是什麼用戶輸入關鍵字它怎麼搜的搜到東西存在它的伺服器上還是它即時搜的

搜索引擎並不真正搜索互聯網,它搜索的實際上是預先整理好的網頁索引資料庫。

真正意義上的搜索引擎,通常指的是收集了網際網路上幾千萬到幾十億個網頁並對網頁中的每一個詞(即關鍵詞)進行索引,建立索引資料庫的全文搜索引擎。當用戶查找某個關鍵詞的時候,所有在頁面內容中包含了該關鍵詞的網頁都將作為搜索結果被搜出來。在經過復雜的演算法進行排序後,這些結果將按照與搜索關鍵詞的相關度高低,依次排列。

現在的搜索引擎已普遍使用超鏈分析技術,除了分析索引網頁本身的內容,還分析索引所有指向該網頁的鏈接的URL、AnchorText、甚至鏈接周圍的文字。所以,有時候,即使某個網頁A中並沒有某個詞比如「惡魔撒旦」,但如果有別的網頁B用鏈接「惡魔撒旦」指向這個網頁A,那麼用戶搜索「惡魔撒旦」時也能找到網頁A。而且,如果有越多網頁(C、D、E、F……)用名為「惡魔撒旦」的鏈接指向這個網頁A,或者給出這個鏈接的源網頁(B、C、D、E、F……)越優秀,那麼網頁A在用戶搜索「惡魔撒旦」時也會被認為更相關,排序也會越靠前。

搜索引擎的原理,可以看做三步:從互聯網上抓取網頁→建立索引資料庫→在索引資料庫中搜索排序。

從互聯網上抓取網頁
利用能夠從互聯網上自動收集網頁的Spider系統程序,自動訪問互聯網,並沿著任何網頁中的所有URL爬到其它網頁,重復這過程,並把爬過的所有網頁收集回來。

建立索引資料庫
由分析索引系統程序對收集回來的網頁進行分析,提取相關網頁信息(包括網頁所在URL、編碼類型、頁面內容包含的關鍵詞、關鍵詞位置、生成時間、大小、與其它網頁的鏈接關系等),根據一定的相關度演算法進行大量復雜計算,得到每一個網頁針對頁面內容中及超鏈中每一個關鍵詞的相關度(或重要性),然後用這些相關信息建立網頁索引資料庫。

在索引資料庫中搜索排序
當用戶輸入關鍵詞搜索後,由搜索系統程序從網頁索引資料庫中找到符合該關鍵詞的所有相關網頁。因為所有相關網頁針對該關鍵詞的相關度早已算好,所以只需按照現成的相關度數值排序,相關度越高,排名越靠前。
最後,由頁面生成系統將搜索結果的鏈接地址和頁面內容摘要等內容組織起來返回給用戶。
搜索引擎的Spider一般要定期重新訪問所有網頁(各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對不同重要性的網頁有不同的更新頻率),更新網頁索引資料庫,以反映出網頁內容的更新情況,增加新的網頁信息,去除死鏈接,並根據網頁內容和鏈接關系的變化重新排序。這樣,網頁的具體內容和變化情況就會反映到用戶查詢的結果中。

互聯網雖然只有一個,但各搜索引擎的能力和偏好不同,所以抓取的網頁各不相同,排序演算法也各不相同。大型搜索引擎的資料庫儲存了互聯網上幾億至幾十億的網頁索引,數據量達到幾千G甚至幾萬G。但即使最大的搜索引擎建立超過二十億網頁的索引資料庫,也只能佔到互聯網上普通網頁的不到30%,不同搜索引擎之間的網頁數據重疊率一般在70%以下。我們使用不同搜索引擎的重要原因,就是因為它們能分別搜索到不同的內容。而互聯網上有更大量的內容,是搜索引擎無法抓取索引的,也是我們無法用搜索引擎搜索到的。

你心裡應該有這個概念:搜索引擎只能搜到它網頁索引資料庫里儲存的內容。你也應該有這個概念:如果搜索引擎的網頁索引資料庫里應該有而你沒有搜出來,那是你的能力問題,學習搜索技巧可以大幅度提高你的搜索能力。
回答者:漠北劍俠 - 童生 一級 10-14 14:38

2. 如何對關鍵詞和對應的網頁進行加權搜索

2.1基於詞頻統計——詞位置加權的搜索引擎
利用關鍵詞在文檔中出現的頻率和位置排序是搜索引擎最早期排序的主要思想,其技術發展也最為成熟,是第一階段搜索引擎的主要排序技術,應用非常廣泛,至今仍是許多搜索引擎的核心排序技術。其基本原理是:關鍵詞在文檔中詞頻越高,出現的位置越重要,則被認為和檢索詞的相關性越好。
1)詞頻統計
文檔的詞頻是指查詢關鍵詞在文檔中出現的頻率。查詢關鍵詞詞頻在文檔中出現的頻率越高,其相關度越大。但當關鍵詞為常用詞時,使其對相關性判斷的意義非常小。TF/IDF很好的解決了這個問題。TF/IDF演算法被認為是信息檢索中最重要的發明。TF(Term
Frequency):單文本詞彙頻率,用關鍵詞的次數除以網頁的總字數,其商稱為「關鍵詞的頻率」。IDF(Inverse Document
Frequency):逆文本頻率指數,其原理是,一個關鍵詞在N個網頁中出現過,那麼N越大,此關鍵詞的權重越小,反之亦然。當關鍵詞為常用詞時,其權重極小,從而解決詞頻統計的缺陷。
2)詞位置加權
在搜索引擎中,主要針對網頁進行詞位置加權。所以,頁面版式信息的分析至關重要。通過對檢索關鍵詞在Web頁面中不同位置和版式,給予不同的權值,從而根據權值來確定所搜索結果與檢索關鍵詞相關程度。可以考慮的版式信息有:是否是標題,是否為關鍵詞,是否是正文,字體大小,是否加粗等等。同時,錨文本的信息也是非常重要的,它一般能精確的描述所指向的頁面的內容。
2.2基於鏈接分析排序的第二代搜索引擎
鏈接分析排序的思想起源於文獻引文索引機制,即論文被引用的次數越多或被越權威的論文引用,其論文就越有價值。鏈接分析排序的思路與其相似,網頁被別的網頁引用的次數越多或被越權威的網頁引用,其價值就越大。被別的網頁引用的次數越多,說明該網頁越受歡迎,被越權威的網頁引用,說明該網頁質量越高。鏈接分析排序演算法大體可以分為以下幾類:基於隨機漫遊模型的,比如PageRank和Repution演算法;基於概率模型的,如SALSA、PHITS;基於Hub和Authority相互加強模型的,如HITS及其變種;基於貝葉斯模型的,如貝葉斯演算法及其簡化版本。所有的演算法在實際應用中都結合傳統的內容分析技術進行了優化。本文主要介紹以下幾種經典排序演算法:
1)PageRank演算法
PageRank演算法由斯坦福大學博士研究生Sergey Brin和Lwraence
Page等提出的。PageRank演算法是Google搜索引擎的核心排序演算法,是Google成為全球最成功的搜索引擎的重要因素之一,同時開啟了鏈接分析研究的熱潮。
PageRank演算法的基本思想是:頁面的重要程度用PageRank值來衡量,PageRank值主要體現在兩個方面:引用該頁面的頁面個數和引用該頁面的頁面重要程度。一個頁面P(A)被另一個頁面P(B)引用,可看成P(B)推薦P(A),P(B)將其重要程度(PageRank值)平均的分配P(B)所引用的所有頁面,所以越多頁面引用P(A),則越多的頁面分配PageRank值給P(A),PageRank值也就越高,P(A)越重要。另外,P(B)越重要,它所引用的頁面能分配到的PageRank值就越多,P(A)的PageRank值也就越高,也就越重要。
其計算公式為:

PR(A):頁面A的PageRank值;
d:阻尼系數,由於某些頁面沒有入鏈接或者出鏈接,無法計算PageRank值,為避免這個問題(即LinkSink問題),而提出的。阻尼系數常指定為0.85。
R(Pi):頁面Pi的PageRank值;
C(Pi):頁面鏈出的鏈接數量;
PageRank值的計算初始值相同,為了不忽視被重要網頁鏈接的網頁也是重要的這一重要因素,需要反復迭代運算,據張映海撰文的計算結果,需要進行10次以上的迭代後鏈接評價值趨於穩定,如此經過多次迭代,系統的PR值達到收斂。
PageRank是一個與查詢無關的靜態演算法,因此所有網頁的PageRank值均可以通過離線計算獲得。這樣,減少了用戶檢索時需要的排序時間,極大地降低了查詢響應時間。但是PageRank存在兩個缺陷:首先PageRank演算法嚴重歧視新加入的網頁,因為新的網頁的出鏈接和入鏈接通常都很少,PageRank值非常低。另外PageRank演算法僅僅依靠外部鏈接數量和重要度來進行排名,而忽略了頁面的主題相關性,以至於一些主題不相關的網頁(如廣告頁面)獲得較大的PageRank值,從而影響了搜索結果的准確性。為此,各種主題相關演算法紛紛涌現,其中以以下幾種演算法最為典型。
2)Topic-Sensitive PageRank演算法
由於最初PageRank演算法中是沒有考慮主題相關因素的,斯坦福大學計算機科學系Taher
Haveli-wala提出了一種主題敏感(Topic-Sensitive)的PageRank演算法解決了「主題漂流」問題。該演算法考慮到有些頁面在某些領域被認為是重要的,但並不表示它在其它領域也是重要的。
網頁A鏈接網頁B,可以看作網頁A對網頁B的評分,如果網頁A與網頁B屬於相同主題,則可認為A對B的評分更可靠。因為A與B可形象的看作是同行,同行對同行的了解往往比不是同行的要多,所以同行的評分往往比不是同行的評分可靠。遺憾的是TSPR並沒有利用主題的相關性來提高鏈接得分的准確性。
3)HillTop演算法
HillTop是Google的一個工程師Bharat在2001年獲得的專利。HillTop是一種查詢相關性鏈接分析演算法,克服了的PageRank的查詢無關性的缺點。HillTop演算法認為具有相同主題的相關文檔鏈接對於搜索者會有更大的價值。在Hilltop中僅考慮那些用於引導人們瀏覽資源的專家頁面(Export

Sources)。Hilltop在收到一個查詢請求時,首先根據查詢的主題計算出一列相關性最強的專家頁面,然後根據指向目標頁面的非從屬專家頁面的數量和相關性來對目標頁面進行排序。
HillTop演算法確定網頁與搜索關鍵詞的匹配程度的基本排序過程取代了過分依靠PageRank的值去尋找那些權威頁面的方法,避免了許多想通過增加許多無效鏈接來提高網頁PageRank值的作弊方法。HillTop演算法通過不同等級的評分確保了評價結果對關鍵詞的相關性,通過不同位置的評分確保了主題(行業)的相關性,通過可區分短語數防止了關鍵詞的堆砌。
但是,專家頁面的搜索和確定對演算法起關鍵作用,專家頁面的質量對演算法的准確性起著決定性作用,也就忽略了大多數非專家頁面的影響。專家頁面在互聯網中占的比例非常低(1.79%),無法代表互聯網全部網頁,所以HillTop存在一定的局限性。同時,不同於PageRank演算法,HillTop演算法的運算是在線運行的,對系統的響應時間產生極大的壓力。
4)HITS
HITS(Hyperlink Inced Topic
Search)演算法是Kleinberg在1998年提出的,是基於超鏈接分析排序演算法中另一個最著名的演算法之一。該演算法按照超鏈接的方向,將網頁分成兩種類型的頁面:Authority頁面和Hub頁面。Authority頁面又稱權威頁面,是指與某個查詢關鍵詞和組合最相近的頁面,Hub頁面又稱目錄頁,該頁面的內容主要是大量指向Authority頁面的鏈接,它的主要功能就是把這些Authority頁面聯合在一起。對於Authority頁面P,當指向P的Hub頁面越多,質量越高,P的Authority值就越大;而對於Hub頁面H,當H指向的Authority的頁面越多,Authority頁面質量越高,H的Hub值就越大。對整個Web集合而言,Authority和Hub是相互依賴、相互促進,相互加強的關系。Authority和Hub之間相互優化的關系,即為HITS演算法的基礎。
HITS基本思想是:演算法根據一個網頁的入度(指向此網頁的超鏈接)和出度(從此網頁指向別的網頁)來衡量網頁的重要性。在限定范圍之後根據網頁的出度和入度建立一個矩陣,通過矩陣的迭代運算和定義收斂的閾值不斷對兩個向量Authority和Hub值進行更新直至收斂。
實驗數據表明,HITS的排名准確性要比PageRank高,HITS演算法的設計符合網路用戶評價網路資源質量的普遍標准,因此能夠為用戶更好的利用網路信息檢索工具訪問互聯網資源帶來便利。
但卻存在以下缺陷:首先,HITS演算法只計算主特徵向量,處理不好主題漂移問題;其次,進行窄主題查詢時,可能產生主題泛化問題;第三,HITS演算法可以說一種實驗性質的嘗試。它必須在網路信息檢索系統進行面向內容的檢索操作之後,基於內容檢索的結果頁面及其直接相連的頁面之間的鏈接關系進行計算。盡管有人嘗試通過演算法改進和專門設立鏈接結構計算伺服器(Connectivity
Server)等操作,可以實現一定程度的在線實時計算,但其計算代價仍然是不可接受的。
2.3基於智能化排序的第三代搜索引擎
排序演算法在搜索引擎中具有特別重要的地位,目前許多搜索引擎都在進一步研究新的排序方法,來提升用戶的滿意度。但目前第二代搜索引擎有著兩個不足之處,在此背景下,基於智能化排序的第三代搜索引擎也就應運而生。
1)相關性問題
相關性是指檢索詞和頁面的相關程度。由於語言復雜,僅僅通過鏈接分析及網頁的表面特徵來判斷檢索詞與頁面的相關性是片面的。例如:檢索「稻瘟病」,有網頁是介紹水稻病蟲害信息的,但文中沒有「稻瘟病」這個詞,搜索引擎根本無法檢索到。正是以上原因,造成大量的搜索引擎作弊現象無法解決。解決相關性的的方法應該是增加語意理解,分析檢索關鍵詞與網頁的相關程度,相關性分析越精準,用戶的搜索效果就會越好。同時,相關性低的網頁可以剔除,有效地防止搜索引擎作弊現象。檢索關鍵詞和網頁的相關性是在線運行的,會給系統相應時間很大的壓力,可以採用分布式體系結構可以提高系統規模和性能。
2)搜索結果的單一化問題
在搜索引擎上,任何人搜索同一個詞的結果都是一樣。這並不能滿足用戶的需求。不同的用戶對檢索的結果要求是不一樣的。例如:普通的農民檢索「稻瘟病」,只是想得到稻瘟病的相關信息以及防治方法,但農業專家或科技工作者可能會想得到稻瘟病相關的論文。
解決搜索結果單一的方法是提供個性化服務,實現智能搜索。通過Web數據挖掘,建立用戶模型(如用戶背景、興趣、行為、風格),提供個性化服務。

3. appstore上 按某個關鍵字搜索 那個排序是怎麼排的呢

觀察一:中國區AppStore的搜索演算法按第一個字/詞進行搜索排序
分詞技術是搜索演算法的第一個步驟,指把用戶輸入的關鍵詞進行拆解,先去掉「的」「呀」之類的無意義詞後,然後從關鍵詞後往前進行分詞拆解。
比如:瘋狂的猴子,分詞後成為「瘋狂」「猴子」;憤怒的小鳥分詞後成為「憤怒」「小鳥」;微博分詞後成為2個獨立的字。
App Store搜索「瘋狂的猴子」和搜索「瘋狂」的結果幾乎一樣。
例如搜索:微博,以前第一個是微博,全稱匹配所以排名第一;而現在第一是微信、第二是新浪微博、第三是騰訊微博,我查看了微信的文字介紹,沒有出現過「微博」這個詞,按出現過很多「微」這個字。
我們再搜索「電影」,手電筒APP卻排名考前;感覺APP STORE完全u懂中文了。
觀察二:美國區搜索中文,還是採用標題完全匹配的老方法
在美國區,我們分別搜索了「騰訊微博」和「微博騰訊」,按理說都應該出現騰訊微博的APP,但當搜索「微博騰訊」時完全沒有結果。說明在美國區的中文搜索演算法還保持原樣。
APPYING康軼文 觀察後的感受:
1. 蘋果App Store在調整對中文關鍵詞搜索的排序演算法,現在只是剛開始;
2. 演算法中的中文詞庫還很稚嫩,因為連「微博」都不認識,這個詞庫有點舊;
3. 現在蘋果開始動關鍵詞搜索演算法了,說明ASO(App Store Keyword Optimization蘋果商店關鍵詞搜索排名優化)的市場將在1年左右形成。

4. 根據關鍵詞檢索論文用什麼推薦演算法最合適

必須在Ei Compendex 資料庫中進行檢索。
第一步:選擇檢索欄位為「Subject/Title/Abstract」;
第二步:在檢索框中輸入關鍵詞,點擊「Search」按鈕,得到檢索結果;
第三步:在檢索結果頁面左欄點擊「Country」,選擇「China」,在左欄上方點擊「Limit to」按鈕,得到中國人發表的論文;
第四步:在檢索結果左欄下方點擊「Source Title」按鈕,查看中國人習慣發表適合你的關鍵詞的期刊。
如果需要進一步了解這些期刊的信息,可在「谷歌」中搜索。也可在「雅虎」中搜索。

5. 關鍵詞密度究竟怎麼算關鍵詞出現次數究竟怎麼算

關鍵詞密度(Keyword Density)與關鍵詞頻率(Keyword Frequency)所闡述的實質上是同一個概念,用來量度關鍵詞在網頁上出現的總次數與其他文字的比例,一般用百分比表示。相對於頁面總字數而言,關鍵詞出現的頻率越高,關鍵詞密度也就越大。很多SEO前輩都回答過這個問題。答案分別是:2-9%、3-8%、低於10%、5%左右,你自己選一個吧。關鍵詞密度是一個模糊的概念而不是絕對。不要太在意關鍵詞密度值,合理優化即可。關鍵詞密度是一個模糊的概念,沒有一個准確的公式來限定其密度。各家搜索引擎的密度值控制都不一樣,甚至是同一家的搜索引擎,對不同網站的關鍵詞密度的大小所能允許的容忍閾值也不相同,比如同樣一個頁面,新浪、CCTV的網站密度值達到20%可能就沒有什麼事情,你的估計就馬上被屏蔽了。這還涉及到了搜索引擎的信任值問題。
關鍵詞密度並不是越高越好。一般說來,在大多數的搜索引擎中,關鍵詞密度在2%~8%是一個較為適當的范圍,有利於網站在搜索引擎中排名,同時也不虞被搜索引擎視為關鍵詞Spam。個人感覺在網路上的關鍵字密度對排名較為重要,5%左右的密度應該是比較理想的,Google的可以更高些。
要正確理解關鍵詞密度,首先得理解什麼是關鍵詞?關鍵詞就是搜索者在查找信息、產品或服務時,在搜索引擎界面中輸入的詞條。一般的規則是,關鍵詞越長,從搜索引擎索引中返回的信息也就越精確。關鍵詞密度(Keyword Density)也叫關鍵詞頻率(Keyword Frequency),所闡述的實質上是同一個概念,它是用來量度關鍵詞在網頁上出現的總次數與其他文字的比例,一般用百分比表示。相對於頁面總字數而言,關鍵詞出現的頻率越高,那麼關鍵詞密度也就越大。簡單地舉個例子,如果某個網頁共有100個字元,而關鍵詞本身是兩個字元並在其中出現5次,則可以說關鍵詞密度為10%。
當然,這個例子只是一種理想的簡化方式,它沒有有效包括HTML代碼裡面的諸如meta 標簽中的Title、Keywords、Description,圖像元素的Alt文本、注釋文本等,這些在計算關鍵詞密度時也都要考慮在內的。同樣地,在計算關鍵詞密度時,也不僅僅指網頁可見部分中關鍵詞出現的次數,也包括在上文中提到的非可見部分中的出現次數。同時,也要考慮Stop Words(停用詞) ,這些詞往往會在很大程度上稀釋關鍵詞密度。搜索引擎在演算法上要比這復雜得多,但基本策略與此近似。
查詢方法
推薦上"頁面關鍵詞密度查詢"查詢網頁關鍵詞的密度。
相對網路,Google搜索引擎賦予關鍵詞密度的權重更小了,很多排名靠前的網頁關鍵詞密度可能高到20%以上,也可能完全沒有關鍵詞。獨孤天驕曾經專門就這個觀點做個實踐,通過一個布滿關鍵詞的頁面進行觀察,網路更重視的是關鍵詞密度,而Google相對而言,重視更多的則是外部鏈接的建立。

6. 請問誰知道asp關鍵詞搜索最大匹配演算法

要實現最大匹配演算法,首先要有一個詞庫,根據詞庫把關鍵詞的中的詞語分出來,然後逐個詞語搜索
用asp實現最大匹配演算法是不理智的,asp是解釋型語言,遍歷詞庫查找詞語將會非常緩慢

7. 搜索引擎對關鍵字的排序涉及到的因素有哪些

主要原因:

1、網站與搜索關鍵詞的相關性


網站的主題和關鍵詞匹配是非常重要的,網站主題和內容保持一致性也是這個道理,而且如果站點跨領域去發布導流內容,會被搜索識別,被判罰的例子也不少。而且,如果用戶搜索的關鍵詞與你網站是相關的,用戶在網站內的轉化點擊也會高。


2、內容和搜索關鍵詞相關性


目前網路及其他搜索引擎都越來越重視了內容生態的維護,讓更多的原創作者獲得更多收益,內容主題跟搜索關鍵詞的相關性越高,獲得排序有待的機會也越大。簡單說如果網站內容足夠豐富,能滿足搜索用戶的所有需求,那麼一般這樣的內容,展現和點擊一定不會差到哪裡去。


3、時效性


類似於新聞等具備時效性的內容,越快發現熱點,且內容能夠被搜索引擎發現,那麼在流量上相信你也可以獲得到更多。


4、網站訪問速度


網站的訪問速度一定要特別重視,網路前段時間推出了閃電演算法就是針對訪問速度的,特別是移動端訪問速度差的站點影響特別大,另外網路搜索資源平台上推出了移動搜索建站優化白皮書,大家可以多學習一下,按照規則來。


5、網站評價


網站評價也可以說是網站的權威性,站長圈說的權重,是根據網站的規模、歷史表現、站點關系網等多個維度進行的一個綜合評定,對於我們來說一時半會是肯定無法提高網站評價的,只能夠努力做好內容做好用戶體驗,等度娘或其他搜索引擎給予加權。



6、網站內外鏈


雖然隨著搜索引擎演算法的不斷更新,網站內外鏈接的影響越來越小,但是網站合理的內鏈還是必不可少的,因為合理的內鏈有利於搜索引擎蜘蛛爬行網站,提高網站被收錄的幾率。

7、代碼優化

title、keywords、description能夠幫助搜索引擎快速了解網站內容,將關鍵詞合理布局在其中能夠對關鍵詞排名起到莫大的幫助。此外,標簽對強調網頁主體內容有很大幫助。一般情況下網頁logo圖的alt屬性可以使用標簽進行強調,頁面的導航或重要的欄目標題也用標簽進行強調。

8、從左到右按重要區分部署關鍵詞

用戶無論是看標題還是閱讀文章都是從左到右,搜索引擎也一樣,標題權重是從左到右慢慢分散的,所以我們在部署關鍵詞的時候盡量把重要的關鍵詞放在左邊依後順序。


其他原因

一:人為的優化操作行為造成

二:黑客入侵

三:網站伺服器的穩定性

四:搜索引擎演算法更新

望採納

8. 搜索引擎關鍵字如何優化

1. 搜索引擎營銷 (SEM)
搜索引擎營銷(SEM)英文全稱為Search Engine Marketing,意指通過搜索引擎進行服務和產品的營銷。搜索引擎營銷又主要分為兩種:搜索引擎優化(SEO)和付費點擊(PPC,Pay-Per- Click)。搜索引擎優化(SEO)指通過優化網站和頁面並讓它們在搜索結果的頁面中展示,而付費點擊(PPC)指通過購買搜索引擎的點擊將用戶帶到自 己的網站。(通常)這些點擊來自搜索結果頁面中的「贊助商鏈接」(譯註:顯然不適用於網路)。
2. 反向鏈接(Backlink)
反向鏈接(Backlink)又稱為「回指鏈接」「入鏈」和「簡易鏈接」,指從其他網站指向你的網站的一個超級鏈接。反向鏈接之所以對SEO異常重要,是因為它們直接影響一個網頁的頁面等級(PageRank),以及這個頁面在搜索結果中的排名。
3. 頁面等級(PageRank)
頁面等級( PageRank) 是Goolgle用來評估一個頁面相對於其他頁面的重要性的一個演算法規則。這個演算法規則最基本的意思就是說,如果A頁面有一個鏈接指向B頁面,那就可以看 作是A頁面對B頁面的一種信任或推薦。所以,如果一個頁面的反向鏈接越多,再根據這些鏈接的價值加權越高,那搜索引擎就會判斷這樣的頁面更為重要,頁面等 級(PageRank)也就越高。
4. 鏈接誘餌(餌鏈)(Linkt)
鏈接誘餌(Linkt),顧名思義這是一個網站或一個博客上為了盡可能多地吸引反向鏈接(目的是提高網站的PR值)而存在的一段內容。通常,這些做 為誘餌的內容為文字內容,但也可以是一段視頻、一張圖片、一個測驗或其他的熱門的內容。最經典的誘餌內容的例子是「十大(Top 10)」,因為這樣的內容在一些社交網站很容易流行起來成為熱門話題(譯註:這個話題貌似已經臭街了)。
5. 互鏈車間或互鏈作坊(Link farm)
互鏈工廠或互鏈作坊(Link farm)是指很多網站(通常數量很大)為了提高組成一個類似車間或作坊式的團體,通過彼此的互相鏈接來提高團體每一個的網站的頁面評級的手段。早期,這種方法很有用,但現在已經成為一種不恥的作弊手段(並可能會收到懲罰)。
6. 錨文本(Anchor text)
錨文本(Anchor text)在反向鏈接中是指一個頁面中可點擊的文本,而其中的關鍵詞對搜索引擎優化(SEO)有很大的幫助,因為Google會將這些關鍵詞和你的內容關聯起來。
7. 鏈接屬性-NoFollow
Nofollow是網站管理員使用的一個鏈接屬性,其目的是告訴搜索引擎他們並不是為該鏈接所指向的網站投票。這種鏈接也可能是網站用戶自己創造的內容 (比如博客評論中的鏈接),或者是一個付費交易的鏈接(比如廣告或贊助商的鏈接)。當Google識別到這些反向鏈接的NoFollow屬性後,基本就不 會在頁面評級和搜索結果排名的演算法中將這些鏈接的貢獻計算在內了。
8. 鏈接修飾(Link Sculpting)
鏈接修飾(Link Sculpting)是指網站管理員對網站上其他網站的反向鏈接進行屬性設置。比如,管理員給鏈接添加Nofollow屬性,這可以讓管理員決定利用自己 的網站為具體某個網站提高頁面評級,或者不幫助具體某個網站提高網頁評級。不過,現在這種做法的作用已經微乎其微,因為Google已經決定要用自己的算 法來決定怎麼處理鏈接的Nofollow屬性。
9. 頁面標題(Title Tag)
頁面標題(Title Tag),顧名思義是指一個頁面的標題中,這也是Google搜索演算法中最重要的一個參考。理論上,你的頁面標題要獨一無二並盡可能多地包括頁面內容中的關鍵詞。你在瀏覽網頁時可以從瀏覽器最上方看到一個網頁的標題。
10. 元標簽(Meta Tags)
元標簽(Meta Tags)和頁面標題一般,主要用於為搜索引擎提供更多關於你頁面內容的信息。元標簽位於HTML代碼的頭部,還有就是對長眼睛的訪客是不可見的。
11. 搜索演算法(Search Algorithm)
Google的搜索演算法是為了給每一次搜索請求找到最為相關的網站和頁面而設定。這個演算法考量的因素超過200種(谷歌自稱),其中包括頁面等級、標題、元標簽、網站內容,以及域名的年齡等。
12. 搜索結果頁面(SERP)
搜索結果頁面(SERP)的英文全稱為Search Engine Results Page.基本上,這就是你平時在Google鍵入關鍵詞回車後的頁面了。你的網站從這個頁面得到的流量取決於你的網站在搜索結果中的排名等級。
13. 沙盒(Sandbox)
Google除了所有網站的索引之外,還有一個單獨的索引沙盒,那裡面是新近發現和收錄的網站。當你的網站存在這個沙盒之中時,它就不會在一般的搜索結果中出現,而只有當Google確認了你的網站是合法的,這才會將其從沙盒中移出進入所有網站的索引。
14. 關鍵詞密度(Keyword Density)
如何判斷一個特定頁面的關鍵詞密度?你只要將一個關鍵詞使用的次數除以頁面的總詞數就可以了。關鍵詞密度過去是搜索引擎優化中非常重要的一個因素,因為早期的搜索演算法對此十分看重,但現在已經時過境遷了。
15.關鍵詞堆積(Keyword Stuffing)
因為早期搜索演算法對關鍵詞密度非常看重,站長們便通過使用人工堆積關鍵詞的手法來作弊和蒙騙搜索引擎。這種手法就叫做關鍵詞堆積,當然現在已經沒用了,而且你還可能會因此受到懲罰。
16. 障眼法(Cloaking)
障眼法(Cloaking)是指利用代碼在同一個頁面上讓機器人和真人看到不一樣的內容。其目的是為了讓頁面通過關鍵詞而提升頁面評級,而真正的目的是推銷和出售各種不相關的產品或服務。當然,這也是一種作弊的手段,有很大可能會受到搜索引擎懲罰,甚至剔除。
17. 網路爬蟲或網路蜘蛛(Web Crawler)
網路爬蟲或網路蜘蛛(Web Crawler)也簡稱為爬蟲或蜘蛛,代表搜索引擎在網路上進行瀏覽,目的是發現新的鏈接和頁面,這是進行索引的第一個環節。
18. 復制內容(Duplicate Content)
復制內容(Duplicate Content)也叫「重復內容」,通常是指一個頁面在引用了站內或站外的大段實質內容,或者是存在完全相同和極其相似的情況,而這也是一個網站應該盡量避免發生的情況,否則很容易讓你的網站受到懲罰。
19. 標准鏈接(Canonical URL)
標准鏈接(Canonical URL)是指一個網頁的鏈接要符合規范和標准。
20. 機器人協議(Robots.txt)
機器人協議(Robots.txt)不過是一個TXT文本文件,存在於你域名根目錄之下,作用是將網站的目錄結構信息告訴爬蟲和蜘蛛,並限制其對特定文件夾和內容的訪問,或者是完全將它們關在門外。

9. java關鍵字查詢演算法

import java.io.FileReader;
import java.io.BufferedReader;
import java.io.File;

public class search
{
//查找方法,參數,文件絕對路徑,查找關鍵字
public static boolean search(String filepath,String key)
{
try
{
File f = new File(filepath);
FileReader fr = new FileReader(f);
BufferedReader br = new BufferedReader(fr);
String s = "";
//int i = 1;
while((s = br.readLine()) != null)
{
if(s.indexOf(key) != -1)
{
return true;
}
}
return false;
}
catch(Exception e)
{
e.printStackTrace();
return false;
}
}
public static void main(String args[])
{
System.out.println(search.search("d://t.txt","l2"));
}
}

修改了下,加兩個變數,可以指出查找的位置。
import java.io.FileReader;
import java.io.BufferedReader;
import java.io.File;

public class search
{
//查找方法,參數,文件絕對路徑,查找關鍵字
public static String search(String filepath,String key)
{
try
{
File f = new File(filepath);
FileReader fr = new FileReader(f);
BufferedReader br = new BufferedReader(fr);
String s = "";
int i = 1;
int m = 0;
while((s = br.readLine()) != null)
{
if((m = s.indexOf(key)) != -1)
{
return "第"+i+"段,第"+m+"處";
}
i++;
}
return null;
}
catch(Exception e)
{
e.printStackTrace();
return null;
}
}
public static void main(String args[])
{
System.out.println(search.search("d://t.txt","asd"));
}
}

這個,查漢字是沒有問題的。
另外,你要全文檢索的話,indexOf()還有個方法,indexOf(int start,String key),指定開始查找的位置跟關鍵字,你查到一處後,將這個數值加1,做為繼續查找的開始位置就可以了。

閱讀全文

與關鍵詞搜索演算法相關的資料

熱點內容
抖音python面試演算法題 瀏覽:86
java單擊事件 瀏覽:641
絕對尺寸編程法 瀏覽:265
伺服器共享文件夾中病毒 瀏覽:35
哪個app會員看綜藝最全 瀏覽:761
程序員朋友圈招聘 瀏覽:339
細細的小木棍怎麼做解壓玩具 瀏覽:36
不要惹程序員的視頻 瀏覽:995
碼高編程如何加盟 瀏覽:756
程序員好處有哪些 瀏覽:954
c語言編譯後的程序 瀏覽:12
公交卡單片機 瀏覽:745
減壓縮軟體下載 瀏覽:300
51單片機復位電路有哪兩種 瀏覽:924
et2008加密狗教程 瀏覽:965
安卓手機用什麼錄制高清視頻 瀏覽:749
cadim命令如何應用 瀏覽:951
免費ntp時鍾伺服器地址 瀏覽:686
域名如何與雲伺服器綁定 瀏覽:808
linuxjava環境搭建教程 瀏覽:128