搜索引擎網站源碼_搜索引擎如何針對網頁源代碼進行搜索

A. 誰有簡單的網路搜索引擎的源碼，要不用資料庫做索引的。

網路一下元搜索引擎源碼，就會有很多，我也自己用過

B. 我想做一個搜索引擎導航網站，就是把各大搜索引擎放到一個網頁上，用什麼源碼呀

大哥，，，還各大搜索呢。搜索不就這么幾個嗎：網路、谷歌、搜狗、搜搜、有道、淘寶、不用導航，地球人都知道。不過你要是想把幾個網站的搜索結果放到一個頁面上倒是一個不錯的主意，不過不好推廣。以前見過此類。

C. 畢業設計:求搜索引擎的原代碼

開源搜索引擎工具包

1．Lucene

Lucene是目前最為流行的開放源代碼全文搜索引擎工具包，隸屬於Apache基金會，由資深全文索引/檢索專家 Doug Cutting所發起，並以其妻子的中間名作為項目的名稱。Lucene不是一個具有完整特徵的搜索應用程序，而是一個專注於文本索引和搜索的工具包，能夠為應用程序添加索引與搜索能力。基於Lucene在索引及搜索方面的優秀表現，雖然由Java編寫的Lucene具有天生的跨平台性，但仍被改編為許多其他語言的版本：Perl、Python、C++、.Net等。

同其他開源項目一樣，Lucene具有非常好的架構，能夠方便地在其基礎上進行研究與開發，添加新功能或者開發新系統。 Lucene本身只支持文本文件及少量語種的索引，並且不具備爬蟲功能，而這正是Lucene的魅力所在，通過Lucene提供的豐富介面，我們可以根據自身的需要在其上添加具體語言的分詞器，針對具體文檔的文本解析器等，而這些具體的功能實現都可以藉助於一些已有的相關開源軟體項目、甚至是商業軟體來完成，這也保證了Lucene在索引及搜索方面的專注性。目前，通過在Lucene的基礎上加入爬行器、文本解析器等也形成了一些新的開源項目，如 LIUS、Nutch等。並且Lucene的索引數據結構已經成了一種事實上的標准，為許多搜索引擎所採用。

2．LIUS

LIUS即Lucene Index Update and Search的縮寫，它是以Lucene為基礎發展起來的一種文本索引框架，和Lucene一樣，同樣可以看作搜索引擎開發工具包。它在Lucene的基礎上作了一些相應的研究及添加了一些新的功能。LIUS藉助於許多開源軟體，可以直接對各種不同格式/類型的文檔進行文本解析與索引，這些文檔格式包括MS Word、MS Excel、 MS PowerPoing、RTF、PDF、XML、HTML、TXT、Open Office及JavaBeans等，對Java Beans的支持對於進行資料庫索引非常有用，在用戶進行對象關系映射（如：Hibernate、JDO、TopLink、Torque等）的資料庫連接編程時會變得更加精確。LIUS還在Lucene的基礎上增加了索引更新功能，使針對索引的維護功能進一步完善。並且支持混和索引，可以把同一目錄下與某一條件相關的所有內容整合到一起，這種功能對於需要對多種不同格式的文檔同時進行索引時非常有用。

3．Egothor

Egothor是一款開源的高性能全文搜索引擎，適用於基於全文搜索功能的搜索應用，它具有與Luccene類似的核心演算法，這個項目已經存在了很多年，並且擁有一些積極的開發人員及用戶團體。項目發起者Leo Galambos是捷克布拉格查理大學數學與物理學院的一名高級助理教授，他在博士研究生期間發起了此項目。

更多的時候，我們把Egothor看作一個用於全文搜索引擎的Java庫，能夠為具體的應用程序添加全文搜索功能。它提供了擴展的Boolean模塊，使得它能被作為Boolean模塊或者Vector模塊使用，並且Egothor具有一些其他搜索引擎所不具有的特有功能：它採用新的動態演算法以有效提高索引更新的速度，並且支持平行的查詢方式，可有效提高查詢效率。在Egothor的發行版中，加入了爬行器、文本解析器等許多增強易用性的應用程序，融入了Golomb、Elias-Gamma等多種高效的壓縮方法，支持多種常用文檔格式的文本解析，如HTML、PDF、 PS、微軟Office文檔、XLS等，提供了GUI的索引界面及基於Applet或者Web的查詢方式。另外，Egothor還能被方便地配置成獨立的搜索引擎、元數據搜索器、點對點的HUB等多種且體的應用系統。

4．Xapian

Xapian是基於GPL發布的搜索引擎開發庫，它採用C++語言編寫，通過其提供綁定程序包可以使Perl、Python、PHP、Java、Tck、C#、Ruby等語言方便地使用它。

Xapian還是一個具有高適應性的工具集，使開發人員能夠方便地為他們的應用程序添加高級索引及搜索功能。它支持信息檢索的概率模型及豐富的布爾查詢操作。Xapian的發布包通常由兩部分組成：xapian-core及xapian-bindings，前者是核心主程序，後者是與其他語言進行綁定的程序包。

Xapian為程序開發者提供了豐富的API及文檔進行程序的編制，而且還提供了許多編程實例及一個基於Xapian的應用程序Omega，Omega由索引器及基於CGI的前端搜索組成，能夠為HTML、PHP、PDF、PostScript、 OpenOffice/StarOffice、RTF等多種格式的文檔編制索引，通過使用Perl DBI模塊甚至能為MySQL、 PostgreSQL、SQLite、Sybase、MS SQL、LDAP、ODBC等關系資料庫編制索引，並能以CSV或XML格式從前端導出搜索結果，程序開發者可以在此基礎上進行擴展。

5．Compass

Compass是在Lucene上實現的開源搜索引擎架構，相對比於Lucene而言，提供更加簡潔的搜索引擎API。增加了索引事務處理的支持，使其能夠更方便地與資料庫等事務處理應用進行整合。它更新時無需刪除原文檔，更加簡單更加高效。資源與搜索引擎之間採用映射機制，此種機制使得那些已經使用了Lucene或者不支持對象及XML的應用程序遷移到Compass上進行開發變得非常容易。

Compass還能與Hibernate、Spring等架構進行集成，因此如果想在Hibernate、Spring項目中加入搜索引擎功能，Compass是個極好的選擇。

開源Web搜索引擎系統

1．Nutch

Nutch是Lucene的作者Doug Cutting發起的另一個開源項目，它是構建於Lucene基礎上的完整的 Web搜索引擎系統，雖然誕生時間不長，但卻以其優良血統及簡潔方便的使用方式而廣收歡迎。我們可以使用Nutch搭建類似Google的完整的搜索引擎系統，進行區域網、互聯網的搜索。

2．YaCy

YaCy是一款基於P2P(peer-to-peer)的分布式開源Web搜索引擎系統，採用Java語言進行編寫，其核心是分布在數百台計算機上的被稱為YaCy-peer的計算機程序，基於P2P網路構成了YaCy網路，整個網路是一個分散的架構，在其中所有的YaCy -peers都處於對等的地位，沒有統一的中心伺服器，每個YaCy-peer都能獨立的進行互聯網的爬行抓取、分析及創建索引庫，通過P2P網路與其他 YaCy-peers進行共享，並且每個YaCy-peer又都是一個獨立的代理伺服器，能夠對本機用戶使用過的網頁進行索引，並且採取多機制來保護用戶的隱私，同時用戶也通過本機運行的Web伺服器進行查詢及返回查詢結果。

YaCy搜索引擎主要包括五個部分，除普通搜索引擎所具有的爬行器、索引器、反排序的索引庫外，它還包括了一個非常豐富的搜索與管理界面以及用於數據共享的P2P網路。

開源桌面搜索引擎系統

1．Regain

regain是一款與Web搜索引擎類似的桌面搜索引擎系統，其不同之處在於regain不是對Internet內容的搜索，而是針對自己的文檔或文件的搜索，使用regain可以輕松地在幾秒內完成大量數據（許多個G）的搜索。Regain採用了Lucene的搜索語法，因此支持多種查詢方式，支持多索引的搜索及基於文件類型的高級搜索，並且能實現URL重寫及文件到HTTP的橋接，並且對中文也提供了較好的支持。

Regain提供了兩種版本：桌面搜索及伺服器搜索。桌面搜索提供了對普通桌面計算機的文檔與區域網環境下的網頁的快速搜索。伺服器版本主要安裝在Web伺服器上，為網站及區域網環境下的文件伺服器進行搜索。

Regain使用Java編寫，因此可以實現跨平台安裝，能安裝於Windows、Linux、Mac OS及 Solaris上。伺服器版本需要JSPs環境及標簽庫（tag library），因此需要安裝一個Tomcat容器。而桌面版自帶了一個小型的Web 伺服器，安裝非常簡單。

2．Zilverline

Zilverline是一款以Lucene為基礎的桌面搜索引擎，採用了Spring框架，它主要用於個人本地磁碟及區域網內容的搜索，支持多種語言，並且具有自己的中文名字：銀錢查打引擎。Zilverline提供了豐富的文檔格式的索引支持，如微軟Office文檔、 RTF、Java、CHM等，甚至能夠為歸檔文件編制索引進行搜索，如zip、rar及其他歸檔文件，在索引過程中，Zilverline從zip、 rar、chm等歸檔文件中抽取文件來編制索引。Zilverline可以支持增量索引的方式，只對新文件編制索引，同時也支持定期自動索引，其索引庫能被存放於Zilverline能夠訪問到的地方，甚至是DVD中。同時，Zilverline還支持文件路徑到URL的映射，這樣可以使用戶遠程搜索本地文件。

Zilverline提供了個人及研究、商業應用兩種許可方式，其發布形式為一個簡單的war包，可以從其官方網站下載（http://www.zilverline.org/）。Zilverline的運行環境需要Java環境及Servlet容器，一般使用 Tomcat即可。在確保正確安裝JDK及Tomcat容器後只需將Zilverline的war包（zilverline-1.5.0.war）拷貝到 Tomcat的webapps目錄後重啟Tomcat容器即可開始使用Zilverline搜索引擎了。

D. 求一個搜索引擎網頁源碼：搜索不是搜網路上的東西，而是搜網站所在目錄里的東西

是的。搜索引擎伺服器會一刻不停的從互聯網上抓取網頁，存放到本地的機器...網路上的網頁多是好幾份的,大家你抄我的我抄你的,連個錯別字都不會改的...

E. 搜貓搜索引擎源碼怎麼樣最好專業人士來回答。本人想建個搜索引擎網站。

搜索引擎注重是演算法和過濾技術，如果想建搜索引擎網站。首先得自己有這個水平，照搬源碼修改，效仿搜貓源碼都無法體現你真正的的價值和水平。更何況在現如搜索引擎多如牛毛，但卻只有網路深入人心的今天，再建一個搜索引擎網站不知有何歷史意義，還是純屬個愛好，閑來無事所作出來的清雅之舉。

F. 各種搜索引擎的源碼

大型搜索網站的源碼都是機密不可能公布出來的，樓主可以去搜搜搜索引擎的一些簡單源碼，Java的c++的啊

G. 找一個自己站內的搜索引擎源碼

這需要定做的不可能下載的到追問：絕對可以自己添加內容也可以回答：那是不可能的除非別人程序跟你一樣然後做了個還有就是你的問題又是內網又是自己的網站我真不知道你到底想要什麼追問：絕對有可能很簡單而已我只要添加內容和網址別人一搜索內容就出現網址就那麼簡單，有什麼不可能回答：上帝啊怎麼又成搜索內容就出網址那你下載一個搜索引擎源碼就行這種應該有的可以自己加網站那些之類的你搜索下搜索引擎源碼追問：本來就是要那效果別人點那網址就可以打開那個頁面了就是找不到，找到的都是些集合網路、GOOGLE之類的垃圾東西回答：那就不清楚了抱歉

H. 能否用搜索引擎搜到網站html源碼中的內容

展現出來的原理：

用戶看到的是結果展現（css+js瀏覽器渲染），搜索引擎讀的則是代碼（html代碼結構），而讓這一切運作起來，靠的就是程序源碼（伺服器端語言）；

方法：

除非你把源碼展現（貼）在頁面（html頁面）里，而不是伺服器程序端，搜索引擎能讀到你貼出來的源碼；

example：

就好比，我們在後台編輯一篇文章，但是我們只點擊保存草稿，而不是點擊發布，那麼用戶和搜索引擎完全是沒辦法看到和讀取的。

→南京網站建設小拉為您解答，如有不足，請各位大神批評指正，小拉會虛心學習，不斷進步，謝謝！

I. 搜索引擎如何針對網頁源代碼進行搜索

網頁是由html代碼寫的，其中有個標簽定義了某些字元可以被搜到和其他一些不能被搜到。搜索引擎就是根據這些搜索的。
似乎沒有樓主你要的那種搜索……

J. 搜索引擎源碼哪裡有

是要做畢業設計嗎？
網上有很多關於「搜索引擎」的源代碼以及畢業設計，你找一下吧

導航:首頁 > 源碼編譯 > 搜索引擎網站源碼

搜索引擎網站源碼

與搜索引擎網站源碼相關的資料