基于開源搜索引擎的架構(gòu)設(shè)計和J2EE實現(xiàn)(二)
第四章 基于lucene的索引與搜索
4.1什么是Lucene全文檢索
Lucene是Jakarta Apache的開源項目。它是一個用Java寫的全文索引引擎工具包,可以方便的嵌入到各種應(yīng)用中實現(xiàn)針對應(yīng)用的全文索引/檢索功能。
4.2 Lucene的原理分析
4.2.1全文檢索的實現(xiàn)機制
Lucene的API接口設(shè)計的比較通用,輸入輸出結(jié)構(gòu)都很像數(shù)據(jù)庫的表==>記錄==>字段,所以很多傳統(tǒng)的應(yīng)用的文件、數(shù)據(jù)庫等都可以比較方便的映射到Lucene的存儲結(jié)構(gòu)和接口中。
總體上看:可以先把Lucene當成一個支持全文索引的數(shù)據(jù)庫系統(tǒng)。
索引數(shù)據(jù)源:doc(field1,field2...) doc(field1,field2...)
\ indexer /
_____________
| Lucene Index|
--------------
/ searcher 結(jié)果輸出:Hits(doc(field1,field2) doc(field1...))
Document:一個需要進行索引的“單元”,一個Document由多個字段組成
Field:字段
Hits:查詢結(jié)果集,由匹配的Document組成
4.2.2 Lucene的索引效率
通常書籍后面常常附關(guān)鍵詞索引表(比如:北京:12, 34頁,上海:3,77 頁……),它能夠幫助讀者比較快地找到相關(guān)內(nèi)容的頁碼。而數(shù)據(jù)庫索引能夠大大提高查詢的速度原理也是一樣,想像一下通過書后面的索引查找的速度要比一頁一 頁地翻內(nèi)容高多少倍……而索引之所以效率高,另外一個原因是它是排好序的。對于檢索系統(tǒng)來說核心是一個排序問題。
由于數(shù)據(jù)庫索引不是為全文索引設(shè)計的,因此,使用like "%keyword%"時,數(shù)據(jù)庫索引是不起作用的,在使用like查詢時,搜索過程又變成類似于一頁頁翻書的遍歷過程了,所以對于含有模糊查詢的數(shù)據(jù)庫 服務(wù)來說,LIKE對性能的危害是極大的。如果是需要對多個關(guān)鍵詞進行模糊匹配:like"%keyword1%" and like "%keyword2%" ...其效率也就可想而知了。所以建立一個高效檢索系統(tǒng)的關(guān)鍵是建立一個類似于科技索引一樣的反向索引機制,將數(shù)據(jù)源(比如多篇文章)排序順序存儲的同 時,有另外一個排好序的關(guān)鍵詞列表,用于存儲關(guān)鍵詞==>文章映射關(guān)系,利用這樣的映射關(guān)系索引:[關(guān)鍵詞==>出現(xiàn)關(guān)鍵詞的文章編號,出現(xiàn) 次數(shù)(甚至包括位置:起始偏移量,結(jié)束偏移量),出現(xiàn)頻率],檢索過程就是把模糊查詢變成多個可以利用索引的精確查詢的邏輯組合的過程。從而大大提高了多 關(guān)鍵詞查詢的效率,所以,全文檢索問題歸結(jié)到***是一個排序問題。
由此可以看出模糊查詢相對數(shù)據(jù)庫的精確查詢是一個非常不確定的問題,這也是大部分數(shù)據(jù)庫對全文檢索支持有限的原因。Lucene最核心的特征是通過特殊的索引結(jié)構(gòu)實現(xiàn)了傳統(tǒng)數(shù)據(jù)庫不擅長的全文索引機制,并提供了擴展接口,以方便針對不同應(yīng)用的定制。
可以通過一下表格對比一下數(shù)據(jù)庫的模糊查詢:
Lucene全文索引引擎 數(shù)據(jù)庫
索引 將數(shù)據(jù)源中的數(shù)據(jù)都通過全文索引一一建立反向索引 對于LIKE查詢來說,數(shù)據(jù)傳統(tǒng)的索引是根本用不上的。數(shù)據(jù)需要逐個便利記錄進行GREP式的模糊匹配,比有索引的搜索速度要有多個數(shù)量級的下降。
匹配效果 通過詞元(term)進行匹配,通過語言分析接口的實現(xiàn),可以實現(xiàn)對中文等非英語的支持。 使用:like "%net%" 會把netherlands也匹配出來,
多個關(guān)鍵詞的模糊匹配:使用like "%com%net%":就不能匹配詞序顛倒的xxx.net..xxx.com
匹配度 有匹配度算法,將匹配程度(相似度)比較高的結(jié)果排在前面。 沒有匹配程度的控制:比如有記錄中net出現(xiàn)5詞和出現(xiàn)1次的,結(jié)果是一樣的。
結(jié)果輸出 通過特別的算法,將最匹配度***的頭100條結(jié)果輸出,結(jié)果集是緩沖式的小批量讀取的。 返回所有的結(jié)果集,在匹配條目非常多的時候(比如上萬條)需要大量的內(nèi)存存放這些臨時結(jié)果集。
可定制性 通過不同的語言分析接口實現(xiàn),可以方便的定制出符合應(yīng)用需要的索引規(guī)則(包括對中文的支持) 沒有接口或接口復(fù)雜,無法定制
結(jié)論 高負載的模糊查詢應(yīng)用,需要負責的模糊查詢的規(guī)則,索引的資料量比較大 使用率低,模糊匹配規(guī)則簡單或者需要模糊查詢的資料量少
4.2.3 中文切分詞機制
對于中文來說,全文索引首先還要解決一個語言分析的問題,對于英文來說,語句中單詞之間是天然通過空格分開的,但亞洲語言的中日韓文語句中的字是一個字挨一個,所有,首先要把語句中按“詞”進行索引的話,這個詞如何切分出來就是一個很大的問題。
首先,肯定不能用單個字符作(si-gram)為索引單元,否則查“上海”時,不能讓含有“海上”也匹配。但一句話:“北京天安門”,計算機如何按照中文的語言習慣進行切分呢?“北京 天安門” 還是“北 京 天安門”?讓計算機能夠按照語言習慣進行切分,往往需要機器有一個比較豐富的詞庫才能夠比較準確的識別出語句中的單詞。另外一個解決的辦法是采用自動切分算法:將單詞按照2元語法(bigram)方式切分出來,比如:"北京天安門" ==> "北京 京天 天安 安門"。這樣,在查詢的時候,無論是查詢"北京" 還是查詢"天安門",將查詢詞組按同樣的規(guī)則進行切分:"北京","天安安門",多個關(guān)鍵詞之間按與"and"的關(guān)系組合,同樣能夠正確地映射到相應(yīng)的索引中。這種方式對于其他亞洲語言:韓文,日文都是通用的。
基于自動切分的***優(yōu)點是沒有詞表維護成本,實現(xiàn)簡單,缺點是索引效率低,但對于中小型應(yīng)用來說,基于2元語法的切分還是夠用的。基于2元切分后的索引一般大小和源文件差不多,而對于英文,索引文件一般只有原文件的30%-40%不同,
自動切分 詞表切分
實現(xiàn) 實現(xiàn)非常簡單 實現(xiàn)復(fù)雜
查詢 增加了查詢分析的復(fù)雜程度, 適于實現(xiàn)比較復(fù)雜的查詢語法規(guī)則
存儲效率 索引冗余大,索引幾乎和原文一樣大 索引效率高,為原文大小的30%左右
維護成本 無詞表維護成本 詞表維護成本非常高:中日韓等語言需要分別維護。
還需要包括詞頻統(tǒng)計等內(nèi)容
適用領(lǐng)域 嵌入式系統(tǒng):運行環(huán)境資源有限
分布式系統(tǒng):無詞表同步問題
多語言環(huán)境:無詞表維護成本 對查詢和存儲效率要求高的專業(yè)搜索引擎
4.3 Lucene與Spider的結(jié)合
首先構(gòu)造一個Index類用來實現(xiàn)對內(nèi)容進行索引。
代碼分析如下:
- package news;
- /**
- * 新聞搜索引擎
- * 計算機99630 沈晨
- * 版本1.0
- */
- import java.io.IOException;
- import org.apache.lucene.analysis.cn.ChineseAnalyzer;
- import org.apache.lucene.document.Document;
- import org.apache.lucene.document.Field;
- import org.apache.lucene.index.IndexWriter;
- public class Index {
- IndexWriter _writer = null;
- Index() throws Exception {
- _writer = new IndexWriter("c:\\News\\index",
- new ChineseAnalyzer(), true);
- }
- /**
- * 把每條新聞加入索引中
- * @param url 新聞的url
- * @param title 新聞的標題
- * @throws java.lang.Exception
- */
- void AddNews(String url, String title) throws Exception {
- Document _doc = new Document();
- _doc.add(Field.Text("title", title));
- _doc.add(Field.UnIndexed("url", url));
- _writer.addDocument(_doc);
- }
- /**
- * 優(yōu)化并且清理資源
- * @throws java.lang.Exception
- */
- void close() throws Exception {
- _writer.optimize();
- _writer.close();
- }
- }
然后構(gòu)造一個HTML解析類,把通過bot程序收集的新聞內(nèi)容進行索引。
代碼分析如下:
- package news;
- /**
- * 新聞搜索引擎
- * 計算機99630 沈晨
- * 版本1.0
- */
- import java.util.Iterator;
- import java.util.Vector;
- import com.heaton.bot.HTMLPage;
- import com.heaton.bot.HTTP;
- import com.heaton.bot.Link;
- public class HTMLParse {
- HTTP _http = null;
- public HTMLParse(HTTP http) {
- _http = http;
- }
- /**
- * 對Web頁面進行解析后建立索引
- */
- public void start() {
- try {
- HTMLPage _page = new HTMLPage(_http);
- _page.open(_http.getURL(), null);
- Vector _links = _page.getLinks();
- Index _index = new Index();
- Iterator _it = _links.iterator();
- int n = 0;
- while (_it.hasNext()) {
- Link _link = (Link) _it.next();
- String _herf = input(_link.getHREF().trim());
- String _title = input(_link.getPrompt().trim());
- _index.AddNews(_herf, _title);
- n++;
- }
- System.out.println("共掃描到" + n + "條新聞");
- _index.close();
- }
- catch (Exception ex) {
- System.out.println(ex);
- }
- }
- /**
- * 解決java中的中文問題
- * @param str 輸入的中文
- * @return 經(jīng)過解碼的中文
- */
- public static String input(String str) {
- String temp = null;
- if (str != null) {
- try {
- temp = new String(str.getBytes("ISO8859_1"));
- }
- catch (Exception e) {
- }
- }
- return temp;
- }
- }
4.4小節(jié)
在進行海量數(shù)據(jù)搜索時,如果使用單純的數(shù)據(jù)庫技術(shù),那將是非常痛苦的。速度將是極大的瓶頸。所以本章提出了使用全文搜索引擎Lucene進行索引、搜索。
***,還結(jié)合了具體代碼說明了如何把Lucene全文搜索引擎和Spider程序互相集合來實現(xiàn)新聞搜索的功能。
第五章 基于Tomcat的Web服務(wù)器
5.1什么是基于Tomcat的Web服務(wù)器
Web服務(wù)器是在網(wǎng)絡(luò)中為實現(xiàn)信息發(fā)布、資料查詢、數(shù)據(jù)處理等諸多應(yīng)用搭建基本平臺的服務(wù)器。Web服務(wù)器如何工作:在Web頁面處理中大致可分為三個步 驟,***步,Web瀏覽器向一個特定的服務(wù)器發(fā)出Web頁面請求;第二步,Web服務(wù)器接收到Web頁面請求后,尋找所請求的Web頁面,并將所請求的 Web頁面?zhèn)魉徒oWeb瀏覽器;第三步,Web服務(wù)器接收到所請求的Web頁面,并將它顯示出來。
Tomcat是一個開放源代碼、運行servlet和JSP Web應(yīng)用軟件的基于Java的Web應(yīng)用軟件容器。Tomcat由Apache-Jakarta子項目支持并由來自開放性源代碼Java社區(qū)的志愿者進行維護。Tomcat Server是根據(jù)servlet和JSP規(guī)范進行執(zhí)行的,因此我們就可以說Tomcat Server也實行了Apache-Jakarta規(guī)范且比絕大多數(shù)商業(yè)應(yīng)用軟件服務(wù)器要好。
5.2用戶接口設(shè)計
5.3.1客戶端設(shè)計
一個良好的查詢界面非常重要,例如Googl就以她簡潔的查詢界面而聞名。我在設(shè)計的時候也充分考慮了實用性和簡潔性。
5.3.2服務(wù)端設(shè)計
主要利用JavaTM Servlet技術(shù)實現(xiàn),用戶通過GET方法從客戶端向服務(wù)端提交查詢條件,服務(wù)端通過Tomcat的Servlet容器接受并分析提交參數(shù),再調(diào)用lucene的開發(fā)包進行搜索操作。***把搜索的結(jié)果以HTTP消息包的形式發(fā)送至客戶端,從而完成一次搜索操作。
服務(wù)端Servlet程序的結(jié)構(gòu)如下:
實現(xiàn)的關(guān)鍵代碼如下:
- public void Search(String qc, PrintWriter out) throws Exception {
- // 從索引目錄創(chuàng)建索引
- IndexSearcher _searcher = new IndexSearcher("c:\\news\\index");
- // 創(chuàng)建標準分析器
- Analyzer analyzer = new ChineseAnalyzer();
- // 查詢條件
- String line = qc;
- // Query是一個抽象類
- Query query = QueryParser.parse(line, "title", analyzer);
- out.println("< html>");
- out.println("< head>< title>搜索結(jié)果< /title>< /head>");
- out.println("< body bgcolor=#ffffff>");
- out.println("< center>" +
- "< form action='/NewsServer/results' method='get'>" +
- "< font face='華文中宋' color='#3399FF'>新聞搜索引擎< /font>:" +
- "< input type='text' name='QueryContent' size='20'>" +
- "< input type='submit' name='submit' value='開始搜索'>" +
- "< /form>< /center>"
- );
- out.println("< p>搜索關(guān)鍵字:< font color=red>" + query.toString("title") +
- "< /font>< /p>");
- Hits hits = _searcher.search(query);
- out.println(" 總共找到< font color=red>" + hits.length() +
- "< /font>條新聞< br>");
- final int HITS_PER_PAGE = 10;
- for (int start = 0; start < hits.length(); start += HITS_PER_PAGE) {
- int end = Math.min(hits.length(), start + HITS_PER_PAGE);
- for (int i = start; i < end; i++) {
- Document doc = hits.doc(i);
- String url = doc.get("url");
- if (url != null) {
- out.println( (i + 1) + " < a href='" + url + "'>" +
- replace(doc.get("title"), qc) +
- "< /a>< br>");}
- else {
- System.out.println("沒有找到!");}
- }}
- out.println("< /body>< /html>");
- _searcher.close();
- };
5.3在Tomcat上部署項目
Tomcat中的應(yīng)用程序是一個WAR(Web Archive)文件。WAR是Sun提出的一種Web應(yīng)用程序格式,與JAR類似,也是許多文件的一個壓縮包。這個包中的文件按一定目錄結(jié)構(gòu)來組織:通 常其根目錄下包含有Html和Jsp文件或者包含這兩種文件的目錄,另外還會有一個WEB-INF目錄,這個目錄很重要。通常在WEB-INF目錄下有一 個web.xml文件和一個classes目錄,web.xml是這個應(yīng)用的配置文件,而classes目錄下則包含編譯好的Servlet類和Jsp或 Servlet所依賴的其它類(如JavaBean)。通常這些所依賴的類也可以打包成JAR放到WEB-INF下的lib目錄下,當然也可以放到系統(tǒng)的 CLASSPATH中。
在Tomcat中,應(yīng)用程序的部署很簡單,你只需將你的WAR放到Tomcat的webapp目錄下,Tomcat會自動檢測到這個文件,并將其解壓。你 在瀏覽器中訪問這個應(yīng)用的Jsp時,通常***次會很慢,因為Tomcat要將Jsp轉(zhuǎn)化為Servlet文件,然后編譯。編譯以后,訪問將會很快。
5.4小節(jié)
本章中詳細介紹了如何構(gòu)架基于Tomcat的Web服務(wù)器,使得用戶通過瀏覽器進行新聞的搜索,***還對Tomcat如何部署進行了說明。
第六章 搜索引擎策略
6.1簡介
隨著信息多元化的增長,千篇一律的給所有用戶同一個入口顯然已經(jīng)不能滿足特定用戶更深入的查詢需求。同時,這樣的通用搜索引擎在目前的硬件條件下,要及時更新以得到互聯(lián)網(wǎng)上較全面的信息是不太可能的。針對這種情況,我們需要一個分類細致精確、數(shù)據(jù)全面深入、更新及時的面向主題的搜索引擎。
由于主題搜索運用了人工分類以及特征提取等智能化策略,因此它比上面提到的前三代的搜索引擎將更加有效和準確,我們將這類完善的主題搜索引擎稱為第四代搜索引擎。
6.2面向主題的搜索策略
6.2.1導向詞
導向詞就是一組關(guān)鍵詞,它們會引導搜索器按照一定順序搜索整個網(wǎng)絡(luò),使得搜索引擎可以在最短的時間里面得到最全面的跟某一個主題相關(guān)的信息。通過設(shè)置導向 詞以及它們對應(yīng)的不同權(quán)值,所有標題、作者、正文或超連接文本中含有某一導向詞的網(wǎng)頁都會被賦予較高的權(quán)值,在搜索的時候會優(yōu)先考慮。搜索器在向主控程序 獲得URL的時候也是按照權(quán)值由高到低的順序。反之,搜索器在向主控程序提交新的URL和它的權(quán)值的時候,主控程序會按照權(quán)值預(yù)先排序,以便下一次有序的 發(fā)給搜索器。
6.2.2網(wǎng)頁評級
在考慮一個網(wǎng)頁被另一個網(wǎng)頁的引用時候,不是單純的將被引用網(wǎng)頁的Hit Number加一,而是將引用網(wǎng)頁的連接數(shù)作為權(quán),同時將該引用網(wǎng)頁的重要性也考慮進來(看看上面提到的例子,Yahoo!引用的網(wǎng)頁顯然比個人網(wǎng)站引用的網(wǎng)頁重要,因為Yahoo!本身很重要),就可以得到擴展后的網(wǎng)頁評分。
最早提出網(wǎng)頁評分的計算方法是Google。它們提出了一個“隨機沖浪”模型來描述網(wǎng)絡(luò)用戶對網(wǎng)頁的訪問行為。模型假設(shè)如下:
1) 用戶隨機的選擇一個網(wǎng)頁作為上網(wǎng)的起始網(wǎng)頁;
2) 看完這個網(wǎng)頁后,從該網(wǎng)頁內(nèi)所含的超鏈內(nèi)隨機的選擇一個頁面繼續(xù)進行瀏覽;
3) 沿著超鏈前進了一定數(shù)目的網(wǎng)頁后,用戶對這個主題感到厭倦,重新隨機選擇一個網(wǎng)頁進行瀏覽,并重復(fù)2和3。
按照以上的用戶行為模型,每個網(wǎng)頁可能被訪問到的次數(shù)就是該網(wǎng)頁的鏈接權(quán)值。如何計算這個權(quán)值呢?PageRank采用以下公式進行計算:
其中Wj代表第j個網(wǎng)頁的權(quán)值;lij只取0、1值,代表從網(wǎng)頁i到網(wǎng)頁j是否存在鏈接;ni代表網(wǎng)頁i有多少個鏈向其它網(wǎng)頁的鏈接;d代表“隨機沖浪” 中沿著鏈接訪問網(wǎng)頁的平均次數(shù)。選擇合適的數(shù)值,遞歸的使用以上公式,即可得到理想的網(wǎng)頁鏈接權(quán)值。該方法能夠大幅度的提高簡單檢索返回結(jié)果的質(zhì)量,同時 能夠有效的防止網(wǎng)頁編寫者對搜索引擎的欺騙。因此可以將其廣泛的應(yīng)用在檢索器提供給用戶的網(wǎng)頁排序上,對于網(wǎng)頁評分越高的網(wǎng)頁,就排的越前。
6.2.3權(quán)威網(wǎng)頁和中心網(wǎng)頁
權(quán)威網(wǎng)頁
顧名思義,是給定主題底下的一系列重要的權(quán)威的網(wǎng)頁。其重要性和權(quán)威性主要體現(xiàn)在以下兩點:
1) 從單個網(wǎng)頁來看,它的網(wǎng)頁內(nèi)容本身對于這個給定主題來說是重要的;
2) 從這個網(wǎng)頁在整個互聯(lián)網(wǎng)重的地位來看,這個網(wǎng)頁是被其他網(wǎng)頁承認為權(quán)威的,這主要體現(xiàn)在跟這個主題相關(guān)的很多網(wǎng)頁都有鏈接指向這個網(wǎng)頁。
由此可見,權(quán)威網(wǎng)頁對于主題搜索引擎的實現(xiàn)有很重大的意義。主題搜索引擎一個很關(guān)鍵的任務(wù)就是從互聯(lián)網(wǎng)上無數(shù)的網(wǎng)頁之中最快最準的找出這些可數(shù)的權(quán)威網(wǎng)頁,并為他們建立索引。這也是有效區(qū)別主題搜索引擎和前三代傳統(tǒng)通用搜索引擎的重要特征。
中心網(wǎng)頁
是包含很多指向權(quán)威網(wǎng)頁的超鏈接的網(wǎng)頁。最典型中心網(wǎng)頁的一個例子是Yahoo!,它的目錄結(jié)構(gòu)指向了很多主題的權(quán)威網(wǎng)頁,使得它兼任了很多主題的中心網(wǎng)頁。由中心網(wǎng)頁出發(fā),輕而易舉的就會到達大量的權(quán)威網(wǎng)頁。因此,它對于主題搜索引擎的實現(xiàn)也起了很大的意義。
權(quán)威網(wǎng)頁和中心網(wǎng)頁之間是一種互相促進的關(guān)系:一個好的中心網(wǎng)頁必然要有超鏈接指向多個權(quán)威網(wǎng)頁;一個好的權(quán)威網(wǎng)頁反過來也必然被多個中心網(wǎng)頁所鏈接。
6.3小節(jié)
本章介紹了面向主題的搜索策略,并作了詳細闡述。雖然在新聞搜索中并沒有應(yīng)用到搜索策略,但是對于WWW搜索引擎來說,搜索策略是極其重要的。他直接關(guān)系到搜索的質(zhì)量以及匹配度等性能。
【編輯推薦】

















