亚洲一级电影在线观看,九九精品无码专区免费,亚洲AV无码资源在线观看 ,欧美国产高清

幾種信息檢索模型比較

  • 相關(guān)推薦

幾種信息檢索模型比較

摘要:對信息檢索模型研究的主要內(nèi)容和構(gòu)建策略進(jìn)行了描述,給出了幾種常用的信息檢索模型相關(guān)性算法,分析了它們的優(yōu)缺點(diǎn),并就存在的問題進(jìn)行了探討,總結(jié)了信息檢索模型的研究現(xiàn)狀和發(fā)展趨勢。

關(guān)鍵詞:信息檢索模型;相關(guān)性;查詢;搜索引擎

Abstract:This article described the main contents and the construction strategy of the models of information retrieval,demonstrated a lot of methods in common usages,which is to calculate the model of information retrieval.And in this article,the advantages and disadvantages were analyzed,the problems that is still existing have been researched.In addition,the current situation of this research and the development tendency of the model of information retrieval were deeply summarizad in this article.

Keywords:Information retrieval models;Relativity;Inquiry;Search engine

當(dāng)前,隨著互聯(lián)網(wǎng)的普及和網(wǎng)上信息的爆炸式增長,信息檢索系統(tǒng)及其核心技術(shù)搜索引擎的性能和效率問題已成為人們研究和關(guān)注的焦點(diǎn)。影響一個搜索引擎系統(tǒng)的性能有很多因素,但最主要的是信息檢索模型,其研究內(nèi)容包括文檔和查詢的表示方法、評價文檔和用戶查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相關(guān)度反饋的機(jī)制。本文從研究文檔與用戶查詢“相關(guān)性”匹配的角度出發(fā),對信息檢索模型研究的主要內(nèi)容和構(gòu)建策略進(jìn)行了詳細(xì)的描述,并給出了幾種常用的信息檢索模型相關(guān)性算法,分析了它們的優(yōu)缺點(diǎn)及存在的問題,總結(jié)了當(dāng)前信息檢索模型的研究現(xiàn)狀和發(fā)展趨勢,其目的在于提高信息檢索、查詢的性能和效率。

一、構(gòu)建信息檢索模型的策略

當(dāng)前,構(gòu)建信息檢索模型的主要策略有以下兩個:

(一)通用的信息檢索模型

構(gòu)建一個通用的信息檢索模型,研究優(yōu)化的匹配算法,提高查詢速度、查全率和查準(zhǔn)率,最大程度地滿足一般用戶的查詢需求。

(二)用戶興趣模型

根據(jù)特定用戶查詢興趣要求構(gòu)建用戶興趣模型或共同興趣模型,能夠盡可能地滿足特殊用戶查詢的需求。它可以構(gòu)建一個適合行業(yè)或?qū)I(yè)應(yīng)用語義要求信息獲取模型。如google就能推斷用戶的使用意圖,提供動態(tài)的、即時的用戶“個性化定制”信息,幫助用戶快速、準(zhǔn)確地定位到所需要的信息。

二、常用的信息檢索相關(guān)性算法

(一)布爾模型

布爾模型是基于特征項的嚴(yán)格匹配模型,文本查詢的匹配規(guī)則遵循布爾運(yùn)算的法則。用戶可以根據(jù)檢索項在文檔中的布爾邏輯關(guān)系提交查詢,搜索引擎則根據(jù)事先建立的倒排文件結(jié)構(gòu),確定查詢結(jié)果。標(biāo)準(zhǔn)的布爾邏輯模型為二元邏輯,所搜索的文檔要么與查詢相關(guān),要么與查詢無關(guān)。查詢結(jié)果一般不進(jìn)行相關(guān)性排序。

 

在布爾模型中,一個文檔通過一個關(guān)鍵詞條的集合來表示,這些詞條都來自一個詞典。在查詢與文檔匹配的過程中,主要看該文檔中的詞條是否滿足查詢條件。布爾模型用文檔的檢索狀態(tài)值作為一種評價查詢和文檔相似性的一種方法。這里,首先定義關(guān)鍵詞集合S,關(guān)鍵詞為t1,t2,…,tn。

這些關(guān)鍵詞可以和邏輯操作符AND,OR和NOT形成不同的條件查詢。如果得到條件表達(dá)式的值為True,該文檔相對于此條查詢的檢索狀態(tài)值為1;如果若干文檔相對于此條查詢的檢索狀態(tài)值都為1,則可以認(rèn)為,這些文檔與此用戶的查詢是相關(guān)的。

布爾模型的主要優(yōu)點(diǎn)有兩點(diǎn):一是實(shí)現(xiàn)起來比較容易,速度快,計算的代價相對較少。二是查詢語言表達(dá)簡單,用戶可以使用任意復(fù)雜的查詢表達(dá)式,易于表示同義關(guān)系(如:聾教育OR特殊教育)和詞組(如:計算機(jī)AND基礎(chǔ)AND課程改革)。它的缺點(diǎn)是,由于所有檢索到的與用戶查詢條件相關(guān)的文檔具有相同的檢索狀態(tài)值,則不能對查詢結(jié)果按照相關(guān)性進(jìn)行排序;另外關(guān)鍵詞也沒有考慮權(quán)重的影響,缺乏定量分析和靈活性以及不能表述模糊匹配。而為了克服布爾型信息獲取模型查詢結(jié)果的無序性,在查詢結(jié)果處理中引進(jìn)了模糊邏輯運(yùn)算,將所檢索的數(shù)據(jù)庫文檔信息與用戶的查詢要求進(jìn)行模糊邏輯比較,按照相關(guān)的優(yōu)先次序排列查詢結(jié)果。

(二)向量空間模型

向量空間模型把信息庫中的文本以及用戶的查詢都表示成向量空間中的點(diǎn)(向量),用它們之間夾角的余弦作為相似性度量。向量空間模型是現(xiàn)在的文本檢索系統(tǒng)以及網(wǎng)絡(luò)搜索引擎的基礎(chǔ)。

在向量空間模型中,信息檢索系統(tǒng)如果涉及n個關(guān)鍵詞Term,則建立n維的向量空間,每一維都代表不同的關(guān)鍵詞Term。首先要建立文本和用戶查詢的向量,一個n元組的文檔向量Di的每個坐標(biāo)都通過對應(yīng)關(guān)鍵字的權(quán)重來表示,查詢向量中的權(quán)重表示對應(yīng)關(guān)鍵詞對于用戶來說的重要程度。然后進(jìn)行查詢向量和文本向量的相似性計算。并可以在匹配結(jié)果的基礎(chǔ)上進(jìn)行相關(guān)反饋,優(yōu)化用戶的查詢。在知道了文檔向量與查詢向量后,查詢與文檔的相似性就可以通過公式(2)求解。

         (2)

在公式(2)中,文檔Di可以用n維的向量表示,其中每個分量表示某一Term在整篇文檔中的權(quán)重。Q = (q1,q2,…,qn)中ql表示Terml在Q中的權(quán)重。

向量空間模型的優(yōu)點(diǎn)在于:1.檢索詞加權(quán)改進(jìn)了檢索效果。2.部分匹配策略允許檢索出與查詢條件相近的文獻(xiàn)。3.可以根據(jù)相似度對文獻(xiàn)進(jìn)行排序。

它的缺點(diǎn)是,在這種模型中的基本假設(shè),關(guān)鍵詞Term向量之間被假設(shè)為相互無關(guān)的,而實(shí)際是有時它們之間大多是依賴關(guān)系,如在自然語言中,詞或短語之間存在著十分密切的聯(lián)系。所以這一假設(shè)對計算結(jié)果的可靠性造成一定的影響。另外,在查詢中,也不能像布爾模型一樣使用關(guān)鍵詞之間的邏輯運(yùn)算關(guān)系。
(三)概率模型
概率模型主要是基于概率排序原則:即如果文檔按照與查詢的概率相關(guān)性的大小排序,那么排在最前面的是最有可能被獲取的文檔。它主要針對信息檢索中相關(guān)性判斷的不確定性以及查詢信息表示的模糊性。

在前面的向量模型中,我們假定關(guān)鍵詞Term向量是正交的,不考慮Term向量之間的依賴關(guān)系。而在概率模型中,可以通過概率計算表達(dá)關(guān)鍵詞Term之間,以及關(guān)鍵詞Term和文檔之間的依賴關(guān)系,預(yù)測文檔與用戶查詢的相關(guān)概率,并可以對獲取的結(jié)果按照相關(guān)度概率的大小進(jìn)行排序(簡稱PRP)。

概率模型有兩個主要的參數(shù):一個文檔和用戶查詢的相關(guān)概率Pr(rel)及不相關(guān)概率Pr(nonrel),并且Pr(rel)=1-Pr(nonrel)。即

Pr[term t in document|document is relevant]=Rt/R                             (3)

Pr[term t in document | document is irrelevant]= (ft-Rt)/(N- Rt)  (4)

其中:R表示與用戶查詢相關(guān)的文檔數(shù);Rt表示在相關(guān)R中出現(xiàn)關(guān)鍵詞Term t的文檔數(shù);N表示文檔數(shù);ft表示在N個文檔中出現(xiàn)關(guān)鍵詞Term t的文檔數(shù)。由式(3)和(4),可以

得到:

Pr[term t is not in document| document is relevant]= (R- Rt)/R    (5)

Pr[term t is not in document | document is irrelevant]=(N-ft-(R- Rt))/(N- Rt)        (6)

根據(jù)上面所給的“條件概率”,可以計算出關(guān)鍵詞Term t的權(quán)重:

             (7)

在公式(7)中,如果wt>0,表明詞Term t出現(xiàn)的文檔與用戶查詢相關(guān);如果wt<0,出現(xiàn)Term t的文檔與用戶查詢無關(guān)。

概率模型的主要缺點(diǎn)是對文本集的依賴性過強(qiáng),而且條件概率值很難估計。概率模型的一個特例是貝葉斯網(wǎng)絡(luò),該網(wǎng)絡(luò)以概率的方式定義了關(guān)鍵詞的權(quán)重隨著與其相關(guān)的關(guān)鍵詞的權(quán)重的改變而改變方式。由于該模型適用于超文本信息系統(tǒng),因而該模型的應(yīng)用越來越廣泛。但是該模型的缺點(diǎn)是,計算復(fù)雜度很大,因而該模型不適合很大的網(wǎng)絡(luò)。

三、結(jié)束語

目前,大多數(shù)信息檢索模型都依賴于布爾模型,而在實(shí)驗(yàn)環(huán)境中用的最多并居于主導(dǎo)地位的是傳統(tǒng)的向量空間模型。信息檢索模型還有許多其他變種,如基于布爾模型的變種有:模糊集合模型、擴(kuò)展布爾模型;基于矢量空間模型的變種有:通用矢量空間模型、潛在語義索引模型、神經(jīng)網(wǎng)絡(luò)模型;基于概率模型的變種有:推理網(wǎng)模型、可信網(wǎng)模型。而總體上來看,這些模型及其變種都是“語法”層次的信息檢索模型,沒有具有“語義”特征的規(guī)范的詞匯集。今后,進(jìn)一步研究基于“概念語義空間”的文本信息組織與檢索,建立基于本體的信息檢索模型,則能有效地代表文檔和用戶信息需求,使信息檢索更加精確、有效。未來的搜索引擎應(yīng)該信息量更大、搜索速度更快、搜索精度更高和最大限度地滿足用戶個性化的要求。

參考文獻(xiàn):

[1]Ricardo Baeza-Yates,Berthier Riberiro-neto等著.王知津等譯.現(xiàn)代信息檢索[M].北京:機(jī)械工業(yè)出版社,2005

[2]吳麗華,羅云鋒,張宏斌.信息檢索模型及相關(guān)性算法的研究[J].情報雜志,2006(12)25-27

【幾種信息檢索模型比較】相關(guān)文章:

剩余收益模型與傳統(tǒng)DCF模型的比較研究03-23

基于視覺注意力模型的圖像檢索的研究11-22

信息檢索中的查詢擴(kuò)展技術(shù)03-07

幾種常見的網(wǎng)絡(luò)存儲技術(shù)的比較研究02-27

幾種績效評價方法的比較分析03-18

學(xué)習(xí)型組織理論模型的比較研究03-21

銀行業(yè)幾種CRM應(yīng)用方案比較分析03-24

銷售領(lǐng)域信息化模型分析03-20

企業(yè)最佳信息獲取成本模型研究03-24

主站蜘蛛池模板: 在线看亚洲十八禁网站| 久久永久免费人妻精品| 国产99久久亚洲综合精品西瓜tv | 国产无遮挡裸体免费视频| 99久久精品费精品国产一区二| 日韩内射美女人妻一区二区三区| 精品蜜臀av在线天堂| 91超碰在线观看免费| 99re热视频精品免费观看| 99热亚洲精品6码| 亚洲国产高清av网站| 亚洲色噜噜网站在线观看| 欧美乱码卡一卡二卡四卡免费| 激情欧美成人小说在线视频 | 色偷偷888欧美精品久久久| 国产乱子伦视频一区二区三区| 激情无码人妻又粗又大| 欧洲亚洲日韩性无码专区| 少妇被粗大的猛烈进出免费视频| 无码中文人妻在线三区| 亚洲欧美日韩中文二区| 国产精品久久久久久久福利| 青草av久久一区二区三区| 资兴市| 找国产毛片看| 爱做久久久久久| 人妻中出无码中字在线| 免费现黄频在线观看国产| 亚洲欧美日韩国产成人精品影院| 国产麻豆精品手机在线观看| 亚洲人成人网站在线观看| 无码成人一区二区三区| 又大又硬又黄的免费视频| 人人模人人爽人人喊久久| 久久国产精品-国产精品| 十八禁无码精品a∨在线观看| 国产又黄又爽又刺激的免费网址| 久久精品女人天堂av| 人妻与老人中文字幕| 亚洲午夜久久久影院伊人| 色综合久久88|