關(guān)于向量空間模型java,向量空間模型這個(gè)問(wèn)題很多朋友還不知道,今天小六來(lái)為大家解答以上的問(wèn)題,現(xiàn)在讓我們一起來(lái)看看吧!
1、VSM概念簡(jiǎn)單,把對(duì)文本內(nèi)容的處理簡(jiǎn)化為向量空間中的向量運(yùn)算,并且它以空間上的相似度表達(dá)語(yǔ)義的相似度,直觀易懂。
2、當(dāng)文檔被表示為文檔空間的向量,就可以通過(guò)計(jì)算向量之間的相似性來(lái)度量文檔間的相似性。
3、文本處理中最常用的相似性度量方式是余弦距離。
4、M個(gè)無(wú)序特征項(xiàng)ti,詞根/詞/短語(yǔ)/其他每個(gè)文檔dj可以用特征項(xiàng)向量來(lái)表示(a1j,a2j,…,aMj)權(quán)重計(jì)算,N個(gè)訓(xùn)練文檔AM*N= (aij) 文檔相似度比較1)Cosine計(jì)算,余弦計(jì)算的好處是,正好是一個(gè)介于0到1的數(shù),如果向量一致就是1,如果正交就是0,符合相似度百分比的特性,余弦的計(jì)算方法為,向量?jī)?nèi)積/各個(gè)向量的模的乘積.2)內(nèi)積計(jì)算,直接計(jì)算內(nèi)積,計(jì)算強(qiáng)度低,但是誤差大。
5、向量空間模型 (或詞組向量模型) 是一個(gè)應(yīng)用于信息過(guò)濾,信息擷取,索引 以及評(píng)估相關(guān)性的代數(shù)模型。
6、SMART是首個(gè)使用這個(gè)模型的信息檢索系統(tǒng)。
7、文件(語(yǔ)料)被視為索引詞(關(guān)鍵詞)形成的多次元向量空間, 索引詞的集合通常為文件中至少出現(xiàn)過(guò)一次的詞組。
8、搜尋時(shí),輸入的檢索詞也被轉(zhuǎn)換成類似于文件的向量,這個(gè)模型假設(shè),文件和搜尋詞的相關(guān)程度,可以經(jīng)由比較每個(gè)文件(向量)和檢索詞(向量)的夾角偏差程度而得知。
9、實(shí)際上,計(jì)算夾角向量之間的余弦比直接計(jì)算夾角容易:余弦為零表示檢索詞向量垂直于文件向量,即沒(méi)有符合,也就是說(shuō)該文件不含此檢索詞。
10、通過(guò)上述的向量空間模型,文本數(shù)據(jù)就轉(zhuǎn)換成了計(jì)算機(jī)可以處理的結(jié)構(gòu)化數(shù)據(jù),兩個(gè)文檔之間的相似性問(wèn)題轉(zhuǎn)變成了兩個(gè)向量之間的相似性問(wèn)題。
本文分享完畢,希望對(duì)大家有所幫助。
標(biāo)簽:
免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!