Python提供fuzzywuzzy模塊,不僅可用于計算兩個字符串之間的相似度,而且還提供排序接口能從大量候選集中找到最相似的句子。
(1)安裝
pip install fuzzywuzzy
(2)接口說明
兩個模塊:fuzz, process,fuzz主要用于兩字符串之間匹配,process主要用于搜索排序。
fuzz.ratio(s1,s2)直接計算s2和s2之間的相似度,返回值為0-100,100表示完全相同;
fuzz.partial_ratio(S1,S2)部分匹配,如果S1是S2的子串依然返回100;
fuzz.token_sort_ratio(S1,S2)只比較S1,S2單詞是否相同,不考慮詞語之間的順序;
fuzz.token_set_ratio(S1,S2)相比fuzz.token_sort_ratio不考慮詞語出現(xiàn)的次數(shù);
process.extract(S1, ListS,limit=n),表示從列表ListS中找出Top n與S1最相似的句子;
process.extractOne(S1,ListS),返回最相似的一個
(3)使用
from fuzzywuzzy import fuzz
a = 'a b c'
b = ' a c b '
c = 'a c'
fuzz.ratio(a, c)
>> 75
fuzz.ratio(b, c)
>> 60無錫知名的婦科醫(yī)院 http://www.wxbhnkyy39.com/
fuzz.partial_ratio(a, c)
>> 67
fuzz.partial_ratio(b, c)
>> 100
fuzz.token_sort_ratio(a, c)
>> 75
fuzz.token_sort_ratio(b, c)
>> 75
fuzz.token_set_ratio(a, c)
>> 100
fuzz.token_set_ratio(b, c)
>> 100
另外有需要云服務器可以了解下創(chuàng)新互聯(lián)cdcxhl.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。
本文標題:用Python的fuzzy、wuzzy模塊進行字符串模糊匹配-創(chuàng)新互聯(lián)
本文網(wǎng)址:http://sd-ha.com/article34/jsose.html
成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供定制網(wǎng)站、軟件開發(fā)、外貿(mào)建站、網(wǎng)站排名、品牌網(wǎng)站制作、響應式網(wǎng)站
聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經(jīng)允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內容