博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Lucene.net入门学习(结合盘古分词)(转载)
阅读量:6852 次
发布时间:2019-06-26

本文共 4857 字,大约阅读时间需要 16 分钟。

作者:  出处:  本文版权归作者和博客园共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接。

Lucene简介

Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的 查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中 实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。

 

Lucene.net简介

Lucene.net是Lucene的.net移植版本,是一个开源的全文检索引擎开发包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎。开发人员可以基于Lucene.net实现全文检索的功能。

 

Lucene.net工作原理

Lucene.net提供的服务需要两部分:索引文件的写入和索引文件的读取。

1写入流程

源数据字符串经过analyzer处理,将源中需要搜索的信息加入Document的各个字段中,并把需要索引的字段起来并存储。
将索引写入存储器,存储器可以是内存或磁盘。
2读出流程
用户提供搜索关键词,经过analyzer处理。(我们下面代码采用的是盘古分词 ,其相关分词原理 可以再它的官网上可以看到 )
对处理后的关键词搜索索引找出对应的Document,用户根据需要从找到的Document中提取需要的Field。

 

Lucene.net安装

大家可以去官网看下:

盘古分词安装

盘古分词主页:

下载:

 

Lucene.net结合盘古分词使用

大家可以看到相关使用的案列

 

Lucene.net创建索引(结合盘古分词)

 
/*code 释迦苦僧*/    class Program    {        static void Main(string[] args) { Stopwatch sw = new Stopwatch();//加入时间统计 //获取 数据列表 PostBll bll = new PostBll(); IList
posts = bll.GetAllPost(); Console.WriteLine(posts.Count); //创建Lucene索引文件 string IndexDic = @"D:\Lucene\post\"; sw.Start(); IndexWriter writer = new IndexWriter(FSDirectory.Open(IndexDic), new PanGuAnalyzer(), true, IndexWriter.MaxFieldLength.LIMITED); foreach (PostInfo item in posts) { Document doc = new Document(); Field postid = new Field("PostId", item.PostId.ToString(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.NO); Field title = new Field("Title", item.Title.ToString(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.NO); Field postscore = new Field("PostScore", item.PostScore.ToString(), Field.Store.YES, Field.Index.ANALYZED, Field.TermVector.NO); doc.Add(postid); doc.Add(title); doc.Add(postscore); writer.AddDocument(doc); } writer.Optimize(); writer.Commit(); sw.Stop(); Console.Write("建立" + posts.Count + "索引,花费: " + sw.Elapsed); Console.ReadLine(); } }
 

如代码所示:

D:\Lucene\post\ 存储Lucene.net生成的索引文件,如下图

这些索引存储文件存储了PostInfo表中 PostId,Title,PostScore 三个字段信息。

需要注意的是:使用盘古分词操作时,需要将PanGu.xml和盘古分词自带的分词文件放入项目中,如下图:

 

Lucene.net执行搜索(结合盘古分词)

 
namespace LuceneNetStudy.Search{    /*code 释迦苦僧*/    public partial class MainForm : Form { private string IndexDic = @"D:\Lucene\post\"; public MainForm() { InitializeComponent(); } private void btnSearch_Click(object sender, EventArgs e) { /*开启搜索用的后台线程*/ BackgroundWorker backWorker = new BackgroundWorker(); backWorker.DoWork += new DoWorkEventHandler(backWorker_DoWork); backWorker.RunWorkerAsync(txtKey.Text.Trim()); } void backWorker_DoWork(object sender, DoWorkEventArgs e) { string key = e.Argument as string; List
result = new List
(); /*加入时间统计*/ Stopwatch sw = new Stopwatch(); sw.Start(); /*创建 Lucene.net 搜索实例*/ IndexSearcher search = new IndexSearcher(FSDirectory.Open(IndexDic), true); /*为搜索实例 加入搜索分词规则 来源 盘古分词*/ key = GetKeyWordsSplitBySpace(key, new PanGuTokenizer()); BooleanQuery bq = new BooleanQuery(); if (!string.IsNullOrEmpty(key)) { /*如果搜索关键字不为空 知道关键字搜索列为Title*/ QueryParser queryParser = new MultiFieldQueryParser(Lucene.Net.Util.Version.LUCENE_30, new string[] { "Title" }, new PanGuAnalyzer()); Query query = queryParser.Parse(key); bq.Add(query, Occur.MUST); } /*指定排序方式 按 PostScore 字段来排序*/ List
sorts = new List
(); SortField sf = new SortField("PostScore", SortField.DOUBLE, true); sorts.Add(sf); Sort sort = new Sort(sorts.ToArray()); TopFieldDocs docs = search.Search(bq, null, search.MaxDoc, sort); int allCount = docs.TotalHits; /*获取匹配的前10条*/ ScoreDoc[] hits = TopDocs(0, 10, docs); foreach (ScoreDoc sd in hits)//遍历搜索到的结果 { try { Document doc = search.Doc(sd.Doc); var model = new PostInfo(); model.PostId = Guid.Parse(doc.Get("PostId")); model.PostScore = double.Parse(doc.Get("PostScore")); model.Title = doc.Get("Title"); result.Add(model); } catch { } } search.Close(); search.Dispose(); sw.Stop(); if (result != null) { Invoke(new MethodInvoker(delegate() { lblRunTime.Text = "花费: " + sw.Elapsed; txtResult.Text = ""; foreach (PostInfo info in result)//遍历搜索到的结果 { txtResult.Text += info.PostScore + "\t" + info.Title + "\r\n"; } })); } } public static ScoreDoc[] TopDocs(int start, int limit, TopFieldDocs docs) { int endIndex = 0; int hc = docs.TotalHits; if (hc - start > limit) { endIndex = start + limit; } else { endIndex = hc; } List
dl = new List
(); var da = docs.ScoreDocs; for (int i = start; i < endIndex; i++) { dl.Add(da[i]); } return dl.ToArray(); } static public string GetKeyWordsSplitBySpace(string keywords, PanGuTokenizer ktTokenizer) { StringBuilder result = new StringBuilder(); /*执行分词操作 一个关键字可以拆分为多个次和单个字*/ ICollection
words = ktTokenizer.SegmentToWordInfos(keywords); foreach (WordInfo word in words) { if (word == null) { continue; } result.AppendFormat("{0}
哈哈d); } return result.ToString().Trim(); } } }313

转载于:https://www.cnblogs.com/cvol/p/5622540.html

你可能感兴趣的文章
HTTP请求GET/POST查看工具
查看>>
php实现 坐标移动
查看>>
前端之HTML
查看>>
The Cats' Feeding Spots
查看>>
Linux_基础指令
查看>>
Python 进阶_OOP 面向对象编程_self 的实例绑定
查看>>
jquery内核学习(5)--对象的遍历
查看>>
在Android迷你广告上添加浮动的关闭按钮
查看>>
2dcontext
查看>>
企业级大数据处理方案-01
查看>>
日期和字符串相互转换的方法
查看>>
ASP.NET Localization
查看>>
ssm框架,出现xxx不能加载,或者bean不能加载时的解决方案之一
查看>>
types.h头文件学习
查看>>
iptables的man手册以及使用
查看>>
vue刷新本页面
查看>>
css position absolute 浮动特性
查看>>
【递推】hdu5927 Auxiliary Set
查看>>
计算机的组成与操作系统
查看>>
包冲突getJspApplicationContext
查看>>