Lucene笔记07——中文分词
什么是分词?什么是中文分词?
分词,就是将一段文字,按照语义上的最小单位切割开来。对于中文来说,虽然,很多汉字本身就具有相对独立的意思,但是更多情况下,单个的汉字是与其他一个或多个汉字组合在一起形成一个含义的。举个例子,“我是一个学生”,分词的结果是:“我/是/一个/学生”,再比如,“我/打算/去/做/分词/的/研究”。中文分词,就是将中文段落划分成词。
分词是理解语义的前提。人类依据自身的知识,在看到文字的时候,就自动完成了分词的过程。然而,计算机不具备人类的知识,更加不具备人类的智能,让机器实现自动切分文本,就成为了一个重要的研究课题,隶属于自然语言处理技术领域。在各种语言的分词中,最为困难的,可能就是中文分词了,因为中文语法复杂,规则少,特例多,歧义性强。中文领域文本处理技术,大大落后于西文,分词就是制约因素之一。
Lucene笔记06
在笔记03中,已经提到了使用Lucene进行搜索的几个必要组件:
IndexSearcher——该对象内包含了很多search方法的重载,搜素一个索引,主要就是使用该对象的实例。
Lucene笔记04
本文详细介绍了使用Lucene建立索引的原理,基础知识,详细配置参数,和基础操作实践。
Lucene笔记03
要完成最基本的搜索过程,Lucene需要以下几个对象的合作:
IndexSearcher——这个对象主要用来检索IndexWriter生成的索引文件,所以IndexSearcher构造的时候,使用一个包含了索引所在目录的Directory对象来构造。IndexSearcher提供的是一种对索引文件的只读访问,里面提供了多种搜索方法。在我第一次的笔记里代码中用到的search方法,接受一个Query对象和一个HitCollector对象,返回值为空。搜索结果被填充到HitCollector中。
Lucene笔记02
要完成最基本的建立索引的过程,Lucene需要以下几个对象的合作:
Lucene笔记01
由于项目需要,开始学习Lucene,现在手头在看的就一本书《Lucene in Action》,别的材料手头也没有,不过,有一点非常遗憾,就是这本书已经非常旧了,所以,决定一边看,一边验证,主要是参看一下源代码,也是没有办法的事情,就在博客上做点小笔记好了。
From the very beginning

Most Commented Posts