By Charles on 四 28th, 2009 | 1614 Views
什么是分词?什么是中文分词?
分词,就是将一段文字,按照语义上的最小单位切割开来。对于中文来说,虽然,很多汉字本身就具有相对独立的意思,但是更多情况下,单个的汉字是与其他一个或多个汉字组合在一起形成一个含义的。举个例子,“我是一个学生”,分词的结果是:“我/是/一个/学生”,再比如,“我/打算/去/做/分词/的/研究”。中文分词,就是将中文段落划分成词。
分词是理解语义的前提。人类依据自身的知识,在看到文字的时候,就自动完成了分词的过程。然而,计算机不具备人类的知识,更加不具备人类的智能,让机器实现自动切分文本,就成为了一个重要的研究课题,隶属于自然语言处理技术领域。在各种语言的分词中,最为困难的,可能就是中文分词了,因为中文语法复杂,规则少,特例多,歧义性强。中文领域文本处理技术,大大落后于西文,分词就是制约因素之一。
Keep Reading --- 2169 words totally
Posted in 工作相关 | Tagged lucene, note |
By Charles on 四 14th, 2009 | 570 Views
在笔记03中,已经提到了使用Lucene进行搜索的几个必要组件:
IndexSearcher——该对象内包含了很多search方法的重载,搜素一个索引,主要就是使用该对象的实例。
Keep Reading --- 987 words totally
Posted in 工作相关 | Tagged lucene, note |
By Charles on 四 14th, 2009 | 466 Views
Lucene是允许对索引的并发操作的,具体操作时,要遵循三条简单而严格的规则:
任意数量只读操作可以并行。
Keep Reading --- 366 words totally
Posted in 工作相关 | Tagged lucene, note |
By Charles on 四 14th, 2009 | 811 Views
本文详细介绍了使用Lucene建立索引的原理,基础知识,详细配置参数,和基础操作实践。
Posted in 工作相关 | Tagged lucene, note |
By Charles on 十二 18th, 2008 | 1043 Views
要完成最基本的搜索过程,Lucene需要以下几个对象的合作:
IndexSearcher——这个对象主要用来检索IndexWriter生成的索引文件,所以IndexSearcher构造的时候,使用一个包含了索引所在目录的Directory对象来构造。IndexSearcher提供的是一种对索引文件的只读访问,里面提供了多种搜索方法。在我第一次的笔记里代码中用到的search方法,接受一个Query对象和一个HitCollector对象,返回值为空。搜索结果被填充到HitCollector中。
Keep Reading --- 618 words totally
Posted in 工作相关 | Tagged lucene, note |
By Charles on 十二 17th, 2008 | 1004 Views
要完成最基本的建立索引的过程,Lucene需要以下几个对象的合作:
Keep Reading --- 458 words totally
Posted in 工作相关 | Tagged lucene, note |
By Charles on 十二 10th, 2008 | 1532 Views
由于项目需要,开始学习Lucene,现在手头在看的就一本书《Lucene in Action》,别的材料手头也没有,不过,有一点非常遗憾,就是这本书已经非常旧了,所以,决定一边看,一边验证,主要是参看一下源代码,也是没有办法的事情,就在博客上做点小笔记好了。
From the very beginning
Keep Reading --- 455 words totally
Posted in 日 记 | Tagged code examples, lucene, note |
Most Commented Posts