Becomin' Charles
Building another myself~~
  • Home
  • Contact
  • WUT
  • FMP
  • Archives
  • Forums
Browse: Home / lucene

lucene

Lucene笔记07——中文分词

By Charles on 四 28th, 2009 | 1614 Views

什么是分词?什么是中文分词?

分词,就是将一段文字,按照语义上的最小单位切割开来。对于中文来说,虽然,很多汉字本身就具有相对独立的意思,但是更多情况下,单个的汉字是与其他一个或多个汉字组合在一起形成一个含义的。举个例子,“我是一个学生”,分词的结果是:“我/是/一个/学生”,再比如,“我/打算/去/做/分词/的/研究”。中文分词,就是将中文段落划分成词。

分词是理解语义的前提。人类依据自身的知识,在看到文字的时候,就自动完成了分词的过程。然而,计算机不具备人类的知识,更加不具备人类的智能,让机器实现自动切分文本,就成为了一个重要的研究课题,隶属于自然语言处理技术领域。在各种语言的分词中,最为困难的,可能就是中文分词了,因为中文语法复杂,规则少,特例多,歧义性强。中文领域文本处理技术,大大落后于西文,分词就是制约因素之一。

Keep Reading --- 2169 words totally

Posted in 工作相关 | Tagged lucene, note | 3 Responses

Lucene笔记06

By Charles on 四 14th, 2009 | 570 Views

在笔记03中,已经提到了使用Lucene进行搜索的几个必要组件:

IndexSearcher——该对象内包含了很多search方法的重载,搜素一个索引,主要就是使用该对象的实例。

Keep Reading --- 987 words totally

Posted in 工作相关 | Tagged lucene, note | Leave a response

Lucene笔记05

By Charles on 四 14th, 2009 | 466 Views

Lucene是允许对索引的并发操作的,具体操作时,要遵循三条简单而严格的规则:

任意数量只读操作可以并行。

Keep Reading --- 366 words totally

Posted in 工作相关 | Tagged lucene, note | Leave a response

Lucene笔记04

By Charles on 四 14th, 2009 | 811 Views

本文详细介绍了使用Lucene建立索引的原理,基础知识,详细配置参数,和基础操作实践。

Posted in 工作相关 | Tagged lucene, note | Leave a response

Lucene笔记03

By Charles on 十二 18th, 2008 | 1043 Views

要完成最基本的搜索过程,Lucene需要以下几个对象的合作:

IndexSearcher——这个对象主要用来检索IndexWriter生成的索引文件,所以IndexSearcher构造的时候,使用一个包含了索引所在目录的Directory对象来构造。IndexSearcher提供的是一种对索引文件的只读访问,里面提供了多种搜索方法。在我第一次的笔记里代码中用到的search方法,接受一个Query对象和一个HitCollector对象,返回值为空。搜索结果被填充到HitCollector中。

Keep Reading --- 618 words totally

Posted in 工作相关 | Tagged lucene, note | 7 Responses

Lucene笔记02

By Charles on 十二 17th, 2008 | 1004 Views

要完成最基本的建立索引的过程,Lucene需要以下几个对象的合作:

Keep Reading --- 458 words totally

Posted in 工作相关 | Tagged lucene, note | Leave a response

Lucene笔记01

By Charles on 十二 10th, 2008 | 1532 Views

由于项目需要,开始学习Lucene,现在手头在看的就一本书《Lucene in Action》,别的材料手头也没有,不过,有一点非常遗憾,就是这本书已经非常旧了,所以,决定一边看,一边验证,主要是参看一下源代码,也是没有办法的事情,就在博客上做点小笔记好了。

From the very beginning

Keep Reading --- 455 words totally

Posted in 日  记 | Tagged code examples, lucene, note | 6 Responses

Subscribe to

  • FeedSky
  • [+]订阅到抓虾
  • [+]订阅到Google
  • [+]订阅到Yahoo!
  • [+]订阅到●鲜果
  • FeedBurner
  • [+]订阅到抓虾
  • [+]订阅到Google
  • [+]订阅到Yahoo!
  • [+]订阅到●鲜果

CSDN Shared Items

Latest Posts

  • 显示彩色的manpages
  • LaTeX体验
  • WordPress插件:CSDN Shared Items
  • Vim最低配置单
  • 折磨一下浏览器们,哈哈
  • Top Web Hosting Sites from WPDesigner.com
  • 在WinXP上搭建自己的SVN服务器
  • 在Hibernate里配置Proxool连接池
  • Nokia E63 使用心得——无限可能性(软件篇)
  • 关于Push Mail的种种

Most Commented Posts

  • WordPress插件:WP Kit CN(240)
  • WordPress Plugin:Flash MP3 Player(207)
  • 让WordPress 2.6正确统计中文字数(81)
  • 中文工具箱CT版(58)
  • 讨论:关于Sidebar的一些想法(56)
  • WP Kit CN再次更新~(51)
  • WordPress Theme: YUI Theme—烂尾版(51)
  • WordPress主题的迷思(49)
  • WordPress插件修改:Share This (jQuery)(49)
  • 告诸位朋友(47)
  • WP Kit CN 更新!(39)
  • 关于WKC Clear的简短说明(39)
  • WordCamp 2008 Shanghai(37)
  • WP的结构和最佳实践(36)
  • 提示:WP Thread Comment插件与WP2.7兼容问题(36)
  • 2008,结束&开始(35)
  • WP Kit CN 需要您!(34)
  • WordPress插件本土化:秀出你的评论数!(34)
  • 本站启用新域名SexyWP.com(34)
  • WordPress插件介绍:cformsII 及其汉化包(33)

Recent Comments

  • 邓三皮
    翻译得很好!谢谢分享!...
  • vieway
    这个播放器还是挺不错的, 不可我发现了一个BUG,!! 作者建议的宽度是177, 但是我相信大...
  • kaka
    为什么我手机一开始有存储卡,用了一个月就没有了呢??...
  • CBB65
    最近也是在TAOBAO上找人修改主题的,仿国外的,找不到哪里有卖的...
  • CBB65
    可惜的是Twitter被屏蔽掉了,上不去。...
  • 瓜瓜
    以前就可以,但是打不开,只能翻墙~...
  • 西华秦
    主题不错,就是用起来太复杂了...
  • 安天下
    啊,是WP自带的还是主题自带的呀?如果是WP自带的,那要怎么设置呢。...
  • 安天下
    很久没用WLW更新了。。博主,你Subscribe to是用的什么插件的吗?...
  • 安天下
    呵呵,原来是早在08年的文章呀...

Active Commentators

  • Nobody.

Random Posts

  • 试鞋归来(11)
  • 今年第一次游泳(4)
  • 插件升级:Flash MP3 Player(29)
  • 杭州游(二)(4)
  • [FireFox插件]—FireShot网页截屏利器(7)
  • Enjoy your Golf Vocation at Golfkurs(0)
  • 近况汇报(4)
  • Flash Mp3 Player FAQ(6)
  • Nokia E63 使用心得——无限可能性(软件篇)(11)
  • WordPress插件本土化:秀出你的评论数!(34)

沪ICP备08100755号