Lucene - 分析

  • 简述

    在我们之前的一章中,我们已经看到 Lucene 使用IndexWriter使用Analyzer分析文档,然后根据需要创建/打开/编辑索引。在本章中,我们将讨论分析过程中使用的各种类型的 Analyzer 对象和其他相关对象。了解分析过程和分析器的工作原理将使您深入了解 Lucene 如何索引文档。
    以下是我们将在适当时候讨论的对象列表。
    序号 类别和描述
    1 Token
    令牌表示文档中的文本或单词,具有相关的详细信息,如元数据(位置、开始偏移量、结束偏移量、令牌类型及其位置增量)。
    2 TokenStream
    TokenStream 是分析过程的输出,它由一系列令牌组成。它是一个抽象类。
    3 Analyzer
    这是每种分析器类型的抽象基类。
    4 WhitespaceAnalyzer
    该分析器根据空格拆分文档中的文本。
    5 SimpleAnalyzer
    该分析器根据非字母字符拆分文档中的文本并将文本置于小写。
    6 StopAnalyzer
    该分析器的工作方式与 SimpleAnalyzer 一样,并删除了诸如 'a', 'an', 'the', 等等。
    7 StandardAnalyzer
    这是最复杂的分析器,能够处理姓名、电子邮件地址等。它将每个标记小写并删除常用词和标点符号(如果有)。