数据挖掘 - 挖掘文本数据

简述

文本数据库由大量文档组成。他们从新闻文章、书籍、数字图书馆、电子邮件、网页等多个来源收集这些信息。由于信息量的增加，文本数据库正在迅速增长。在许多文本数据库中，数据是半结构化的。

例如，一个文档可能包含一些结构化的字段，例如标题、作者、发布日期等。但是除了结构化数据之外，文档还包含非结构化的文本组件，例如摘要和内容。在不知道文档中可能包含什么内容的情况下，很难制定有效的查询来分析和从数据中提取有用信息。用户需要工具来比较文档并对其重要性和相关性进行排名。因此，文本挖掘已成为数据挖掘中的流行和重要主题。

信息检索

信息检索处理从大量基于文本的文档中检索信息。一些数据库系统通常不会出现在信息检索系统中，因为它们都处理不同类型的数据。信息检索系统的示例包括 -

在线图书馆目录系统
在线文档管理系统
网络搜索系统等

Note− 信息检索系统的主要问题是根据用户的查询在文档集合中定位相关文档。这种用户的查询由一些描述信息需求的关键字组成。

在这样的搜索问题中，用户主动从集合中提取相关信息。当用户有特别的信息需求，即短期需求时，这是合适的。但是如果用户有长期的信息需求，那么检索系统也可以主动将任何新到的信息项推送给用户。

这种对信息的访问称为信息过滤。相应的系统称为过滤系统或推荐系统。

文本检索的基本措施

当系统根据用户输入检索大量文档时，我们需要检查系统的准确性。将与查询相关的文档集表示为 {Relevant}，将检索到的文档集表示为 {Retrieved}。相关和检索到的文档集可以表示为 {Relevant} ∩ {Retrieved}。这可以以维恩图的形式显示如下 -

评估文本检索质量的三个基本措施 -

精确
回归
F分数

精确

精度是实际上与查询相关的检索到的文档的百分比。精度可以定义为 -


Precision= |{Relevant} ∩ {Retrieved}| /  |{Retrieved}|

回归

回归是与查询相关并且实际上已检索到的文档的百分比。回归定义为 -


Recall = |{Relevant} ∩ {Retrieved}| /  |{Relevant}|

F分数

F-score 是常用的权衡取舍。信息检索系统通常需要权衡精度，反之亦然。F 分数定义为召回率或精度的调和平均值，如下所示 -


F-score = recall x precision / (recall + precision) / 2