加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【3】 文本挖掘方法论

发布时间:2021-02-23 07:30:40 所属栏目:大数据 来源:网络整理
导读:转自 NLP论坛 http://www.threedweb.cn/thread-1284-1-1.html http://www.threedweb.cn/thread-1285-1-1.html http://www.threedweb.cn/thread-1286-1-1.html 文本挖掘流程 第1阶段:确定研究目的 像任何其他项目一样,文本挖掘的研究开始于研究目的的决策。
副标题[/!--empirenews.page--]

转自 NLP论坛

http://www.threedweb.cn/thread-1284-1-1.html
http://www.threedweb.cn/thread-1285-1-1.html
http://www.threedweb.cn/thread-1286-1-1.html

文本挖掘流程

这里写图片描述

第1阶段:确定研究目的

像任何其他项目一样,文本挖掘的研究开始于研究目的的决策。这需要深入了解业务情况,研究的目的是什么。为了实现这样的认识和精确定义的目的,我们必须评估问题(或机会)的实质。通常情况下,为了开发基础系统,我们必须密切与领域专家互动,包括对系统结构,限制和可用资源的深入评估。只有这样,我们才能制定出一套切实可行的目标来确定研究的方向。

第2阶段:一旦这项研究的目的是确定,探索可用性和数据的性质,我们在特定研究范围内准备评估可用性,可获得性,以及必要的数据的适用性。此阶段的任务包括以下内容:

* 文本数据源的标识(基于数字化的还是基于纸质的;组织内部的或组织外部的)
* 数据的可访问性和可用性评估
* 收集的初始数据集
* 数据的丰富性的探索(例如,它有需要的文本挖掘研究的信息内容?)
* 数据的数量和质量的评估。一旦探测得出了积极的结果,下一阶段是从各种来源收集和集成大量数据,在研究中使用。

第3阶段:准备数据 && 第4阶段:开发和评估模型

第3阶段及第4阶段是数据挖掘和文本挖掘的最显著差异之处。事实上,许多人认为,文本挖掘无非是在数据收集和处理阶段比数据挖掘的更艰苦。在图5.2B,阶段2和3展示了阴影框,显示出更细致,深入的描述。这些在阶段6之后讨论。

第5阶段:评估结果

一旦模型被开发出来,就要准确评估其质量。从数据分析的角度来看,我们必须验证执行操作的正确性。例如,我们必须验证取样是否得当,那么可以重复上述步骤来验证。然后,(也只有这样)才能继续向前部署。采取执行流程中的综合评价,有助于减轻的错误传播到决策过程中,否则可能导致对业务不可逆的损害。通常情况下,当分析师处于这些阶段时,他或她可能忘了主要业务问题,开始把学习摆在首位。这种评估步骤是为了使流程阶段有更多的时间,以确保开发并验证模型真正实际解决业务问题,并实现目标。如果这一评估得出的结论,一个业务目标或多个不满意,或者还有的是,还没有被充分考虑一些重要的商业问题,我们应该返回并移动到该流程的部署阶段之前以纠正这些问题。

第6阶段:部署结果

一旦模型和建模过程中顺利通过评估,它们就可以被部署(即投入使用)。这些模型的部署可以是简单的形成一份报告,通过解释引起决策者对研究结果的注意,也可以很复杂,例如建立一个新的商业智能系统来应用这些模型(或将其纳入现有的商业智能系统),所以它们可以被重复地用于更好地进行决策。随着时间的推移,一些模型将失去他们的准确性和相关性。他们应该可以被新数据周期性地更新(或精化)。这可以通过执行新的分析方法,每隔一段时间重新创建模型,或更完美地,商业智能系统本身可被设计成通过相关数据的更新来自动精炼模型。虽然开发能够自我评价和自我调节的复杂系统,是一个具有挑战性的任务,一旦完成,其结果将是非常令人满意的。

数据准备和开发、评估模型

这里写图片描述

图5.2A和5.2B展示了文本挖掘的流程。通过第3阶段和第4阶段。图5.3提出了文本挖掘的方法,从功能架构的角度来看是一个高层次的内容图。该图展示了流程的范围,特别强调了接口和环境。本质上,它绘制了流程的边界来明确表明文本挖掘过程所包含(和/或排除)的内容。

在知识发现的背景下,文本挖掘的主要目的是从非结构化(文本)数据,以及结构化和半结构化数据(如有关的问题正在解决)中提取新的,有意义的和可操作的知识/信息更好辅助决策。在图5.3(盒子上的左边缘)的输入箭头是基于文本的知识发现流程块。非结构化,半结构化或结构化的数据都被收集,存储,并提供给流程。输出箭头(框右边缘)表示指定上下文的知识产品,可以用于决策。进入框上边缘的约束条件(或控制)箭头表示软件和硬件的限制,或隐私方面的问题,以及以自然语言方式呈现的文本处理方面的难点。进入框内的底部是启用模块,它代表了软件工具,高速计算机,领域知识,和自然语言处理(NLP)的方法。

这里写图片描述


图5.4显示,图5.3可以分解成三个相互联系的子过程,我们称之为“活动。”每个都有输入,完成了一些转换过程,并生成各种输出。如果由于某种原因,子进程的输出不是预期或出现不能令人满意的水平,反馈回路重定向信息流程到之前任务,允许调整和更正。

第三阶段,第1步:建立语料库

第3阶段的活动1是收集所有相关的正在处理的问题的文件(参见图5.4)。数据的质量和数量都是数据挖掘和文本挖掘项目中最重要的元素。有时在文本挖掘的项目中,文档集合是现成的,伴随着项目的说明(在一个特定的产品或服务的顾客评论,例如,进行情感分析)。但通常的文本挖掘需要识别并使用手动或自动的方法收集特定问题的文档集合(例如,web爬虫可以定期摘录几个网站,收集相关的新闻)。数据收集可以包括文本文件,HTML文件,电子邮件,网帖和短期票据。除了正常的文本数据,可以包括使用语音识别算法转录的语音记录。

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读