加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门网 (https://www.xiamenwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

目前最常用的文本挖掘包是 tm 包,该包已经成了事实上的分析标准

发布时间:2021-01-08 05:27:16 所属栏目:大数据 来源:网络整理
导读:目前最常用的文本挖掘包是 tm 包,该包已经成了事实上的分析标准, 几乎所有的其他 R 包都是基于这个框架的。但是 tm 包具有一些缺陷, 在R中进行分析的时候不是很方便。 ? ? ? ? 最明显的问题是中文支持得不够好, 其函数的设计并没有考虑到国际化的需求和

目前最常用的文本挖掘包是 tm 包,该包已经成了事实上的分析标准, 几乎所有的其他 R 包都是基于这个框架的。但是 tm 包具有一些缺陷, 在R中进行分析的时候不是很方便。 ? ? ? ? 最明显的问题是中文支持得不够好, 其函数的设计并没有考虑到国际化的需求和 UTF-8 的支持,很多函数操作中文时不方便。 此外,tm 包的开发大量使用了 S3 的面向对象方法,其最大的价值是为后续的开发者提供了接口, 但是这些对象对于使用者来说并没有什么便利,增加了学习的复杂度, 而且由于 S3 封装性上天然的缺陷,初学者容易出错而且提示不清楚。另外, tm 包及相关体系完全基于文档词条矩阵的数据结构,在大量数据的工程化实现方面非常便利, 但是所有的这些包包括 tm 在内并没有简单的能够高性能运算的机制, 该设计的优势在R中完全没有被体现。 ? ? ? ? 基于目前 R 中可用的文本挖掘资源的不足,tmcn 试图去解决这些问题, 先从中文支持开始,然后逐渐更新去解决各种问题,但是也会考虑到 tm 的框架, 在框架之外进行一些有益的补充。 (摘录自tmcn官方主页:http://jianl.org/cn/R/tmcn.html) ? ? ? ? 后续的李舰老师还基于tmcn模块开发了,CRF模块以及word2vec模块。 ? ? ? ? CRF模块可见李舰老师R语言大会分享内容; ? ? ? ? word2vec模块,可见笔者博客:重磅︱文本挖掘深度学习之word2vec的R语言实现 NLP︱R语言实现word2vec(词向量)经验总结(消除歧义、词向量的可加性) ———————————————————————————————————————— 一、字符编码UTF-8 GBK unicode GB2312(CP936)+改进=GBK--→unicode--→UTF-8 1、GBK ? ? ? ? 1993年,Unicode 1.1版本推出,收录中国大陆、台湾、日本及韩国通用字符集的汉字,总共有20,902个。 ? ? ? ? 中国大陆订定了等同于Unicode 1.1版本的“GB 13000.1-93”“信息技术通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面”。 ? ? ? ? 由于GB 2312-80只收录6763个汉字,有不少汉字,如部分在GB 2312-80推出以后才简化的汉字(如“啰”),部分人名用字(如中国前总理朱镕基的“镕”字),台湾及香港使用的繁体字,日语及朝鲜语汉字等,并未有收录在内。于是厂商微软利用GB 2312-80未使用的编码空间,收录GB 13000.1-93全部字符制定了GBK编码。 ? ? ? ? 根据微软资料,GBK是对GB2312-80的扩展,也就是CP936字码表(Code Page 936)的扩展(之前CP936和GB 2312-80一模一样),最早实现于Windows 95简体中文版。虽然GBK收录GB 13000.1-93的全部字符,但编码方式并不相同;因为GBK向下兼容GB2312,而GB 13000.1-93等同于Unicode 1.1,二者的编码方式完全不兼容。 ? ? ? ? 汉字内码扩展规范,称GBK,全名为《汉字内码扩展规范(GBK)》 (来自维基百科) ? ? ? ? 列举几个GBK的编码: [html] view plain copy print?在CODE上查看代码片派生到我的代码片 81 0 ? 1 ? 2 ? 3 ? 4 ? 5 ? 6 ? 7 ? 8 ? 9 ? A ? B ? C ? D ? E ? F ? 4 丂 ?丄 ?丅 ?丆 ?丏 ?丒 ?丗 ?丟 ?丠 ?両 ?丣 ?並 ?丩 ?丮 ?丯 ?丱 ? ? 5 丳 ?丵 ?丷 ?丼 ?乀 ?乁 ?乂 ?乄 ?乆 ?乊 ?乑 ?乕 ?

(编辑:厦门网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读