目前最常用的文本挖掘包是 tm 包，该包已经成了事实上的分析标准

发布时间：2021-01-08 05:27:16 所属栏目：大数据来源：网络整理

导读：目前最常用的文本挖掘包是 tm 包，该包已经成了事实上的分析标准，几乎所有的其他 R 包都是基于这个框架的。但是 tm 包具有一些缺陷，在R中进行分析的时候不是很方便。 ? ? ? ? 最明显的问题是中文支持得不够好，其函数的设计并没有考虑到国际化的需求和

目前最常用的文本挖掘包是 tm 包，该包已经成了事实上的分析标准，几乎所有的其他 R 包都是基于这个框架的。但是 tm 包具有一些缺陷，在R中进行分析的时候不是很方便。 ? ? ? ? 最明显的问题是中文支持得不够好，其函数的设计并没有考虑到国际化的需求和 UTF-8 的支持，很多函数操作中文时不方便。此外，tm 包的开发大量使用了 S3 的面向对象方法，其最大的价值是为后续的开发者提供了接口，但是这些对象对于使用者来说并没有什么便利，增加了学习的复杂度，而且由于 S3 封装性上天然的缺陷，初学者容易出错而且提示不清楚。另外， tm 包及相关体系完全基于文档词条矩阵的数据结构，在大量数据的工程化实现方面非常便利，但是所有的这些包包括 tm 在内并没有简单的能够高性能运算的机制，该设计的优势在R中完全没有被体现。 ? ? ? ? 基于目前 R 中可用的文本挖掘资源的不足，tmcn 试图去解决这些问题，先从中文支持开始，然后逐渐更新去解决各种问题，但是也会考虑到 tm 的框架，在框架之外进行一些有益的补充。（摘录自tmcn官方主页：http://jianl.org/cn/R/tmcn.html） ? ? ? ? 后续的李舰老师还基于tmcn模块开发了，CRF模块以及word2vec模块。 ? ? ? ? CRF模块可见李舰老师R语言大会分享内容； ? ? ? ? word2vec模块，可见笔者博客：重磅︱文本挖掘深度学习之word2vec的R语言实现 NLP︱R语言实现word2vec（词向量）经验总结（消除歧义、词向量的可加性） ———————————————————————————————————————— 一、字符编码UTF-8 GBK unicode GB2312(CP936)+改进=GBK--→unicode--→UTF-8 1、GBK ? ? ? ? 1993年，Unicode 1.1版本推出，收录中国大陆、台湾、日本及韩国通用字符集的汉字，总共有20,902个。 ? ? ? ? 中国大陆订定了等同于Unicode 1.1版本的“GB 13000.1-93”“信息技术通用多八位编码字符集（UCS）第一部分：体系结构与基本多文种平面”。 ? ? ? ? 由于GB 2312-80只收录6763个汉字，有不少汉字，如部分在GB 2312-80推出以后才简化的汉字（如“啰”），部分人名用字（如中国前总理朱镕基的“镕”字），台湾及香港使用的繁体字，日语及朝鲜语汉字等，并未有收录在内。于是厂商微软利用GB 2312-80未使用的编码空间，收录GB 13000.1-93全部字符制定了GBK编码。 ? ? ? ? 根据微软资料，GBK是对GB2312-80的扩展，也就是CP936字码表（Code Page 936）的扩展（之前CP936和GB 2312-80一模一样），最早实现于Windows 95简体中文版。虽然GBK收录GB 13000.1-93的全部字符，但编码方式并不相同；因为GBK向下兼容GB2312，而GB 13000.1-93等同于Unicode 1.1，二者的编码方式完全不兼容。 ? ? ? ? 汉字内码扩展规范，称GBK，全名为《汉字内码扩展规范(GBK)》（来自维基百科） ? ? ? ? 列举几个GBK的编码： [html] view plain copy print?在CODE上查看代码片派生到我的代码片 81 0 ? 1 ? 2 ? 3 ? 4 ? 5 ? 6 ? 7 ? 8 ? 9 ? A ? B ? C ? D ? E ? F ? 4 丂 ?丄 ?丅 ?丆 ?丏 ?丒 ?丗 ?丟 ?丠 ?両 ?丣 ?並 ?丩 ?丮 ?丯 ?丱 ? ? 5 丳 ?丵 ?丷 ?丼 ?乀 ?乁 ?乂 ?乄 ?乆 ?乊 ?乑 ?乕 ?

（编辑：厦门网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

很全面 3D打印科技在铁	为了不emo，我将自己培
宇宙年代势不可逆，世	国产外骨骼机器人登场