加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据处理时的字符串处理

发布时间:2020-12-14 02:37:57 所属栏目:大数据 来源:网络整理
导读:最近在做文本的shingles时,遇到了一个问题,希望把每个句子按照5个字符一组进行map,因此碰到了字符串分割的问题,这里罗列三种方法; split; substring; StringTokenize 上网调查了一下,StringTokenize性能最优, substring其次,split最差。 但是! 请看

最近在做文本的shingles时,遇到了一个问题,希望把每个句子按照5个字符一组进行map,因此碰到了字符串分割的问题,这里罗列三种方法;

split;

substring;

StringTokenize

上网调查了一下,StringTokenize性能最优,substring其次,split最差。但是!请看其介绍

? StringTokenizer 有三个构造方法

? StringTokenizer(String str) ,StringTokenizer(String str,String delim) ,StringTokenizer(String str,String delim,booleareturnDelims)

从其构造可以看出,其构造方法单一,这意味着我们只能指定特定的分隔符进行分割,而不能按照我本来的意愿进行操作,

所以还是选择substring方法。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读