大数据处理时的字符串处理

发布时间：2020-12-14 02:37:57 所属栏目：大数据来源：网络整理

导读：最近在做文本的shingles时，遇到了一个问题，希望把每个句子按照5个字符一组进行map，因此碰到了字符串分割的问题，这里罗列三种方法; split; substring; StringTokenize 上网调查了一下，StringTokenize性能最优， substring其次，split最差。但是！请看

最近在做文本的shingles时，遇到了一个问题，希望把每个句子按照5个字符一组进行map，因此碰到了字符串分割的问题，这里罗列三种方法;

split;

substring;

StringTokenize

上网调查了一下，StringTokenize性能最优，substring其次，split最差。但是！请看其介绍

? StringTokenizer 有三个构造方法

? StringTokenizer(String str) ，StringTokenizer(String str,String delim) ，StringTokenizer(String str,String delim,booleareturnDelims)

从其构造可以看出，其构造方法单一，这意味着我们只能指定特定的分隔符进行分割，而不能按照我本来的意愿进行操作，

所以还是选择substring方法。

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!