加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

如何从Perl快速访问许多大型CSV文件中的数据?

发布时间:2020-12-15 21:53:23 所属栏目:大数据 来源:网络整理
导读:我有许多脚本,目前从一些.CSV文件中读取大量数据.为了提高效率,我使用 Text::CSV_XS模块读取它们,然后使用其中一列作为索引创建哈希.但是,我有很多文件,而且它们非常大.每个脚本都需要重新读取数据. 问题是:如何才能持久存储这些Perl哈希值,以便用最少的CPU
我有许多脚本,目前从一些.CSV文件中读取大量数据.为了提高效率,我使用 Text::CSV_XS模块读取它们,然后使用其中一列作为索引创建哈希.但是,我有很多文件,而且它们非常大.每个脚本都需要重新读取数据.

问题是:如何才能持久存储这些Perl哈希值,以便用最少的CPU读回所有这些哈希值?

组合脚本不是一种选择.我希望…

我应用了第二个优化规则并使用分析来发现绝大多数CPU(大约90%)位于:

Text::CSV_XS::fields
Text::CSV_XS::Parse
Text::CSV_XS::parse

因此,我制作了一个测试脚本,读取所有.CSV文件(Text :: CSV_XS),使用Storable模块转储它们,然后返回并使用Storable模块读回它们.我描述了这个,所以我可以看到CPU时间:

$c:/perl/bin/dprofpp.bat
Total Elapsed Time = 1809.397 Seconds
  User+System Time = 950.5560 Seconds
Exclusive Times
%Time ExclSec CumulS #Calls sec/call Csec/c  Name
 25.6   243.6 243.66    126   1.9338 1.9338  Storable::pretrieve
 20.5   194.9 194.92 893448   0.0002 0.0002  Text::CSV_XS::fields
 9.49   90.19 90.198 893448   0.0001 0.0001  Text::CSV_XS::Parse
 7.48   71.07 71.072    126   0.5641 0.5641  Storable::pstore
 4.45   42.32 132.52 893448   0.0000 0.0001  Text::CSV_XS::parse
 (the rest was in terms of 0.07% or less and can be ignored)

因此,与Text :: CSV_XS相比,使用可存储成本约25.6%重新加载,大约35%.节省不多……

是否有人建议我如何更有效地阅读这些数据?

谢谢你的帮助.

解决方法

解析数据一次并将其放入 SQLite db.使用 DBI查询.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读