加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长学院 > MsSql教程 > 正文

将SQL Server表导出到多个零件文件

发布时间:2020-12-12 16:23:24 所属栏目:MsSql教程 来源:网络整理
导读:我需要将一个相当大的SQL Server表~100GB导出到CSV文件.但不是输出是一个单独的csv文件,理想情况下应该是多个文件说10个文件,每个10GB. 我看到BCP有一个batch_size参数,但是这仍然会将所有数据写入一个文件?是否有其他免费的公用事业可以满足我的需求?文件
我需要将一个相当大的SQL Server表~100GB导出到CSV文件.但不是输出是一个单独的csv文件,理想情况下应该是多个文件说10个文件,每个10GB.

我看到BCP有一个batch_size参数,但是这仍然会将所有数据写入一个文件?是否有其他免费的公用事业可以满足我的需求?文件大小可以以字节还是以行数指定的位置?

对于一些上下文,这是因为数据可以与Hive / Hadoop平台中的其他源组合,因此如果有更好的方式导出数据,我会打开建议.

解决方法

遗憾的是,BCP的batch_size参数不控制输出.

我做过这种分裂的方式:

1 – 简单但不可重复:创建一个命令文件(.cmd),该文件在表上针对特定行范围运行多个BCP.这可能需要在表上使用基于IDENTITY(1,1)的主键.

bcp "SELECT * FROM MyTable WHERE Id BETWEEN 0 AND 10000000" queryout …  
bcp "SELECT * FROM MyTable WHERE Id BETWEEN 10000000 AND 20000000" queryout …

2 – 简单且可重复,使用大量磁盘:将整个表BCP输出到单个文件并使用split来根据需要创建任意数量的新文件,每个文件中包含给定的字节数(注意:按行拆分会更好想法IMO).使用’Cygwin'(不再维护GnuWin32)来安装拆分和任何其他所需的实用程序.

bcp MyDb.MySchema.MyTable out C:MyFile.csv -T -w  
 split -b 10737418240 C:MyFile.csv C:MySplitFile_

生成以下文件

C:MySplitFile_aaa
 C:MySplitFile_aab
 …

3 – 复杂但可重复,需要可能不安全的T-SQL:使用xp_cmdshell函数在遍历表的存储过程中调用BCP.

DECLARE @loop AS INT;   
 --Use WHILE to loop as needed--   
 DECLARE @sql AS VARCHAR(MAX);   
 --Add code to generate dynamic SQL here--   
 DECLARE @bcp AS VARCHAR(MAX);   
 SELECT @bcp='BCP "'+@sql+'" queryout C:MyFolderMyFile_'+@loop+'.csv';

最后注意:如果您在数据中使用任何NVARCHAR字段,则需要使用-w标志并注意输出将为UTF-16LE.我强烈建议在尝试使用Hadoop对它进行任何操作之前,使用iconv(再次来自’Cygwin’)将其转换为UTF-8.

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读