将汉字文档添加进 sqlite3 数据库

发布时间：2020-12-12 19:39:45 所属栏目：百科来源：网络整理

导读：转载自：点击打开链接由于项目需要，得做一个嵌入式输入法，但是网上一直没找到相似的模版或者资料。后来总监说这个不急，慢慢搞。因此有了足够的时间自己来做一个。数据库的准备首先是汉字的数据库。分为拼音输入法和五笔输入法。在上网找到了汉字文档归

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 。。。。。胺an鞍an谙an埯an揞an犴an庵an桉an铵an鹌an黯an暗暗anan岸边anbian暗藏ancang。。。。。。

五笔输入法的 txt文档：

? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 。。。。阿BS啊KB锕QBSK嗄KDHT嗄KDHT哎KAQ哀YEU2唉KCT埃FCT挨RCT锿QYEY捱RDFF皑RMNN。。。。

接下来做的事就是将txt中的拼音输入法以及五笔输入法文档中的内容分别录入拼音输入法和五笔输入法数据库 db 中。这儿我选择的是 sqlite3这个数据库。当然还有其他很多牛逼的数据库，不过对于我这个简单的输入法 sqlite3就已经足够了。

sqlite3的使用

在录入过程中，我们只需要 sqlite3中的创建数据库语句以及插入语句：

创建数据库：

? 1 createtablepinyin(hanzvarchar(20),pinyinvarchar(20))

插入语句：

? 1 insertintopinyin(hanz,pinyin)values('喊','han')

以上是拼音输入法的，五笔输入法也一样。

汉字的提取

在我找到的拼音输入法的文档中，汉字与拼音是挨着的，没有间隔，而五笔输入法的文档是有间隔的。只要有间隔，将汉字区分出来就非常简单，可是没有间隔就不好说了。所以接下来遇到了这个问题，怎样将没有间隔的字符串中的汉字提取出来。

首先明白一点，汉字不是在任何时候都是占两个字节的！（可能是我太笨了，一直以为是两个字节）。如果按照两个字节来做，很可能出现汉字乱码。在不同的编码中汉字所占的字节数不同。如在GBK（如GB2312）编码中汉字占两个字节，在 UTF-8中汉字占三个字节，而我的电脑是 UTF-8的。在网上搜索了一些资料，我选择了一个方案：将 UTF-8转换为 GBK，然后对 GBK 编码下的文档进行数据库的录入工作。

其中 UTF-8转换为 GBK可以在网上找一个工具，直接就转换了。

接下来就是 GBK编码下的汉字提取：

汉字在该编码下占两个字节，在网上搜索到当得到一个字符是小于零，那个该字符必定与下一个字符组成一个汉字。当然，这个不适合所有情况，但就针对我这个项目而言足够了，至少没有发现乱码的问题。
然后对两个文档进行格式的分析。拼音输入法文档是汉字与拼音连在一起的没有间隔。而五笔输入法的汉字与五笔是有间隔的，但值得注意的是：这里的间隔不一定就是空格，还可能是 TAB键！而这里就是 TAB 。至于是怎么发现的，直接将其值的十六进制打印出来就知道了。
将汉字和拼音以及五笔分别提取出来后，我们最好还要将其转换回 UTF-8的编码格式。这里需要头文件“iconv.h”，它是将一种已知的字符集文件转换成另一种已知的字符集。

代码如下：

? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 while(EOF!=(ch=fgetc(fp))){if(ch<0)//提取汉字{printf("inhanzin");hanzi[0]=ch;ch=fgetc(fp);hanzi[1]=ch;hanzi[2]='';res=g2u(hanzi,strlen(hanzi),out,OUTLEN);//将GBK转换回UTF-8编码格式printf("res=%dn",res);printf("hanzi=%sn",out);strcat(line,out);strcat(han,out);}elseif(ch=='n')//表示一行已经读完{//gbktoutf8printf("gbk->utf8:%sn",line);//out);printf("han=%sn",han);printf("pinyin=%sn",pinyin);memset(sql_insert_data,sizeof(sql_insert_data));deletspace(pinyin,temp);//删除间隔printf("temp:%s,len=%dn",temp,strlen(temp));sprintf(sql_insert_data,"insertintopinyin(hanz,pinyin)values('%s','%s')",han,temp);//sqlite3的插入语句printf("%sn",sql_insert_data);ret=sqlite3_exec(db,sql_insert_data,NULL,&errmsg);//执行插入语句if(ret!=SQLITE_OK){fprintf(stderr,"insertintodbfail:%sn",errmsg);}memset(line,sizeof(line));memset(han,sizeof(han));memset(pinyin,sizeof(pinyin));memset(temp,sizeof(temp));}else//拼音以及五笔{en[0]=ch;en[1]='';res=g2u(en,strlen(en),OUTLEN);printf("out:%sn",out);strcat(pinyin,out);strcat(line,out);}}sqlite3_free(errmsg);sqlite3_close(db);fclose(fp);printf("n");return0;}

其中 deletspace()函数不仅仅删除间隔中的 TAB，还删除了每行末尾的一个 'r'字符。这些字符一定要删除干净，否则后面没法用。

源代码下载地址：输入法字符数据库的录入

（编辑：李大同）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

转载自：点击打开链接

由于项目需要，得做一个嵌入式输入法，但是网上一直没找到相似的模版或者资料。后来总监说这个不急，慢慢搞。因此有了足够的时间自己来做一个。

数据库的准备

首先是汉字的数据库。分为拼音输入法和五笔输入法。在上网找到了汉字文档归纳。如下

拼音输入法的 txt文档：