加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

基于余弦距离的的文本相似度挖掘(C++)

发布时间:2020-12-14 03:32:42 所属栏目:大数据 来源:网络整理
导读:本文实现了根据余弦距离的文本相似度的C++实现算法,如要要点如下: 1、对1998年1月的人民日报所有文章进行预处理(其中文件已经分化好分词),然后进行去噪声、去停用词等操作。 2、对处理好的数据进行余弦计算,并存储为相应的数据结构。 3、输出前N篇最相

本文实现了根据余弦距离的文本相似度的C++实现算法,如要要点如下:

1、对1998年1月的人民日报所有文章进行预处理(其中文件已经分化好分词),然后进行去噪声、去停用词等操作。

2、对处理好的数据进行余弦计算,并存储为相应的数据结构。

3、输出前N篇最相似的文章

下面介绍

Statistics.cpp,对预处理文件进行统计词频。

#pragma once
#include "TextSimilarity.h"
#include <windows.h>


void ContentStatistics(string& ArticleContent,Article& SigleArtile)
{
    //1.把词分割放入一个list中
    //2.用停用词删除list中的元素
    //3.遍历list,记住首词,统计出现次数,重复删掉
    //  词和次数放入SingleArtile的对象中的map<string,size_t> WordList中

    list<string> Wordlist;
    list<string>::iterator WordIter;

    size_t offset = 0;
    size_t begin = 0;
    size_t over = ArticleContent.size();
    size_t end = 0;
    string temp;

    while(offset != over)
    {
        if(ArticleContent[offset]>0 && ArticleContent[offset] < 127)
        {
            offset++;
        }
        else
        {
            begin = offset;
            while(!(ArticleContent[offset]>0 && ArticleContent[offset] < 127) 
                  && (ArticleContent[offset] != ' '))
            {
                offset++;
            }
            //end = offset - 1;
            temp = ArticleContent.substr(begin,offset-begin);
            Wordlist.push_back(temp);
        }
    }

    //2.
     fstream FStopWord;
     FStopWord = FOpen("stopword.txt");
     vector<string> StopWord;
     vector<string>::iterator StopWordIter;
     char* C_temp = new char[20];
     //存储停用词
     while(!FStopWord.eof())
     {
         FStopWord.getline(C_temp,20,'n');
         StopWord.push_back(C_temp);
     }
     FStopWord.close();
     //
     for(StopWordIter = StopWord.begin(); StopWordIter != StopWord.end();StopWordIter++ )
     {
        WordIter = Wordlist.begin();
         while((WordIter = find(WordIter,Wordlist.end(),(*StopWordIter))) != Wordlist.end())
         {
             WordIter = Wordlist.erase(WordIter);
         }
     }


    //3.遍历list,记住首词,统计出现次数,重复删掉
    //  词和次数放入SingleArtile的对象中的map<string,size_t> WordList中
    size_t WordCount;
    list<string>::iterator RearIter;
    string TheWord;
    double SumCount = 0.0;
    for (WordIter = Wordlist.begin();WordIter != Wordlist.end();++WordIter)
    {
        TheWord = *WordIter;
        WordCount = 0;
        RearIter = WordIter;

        while((RearIter = find(RearIter,TheWord)) != Wordlist.end())
        {
            if(WordCount >= 1)
            {
                RearIter = Wordlist.erase(RearIter);
            }
            else
            {
                RearIter++;  
            }
            WordCount++;
        } 
        //求和
        SumCount += WordCount*WordCount;
        SigleArtile.SetWordList(TheWord,WordCount);
    }
    SumCount = sqrt(SumCount);
    SigleArtile.SetVectorLength(SumCount);
}
ProProcessing.cpp,其中bb.txt为间接处理文件。

void ProProcessing(list<Article>& ArticleList)
{
    fstream ArticleFile;
    const size_t MaxLength = 10240;
    string ArticleHead = "";
    string ArticleContent = "";
    char* C_temp = new char[MaxLength];
    string S_temp;
    map<string,size_t> Word;
    bool FirstHead = true;
   
    fstream save;
    save = FOpen("bb.txt");
    Article SigleArtile;
    ArticleFile = FOpen("199801.txt");
    while(!ArticleFile.eof())
    {
        //每一篇文章
        ArticleFile.getline(C_temp,MaxLength,'n');
        S_temp = C_temp;
        //文章内
        if(S_temp.size() != 0)
        {
            if(FirstHead)
            {
                //得到文章标题
                ArticleHead = S_temp.substr(0,15);
                ArticleHead.append(1,'n');
                SigleArtile.SetArticleDate(ArticleHead);
                FirstHead = false;
            }
            //正文开始
            S_temp.replace(0,23,1,' ');
            //正文链接
            ArticleContent.append(S_temp);
        }
        else//有空格,一篇读完
        {
            ArticleContent.append("n");
            //内容统计
            SigleArtile.DelWordList();
            ContentStatistics(ArticleContent,SigleArtile);

            map<string,size_t>::iterator mapiter;
            for( mapiter = SigleArtile.GetWordList().begin() ;mapiter != SigleArtile.GetWordList().end();mapiter++)
            {
                save << (*mapiter).first;
                save << ":";
                save << (*mapiter).second;
                save << "|";
            }
            save << 'n';
            //存储文章
            ArticleList.push_back(SigleArtile);
            //下一篇文章
            FirstHead = true;
            ArticleContent.clear();
        }
    }
    //销毁字符
    save.close();
    delete[] C_temp;
    ArticleFile.close();
}
数据以文件的形式存储,最后根据预处理好的文件进行余弦距离运算,计算时当两篇文档其中有一篇无此词时,就忽略运算,保证只进行互有词运算。另外,对每篇文章的长度进行预运算,目的是提高速度。
TextComputing.cpp

void TextComputing(list<Article>& ArticleList,size_t ArticleNum)
{
    //1.计算文本长度
    //2.1-100之间和除此之外的乘机之和然后

    //1.
   // size_t ArticleNum = 100;
    size_t ArticleOffset = 1;
    list<Article>::iterator FiArticleIter;
    list<Article>::iterator SeArticleIter;
    map<string,size_t>::iterator FiWordIter;
    map<string,size_t>::iterator SeWordIter;
    double MulWord = 0.0;
    fstream SaveResult;
    SaveResult = FOpen("result.txt");

    for (FiArticleIter = ArticleList.begin();(FiArticleIter != ArticleList.end())&&(ArticleOffset <= ArticleNum); ++FiArticleIter)
    {
        for ( SeArticleIter = FiArticleIter; SeArticleIter != ArticleList.end();)
        {
            ++SeArticleIter;
            for (FiWordIter = FiArticleIter->GetWordList().begin();FiWordIter != FiArticleIter->GetWordList().end();FiWordIter++)
            {
                if((SeWordIter = SeArticleIter->GetWordList().find((*FiWordIter).first)) != SeArticleIter->GetWordList().end())
                {
                    MulWord += SeWordIter->second * FiWordIter->second;
                }
            }
            //2.
            MulWord = MulWord/FiArticleIter->GetVectorLength()/SeArticleIter->GetVectorLength();
            result(FiArticleIter->GetArticleDate(),SeArticleIter->GetArticleDate(),MulWord,SaveResult);
            //cout << FiArticleIter->GetArticleDate() << "->"<<SeArticleIter->GetArticleDate()<< ":" <<MulWord << endl;
            MulWord = 0.0;
        }
        //cout << ArticleOffset << endl;
        ArticleOffset++;
    }
    SaveResult.close();
}

运行结果
输出result.txt文件,结果如下:


其运行结果,如图:


小结:本文只是对文本相似的初步验证,余弦响亮只考虑的词频,但是并没有考虑词的重要程度,以后的文本处理将基于TF-IDF进行预处理,在对词的存储上,程序使用了map存储,再查找相应词频时,会有时间损耗,办法是转变为倒排索引,可以大大提高词的查找速度,大约时间可缩减一半左右。

接下来,将进一步完善分词预处理等工作。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读