加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

大数据处理初窥

发布时间:2020-12-14 04:12:17 所属栏目:大数据 来源:网络整理
导读:?当处理大规模数据时,例如进行全文搜索,近似文档搜索,数据挖掘等工作时,RDBMS往往不能满足我们的需求了。那么我们应该怎么做呢? 一种解决方案是:利用批处理从RDBMS中取出数据,建立索引服务器再让web应用程序通过RPC(Remote Procedure Call)或者web

?当处理大规模数据时,例如进行全文搜索,近似文档搜索,数据挖掘等工作时,RDBMS往往不能满足我们的需求了。那么我们应该怎么做呢? 一种解决方案是:利用批处理从RDBMS中取出数据,建立索引服务器再让web应用程序通过RPC(Remote Procedure Call)或者web API(HTTP + JSON)进行查询。

???我们称上述方法为“特殊用途索引”。创建特殊索引后就能处理RDBMS难以处理的事情。RDBMS是通用系统,能够进行数据排序、统计处理、JOIN等,其目的多种多样,如果仅为了特定目的,那么专门对数据结构进行调优,就会比RDBMS快得多。搜索用的倒排索引就是最典型的例子,索引之前先进行自然语言处理方法处理,无须查询RDBMS中全部数据,就能瞬间实现查找。

特殊用途索引:

???定期取出数据

???????根据取出的数据创建数据结构

???????????搜索用的逆向索引

???????????关键字链接用的Trie等

???用C++开发保存结构化数据的服务器,通过RPC或者WEB API访问。

???RDBMS->信息搜索

  • 用批处理获得关系型数据库中的数据

  • 创建倒排索引,使用搜索算法

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读