大数据处理初窥
?当处理大规模数据时,例如进行全文搜索,近似文档搜索,数据挖掘等工作时,RDBMS往往不能满足我们的需求了。那么我们应该怎么做呢? 一种解决方案是:利用批处理从RDBMS中取出数据,建立索引服务器再让web应用程序通过RPC(Remote Procedure Call)或者web API(HTTP + JSON)进行查询。 ???我们称上述方法为“特殊用途索引”。创建特殊索引后就能处理RDBMS难以处理的事情。RDBMS是通用系统,能够进行数据排序、统计处理、JOIN等,其目的多种多样,如果仅为了特定目的,那么专门对数据结构进行调优,就会比RDBMS快得多。搜索用的倒排索引就是最典型的例子,索引之前先进行自然语言处理方法处理,无须查询RDBMS中全部数据,就能瞬间实现查找。 特殊用途索引: ???定期取出数据 ???????根据取出的数据创建数据结构 ???????????搜索用的逆向索引 ???????????关键字链接用的Trie等 ???用C++开发保存结构化数据的服务器,通过RPC或者WEB API访问。 ???RDBMS->信息搜索
(编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |