构建大数据分析平台,深入洞察客户行为
——点击上方蓝色文字关注我们——
1 建设背景1.1 业务背景随着移动互联网的不断发展,智能终端迅速普及、移动数据流量迅猛增长,流量收入占比快速攀升,流量经营已是运营商战略转型的重点。为了支撑流量经营,引入DPI、互联网日志和位置信令等多种网络数据源,这些网络数据具备大数据的典型特征,对原有经分系统架构带来了新的挑战。 传统小型机+高端存储+传统关系型数据库的系统架构存在性能、成本、扩展性上的瓶颈,无法满足大数据时代在低成本前提下在海量、多样的数据中高效地提取价值的要求。因此,大数据时代的经分系统架构亟需变革。 1.2 现状分析浙江移动经营分析系统主要包括数据仓库层和数据集市层,其中数据仓库层主要负责基础数据模型的处理和历史数据存储,数据集市层从数据仓库获取基础数据模型,并在此基础上支撑端到端应用。 浙江移动经营分析系统面临的问题和挑战主要体现在海量、快速增长数据的处理能力不足,以及多样化数据的处理能力不足: 一、海量、快速增长数据的处理能力不足 网络数据具有数据量大、增长快的特征(目前日均X亿条记录,XTB左右数据量,年均增长率约60%)。原有经分系统采用传统的集中式架构(小型机+高端存储+DB2数据库),对海量数据的处理能力不足。目前DPI数据(每日X亿条记录)的处理时间共需21个小时,无法满足流量经营业务需求(业务要求次日8点前看到前一天分析结果)。 二、多样化数据的处理能力不足 处理模式多样化能力不足:原有经分系统采用传统关系型数据库DB2,主要通过SQL方式进行数据处理,不具备MapReduce等分布式处理机制,对于诸如路径分析、社交网络分析存在性能瓶颈,无法满足大数据时代分析挖掘的业务需求。 存储结构多样化能力不足:传统关系型数据库采用二维表的方式存储预定义结构的数据,但是对文本(如互联网网页)等无法用二维结构描述的数据不能进行有效存储及处理,缺乏非结构化数据的处理能力。 2 项目简介2.1 建设目标在大数据分析和流量经营战略背景下,浙江移动对经分系统架构进行了优化,系统的建设目标包括: 一、提升大数据处理能力 建设基于分布式架构的大数据分析平台,承载海量、快速增长网络数据处理,支撑多样化网络数据的深度分析,夯实流量经营的基础能力。具体要求是海量网络数据处理时长 ≤ 6小时,并具备分布式处理机制和非结构化数据处理能力。 二、扩展大数据处理内容 引入数据量大、增长快的网络数据和详单数据,将网络数据的汇总处理过程从主仓库中迁移至大数据分析平台,并结合详单数据完善路径分析、社交网络分析等深度挖掘模型,支撑流量类挖掘应用。 2.2 平台选型根据系统建设目标,浙江移动从系统架构、系统性能、大数据分析能力等方面进行了大数据分析平台的选型评估。 新型MPP关系型数据库采用shared-nothing分布式处理架构,极大地提高了数据分析和处理效率,对于大表关联、排序、汇总性能优异,适用于海量大数据的分析处理场景。新型MPP关系型数据库的典型产品包括Aster、Greenplum和Gbase等。选型情况略 2.3 目标架构引入基于分布式技术的新型MPP关系型数据库,建设大数据分析平台,负责网络数据的汇总处理,同时支撑传统关系型数据库无法实现的大数据深度分析(如用户路径轨迹分析、社交网络交往圈分析)和非结构化数据处理(如文本分词),提高经分系统对海量、多样化数据的分析处理能力,夯实浙江移动流量经营战略的基础。 系统的目标架构如下图所示: 目标架构中各平台的定位: 1. 主数据仓库:负责轻量级、结构化的传统数据处理和及时性较高的KPI、一经等传统经营分析应用; 2. 大数据分析平台:负责海量、快速增长网络数据的汇总处理(包括DPI 数据、GPRS上网日志、位置信令、WLAN上网日志、宽带上网日志等),以及基于大数据的深度分析,如路径分析、社交网络分析; 3. 云化历史库:负责海量历史数据的存储(包括网络数据和传统数据)和长周期趋势分析; 4. 云化数据交换平台:负责数据的ETL处理和各系统之间的数据交换功能,实现海量数据的采集、清洗转换和集中交换。 2.4 建设方案浙江移动大数据分析平台由 Queen,Worker,Loader节点构成,内部使用万兆交换机通信,对外使用千兆交换机进行通信,在节点、交换机、网络层面均使用主备方式实现高可用。大数据分析平台的物理架构如下图所示: 大数据分析平台与云化数据交换平台、主仓库、以及其它数据集市之间以文件方式进行数据交互,平台内部则通过Java/Shell程序调用SQL或SQL-MapReduce引擎进行数据汇总和数据挖掘分析,相关程序的调度采用AI-Cloud-ETL工具,而系统用户可以通过SQL或SQL-MapReduce访问大数据分析平台数据。 大数据分析平台迁移并重构了原主仓库上的网络数据分析模型,利用MapReduce分布式处理架构,提升其运行效率,对外提供信息服务和应用服务功能,实现数据开放和应用能力开放。 信息服务是指在大数据分析平台完成DPI、位置信令、上网日志数据的汇总整合,对外提供汇总数据和统一视图数据信息。 应用服务是指大数据分析平台提供SQL-MapReduce挖掘分析函数,支持社交网络模型、用户轨迹模型的挖掘分析,对外提供挖掘分析结果。 3 应用成果3.1 性能提升大数据分析平台采用分布式架构的新型MPP关系型数据库构建,系统性能和处理效率得以大幅提升。 采用传统数据仓库处理网络数据时,数据加载速度仅约60GB/小时;DPI数据每日约X亿条记录,处理时长至少需要21个小时;上网日志每日约X亿条记录,处理时长超过42小时;位置信令每日约12亿条记录,处理时长约需要16小时。 大数据分析平台建设之后,数据加载速度超过500GB/小时,数据处理能力大于2TB/小时,DPI数据、上网日志、位置信令数据的汇总过程处理时长均缩短至6个小时以内,完全满足次日8点前看到前一天分析结果的流量经营业务需求。 3.2 应用效果一、用户位置轨迹助力宽带精确营销 通过大数据分析平台对潜在用户的流量行为和接触竞争对手行为进行特征探索,并引入网络位置信令数据分析用户的生活轨迹,结合宽带资源系统的宽带小区接入信息,进行潜在用户识别,匹配接触渠道和客户经理,开展宽带融合套餐精确营销,实现宽带精确营销成功率提升到3%,其中高带宽(10M)用户约X户。 二、用户交往圈模型助力存量维系提升 在传统聚类频度分析的基础上,大数据分析平台利用内置的大数据分析函数,构建社交网络模型,通过详单自关联分析用户关系,深入分析交往圈特征,得出群中成员的影响力,为用户维系挽留、离网预警、精确营销提供数据支撑,提升客户价值,在用户保有率较低的地市(宁波)开展针对性存量维系,实现存量保有率由86.17%提升至88.21%,高价值用户保有率提升3%。 3.3 业务展望展望未来,大数据除了在精确营销、精准建设、精益管理等企业运营方面可以彰显效力之外,大数据还可以促进企业创新地探索大数据商业模式,例如运营商可以利用大数据分析结果提供第三方服务或者公众服务等,发挥大数据的巨大商业价值,促进企业转型。 (编辑:李大同) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |