电子商务网站(主要用于浏览记录,购买记录等)
1.数据加载
2.推荐模型 训练模型
3.导入服务层
数据源:HDFS:用户点击日志
MYSQL/Oracle:用户基本信息,用户购买记录
数据加载:将不同的数据源中的数据导入Hbase
Hbase中以用户为单位组织数据(Rowkey为Uid)
Basic features:age,birthday,address,..........
Click/buy behavior:ids
利用hbase特有的特性:设置最大版本数,自动删除过期的数据
根据uid获取某用户所有信息
易于扩展
实现方案:MapReduce并行导入(Oozie协调多个mapreduce)主备Mysql
Hive(类似sql的高级语言) 查询Hadoop中的数据 执行过程。。
计算模型:MapReduce Spark ... 利用mapreduce记算pv,uv
基于规则的广告推荐:地区 年龄段 精准推荐
基于模型的广告推荐:逻辑回归
输入性别,年龄,点击和购买记录
是否会购买商品??
导入服务层:why不直接让Hbase对外提供服务?
RegionServer挂掉,一段时间内不能对外服务
Hbase负载过重
选用服务层:Memcached(手动sharding,replication)分布式高速
Cassandra(自动sharding,replication) 分布式Nosql 数据库系统
调优,运维
Ambari简化Hadoop集群管理,提供了对Hadoop的管理和监控的支持。
标签:电子商务,数据源,Hadoop,用户,导入,架构,Hbase,数据,个性化 From: https://blog.51cto.com/u_13618048/5891677