概述
sql可以处理500到1000万的数据,搭建30-100台集群,大数据集群5000台以上上万。
无法在一定时间范围内用常规软件工具(mysql,javaEE等)进行捕捉处理/管理的数据集合。
需要新的处理模式才能具有更强的决策力/洞察发现力和流程优化能力的海量和高增长和多样化信息资产。
海量数据的存储和读取分析计算。
bigData特点
- 1.volume大量(人类说过的话5EB)
- 2.velocity高速(处理数据的效率就是企业的生命)
- 3.variety多样(分为结构化数据和非结构化数据)
- 结构化数据:以数据库/文本为主的结构化数据
- 非结构化数据:网络日志 音频 视频 图片 地理位置信息等
- 4.value(低价值密度)
- 数据量越大,反而价值越小,比如从一天的监控视频提取很小的有用信息。
应用场景
- 1.物流仓储(位置选择(人群消费力 交通 物价) 存储预留(周围都是老大爷就不能存化妆品)精细化运营,
分析区域化消费能力等,以分配资源 - 2.零售(分析用户消费习惯,为用户购买商品提供方便)(子尿布/啤酒)
- 3.旅游(客源分配图)(安排住宿交通等的倾向性)提前预判会有多少游客(提前引流计划)
- 4.商品广告推荐涉及线性代数的计算
- 5.视频推荐(抖音算法推荐)
工作分组
- 1.平台组(一个数据储存通道)运维+搭建架构
- hadoop flume kafka Hbase spark等框架平台搭建(修改源码编译 各种自定义)
- 集群性能监控
- 集群性能调优
- 2.数据仓库组
- ETL工程师 进行数据清洗 过滤掉脏数据
- HIVE工程师 数据分析和数据仓库建模
- 3.数据挖掘组
- 算法工程师
- 推荐系统工程师 重要
- 用户画像工程师 分析用户行为 用户定位描述
- 4.报表开发组
- javaEE工程师
bigdata技术生态体系
数据来源与传输工具
- 1.数据库(结构化数据)(sqoop导数据库数据)
- 2.文件日志(半结构化数据)(flume日志收集)
- 3.(kafka消息队列)视频、ppt等非结构化数据(kafka消息队列)
数据存储
- HDFS文件存储主流
- kafka内部也能缓存一点点数据
- hbase非关系型数据库kv存储
数据调度
- yarn
数据计算
- mapreduce核心计算(离线计算)适合和不实时的日活、月活计算
- spark core内存计算
数据查询挖掘
- Hive Mahout(mapreduce)
数据挖掘分析查询
- spark mlib挖掘
- spark R分析
- spark sql查询
以上都不适合实时运算
数据实时运算
- spark streaming 实时计算(搭建成功==无敌)
- storm(淘汰)
- flink
任务调度器
zookeeper整个集群数据平台配置和调度
修改zookeeper的配置信息再由zookeeper分发到各个工具
比如有1000个服务器集群,不可能把上面的spark配置一台一台的修改,
所以需要修改全局配置,公共配置放到zookeeper里面。推荐系统项目
淘宝购买某商品,你的购买日志保存到日志收集,spark实时分析计算你的购买信息,
分析出要给你推荐的商品,,分析结果保存到数据库,推荐服务从数据库读取数据,
读完推荐给客户。