bigdata介绍

概述

sql可以处理500到1000万的数据,搭建30-100台集群,大数据集群5000台以上上万。
无法在一定时间范围内用常规软件工具(mysql,javaEE等)进行捕捉处理/管理的数据集合。
需要新的处理模式才能具有更强的决策力/洞察发现力和流程优化能力的海量和高增长和多样化信息资产。
海量数据的存储和读取分析计算。

bigData特点

  • 1.volume大量(人类说过的话5EB)
  • 2.velocity高速(处理数据的效率就是企业的生命)
  • 3.variety多样(分为结构化数据和非结构化数据)
    • 结构化数据:以数据库/文本为主的结构化数据
    • 非结构化数据:网络日志 音频 视频 图片 地理位置信息等
  • 4.value(低价值密度)
    • 数据量越大,反而价值越小,比如从一天的监控视频提取很小的有用信息。

应用场景

  • 1.物流仓储(位置选择(人群消费力 交通 物价) 存储预留(周围都是老大爷就不能存化妆品)精细化运营,
    分析区域化消费能力等,以分配资源
  • 2.零售(分析用户消费习惯,为用户购买商品提供方便)(子尿布/啤酒)
  • 3.旅游(客源分配图)(安排住宿交通等的倾向性)提前预判会有多少游客(提前引流计划)
  • 4.商品广告推荐涉及线性代数的计算
  • 5.视频推荐(抖音算法推荐)

工作分组

  • 1.平台组(一个数据储存通道)运维+搭建架构
    • hadoop flume kafka Hbase spark等框架平台搭建(修改源码编译 各种自定义)
    • 集群性能监控
    • 集群性能调优
  • 2.数据仓库组
    • ETL工程师 进行数据清洗 过滤掉脏数据
    • HIVE工程师 数据分析和数据仓库建模
  • 3.数据挖掘组
    • 算法工程师
    • 推荐系统工程师 重要
    • 用户画像工程师 分析用户行为 用户定位描述
  • 4.报表开发组
    • javaEE工程师

bigdata技术生态体系

  • 数据来源与传输工具

    • 1.数据库(结构化数据)(sqoop导数据库数据)
    • 2.文件日志(半结构化数据)(flume日志收集)
    • 3.(kafka消息队列)视频、ppt等非结构化数据(kafka消息队列)
  • 数据存储

    • HDFS文件存储主流
    • kafka内部也能缓存一点点数据
    • hbase非关系型数据库kv存储
  • 数据调度

    • yarn
  • 数据计算

    • mapreduce核心计算(离线计算)适合和不实时的日活、月活计算
    • spark core内存计算
  • 数据查询挖掘

    • Hive Mahout(mapreduce)
  • 数据挖掘分析查询

    • spark mlib挖掘
    • spark R分析
    • spark sql查询
      以上都不适合实时运算
  • 数据实时运算

    • spark streaming 实时计算(搭建成功==无敌)
    • storm(淘汰)
    • flink
  • 任务调度器
    zookeeper整个集群数据平台配置和调度
    修改zookeeper的配置信息再由zookeeper分发到各个工具
    比如有1000个服务器集群,不可能把上面的spark配置一台一台的修改,
    所以需要修改全局配置,公共配置放到zookeeper里面。

  • 推荐系统项目
    淘宝购买某商品,你的购买日志保存到日志收集,spark实时分析计算你的购买信息,
    分析出要给你推荐的商品,,分析结果保存到数据库,推荐服务从数据库读取数据,
    读完推荐给客户。

分享到