当前位置 > 主页 > 行业简报 >


大数据处理工具哪家强?

2016-03-08 10:01

  近年呈爆发之势的大数据随着两会的召开再次被聚焦,在两会议题中成为高频词汇。各大报道中,利用大数据打造智慧城市、促进金融行业发展、建立两会大数据平台……两会委员“提案夹”中关于大数据的提案层出不穷。“大数据外部环境推动着商业模式及行为的变化,对于企业来说,不对大数据善加利用就等于折了翅膀。面对亟待处理的庞大数据资源,企业遇到了哪些困难?处理数据的“利器”该如何选择?


  七嘴八舌解读之大数据处理工具哪家强?


  Hadoop高人气获最佳工具,魅力何在?


  当讨论到“你认为的最佳大数据处理工具是?”这个问题时,在众多网友回答中,Hadoop的出现频率是最高的,获得了一致的赞赏票。


  网友unusa表示:“选择工具时首先考虑你的业务场景,再看看自己的经济实力和人员的技术水平。我们现在使用的基本上都是Hadoop,Spark还处于研究阶段,而Hadoop已经比较稳定了,而且,现在技术人员好招点了。”网友lixunpeng经历过两个企业,均由开发或运维使用Hadoop工具。


  网友415829566强调:“在选择工具时,需要考虑你实际的业务,而不是一味的追主流。现在的大数据处理工具各有优缺点,所以结合实际业务很重要,我平时比较常使用的是hadoop。”网友yehuafeilang也符合道:“每一个工具都是适应不同的大数据场景的,所以很难说哪一款最好。”


  正如网友所说,流行远不如契合自身业务场景,那么大家最需要的功能都有什么?对应场景为何?而Hadoop的优势又在哪里?


  网友smilefish说“我们公司最需要的工具是可视化分析工具,数据的可视化对我们来说十分重要。所以我们已经在考虑使用商业大数据云处理平台,一定程度上能够节省时间,减少维护成本。”网友1983yu表示,目前其所在公司使用频率最高的功能还是系统日志分析功能,暂时能够满足企业所需。网友unusa提到:“我们需要方便快捷的文本信息处理与统计工具。”网友王江玉也附和道:“我们遇到的困难也是不知道怎么筛选有效数据。”


  网友bfmo分析:“我们对工具的处理速度、容错性、异构数据间转换、可维护性以及时间成本都有要求。我们使用过很多款工具,但在实时性较强的场景,还是Hadoop与 storm结合起来使用比较好一些。在管理使用方面,简化操作流程,传统的ETL工具使用比较简单,可维护性很高。而对于海量数据来说,Hadoop的分布式优势更强大些。”网友415829566也表示:“Hadoop的优势在于其数据量较大,安全机制比较好,且稳定性较强。它的劣势在于处理的时间相对于后面新出的如spark之类的工具来说是比较慢的,另外MR开发比较难,没有基础很难入门。”


  网友邓昳轶表示:“Hadoop最开始主要能解决存和查的问题,适合大批量数据,抢的是ETL和存储厂商的饭碗。有了spark,明显拓宽了Hadoop的能力范围,现在触角已经伸到BI和挖掘领域去了。”


  网友1983yu详细的列出了其选型Hadoop时所考虑的因素,以及对应解决方法,供大家参考:


  1、根据数据分析需求。根据不同的用户案例和应用,企业用户可能需要支持不同类型的分析功能,使用特定类型的建模(例如回归、聚类、分割、行为建模和决策树)。大数据分析工具能够广泛支持高水平、不同形式的分析建模,是否能满足自身的数据分析需求,都是重要的考量。在了解大数据分析工具之前,不妨先明确自身的数据分析目标。


  2、就是不盲目追求高性能。高性能的大数据分析工具固然优秀,但同时也伴随着高额的部署费用与后期维护费用。而且脱离自身业务需要而一味的追求性能也是不理智的,况且"牛刀杀鸡"不代表就能做的更好。从自身需要出发,不选最好的,只选最适合的。


  3、数据兼容性。在多种数据库并存,且数据量大,数据格式多(包括结构和非结构化数据)的情况下,一定要考虑大数据分析工具能否完全兼容。如国云数据的大数据魔镜,除了能够兼容十几种数据格式,还能支持多种格式数据库的数据存取。这并非哗众取宠的画蛇添足,而是基于实际需求的功能拓展。


  4、团队协作。企业规模越大,越有可能需要跨部门、在诸多分析师之间分享分析、模型和应用。企业如果有很多分析师分布在各部门,对结果如何进行解释和分析,可能会需要增加更多的共享模型和协作的方法。例如IT部门和业务部门的管理人员需要频繁交流,以确保业务部门的商务智能信息需求始终得以理解和满足5.预算。当你只有一辆自行车的预算时,就不要考虑汽车的价格。虽然有些残酷,但这就是事实。特别是对于中小企业来说,国外大数据分析工具动辄数十万乃至上百万的部署费用是难以承受的。在资金不足时,可以选择一些低价位或是免费试用的大数据分析工具试试水,比如大数据魔镜的云平台版本,就是免费试用的。


  商用大数据服务雄起,网友怎么看?


  除自建系统外,近两年,一些互联网企业也逐渐输出自身大数据能力,为企业用户提供服务。去年,阿里巴巴就利用阿里云的数据可视化技术,助某地方政府整合线上线下经济数据。这种将大数据能力变成标准化产品的方式,受到更多关注。


  对此,网友隐剑埋名表示:“大数据服务的选择肯定还是要比较有名气的,甲骨文靠谱。”而网友xkf01则表示会选择供给资源多的、门槛低易用的服务。网友liu3617现在的公司用的也是oracle和IBM。最后,网友Stephen调侃道:“不差钱的金融厂还是用HANA吧!”


  然而,并不是所有企业都能接受商业大数据服务,尤其是一些创业型企业。网友1983yu表示:“目前,大数据处理所用都是我们公司自己的,最多用用软件,用人家平台还是要考虑成本问题的。”网友unusa赞同道:“暂不考虑商用平台,没有钱。”


  其实,大数据处理已经势在必行,如果无法承担商用平台的费用,那么,分析自身业务需求及场景是首要的,接下来再综合考虑成本及各类工具的功能等因素,选出最契合自身的工具。总之,用的贵不如用的对!


最近开班 more>
  • 全栈开发
  • 前端基础班
  • 软件测试
  • Java大数据开发工程师
  • 云原生精英班
  • 开发课程基础班第四期
  • 开发课程基础班第三期
  • 开发课程基础班第二期
  • 开发课程基础班第一期
  • Java Web UI Python
  • CISP
  • HCIE-Datacom(HCIA,HCIP基础)
  • HCIP-Datacom(HCIA基础)
  • HCIA-Datacom(0基础)
  • HCIE-Datacom(HCIA,HCIP基础)
  • HCIP-Datacom(HCIA基础)
  • HCIA-Datacom(0基础)
  • OCM 12C
  • OCP 19C
  • RHCE 9.0
  • 脱产班
  • 脱产班
  • 脱产班
  • 脱产班
  • 脱产班
  • 脱产班
  • 脱产班
  • 脱产班
  • 脱产班
  • vip班
  • 考试计划
  • 脱产班
  • 脱产班
  • 脱产班
  • 双休班
  • 双休班
  • 双休班
  • 双休班
  • 业余班
  • 业余班
  • 10月16日
  • 9月23日
  • 9月2日
  • 9月30日
  • 8月26日
  • 10月8日
  • 9月23日
  • 9月16日
  • 9月9日
  • 随时开课
  • 9月21日
  • 10月17日
  • 9月18日
  • 9月2日
  • 11月2日
  • 10月26日
  • 9月7日
  • ——
  • 随时开课
  • 9月26日
    • 姓 名 :
    • 电 话 :
    • 课 程 :

技术交流群

  • Java大数据交流群560819979加入
  • Python技术交流群595083299加入
  • Oracle技术交流群595119011加入
  • Web前端技术交流群604697610加入
  • Huawei技术交流群482919361加入
  • Redhat技术交流群587875348加入
  • UI设计技术交流群511649801加入
  • Cisco技术交流群596886705加入
  • IT运维技术交流群605888381加入