<s id="me4ou"></s>
  • <code id="me4ou"><samp id="me4ou"></samp></code>
    <optgroup id="me4ou"><samp id="me4ou"></samp></optgroup>
    • 郑州北大青鸟首页
    • 网站导航
    • ¡ï河南软件与网络工程师培养基地 ¡ï河南拥有IT体验馆课程专业全¡¢规模大校区¡ï河南多年连获全国教学质量奖¡ï2011-2018年获北大青鸟总部荣誉奖
    首页 中心介绍 新闻动态 课程详解 师资力量 专家讲座 招生问答 学员活动 精?#39318;?#39064; 报名
    当前位置: > 新闻动态 > 行业新闻 >

    郑州云计算培训学校讲讲云计算与大数据的关系

    2018-09-27 09:42 来源:郑州北大青鸟
        今天跟大家讲讲云计算¡¢大数据和人工智能¡£为什么讲这三个东西呢£¿因为这三个东西现在非常火£¬并且它们之间好像互相有关系£º一般谈云计算的时候会提到大数据¡¢谈人工智能的时候会提大数据¡¢谈人工智能的时候会提云计算……感觉三者之间相辅相成又不可分割¡£但如果是非技术的人员£¬就可能比?#22799;?#29702;解这三者之间的相互关系£¬所以有必要解释一下¡£
    郑州云计算培训学校讲讲云计算与大数据的关系
        一¡¢云计算最初的目标
        我们首先来说云计算¡£云计算最初的目标是对资源的管理£¬管理的主要是计算资源¡¢网络资源¡¢存储资源三个方面¡£
        1. 管数据中心就像配电脑
        什么叫计算¡¢网络¡¢存储资源£¿
        比如你要买台笔记本电脑£¬是不?#19988;?#20851;心这台电脑是什么样的CPU£¿多大的内存£¿这两个就被我们称为计算资源¡£
        这台电脑要上网£¬就需要有个可以插网线的网口£¬或者有可以连接我们家路由器的无线网卡¡£您家也需要到运营商比如联通¡¢移动或者电信开通一个网络£¬比如100M的带宽¡£然后会有师傅弄一根网线到您家来£¬师傅可能会帮您将您的路由器和他们公司的网络连接配置好¡£这样您家的所有的电脑¡¢手机¡¢平板就都可以通过您的路由器上网了¡£这就是网络资源¡£
        您可能还会问硬盘多大£¿过去的硬盘都很小£¬大小如10G之类的£»后来即使500G¡¢1T¡¢2T的硬盘也不新鲜了¡£(1T是1000G)£¬这就是存储资源¡£
        对于一台电脑是这个样子的£¬对于一个数据中心也是同样的¡£想象你有一个非常非常大的机房£¬里面堆了很多的服务器£¬这些服务器也是有CPU¡¢内存¡¢硬盘的£¬也是通过类似路由器的设备上网的¡£这时的问题就是£º运营数据中心的人是怎么把这些设备统一的管理起来的呢£¿
        2. 灵活就是想啥时要?#21152;校?#24819;要多少都行
        管理的目标就?#19988;?#36798;到两个方面的灵活性¡£具体哪两个方面呢£¿
        举个例子来理解£º比如有个人需要一台很小的电脑£¬只有一个CPU¡¢1G内存¡¢10G的硬盘¡¢一兆的带宽£¬你能给他吗£¿像这种这么小规格的电脑£¬现在随便一个笔记本电脑都比这个配?#20204;?#20102;£¬家里随便拉一个宽带?#23478;?00M¡£然而如果去一个云计算的?#25945;?#19978;£¬他要想要这个资源时£¬只要一点就有了¡£
        这?#26234;?#20917;下它就能达到两个方面灵活性£º
        •时间灵活性£º想什么时候要就什么时候要£¬需要的时候一点就出来了£»
        •空间灵活性£º想要多少就有多少¡£需要一个太很小的电脑£¬可以满足£»需要一个特别大的空间例如云盘£¬云?#35848;?#27599;个人分配的空间动不动就很大很大£¬随时上传随时有空间£¬永远用不完£¬也是可以满足的¡£
        空间灵活性和时间灵活性£¬即我们常说的云计算的弹性¡£而解决这个弹性的问题£¬经历了漫长时间的发展¡£
        3. 物理设备不灵活
        第一个阶段是物理设备时期¡£这个时期客户需要一台电脑£¬我们就买一台放在数据中心里¡£
        物理设备当然是越来越牛£¬例如服务器£¬内存动不动就是百G内存£»例如网络设备£¬一个端口的带宽就能有几十G甚至上百G£»例如存储£¬在数据中心至少是PB级别的(一个P是1000个T£¬一个T是1000个G)¡£
        然而物理设备不能做到很好的灵活性£º
        •首先是它缺乏时间灵活性¡£不能够达到想什么时候要就什么时候要¡£比如买台服务器¡¢买个电脑£¬?#23478;?#26377;采购的时间¡£如果突然用户告诉某个云厂商£¬说想要开台电脑£¬使用物理服务器£¬当时去采购就很难¡£与供应商关系好的可能需要一个星期£¬与供应商关系一般的就可能需要采购一个月¡£用户等了很久电脑才到位£¬这时用户还要登录?#20808;?#24930;慢开始部署自己的应用¡£时间灵活性非常差¡£
        •其次是它的空间灵活性也不行¡£例如上述的用户需要一个很小很小的电脑£¬但现在哪还有这么小型号的电脑£¿不能为了满足用户只要一个G的内存是80G硬盘的£¬就去买一个这么小的机器¡£但是如果买一个大的£¬又会因为电脑大£¬需要向用户多收钱£¬可用户需要用的只有那么小一点£¬所以多付钱就很冤¡£
        4. 虚拟化灵活多了
        有人就想办法了¡£第一个办法就是虚拟化¡£用户不是只要一个很小的电脑么£¿数据中心的物理设备都很强大£¬我可?#28304;?#29289;理的CPU¡¢内存¡¢硬盘中虚拟出一小块来给客户£¬同时也可以虚拟出一小块来给其他客户¡£每个客户只能看到自己的?#19988;?#23567;块£¬但其实每个客户用的是整个大的设备上的一小块¡£
        虚拟化的技术使得不同客户的电脑看起来是隔离的¡£也就是我看着好像这块盘就是我的£¬你看着这块盘就是你的£¬但?#23548;是?#20917;可能我的这个10G和你的这个10G是落在同样一个很大很大的存储上¡£而且如果事先物理设备都准备好£¬虚拟化软件虚拟出一个电脑是非常快的£¬基本上几分钟就能解决¡£所以在任何一个云上要创建一台电脑£¬一点几分钟就出来了£¬就是这个道理¡£
        这样空间灵活性和时间灵活性就基本解决了¡£
        5. 虚拟世界的赚钱与情怀
        在虚拟化阶段£¬最牛的公司是VMware¡£它是实现虚拟化技术比较早的一家公司£¬可以实现计算¡¢网络¡¢存储的虚拟化¡£这家公司很牛£¬性能做得非常好£¬虚拟化软件卖得也非常好£¬赚了好多的钱£¬后来让EMC(世界五百强£¬存储厂商第一?#25918;?给收购了¡£
        但这个世界上还是有很多有情怀的人的£¬尤其是程序员里面¡£有情怀的人?#19981;?#20570;什么事情£¿开源¡£
        这个世界上很多软件都是有闭源就有开源£¬源就是源代码¡£也就是说£¬某个软件做的好£¬所有人都爱用£¬但这个软件的代码被我封闭起来£¬只有我公司知道£¬其他人不知道¡£如果其他人想用这个软件£¬就要向我付钱£¬这就叫闭源¡£
        但世界上总有一些大牛看不惯钱都让一家赚了去的情况¡£大牛们觉得£¬这个技术你会我也会£»你能开发出来£¬我也能¡£我开发出来就是不收钱£¬把代码拿出来分享给大家£¬全世界谁用都可以£¬所有的人都可以享受到?#20040;¦£?#36825;个叫做开源¡£
        比如最近的蒂姆·伯纳斯·李就是个非常有情怀的人¡£2017年£¬他因“发明万维网¡¢第一个浏览器和使万维网得以扩展的基本协议和算法”而获得2016年度的图灵奖¡£图灵奖就是计算机界的?#24403;?#23572;奖¡£然而他最令人敬佩的是£¬他将万维网£¬也就是我们常见的WWW技术无偿贡献给全世界免费使用¡£我们现在在网上的所有行为?#21152;?#35813;感谢他的功劳£¬如果他将这个技术拿来收钱£¬应该和比尔盖茨差不多有钱¡£
        开源和闭源的例子有很多£º
        例如在闭源的世界里有Windows£¬大家用Windows都得给微软付钱£»开源的世界里面就出现了Linux¡£比尔盖?#30446;¿Windows¡¢Office这些闭源的软件赚了很多钱£¬称为世界首富£¬就有大牛开发了另外一种操作系统Linux¡£很多人可能没有听说过Linux£¬很多后台的服务器上跑的程序都是Linux上的£¬比如大家享受双十一£¬无论是?#21592;¦¡?#20140;东¡¢考拉……支撑双十一抢购的系统都是跑在Linux上的¡£
        再如有Apple就有安卓¡£Apple市值很高£¬但是苹果系统的代码我们是看不到的¡£于是就有大牛写了安卓手机操作系统¡£所以大家可以看到几乎所有的其他手机厂商£¬里面都装安卓系统¡£原因就是苹果系统不开源£¬而安卓系统大家都可以用¡£
        在虚拟化软件也一样£¬有了VMware£¬这个软件非常贵¡£那就有大牛写了两个开源的虚拟化软件£¬一个叫做Xen£¬一个叫做KVM£¬如果不做技术的£¬可以不用管这两个名?#37073;?#20294;是后面还是会提到¡£
        6. 虚拟化的半自动和云计算的全自动
        要说虚拟化软件解决了灵活性问题£¬其实并不全对¡£因为虚拟化软件一般创建一台虚拟的电脑£¬是需要人工?#20184;?#36825;台虚拟电脑放在哪台物理机上的¡£这一过程可能还需要比较复杂的人工配置¡£所以使用VMware的虚拟化软件£¬需要?#23478;?#20010;很牛的证书£¬而能拿到这个证书的人£¬薪资是相当高£¬也可见复杂程度¡£
        所以仅仅凭虚拟化软件所能管理的物理机的集群规模都不是特别大£¬一般在十几台¡¢几十台¡¢最多百台这么一个规模¡£
        这一方面会影响时间灵活性£º虽然虚拟出一台电脑的时间很短£¬但是随着集群规模的扩大£¬人工配置的过程越来越复杂£¬越来越耗时¡£另一方面也影响空间灵活性£º当用户数量多时£¬这点集群规模£¬还远达不到想要多少要多少的程度£¬很可能这点资源很快就用完了£¬还得去采购¡£
        所以随着集群的规模越来越大£¬基本都是千台起步£¬动辄上万台¡¢甚至几十上百万台¡£如果去查一下BAT£¬包括网易¡¢谷歌¡¢亚马逊£¬服务器数目都大的吓人¡£这么多机器要靠人去选一个位置放这台虚拟化的电脑并做相应的配置£¬几乎是不可能的事情£¬还是需要机器去做这个事情¡£
        人们发明了各种各样的算法来做这个事情£¬算法的名字叫做调度(Scheduler)¡£通俗一点说£¬就是有一个调度中?#27169;?#20960;千台机器都在一个池子里面£¬无论用户需要多少CPU¡¢内存¡¢硬盘的虚拟电脑£¬调度中心会自动在大池子里面找一个能够满足用户需求的地方£¬把虚拟电?#20113;?#21160;起来做好配置£¬用户就直接能用了¡£这个阶段我们称为池化或者云化¡£到了这个阶段£¬才可以称为云计算£¬在这之前都只能?#34892;?#25311;化¡£
        7. 云计算的私有与公有
        云计算大致分两?#37073;?#19968;个是私有云£¬一个是公有云£¬还有人把私有云和公有云连接起来称为混合云£¬这里暂且不说这个¡£
        •私有云£º把虚拟化和云化的这套软件部署在别人的数据中心里面¡£使用私有云的用户往往很有钱£¬自己买地建机房¡¢自己买服务器£¬然后让云厂商部署在自己这里¡£VMware后来除了虚拟化£¬也推出了云计算的产品£¬并且在私有云市场赚的盆满钵满¡£
        •公有云£º把虚拟化和云化软件部署在云厂商自己数据中心里面的£¬用户不需要很大的投入£¬只要注册一个账?#29275;?#23601;能在一个网?#25104;系?#19968;下创建一台虚拟电脑¡£例如AWS即亚马逊的公有云£»例如国内的阿里云¡¢腾讯云¡¢网易云等¡£
        亚马逊为什么要做公有云呢?#35838;?#20204;知道亚马逊原来是国外比较大的一个电商£¬它做电商时?#37096;?#23450;会遇到类似双十一的场景£º在某一个时刻大家都冲上来买东西¡£当大家都冲?#19979;?#19996;西时£¬就特别需要云的时间灵活性和空间灵活性¡£因为它不能时刻准备好所有的资源£¬那样太浪费了¡£但也不能什么都不准备£¬看着双十一这么多用户想买东西登不?#20808;¥¡?#25152;以需要双十一时£¬就创建一大批虚拟电脑来支撑电商应用£¬过了双十一再把这些资源都释放掉去干别的¡£因此亚马逊是需要一个云?#25945;?#30340;¡£
        然而商用的虚拟化软件实在是太贵了£¬亚马逊总不能把自己在电商赚的钱全部给了虚拟化厂商¡£于是亚马逊基于开源的虚拟化技术£¬如上所述的Xen或者KVM£¬开发了一套自己的云化软件¡£没想到亚马逊后来电商?#38454;?#36234;牛£¬云?#25945;?#20063;?#38454;?#36234;牛¡£
        由于它的云?#25945;?#38656;要支撑自己的电商应用£»而传统的云计算厂商多为IT厂?#22363;?#36523;£¬几乎没有自己的应用£¬所以亚马逊的云?#25945;?#23545;应用更加友好£¬迅速发展成为云计算的第一?#25918;Æ£?#36186;了很多钱¡£
        在亚马逊公?#35745;?#20113;计算?#25945;?#36130;报之前£¬人们都猜测£¬亚马逊电商赚钱£¬云也赚钱吗£¿后来一公布财报£¬发现不?#19988;?#33324;的赚钱¡£仅仅去年£¬亚马逊AWS年营收达122亿美元£¬运营利润31亿美元¡£
        8. 云计算的赚钱与情怀
        公有云的第一名亚马逊过得很爽£¬第二名Rackspace过得就一般了¡£没办法£¬这就是互联网行业的残酷性£¬多是赢者通吃的模式¡£所以第二名如果不是云计算行业的£¬很多人可能都没听过了¡£
        第二名就想£¬我干不过老大怎么办呢£¿开源吧¡£如上所述£¬亚马逊虽然使用了开源的虚拟化技术£¬但云化的代码是闭源的¡£很多想做又做不了云化?#25945;?#30340;公司£¬只能眼巴巴的看着亚马逊挣大钱¡£Rackspace把源代码一公开£¬整个行业就可以一起把这个?#25945;¨Ô阶?#36234;好£¬?#20540;?#20204;大家一起上£¬和老大拼了¡£
        于是Rackspace和美国航空航天局?#29486;?#21019;办了开源软件OpenStack£¬如上图所示OpenStack的架构图£¬不是云计算行业的不用弄懂这个图£¬但能够看到三个关键?#37073;ºCompute计算¡¢Networking网络¡¢Storage存储¡£还?#19988;?#20010;计算¡¢网络¡¢存储的云化管理?#25945;¨¡?/span>
        当然第二名的技术也是非常棒的£¬有了OpenStack之后£¬果真像Rackspace想的一样£¬所有想做云的大企业都疯了£¬你能想象到的所有如雷贯耳的大型IT企业£ºIBM¡¢惠普¡¢戴尔¡¢华为¡¢联想等都疯了¡£
        原来云?#25945;?#22823;家都想做£¬看着亚马逊和VMware赚了这么多钱£¬眼巴巴看着没办法£¬想自己做一个好像难度还挺大¡£现在好了£¬有了这样一个开源的云?#25945;¨OpenStack£¬所有的IT厂商?#25216;?#20837;到这个社区中来£¬对这个云?#25945;?#36827;行贡献£¬包装成自己的产品£¬连同自己的硬件设备一起卖¡£有的做了私有云£¬有的做了公有云£¬OpenStack已经成为开源云?#25945;?#30340;事实标准¡£
        9 . IaaS, 资源层面的灵活性
        随着OpenStack的技术越来越成熟£¬可以管理的规模也越来越大£¬并且可以有多个OpenStack集群部署多套¡£比如北京部署一套¡¢杭州部署?#25945;住?#24191;州部署一套£¬然后进行统一的管理¡£这样整个规模就更大了¡£
        在这个规模下£¬对于普通用户的感知来讲£¬基本能够做到想什么时候要就什么什么要£¬想要多少就要多少¡£还是拿云盘举例子£¬每个用户云盘都分配了5T甚至更大的空间£¬如果有1亿人£¬那加起来空间多大啊¡£
        其?#24403;?#21518;的机制是这样的£º分配你的空间£¬你可能只用了其中很少一点£¬比如说它分配给你了5个T£¬这么大的空间仅仅是你看到的£¬而不是真的就给你了£¬你其实只用了50个G£¬则真实给你的就是50个G£¬随着你文件的不断上传£¬分给你的空间会越来越多¡£
        当大家都上传£¬云?#25945;?#21457;现快满了的时候(例如用了70%)£¬会采购更多的服务器£¬扩充背后的资源£¬这个对用户是透明的¡¢看不到的¡£从感觉上来讲£¬就实现了云计算的弹性¡£其实有点像银?#26657;?#32473;储户的感觉是什么时候取钱?#21152;校?#21482;要不同时挤兑£¬银行就不会垮¡£
        10. 总结
        到了这个阶段£¬云计算基本上实现了时间灵活性和空间灵活性£»实现了计算¡¢网络¡¢存储资源的弹性¡£计算¡¢网络¡¢存储我们常称为基础设施Infranstracture, 因而这个阶段的弹性称为资源层面的弹性¡£管理资源的云?#25945;¨£?#25105;们称为基础设施服务£¬也就是我们常听到的IaaS£¨Infranstracture As A Service£©¡£
        二¡¢云计算不光管资源£¬也要管应用
        有了IaaS£¬实现了资源层面的弹性就够了吗?#32943;?#28982;不是£¬还有应用层面的弹性¡£
        这里举个例子£º比如说实现一个电商的应用£¬平时十台机器就够了£¬双十一需要一百台¡£你可能觉得很好办啊£¬有了IaaS£¬新创建九十台机器就可以了啊¡£但90台机器创建出来是空的£¬电商应用并没有放?#20808;¥£?#21482;能让公司的运维人员一台一台的弄£¬需要很长时间才能安装好的¡£
        虽然资源层面实现?#35828;?#24615;£¬但没有应用层的弹性£¬依然灵活性是不够的¡£有没有方法解决这个问题呢£¿
        人们在IaaS?#25945;?#20043;上又加了一层£¬用于管理资源以上的应用弹性的问题£¬这一层通常称为PaaS£¨Platform As A Service£©¡£这一层往往比?#22799;?#29702;解£¬大致分?#35762;¿·郑?#19968;部分笔者称为“你自己的应用自动安装”£¬一部分笔者称为“通用的应用不用安装”¡£
        •自己的应用自动安装£º比如电商应用是你自己开发的£¬除了你自己£¬其他人是不知道怎么安装的¡£像电商应用£¬安装时需要配置支付宝或者微信的账?#29275;?#25165;能使别人在你的电商?#19979;?#19996;西时£¬付的钱是打到你的账户里面的£¬除了你£¬谁也不知道¡£所以安装的过程?#25945;?#24110;不了忙£¬但能够帮你做得自动化£¬你需要做一些工作£¬将自己的配置信息融入到自动化的安装过程中方可¡£比如上面的例子£¬双十一新创建出来的90台机器是空的£¬如果能够提供一个工具£¬能够自动在这新的90台机器上将电商应用安装好£¬就能够实现应用层面的真正弹性¡£例如Puppet¡¢Chef¡¢Ansible¡¢Cloud Foundary都可以干这件事情£¬最新的容器技术Docker能更好的干这件事情¡£
        •通用的应用不用安装£º所谓通用的应用£¬一般指一些复?#26377;员?#36739;高£¬但大家都在用的£¬例如数据库¡£几乎所有的应用都会用数据库£¬但数据库软件是标准的£¬虽然安装和维护比较复杂£¬但无论谁安装都?#19988;?#26679;¡£这样的应用可?#21592;?#25104;标准的PaaS层的应用放在云?#25945;?#30340;界面上¡£当用户需要一个数据库时£¬一点就出来了£¬用户就可以直接用了¡£有人问£¬既然谁安装?#23478;?#20010;样£¬那我自己来好了£¬不需要花钱在云?#25945;¨É下îR?#24403;然不是£¬数据库?#19988;?#20010;非常?#35757;?#19996;西£¬光Oracle这家公司£¬靠数据库就能赚这么多钱¡£买Oracle?#24425;且?#33457;很多钱的¡£
        然而大多数云?#25945;?#20250;提供MySQL这样的开源数据库£¬又是开源£¬钱不需要花这么多了¡£但维护这个数据库£¬却需要专门招一个很大的团队£¬如果这个数据库能够优化到能够支撑双十一£¬也不?#19988;?#24180;两年能够搞定的¡£
        比如您?#19988;?#20010;做单车的£¬当然没必要招一个非常大的数据库团队来干这件事情£¬成本太高了£¬应?#23186;?#32473;云?#25945;?#26469;做这件事情£¬专业的事情专业的人来做£¬云?#25945;?#19987;门养了几百人维护这套系?#24120;?#24744;只要专注于您的单车应用就可以了¡£
        要么是自动部署£¬要么是不用部署£¬总的来说就是应用层你也要少操?#27169;?#36825;就是PaaS层的重要作用¡£
        虽?#21040;?#26412;的方式能够解决自己的应用的部署问题£¬然而不同的环境千差万别£¬一个脚?#23601;?#24448;在一个环?#25104;?#36816;行正确£¬到另一个环境就不正确了¡£
        而容器是能更好地解决这个问题¡£
        容器是 Container£¬Container另一个意思是集装箱£¬其?#31561;?#22120;的思想就?#19988;?#21464;成软件交付的集装箱¡£集装箱的特点£º一是封装£¬二是标准¡£
        在没有集装箱的时代£¬假设将货物从 A运到 B£¬中间要经过三个码头¡¢换三次船¡£每次?#23478;?#23558;货物卸下船来£¬摆得七零八落£¬然后搬上船重新整齐摆好¡£因此在没有集装箱时£¬每?#20301;?#33337;£¬船员们?#23478;?#22312;岸上待几天才能走¡£
        有了集装箱以后£¬所有的货物都打包在一起了£¬并且集装箱的尺寸全部一致£¬所以每?#20301;?#33337;时£¬一个箱子整体搬过去就行了£¬小时级别就能完成£¬船员再也不用上岸长时间耽搁了¡£
        这是集装箱“封装”¡¢“标准”两大特点在生活中的应用¡£
        那么容器如何对应?#20040;?#21253;呢£¿还?#19988;?#23398;习集装箱¡£首先要有个封闭的环?#24120;?#23558;货物封装起来£¬让货物之间互不干扰¡¢互相隔离£¬这样装货卸货才?#22870;ã¡?#22909;在 Ubuntu中的LXC技术早就能做到这一点¡£
        封闭的环境主要使用了两种技术£¬一种是看起来是隔离的技术£¬称为 Namespace£¬也即每个 Namespace中的应?#27599;?#21040;的是不同的 IP地址¡¢用户空间¡¢程号等¡£另一种是用起来是隔离的技术£¬称为 Cgroups£¬也即明明整台机器有很多的 CPU¡¢内存£¬而一个应用只能用其中的一部分¡£
        所谓的镜像£¬就是将你焊好集装箱的?#19988;?#21051;£¬将集装箱的状态保存下来£¬就像孙悟空说£º“定”£¬集装箱里面就定在了?#19988;?#21051;£¬然后将这一刻的状态保存成一系列文件¡£这些文件的格式是标准的£¬谁看到这些文件都能还原当时定住的那个时刻¡£将镜像还原成运行时的过程£¨就是读取镜像文件£¬还原那个时刻的过程£©就是容器运行的过程¡£
        有了容器£¬使得 PaaS层对于用户自身应用的自动部署变?#27599;?#36895;而优雅¡£
        三¡¢大数据拥抱云计算
        在PaaS层中一个复杂的通用应用就是大数据?#25945;¨¡?#22823;数据是如何一步一步融入云计算的呢£¿
        1. 数据不大也包含智慧
        一开始这个大数据并不大¡£原来才有多少数据£¿现在大家都去看电子书£¬上网看新闻了£¬在我们80后小时候£¬信息量没有那么大£¬也就看看书¡¢看看报£¬一个星期的报纸加起来才有多少?#37073;?#22914;果你不在一个大城?#26657;?#19968;个普通的学校的图书馆加起来也没几个书架£¬是后来随着信息化的到来£¬信息才会越来越多¡£
        首先我们来看一下大数据里面的数据£¬就分三种类型£¬一种叫结?#22815;?#30340;数据£¬一种叫非结?#22815;?#30340;数据£¬还有一种叫半结?#22815;?#30340;数据¡£
        •结?#22815;?#30340;数据£º即有固定格式和有限长度的数据¡£例如填的表格就是结?#22815;?#30340;数据£¬国籍£º中华人民共和国£¬民族?#27721;海¬Ð员·w耗校?#36825;都叫结?#22815;?#25968;据¡£
        •非结?#22815;?#30340;数据£º现在非结?#22815;?#30340;数据越来越多£¬就是不定长¡¢无固定格式的数据£¬例如网?#24120;?#26377;时候非常长£¬有时候几句话就没了£»例如语音£¬视频都是非结?#22815;?#30340;数据¡£
        •半结?#22815;?#25968;据£º?#19988;?#20123;XML或者HTML的格式的£¬不从事技术的可能不了解£¬但也没有关系¡£
        其实数据本身不是有用的£¬必须要经过一定的处理¡£例如你每天跑步带个手环收集的也是数据£¬网上这么多网页也是数据£¬我们称为Data¡£数据本身没有什么?#20040;¦£?#20294;数据里面包含一个很重要的东西£¬叫做信息£¨Information£©¡£
        数据十分杂乱£¬经过梳理和清洗£¬才能够称为信息¡£信息会包含很多规律£¬我们需要从信息中将规律总结出来£¬称为知识£¨Knowledge£©£¬而知识改变命运¡£信息是很多的£¬但有人看到了信息相当于白看£¬但有人就从信息中看到了电商的未来£¬有人看到了直播的未来£¬所以人家就牛了¡£如果你没有从信息中提取出知识£¬天天看朋友圈也只能在互联网滚滚大潮中做个看客¡£
        有了知识£¬然后利用这些知?#24230;?#24212;用于实战£¬有的人会做得非常好£¬这个东西叫做智慧£¨Intelligence£©¡£有知识并不一定有智慧£¬例如好多学者很有知识£¬已经发生的事情可?#28304;?#21508;个角度分析得头头是道£¬但一到实干就歇菜£¬并不能转化成为智慧¡£而很多的创业家之所以伟大£¬就是通过获得的知识应用于?#23548;ù£?#26368;后做了很大的生意¡£
        所以数据的应用分这四个步骤£º数据¡¢信息¡¢知识¡¢智慧¡£
        最终的阶段是很多商家都想要的¡£你看我收集了这么多的数据£¬能不能基于这些数据来帮我做下一步的决策£¬?#32435;?#25105;的产品¡£例如让用户看视频的时候?#21592;?#24377;出广告£¬正好是他想买的东西£»再如让用户听音乐时£¬另外推荐一些他非常想听的其他音乐¡£
        用户在我的应用或者网站上随便点点鼠标£¬输入文字对我来说都是数据£¬我就?#19988;?#23558;其中某些东西提取出来¡¢指导?#23548;ù¡?#24418;成智慧£¬让用户陷入到我的应用里面不可自拔£¬上了我的网就不想离开£¬手不停地点¡¢不停地买¡£
        很多人说双十一我都想断网了£¬我老婆在上面不?#31995;?#20080;买买£¬买了A又推荐B£¬老婆大人说£¬“哎呀£¬B也是我?#19981;?#30340;啊£¬老公我要买”¡£你说这个程序怎么这么牛£¬这么有智慧£¬比?#19968;?#20102;解我老?#29275;?#36825;件事情是怎么做到的呢£¿
        2. 数据如何升华为智慧
        数据的处理分几个步骤£¬完成了才最后会有智慧¡£
        第一个步骤叫数据的收集¡£首先得有数据£¬数据的收集有两个方式£º
        •第一个方式是拿£¬专业点的说法叫抓取或者爬取¡£例如搜索引擎就是这么做的£º它把网上的所有的信息都下载到它的数据中?#27169;?#28982;后你一搜才能搜出来¡£比如你去搜索的时候£¬结果会?#19988;?#20010;列表£¬这个列表为什么会在搜索引擎的公司里面£¿就是因为他把数据都拿下来了£¬但是你一点链接£¬点出来这个网站就不在搜索引擎它们公司了¡£比如说新浪有个新闻£¬你拿百?#20154;?#20986;来£¬你不点的时候£¬?#19988;?#39029;在百度数据中?#27169;?#19968;点出来的网页就是在新浪的数据中心了¡£
        •第二个方式是推?#20572;?#26377;很多终端可以帮我收集数据¡£比如说小?#36164;?#29615;£¬可以将你每天跑步的数据£¬心跳的数据£¬睡眠的数据都上传到数据中心里面¡£
        第二个步骤是数据的传输¡£一般会通过队列方式进?#26657;?#22240;为数据量实在是太大了£¬数据必须经过处理才会有用¡£可系统处理不过来£¬只好排好队£¬慢慢处理¡£
        第三个步骤是数据的存储¡£现在数据就是金钱£¬掌握了数据就相当于掌握了钱¡£要不然网站怎么知道你想买什么£¿就是因为它有你历史的交易的数据£¬这个信息可不能给别人£¬十分宝贵£¬所以需要存储下来¡£
        第四个步骤是数据的处理和分析¡£上面存储的数据是原始数据£¬原始数据多是杂乱无章的£¬有很多垃圾数据在里面£¬因而需要清洗和过滤£¬得到一些高质量的数据¡£对于高质量的数据£¬就可以进行分析£¬从而对数据进行分类£¬或者发现数据之间的相互关系£¬得到知识¡£
        比如盛传的沃尔玛超市的啤酒和尿布的故事£¬就是通过对人们的购买数据进行分析£¬发现了男人一般买尿布的时候£¬会同时购买啤酒£¬这样就发现了啤酒和尿布之间的相互关系£¬获得知识£¬然后应用到?#23548;ùÖ校?#23558;啤酒和尿布的柜台弄的很近£¬就获得了智慧¡£
        第五个步骤是对于数据的检索和挖掘¡£检索就是搜索£¬所谓外事不决问Google£¬内事不决问百度¡£内外两大搜索引擎都是将分析后的数据放入搜索引擎£¬因此人们想寻找信息的时候£¬一搜就有了¡£
        另外就是挖掘£¬仅仅搜索出来已经不能满足人们的要求了£¬还需要从信息中挖掘出相互的关系¡£比如财经搜索£¬当搜索某个公司?#21892;?#30340;时候£¬该公司的高管是不?#19988;?#24212;该被挖掘出来呢£¿如果仅仅搜索出这个公司的?#21892;?#21457;现涨的特别好£¬于是你就去买了£¬其实其高管发了一个声明£¬对?#21892;笔?#20998;不利£¬第二天就跌了£¬这不坑害广大股民么£¿所以通过各种算法挖掘数据中的关系£¬形成知识库£¬十分重要¡£
        3. 大数据时代£¬众人?#23433;?#28779;焰高
        当数据量很小时£¬很少的几台机器就能解决¡£慢慢的£¬当数据量越来越大£¬最牛的服务器都解决不了问题时£¬怎么办呢£¿这时就要聚合多台机器的力量£¬大家齐心协力一起把这个事搞定£¬众人?#23433;?#28779;焰高¡£
        对于数据的收集£º就IoT来讲£¬外面部署这成千上万的检测设备£¬将大量的温度¡¢湿度¡¢监控¡¢电力等数据统统收集上来£»就互联网网页的搜索引擎来讲£¬需要将整个互联网所有的网页都下载下来¡£这显然一台机器做不到£¬需要多台机器组成网络爬虫系?#24120;?#27599;台机器下载一部?#37073;?#21516;时工作£¬才能在有限的时间内£¬将海量的网页下载完毕¡£
        对于数据的传输£º一个内存里面的队列肯定会被大量的数据挤爆掉£¬于是就产生了基于硬盘的分?#38469;?#38431;?#26657;?#36825;样队列可以多台机器同时传输£¬随你数据量多大£¬只要我的队列足够多£¬管道足够?#37073;?#23601;能够撑得住¡£
        对于数据的存储£º一台机器的文件系统肯定是放不下的£¬所以需要一个很大的分?#38469;?#25991;件系统来做这件事情£¬把多台机器的硬盘打成一块大的文件系统¡£
        对于数据的分析£º可能需要对大量的数据做分解¡¢统计¡¢汇总£¬一台机器肯定搞不定£¬处理到猴年马月也分析不完¡£于是就有分?#38469;?#35745;算的方法£¬将大量的数据分成小份£¬每台机器处理一小份£¬多台机器并行处理£¬很快就能算完¡£例如著名的Terasort对1个TB的数据排序£¬相当于1000G£¬如果单机处理£¬怎么也要几个小时£¬但并行处理209秒就完成了¡£
        所以说什么叫做大数据£¿说白了就?#19988;?#21488;机器干不完£¬大家一起干¡£可是随着数据量越来越大£¬很多不大的公司都需要处理相当多的数据£¬这些小公司没有这么多机器可怎么办呢£¿
        4. 大数据需要云计算£¬云计算需要大数据
        说到这里£¬大家想起云计算了吧¡£当想要干这些活时£¬需要很多的机器一块做£¬真的是想什么时候要就什么时候要£¬想要多少就要多少¡£
        例如大数据分析公司的财务情况£¬可能一周分析一次£¬如果要把这一百台机器或者一千台机器都在那放?#29275;?#19968;周用一次非常浪费¡£那能不能需要计算的时候£¬把这一千台机器拿出来£»不算的时候£¬让这一千台机器去干别的事情£¿
        谁能做这个事儿呢£¿只有云计算£¬可以为大数据的运算提供资源层的灵活性¡£而云计算也会部署大数据放到它的PaaS?#25945;?#19978;£¬作为一个非常非常重要的通用应用¡£因为大数据?#25945;?#33021;够使得多台机器一起干一个事儿£¬这个东西不?#19988;?#33324;人能开发出来的£¬也不?#19988;?#33324;人玩得转的£¬怎么也得雇个几十上百号人才能把这个玩起来¡£
        所以说就像数据库一样£¬其实还是需要有一帮专业的人来玩这个东西¡£现在公有云上基本上都会有大数据的解决方案了£¬一个小公司需要大数据?#25945;?#30340;时候£¬不需要采购一千台机器£¬只要到公有云上一点£¬这一千台机器都出来了£¬并且上面已经部署好了的大数据?#25945;¨£?#21482;要把数据放进去算就可以了¡£
        云计算需要大数据£¬大数据需要云计算£¬二者就这样结合了¡£
        四¡¢人工智能拥抱大数据
        虽说有了大数据£¬人的欲望却不能够满足¡£虽说在大数据?#25945;?#37324;面有搜索引擎这个东西£¬想要什么东西一搜就出来了¡£但也存在这样的情况£º我想要的东西不会搜£¬表达不出来£¬搜索出来的又不是我想要的¡£
        例如音乐软件推荐了一首歌£¬这首歌我没听过£¬当然不知道名?#37073;?#20063;?#29615;¨Ë选?#20294;是软件推荐给我£¬我的确?#19981;¶£?#36825;就是搜索做不到的事情¡£当人们使用这种应用时£¬会发现机器知道我想要什么£¬而不是说当我想要时£¬去机器里面搜索¡£这个机器真像我的朋友一样懂我£¬这就有点人工智能的意思了¡£
        人们很早就在想这个事情了¡£最早的时候£¬人们想象£¬要是有一堵墙£¬墙后面是个机器£¬我给它说话£¬它就给?#19968;?#24212;¡£如果我感觉不出它那边是人还是机器£¬那它就真的?#19988;?#20010;人工智能的东西了¡£
        五¡¢基于三者关系的美好生活
        终于云计算的三?#20540;?#20945;齐了£¬分别是IaaS¡¢PaaS和SaaS¡£所以一般在一个云计算?#25945;?#19978;£¬云¡¢大数据¡¢人工智能都能?#19994;?#21040;¡£一个大数据公司£¬积累了大量的数据£¬会使用一些人工智能的算法提供一些服务£»一个人工智能公司£¬也不可能没有大数据?#25945;?#25903;撑¡£
        所以£¬当云计算¡¢大数据¡¢人工智能这样整合起来£¬便完成了相遇¡¢相识¡¢相知的过程¡£
        本文内容整理来源与网络£¬只为分享£¬致力推动河南互联网IT产业£¬振兴河南IT行业£¬这是我们的梦想£¡
    ------分隔线----------------------------
    栏目列表
    联系我们
    • 学校地址£º郑州市金水区文化路90号河南财经政法大
    • 学文南校区1号楼£¨文化路与东风路路交叉口文化路
    • 向南1000米£©
    • 咨询热线£º0371-63383521 63383522
    • 6路£¬28路£¬966路到文化路与俭学街站下车
    企业预订人才热线£º0371-63383521
    就业服电话£º0371-55902629
    教学监督£º0371-55690491
    郑州北大青鸟软件学院地址£º郑州市文化路90号河南财经政法
    大学文南校区1号楼
    传真£º0371-63383562 ?#25910;?#32534;码£º450000
    备案?#29275;?#35947;ICP备10022989
    版权归 郑州翔天信鸽科技有限公司
    咨询电话£º0371-63383521 15225191462
    北大青鸟APTECH£¨郑州翔天信鸽£©授权培训软件学院
    教育改变生活
    ²¶ÓãÆ÷¼Û¸ñͼƬ350Ôª
    <s id="me4ou"></s>
  • <code id="me4ou"><samp id="me4ou"></samp></code>
    <optgroup id="me4ou"><samp id="me4ou"></samp></optgroup>
  • <s id="me4ou"></s>
  • <code id="me4ou"><samp id="me4ou"></samp></code>
    <optgroup id="me4ou"><samp id="me4ou"></samp></optgroup>