科学技术/NEWS CENTER

大数据的十大局限

发布时间:2017-12-29

  十大数据限制

  突然一夜之间像春风般,万树万梨梨花,似乎一夜之间,大数据在南北半球流行起来,神州大地更是风头一时;与此同时,大数据还处处传神,无所不包,无所不能。有理解的理由还有,还故意忽悠成分。鞭子那个,在炎热的时候越热,越需要吹下冷风。这里要讲大数据的局限性,不要否认它的价值。相反,只有充分认识大数据的特点和优势,才能更好地利用大数据挖掘和发挥其价值。首先阐述了一种观点:大数据本身并没有直接的价值,只有对其进行有效的管理,处理,挖掘隐藏在其中的有用信息,才能做到合理,有效地利用它可以使其发挥全部效应,产生价值。这个观点构成了详细阐述下面的大数据局限的基础,如果你不认识这个基础,就不要浪费你的宝贵时间。基于这种价值导向的措施,大数据本身及其管理,处理和应用都有很多限制。 1,数据噪声:先天不和大数据原因大数据,首先是因为数据量巨大。但是,并不是所有的数据在这么多的数据中都是有用的,大部分时间有用的数据甚至只是它的一小部分。随着数据量的增加,无谓的冗余,垃圾邮件的数据将越来越多,其增长速度也比数据信息快。这样,我们所寻求的重要数据或客观事实往往被大数据所带来的噪音所淹没,甚至会导致误入歧途,陷入错误的结论。 2,真实性:不得不接受虚假引导我们进入困境的不是我们所不知道的,而是我们所知道的,但不是那么真实的东西。真实性是所有数据价值的基础,但它也是大数据的一个主要先天缺陷。网络是大数据最重要的来源之一,网络本身充满了假信息。例如,假冒的个人注册信息,虚假账号,虚假粉丝,虚假交易,灌水贴纸以及网络数据中的虚假内容等大量存在。这种失真是由网络本身的特点决定的,例如绝大多数社交网站很难也不会验证会员注册信息的真实性,电子商务平台不能控制一个人注册多个账户,或者账户和个人非实际消费的非对应关系(以为你没有共享宽带或电子商务账户)。除了网络数据之外,即使是用原始方法收集的个人信息数据也不能保证其真实性和准确性。就拿电信运营商来说,即使实行实名制,但业内人士知道,数据质量和期望值还是相当差距的。可以预见的是,在很长一段时间内,即使节目的数据科学家无法消除或纠正一些数据固有的错误和缺点,对大数据真实性的追求无疑是摆在我们面前的一个挑战。 3.代表性:从不完整的样本Myersenberg在“大数据时代”中阐述的核心观点之一是大数据是一个完整的样本,因此不再依赖于随机抽样。鞭打这种观点是错误的。可以分为两类,一类是物理世界的科学数据,如实验数据,传感器数据,观测数据等;另一类来自人类的社会活动,主要是互联网数据,如社会关系,商品交易行为追踪等个人信息,但这两类数据的产生和收集存在着许多盲点和局限性,从点和面的归纳和推导是迈科学数据的科学研究和应用的逻辑和方法主要是精心设计的采样数据。互联网数据方面,虽然我国互联网用户数达到7亿,但仍然有6亿人由于无法或不愿上网而被排除在互联网大数据之外,万人代表另外6亿人,你是否确认有6亿人愿意出任代表?很多人经常在网上订购或者在网上花钱购买其他人的推荐和评论,但是经常会觉得不愉快,除了个人品味和评价因素之外,还有一个重要的原因是网上评论没有足够的代表性喜欢上网本身只是消费人群的一部分,网民也喜欢评论的只是其中的一小部分,所以不能代表整个消费群体,无论科技多么先进,来自物质世界和网络社会的大数据永远无法覆盖整个自然世界和人类社会,而且如果要重新考虑宗教,法律,道德和道德约束,那么大数据将不太可能成为全样本。 ,数据的缺失部分往往不是随机的偏差,而是系统的偏差,统计分析是不能考虑的,也是因为这个原因,社会学家总是对大数据的表示抱有怀疑和谨慎,在很多领域仍然坚持使用传统的抽样方法进行社会研究,而不是大数据。 4.诚信:缺乏广度和深度缺乏大数据的完整性主要是指虽然单个组织可以获得的数据量是巨大的,但是它所包含的实际信息是非常有限的,所以很难用它作为复杂逻辑运算或综合描述的基础。这种不完整主要包括缺乏信息维度(决定信息的广度)和缺乏维度信息(决定信息的深度)。例如,电信运营商拥有更好的信息广度,因为他们控制着数据管道,从而可以全面了解用户访问互联网的情况,比如访问互联网的时间和频率,访问互联网,访问网站和浏览内容等等,他们掌握的信息的深度是不够的,运营商可以清楚的知道用户在什么时间,什么地点,以什么终端,什么网络接入京东,亚马逊,山猫等电子商务,浏览什么样的产品停留时间长等,但无法掌握用户是否在电子商务平台上购买过产品,购买过什么样的产品,涉及到哪种促销,付款方式显然,京东了解用户在自己商场的浏览和消费行为(具有足够的信息深度),却不能理解其他用户的互联网行为和消费行为其他电子商务平台上的行为(缺乏信息)。在大多数情况下,深入研究一些自然和社会现象或超级用户的描绘(包括超维和跨纹理两个方面),信息的广度和信息的深度是必不可少的,价值大数据在于大范围的交叉整合,从这个意义上说,真正的大数据应该基于商业,政府,科学等跨领域,跨领域,跨领域的整合的共同标准,平台数据集合是社会大数据(这是一个非常有趣的表述,单独讨论),但是目前的大数据仍然以孤立孤岛的形式存在,没有一个单一的组织可以访问足够广度和深度的数据。全社会都要大力推进数据的公开和共享,其中政府数据尤其重要,可以毫不夸张地说,大部分真实的核心数据都掌握在政府手中, l没有政府参与的大数据。 5,及时性:任何数据的二级值都存在于一个连续的时间轴上,具有其时间属性,即数据时代。不同年龄段的数据具有不同的价值特征。旧数据通常具有整体或趋势分析的价值,而新数据具有更多的个体应用价值。大数据时代,信息更新速度非常快,从应用的角度来看,大数据的及时性往往比较短。用于检测地震和海啸的传感器的数据老化通常只持续几秒钟,之后几乎失去意义。美国国家海洋局的超级计算机可以使用传感器传输的数据,在日本地震九分钟内计算海啸的概率和强度。短短的9分钟基本上反映了目前的人类计算水平,但现在还是太久了,现在消失了。对用户状态信息的实时营销也是费时高要求,想想看,如果你的目标用户在离店500米之前收到所谓的量身定做的促销信息,他(她)是不对的。 ?大数据的及时性要求对实时数据采集,实时处理,实时分发提出了非常高的要求。数据处理中有一秒钟的规律,就是计算第二个时间范围内的分析结果并分发,超过这个时间,数据就会失去价值。这通常很难做到,这在相当程度上限制了大数据的使用。 6,解释性:不存在因果关系勋伯格关于大数据的另一个重点,不是一个因果关系,而是一个只需要知道未来会发生什么或将发生什么的相关性,而不是为什么和发生了什么内部原因,鞭子谁也不同意。相关性只代表过去和案例,没有解释,有时甚至是错误的,不能一概而论。只有把握事物之间的因果关系,理性的机制和科学的原则,才能把形势放在第一位,反复更新,不断推动社会进步。这是一个非常简单的事实,不用说。关于相关性,啤酒和尿布的故事一直是每个人的谈话。但是,沃尔玛有数以万计的产品和数以亿计的相关关系。我觉得有不少相似的组合。为什么这么难看?更重要的是,人们仍然对啤酒和尿布之间的关系做出理性的决定因果逻辑来解释,试想一下,如果这种因果关系是首先被发现,然后通过相关性来验证,找到更多的啤酒和尿布吗?大数据相关性分析经常被引用的成功故事。你可能并不知道的一个事实是,自2009年Google的准确预测和高调发布以来,流感预测的准确性一直在下降。特别是在过去的两三年里,不准确的预测数量更多准确的数字比准确的估计。大数据分析需要使用机器来完成,机器一直能够在数据之间给出相关性,而不需要解释因果逻辑。因果关系需要人们的思考和判断,现在的电脑没有,今后不能完全取代人脑。开玩笑,所以急于强调关系而不是因果关系,难道我们真的不介意吗?可预测性:过去决定未来大数据分析,无论多么辉煌都给出了一个光环,基本上只有过去和现实的归纳和结论,本身并没有趋势和方向的特征,决定趋势是一个内在的因素以及事物之间的相互作用,在这方面,大数据无能为力,这是大数据的诞生缺陷之一,勋伯格也承认与大数据同行存在一定的风险,大数据可能把我们锁在过去的错误,使我们陷入让过去决定未来的陷阱,现在一些基金公司正在推出大数据指数基金,希望通过大盘准确预测股市数据。历史市场走势只是由于过去在股票市场发生的多种因素相结合才能预测未来市场。普林斯顿大学(Princeton University)经济学教授伯顿·麦基尔(Burton McKill)在其1973年的畅销书“走进华尔街”(Walk the Wall Street)中指出,通过蒙住眼睛选猴子并在报纸财经报道中获利的猴子组合,一个专家的投资组合经过仔细的研究和仔细的甄选,近年来,一些研究人员甚至认为,麦基尔低估了这种观点(应该是高估了基金经理人)。 2008年,好俄国人通过实验证明了这个实验。俄罗斯的“金融周刊”从马戏团中得到一只猴子,选择代表不同股票的八个品牌组合,投资一百万个虚拟卢布,一年后,当金融专家重新评估猴子的表现时,股票选择,他们几乎感到震惊。他们的市场价值涨了近三倍,超过了基金的94%。必须承认,我们处于一个不确定的世界,许多事件是不可预测的。过度依赖大数据和预测模型是很危险的,因为许多影响因素不能包含在模型参数的覆盖范围内。从天气预报,地震预报,足球比赛到金融危机等,都对这一点作了很好的诠释。 8,误导性:数据的谎言与大数据代表性,真实性,完整性,说明性等有关的必然结论的局限性是不可靠和误导的,但二者强相关,因果关系并不多,几个例子来招待你。首先来一个经典。在电影“赌神”中,赌神们扮演的赌神始终有一种与戒指打架的习惯。对手通过研究大量的赌徒的电子游戏,发现他的习惯,发现他的环的旋转往往伴随着一千。然而,在一场生死攸关的战斗中,赌徒利用长期以来发布的假数据欺骗了每个人。这一次他依然像往常一样旋转戒指,但不同的是,一千没有跟随,所以,对手瞬间崩溃。只看统计现象而不能单独衡量结果就可能导致错误甚至危险的结论。二战期间英德空战期间,工程师们发现,每架战斗机机翼上都有许多弹孔,认为机翼最脆弱,需要特殊保护。但是,在保护力度增加之后,飞机的损失率不但没有下降,反而增加了。问题到底在哪里?原来的工程师被这个统计结果误导了,从而采取了错误的保护措施。翼枪眼的统计只针对那些成功返航的飞机,不幸被击落的原因不计算在内。相反,机翼可以飞回受损,表明机翼遭到袭击并不是飞机被击落的主要原因。飞机损失率在保护增加后增加的原因很简单,因为增加的负载降低了飞机的灵活性和航程。后来,工程师采取了相反的做法,在没有可见弹孔的地方加强保护,因为这些地点没有一架飞机返回家中。原来是一个很好的结果。还有一个高度相关但是因果关系的倒置的故事,不知道是不是有意的讽刺。根据国际慈善组织进行的大量数据分析,我们发现一个国家和地区的电视机普及率与富裕程度密切相关。因此,他们向一些穷国捐赠了大量的电视机,以促进当地经济的发展。显然,这是因为经济贫困导致电视普及率低,反之亦然。这样的决定可能并不真正占据上风。 9,合法性:数据安全和隐私保护大数据本身及其获取,使用过程最有可能涉及个人隐私,商业秘密,公共利益和国家信息安全。因此,安全性和合法性问题是大数据价值的制约因素之一。业务和技术是重要的,但业务和技术背后的价值更重要。 Google从未像自己的企业价值一样邪恶。百度针对短期的商业利益出售多个酒吧,公然践踏公众隐私,结果被数千人测评,让人唾骂。这些都充分反映了公众对隐私,信息安全和关注的关注。2014年白宫发表书面声明,说大数据造成的社会价值和经济价值受到隐私,公平,平等和自主的支持虽然中国政府在这方面还没有制定法律,也没有明确规定,但应该认真考虑人民群众的基本权益,不得不承认安全和法律要求限制了大数据的使用,充分发展商业价值,但是从社会价值的角度来看,这两者都是值得的和必要的10,价值:投入与收益的平衡价值的低价值被认为是一个大数据特征,这也在一定程度上,限制了大数据的研究和应用,一方面由于大数据的低密度价值特征,充分的数据积累和有效的价值必须提取它的价值。以定期的监控录像为例,在连续的24小时视频监控中,有用的数据可能只有几秒钟。如何通过强大的机器能力来优化存储和快速完成数据处理和价值呈现迄今一直是大数据的一大挑战。另一方面,大数据边际效用的增长规律使得许多单位和机构的数据不能满足规模化的基本要求,使得数据的价值无法完全实现。同时,上述的大数据代表性,真实性,完整性,解释性缺陷以及由此产生的误导性结论,不仅降低了数据的价值,甚至可能产生负面影响。另外,收集,存储,处理和使用大数据的资金和时间成本也非常高。作为大数据投资的主体,投入与收益之间应该有一个合理的平衡。目前这种力量的存在,出于某种目的,强烈地鼓励愤怒的企业投入大规模的大规模数据,如果不仔细评估,可能是值得的。说到这么多大数据的局限性,我最后要重申的是不要否认大数据的价值,而要再次强调大数据只代表知识而不代表智慧,对世界变化的认识有限是远远不够的,它需要人类取之不尽用之不竭的智慧,只有善用这个六四镑,才能逐步打破大数据的局限,更好地发挥大数据价值。

无忧国际娱乐wy8882

2017-12-29

更多内容,敬请关注:

无忧国际娱乐wy8882官网:/

无忧国际娱乐wy8882新浪官方微博:@无忧国际娱乐wy8882

无忧国际娱乐wy8882发布微信号: