如何浅析大数据预处理


如何浅析大数据预处理,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。数据分析一般分为两条主线:第一条主线是数据层面第二条主线是业务层面数据分析的一般步骤:产生数据—>收集数据—>存储数据—>提取数据—>数据预处理—>数据分析—>数据可视化—>数据报告的解释说明一、数据预处理的必要性目前,数据挖掘的研究工作大都集中在算法的探讨而忽视对数据处理的研究。事实上,数据预处理对数据挖掘十分重要,一些成熟的算法对其处理的数据集合都有一定的要求:比如数据的完整性好,冗余性小,属性的相关性小等。数据预处理是数据挖掘的重要一环,而且必不可少。要使挖掘算法挖掘出有效的知识,必须为其提供干净,准确,简洁的数据。然而,实际应用系统中收集的数据通常是“脏”数据。二、数据存在的问题不完整: # 缺少数据值 #缺少一些重要属性 #仅包含聚集数据有噪声:#包含错误或者孤立点 #例如,工资=-100数据不一致:#在编码或者命名上存在差异 #例如,过去的等级“1,23″而现在的等级“A,B,C #重复记录间的不一致性三、数据存在问题的原因不完整数据的成因数据收集的时候就缺乏合适的值数据收集时和数据分析时的不同考虑因素人为/硬件/软件问题噪声数据(不正确的值)的成因数据收集工具的问题数据输入时的人为计算机错误数据传输中产生的错误数据不一致性的成因不同的数据源违反了函数依赖性四、预处理重要性没有高质量的数据,就没有高质量的挖掘结果高质量的决策必须依赖高质量的数据例如,重复值或者空缺值将会产生不正确的或者令人误导的统计数据仓库需要对高质量的数据进行一致地集成PS:数据预处理是数据分析流程中工作量最大的五、数据预处理的常规方法1数据清洗去掉噪声和无关数据2数据集成将多个数据源中的数据结合起来存放在一个一致的数据存储中3数据变换把原始数据转换成为适合数据挖掘的形式4数据归约主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等浅析下实际工作中数据分析的预处理阶段:数据层面的分析:数据预处理:【空值,缺失值,异常值等】—>处理方法主要是删,填(一般填中位数,均值等)预处理的逻辑操作:一般逻辑顺序如下1.异常值:测量值减去均值大于2倍的标准差,我则认为这是异常值。—>箱型图也能看出异常值。datahoop跑箱型图也能看出异常值。也可以不处理:不处理也要说明理由。但是主要看占比和实际业务情况。记住现实生活中重要的一点:存在即合理。2.数据标准化:把数据缩放。先构造新变量后再做标准化,防止量纲变大影响数据模型算法。3.量纲:量纲的大小变化会影响大多数,自变量波动很大时会影响大多数数据模型算法。所以我们要做数据标准化。数据标准化就是把所有数据归于一个范围区间内。—>Z值公式:自变量x=(原值减去均值)除以标准差。4.共线性:目的是降维,共线性——相关系数矩阵。相关系数小于0.3即为弱相关。相关系数0.7到0.9左右的话即认为是强相关。做算法之前,一定要去看相关性。想要降相关性的方法—>一般有两种方法:1.增大样板容量的量2.构造新变量(增量法和比值法)—>降维(因子分析和主成份分析)。主成分分析与因子分析的区别:主成分分析:主成分分析就是设法将原来众多具有一定相关性,重新组合成一组新的互相无关的综合指标来代替原来的指标。综合指标即为主成分。所得出的少数几个主成分,要尽可能地保留原始变量的信息,且彼此不相关。因子分析是研究如何以最少的信息丢失,将众多原始变量分解成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。因子分析:因子分析不是对原始变量的重新组合,而是对原始变量进行分解,分解为公共因子和特殊因子两部分。具体说,就是要找出某个问题中科直接测量的具有一定相关性的诸指标 ,如何受少数几个在专业中有意义、又不可直接测量到、且相对独立的因子支配的规律,从而可用各指标的测定来间接确定各因子状态。因子分析只能解释部分变异,主成分分析能解释所有变异 。数据预处理的思路一定要完整,要给出数据预处理的处理理由。举例练习:活用Excel2016版本以上,基本上都有数据分析的功能。删除空值看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注开发云行业 香港云主机资讯频道,感谢您对开发云的支持。

相关推荐: 迁移到云平台需要怎样解决大数据问题

这篇文章将为大家详细讲解有关迁移到云平台需要怎样解决大数据问题,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。Denodo公司首席技术官Alberto Pan对于企业将业务迁移到云平台时克服大数据的难题进行了阐述…

免责声明:本站发布的图片视频文字,以转载和分享为主,文章观点不代表本站立场,本站不承担相关法律责任;如果涉及侵权请联系邮箱:360163164@qq.com举报,并提供相关证据,经查实将立刻删除涉嫌侵权内容。

(0)
打赏 微信扫一扫 微信扫一扫
上一篇 10/04 18:14
下一篇 10/04 18:14

相关推荐