利用KNIME基于Spark决策树模型算法进行测试的示例分析

利用KNIME基于Spark决策树模型算法进行测试的示例分析，很多新手对此不是很清楚，为了帮助大家解决这个难题，下面小编将为大家详细讲解，有这方面需求的人可以来学习下，希望你能有所收获。下面利用KNIME基于Spark决策树模型算法，通过对泰坦尼克的包含乘客及船员的特征属性的训练数据集进行训练，得出决策树幸存模型，并利用测试数据集对模型进行测香港云主机试。１、从Kaggle网站下载训练数据集和测试数据集２、在KNIME创建新的Workflow,起名：TitanicKNIMESpark3. 读取训练数据集KNIME支持从Hadoop集群读取数据，本文为了简化流程直接从本地读取数据集。在Node Repository的搜索框里输入CSV Reader，找到CSV　Reader节点，并将它拖入画布。双击或右击CSV Reader对节点进行配置，设置数据集的目录。右击节点，点击Excute, 然后右击节点，点击File table查看结果４．利用Missing Value节点对缺失值进行处理
类似第三步的操作找到Missing Value节点，并拖入画布（本文以下操作类似，不再重复），并根据需要设置属性，这里采用简单取平均值的方法处理缺失值。建立CSV Reader节点到Missing Value节点的连接。右击节点，点击Excute, 然后右击节点，点击Output Table查看结果５、添加Create Spark Context节点，设置Spark Context6 .添加Table to Spark节点，将KNIME数据表转换成Spark的DataFrame/RDD，配置Table to Spark节点并建立Missing Value节点到Table to Spark节点的连接，建立Create Spark Context节点到Table to Spark节点的连接。这里采用默认配置。
７. 添加Spark Normalizer节点，将Survived属性从数字类型转换成为字符类型，配置Spark Normalizer节点并建立Table to Spark节点到Spark Normalizer节点的连接。
右击节点，点击Excute, 然后右击节点，点击NormalizedSpark DataFrame/RDD查看结果.８. 添加Spark Decision Tree Learner节点，配置决策树算法参数，并建立Spark Normalizer节点到Spark Decision Tree Learner节点的连接。右击节点，点击Excute, 然后右击节点，点击Decision Tree Model查看结果.９利用测试数据集和Spark Predictor节点对模型进行测试。复制CSV Reader，Missing Value和Table to Spark节点并参考３，４，６步进行配置读取测试数据集并对数据进行处理和转换。添加Spark Predictor节点，配置 Spark Predictor节点，并将新添加的Table to Spark节点以及Spark Decision Tree Learner节点和Spark Predictor相连接。CSV Reader配置测试数据集。Spark Predictor节点配置Prediction column右击节点，点击Excute, 然后右击节点，点击Labled Data查看结果.10.可以添加其他节点对结果进行后续处理，这里添加只添加Spark Column Filter节点过滤掉不需要的column。添加Spark Column Filter节点并进行配置。右击节点，点击Excute, 然后右击节点，点击FilteredSpark DataFrame/RDD查看结果。最终整个workflow如下图所示看完上述内容是否对您有帮助呢？如果还想对相关知识有进一步的了解或阅读更多相关文章，请关注开发云行业资讯频道，感谢您对开发云的支持。

相关推荐: js引擎v8源码怎么解析map对象

js引擎v8源码怎么解析map对象，针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。首先介绍Map类。下面先看类定义// All heap objects have a Map that desc…