Python如何构建一个决策树

今天小编给大家分享一下Python如何构建一个决策树的相关知识点，内容详细，逻辑清晰，相信大部分人都还太了解这方面的知识，所以分享这篇文章给大家参考一下，希望大家阅读完这篇文章后有所收获，下面我们一起来了解一下吧。决策树决策树是当今最香港云主机强大的监督学习方法的组成部分。决策树基本上是一个二叉树的流程图，其中每个节点根据某个特征变量将一组观测值拆分。决策树的目标是将数据分成多个组，这样一个组中的每个元素都属于同一个类别。决策树也可以用来近似连续的目标变量。在这种情况下，树将进行拆分，使每个组的均方误差最小。决策树的一个重要特性是它们很容易被解释。你根本不需要熟悉机器学习技术就可以理解决策树在做什么。决策树图很容易解释。利弊决策树方法的优点是：决策树能够生成可理解的规则。决策树在不需要大量计算的情况下进行分类。决策树能够处理连续变量和分类变量。决策树提供了一个明确的指示，哪些字段是最重要的。决策树方法的缺点是：决策树不太适合于目标是预测连续属性值的估计任务。决策树在类多、训练样本少的分类问题中容易出错。决策树的训练在计算上可能很昂贵。生成决策树的过程在计算上非常昂贵。在每个节点上，每个候选拆分字段都必须进行排序，才能找到其最佳拆分。在某些算法中，使用字段组合，必须搜索最佳组合权重。剪枝算法也可能是昂贵的，因为许多候选子树必须形成和比较。Python决策树Python是一种通用编程语言，它为数据科学家提供了强大的机器学习包和工具。在本文中，我们将使用python最著名的机器学习包scikit-learn来构建决策树模型。我们将使用scikit learn提供的“DecisionTreeClassifier”算法创建模型，然后使用“plot_tree”函数可视化模型。步骤1：导入包我们构建模型的主要软件包是pandas、scikit learn和NumPy。按照代码在python中导入所需的包。在导入构建我们的模型所需的所有包之后，是时候导入数据并对其进行一些EDA了。步骤2：导入数据和EDA在这一步中，我们将使用python中提供的“Pandas”包来导入并在其上进行一些EDA。我们将建立我们的决策树模型，数据集是一个药物数据集，它是基于特定的标准给病人开的处方。让我们用python导入数据!Python实现：输出：现在我们对数据集有了一个清晰的概念。导入数据后，让我们使用“info”函数获取有关数据的一些基本信息。此函数提供的信息包括条目数、索引号、列名、非空值计数、属性类型等。Python实现：输出：步骤3：数据处理我们可以看到像Sex, BP和Cholesterol这样的属性在本质上是分类的和对象类型的。问题是，scikit-learn中的决策树算法本质上不支持X变量(特征)是“对象”类型。因此，有必要将这些“object”值转换为“binary”值。让我们用python来实现Python实现：输出：我们可以观察到所有的“object”值都被处理成“binary”值来表示分类数据。例如，在胆固醇属性中，显示“低”的值被处理为0，“高”则被处理为1。现在我们准备好从数据中创建因变量和自变量。步骤4：拆分数据在将我们的数据处理为正确的结构之后，我们现在设置“X”变量(自变量)，“Y”变量(因变量)。让我们用python来实现Python实现：输出：我们现在可以使用scikit learn中的“train_test_split”算法将数据分成训练集和测试集，其中包含我们定义的X和Y变量。按照代码在python中拆分数据。Python实现：输出：现在我们有了构建决策树模型的所有组件。所以，让我们继续用python构建我们的模型。步骤5：建立模型和预测在scikit学习包提供的“DecisionTreeClassifier”算法的帮助下，构建决策树是可行的。之后，我们可以使用我们训练过的模型来预测我们的数据。最后，我们的预测结果的精度可以用“准确度”评估指标来计算。让我们用python来完成这个过程!Python实现：输出：在代码的第一步中，我们定义了一个名为“model”变量的变量，我们在其中存储DecisionTreeClassifier模型。接下来，我们将使用我们的训练集对模型进行拟合和训练。之后，我们定义了一个变量，称为“pred_model”变量，其中我们将模型预测的所有值存储在数据上。最后，我们计算了我们的预测值与实际值的精度，其准确率为88%。步骤6：可视化模型现在我们有了决策树模型，让我们利用python中scikit learn包提供的“plot_tree”函数来可视化它。按照代码从python中的决策树模型生成一个漂亮的树图。Python实现：输出：结论有很多技术和其他算法用于优化决策树和避免过拟合，比如剪枝。虽然决策树通常是不稳定的，这意味着数据的微小变化会导致最优树结构的巨大变化，但其简单性使其成为广泛应用的有力候选。在神经网络流行之前，决策树是机器学习中最先进的算法。其他一些集成模型，比如随机森林模型，比普通决策树模型更强大。决策树由于其简单性和可解释性而非常强大。决策树和随机森林在用户注册建模、信用评分、故障预测、医疗诊断等领域有着广泛的应用。我为本文提供了完整的代码。完整代码：以上就是“Python如何构建一个决策树”这篇文章的所有内容，感谢各位的阅读！相信大家阅读完这篇文章都有很大的收获，小编每天都会为大家更新不同的知识，如果还想学习更多的知识，请关注开发云行业资讯频道。

相关推荐: gitment是什么

小编给大家分享一下gitment是什么，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！Gitment 是基于 GitHub Issues 的评论系统。支持在前端直接引入，不需要任何后端…