探索数据
我一直很好奇,为什么使用不同的机器和球组来实现随机结果。我确信球的重量不同。例如,球组 1 在低端会更重。球 1 比球 49 重 1.2 克。球组的后端则相反。我还认为机器会以不同的速度运行。
绘制球机和球组将是探索这一想法的绝佳机会。
正如我之前提到的,我一直很想知道球被拉动的方式是否有规律。通过在图中为机器添加色调,我们可以看到一种模式的出现。
从左到右,每个球号都标示出整体位置的范围。范围从左到右流动是很自然的,因为每个球都是按升序排列的。令我惊讶的是,我可以看到球机的密集区域,这倾向于我最初的理论。
我们也看一下球集,看看那里是否也有什么东西。
随着子情节的发展,从左到右的流动很自然。我可以看到所有球组都紧密配合使用的一些例子。我想说的是,有 9 种不同的球组会稍微淡化这里的模式。但我很高兴看到我能看到一些东西。
现在我已经获得了 2 个不同的特性,我可以用聚类来破解它们了。
确定该算法需要多少个集群。
我知道有 6 个球,所以我很可能需要 6 个簇。事情并不 马约特电子邮件列表 100000 个联系人线 总是按照我们想要的方式进行,所以我将应用肘部法来发现理想情况下应该包含多少个簇。
范围只有1-10
如果将它们包括在内,将会稀释其余预测的结果。
聚类内平方和 (WCSS)
聚类内平方和是衡量每个聚类内观测值变异性的指标。一般而言,平方和较小的聚类比平方和较大的聚类更紧凑。
我们正在寻找的是随着聚类数量的增加,数值会发生剧烈变化。如果我们没有足够的聚类,我们将无法正确捕获相对数字,如果聚类太多,我们最终会得到无用的分析。
我创建了两个变量、一个空列表,并缩短了 DataFrame 以仅包含我想要使用的观察结果:
球 1 -5
生命球
发球机
球组
您就会明白为什么它被称为肘部方法。
根据图表,该数据集的聚类数量在 3 到 7 之间。我认为 5 是完美的,但总是值得检查每个点的结果。