让我们以我自己收集的一些数据为例,看看如何使用这些数据来做出有影响力的决策。
我从 12 月开始进行 100 英里跑步训练,用数学计算,为了达到目标,我必须每周跑 5 次,每次大约 8.25 公里。幸运的是,目标中有一个条款,而且我设法进行了一些不错的步行,让我越过了终点线。但我离题了。
看看我是否能一次性跑完 8.25 公里对我来说是一项艰巨的任务。我以前很少锻炼,除了散步之外,其他锻炼也没什么用。我记得在疫情之前,我曾经做过一点点有氧运动,大概 2-3 公里,仅此而已。我用智能手表收集每次跑步的数据。我制作了一个图表来显示我的进度:
正如您所见,我几次设法到达距离标记,但哇,在跑步机上跑 圣赫勒拿电子邮件列表 100000 条联系信息 步真是太无聊了。而且,连续跑了 3 天后,我的老膝盖感到有些疼痛。正如我之前提到的,我设法到达了标记,但这只是因为我进行了一些散步。
拿到数据后,我转而想看看自己能否减掉几磅体重。为了减少在跑步机上花费的时间,我跑得很快,但随着注意力的转移,我收集到了一些未使用的数据。跑了 40-50 分钟后,我感到很累,我试图看看自己能否找到一种方法来燃烧与长距离快速跑步相同或更多的卡路里。
我利用这些数据建立了一个线性回归模型,以找到最佳的时间和精力投入量。我将时间缩短到 20 分钟,将速度从平均 10.6 公里/小时降低到 8.2 公里/小时,但仍然取得了几乎相同的结果。
未使用的数据也可能很有价值
就我而言,我收集的卡路里数据非常有用。我使用数据来选择如何保持健康,这只是数据驱动决策的一个例子。这并不是说你必须收集所有数据。你只需要用不同的心态来对待它。
大公司如何使用数据
我最近读了伯纳德·马尔的《大数据》一书,尽管世界在数字化方面发展迅速,但这本书仍然值得一读。在书中,伯纳德讲述了一家大型美国公司如何利用数据创建机器学习模型的故事。该模型预测,如果购物者购买了与孕妇相同的商品,并且其他属性与孕妇相似,则很可能怀孕了。
他讲述了一个故事,一位愤怒的父亲拿着邮寄给她的婴儿用品优惠券走进来。这位父亲非常生气,要求商店向他道歉,因为他的女儿还在上高中,只有 15 岁,犯了如此灾难性的错误。
几个月过去了,商店经理接到了同一位愤怒的父亲打来的电话,尽管他的语气已经改变,而且是他自己在道歉,但事实证明,他的女儿确实怀孕了。