如果我们了解数据背后的故事,那么数据会更有意义。
> Photo by Kalen Emsley on Unsplash
如果您曾经正式或非正式地接受过任何统计或机器学习培训,那么您就不会不熟悉Iris数据集,鉴于其受欢迎程度,它甚至拥有自己的Wikipedia页面。 大多数人对Iris数据集了解的是,它具有有关萼片和花瓣的长度和宽度度量的记录。 该数据集包含三种鸢尾属物种中的每种鸢尾属植物的50条记录:鸢尾鸢尾,鸢尾鸢尾和杂色鸢尾。
除此之外,您是否知道数据集来自何处? 你知道这些不同的物种是什么样吗? 如果您不知道答案,那就可以了。 这正是本文所要讨论的。 让我们简短地处理数据,并学习一些常见数据集背后的有趣故事。
数据集的历史
鸢尾花数据集也称为Fisher鸢尾花数据集。 您的猜测是正确的-费舍尔(Ronald Aylmer Fisher)爵士也是如此,他还发明了费舍尔的精确检验法。 费舍尔爵士是英国皇家学会的会员,1890年出生于英国伦敦,以统计学家和遗传学家而闻名。
> Sir Ronal Aylmer Fisher (Source: Wikipedia, License: Public Domain)
他对统计的贡献远远超出了费舍尔的精确检验。 例如,他开发了最大似然估计和方差分析(通常被称为ANOVA的首字母缩写)测试。 正如他的Wikipedia页面所指出的那样,由于这些重要的贡献,他在现代统计史上得到了高度评价。
对于统计工作,他被描述为"几乎单枪匹马为现代统计科学奠定基础的天才"和" 20世纪统计学中最重要的人物"。 —维基百科
1936年,费舍尔在《优生学年鉴》(Annals of Eugenics)上发表了题为"在分类学问题中使用多重测量"的报告。 如果您有兴趣,可以在此处阅读全文。 在本文中,Fisher开发并评估了根据花的形态区分虹膜种类的线性函数。 这是上述三种鸢尾属植物的萼片和花瓣尺寸的首次公开露面。 下面提供了原始数据表的快照。 请注意,这些度量单位是厘米。
> Morphological Measures of Iris Flowers (Part of the Iris Dataset, Source & License)
如下图所示,总体上,该判别功能在区分这些物种方面表现良好,除了杂色鸢尾和初生鸢尾之间有些重叠。 鸢尾鸢尾明显不同于其他两个物种。
> Figure From Fisher's Article on the Iris Dataset (Source & License)
但是,应该注意的是,费舍尔本人并没有收集这些数据。 在他的文章中,他明确地将数据源归功于Edgar Anderson博士,他在加拿大美丽的旅游胜地加斯佩半岛(GaspéPeninsula)收集了大部分数据。 我找不到Anderson博士的无版权图片,但是如果您有兴趣,可以在这里找到他的图片。
安德森博士1897年出生于纽约,并于21世纪初在美国密歇根州长大。 作为植物学家,安德森博士曾在圣路易斯华盛顿大学任教。 1929年,他接受了一项奖学金,与包括费舍尔爵士在内的一些科学家一起在英国工作。 通过这次合作机会,费舍尔获得了安德森博士的许可,可以使用上述文章中的数据。
除了收集这个著名的数据集的数据外,安德森博士还为植物遗传学做出了重要贡献,并出版了有关该领域的题为"渐渗杂交"的原著。 他的科学贡献使他于1934年当选为美国艺术与科学院院士,并于1954年当选为美国国家科学院院士。
鸢尾花生物学
你们当中有多少人实际上在花园或图片中看到了鸢尾花,特别是数据集中包含的那三种花? 我怀疑这个数字会很高,因为根据周围朋友和同事的回应,只有一小部分人告诉我他们以前见过鸢尾花追随者。 当然,我必须给他们看一些鸢尾花的照片,否则其中许多人甚至可能都不知道鸢尾花是什么。
撇开所有这些,我们知道数据集中的三个鸢尾物种:鸢尾鸢尾,鸢尾鸢尾和杂色鸢尾,并且我们也知道数据集记录了这些花的萼片和花瓣的长度和宽度。 让我们用一块石头杀死两只鸟-参见下图。
> Petals & Sepals for Iris setosa, Iris versicolor, and Iris virginica (Sources: 1, 2, 3, Licenses:
如上图所示,这些物种之间确实在形态上存在相似之处。 因此,有趣的是,费舍尔爵士在30年代开发的判别函数可以从统计角度很好地解决此问题。 然而,植物学家有更好的方法来区分这些物种。 实际上,安德森博士本人发表了题为"虹膜中的物种问题"的手稿,以讨论虹膜物种的歧视,您可以在此处阅读本文。 在文章中,安德森(Anderson)博士指出,这些花的种子形态更为丰富。 除花瓣和萼片的大小不同外,这三个物种之间的种子大小也存在明显差异。
最终思想
大数据,人工智能,机器学习,深度学习和许多其他数据科学短语几乎是每个学术和工业领域的热门话题。 鉴于市场上数据科学家的大量工作需求,许多人进入了这些领域。 一些数据科学家错误地认为,他们唯一的工作就是处理提供给他们的数据。
他们并没有真正意识到我们的所有数据都有其来源和内容背景。 数据的处理,分析和解释都需要相关领域的内容知识。 因此,如果我们想做更好的数据科学,我们将永远不会忽略我们正在处理的数据所基于的内容知识。
关于当前文章的快速笔记。 我第一次了解Iris数据集是在我使用SAS学习判别分析时。 坦白说,我对数据集本身并没有太多考虑。 但是,当我学习更多有关数据科学研究的知识时,我发现对数据进行深入了解至关重要。 因此,事后看来,我想找出Iris数据集背后的故事,并与您分享。 我希望您喜欢本文的一部分,并学到了一些东西–至少,您应该知道鸢尾花的萼片和花瓣对不对?
(本文翻译自Yong Cui, Ph.D.的文章《The Iris Dataset — A Little Bit of History and Biology》,参考:https://towardsdatascience.com/the-iris-dataset-a-little-bit-of-history-and-biology-fb4812f5a7b5)