【期刊信息】

Message

刊名:时代教育
曾用名:城市改革与发展
主办:成都日报报业集团
ISSN:1672-8181
CN:51-1677/G4
语言:中文
周期:旬刊
期刊分类:基础教育

现在的位置:主页 > 综合新闻 >

大数据时代下,如何识别垃圾信息?

来源:时代教育 【在线投稿】 栏目:综合新闻 时间:2022-08-16

作者:网站采编

关键词:

【摘要】平均数代表一个样本的平均水平。但是当你在查看平均值的时候要留意,样本里面是否有极值(极大值,极小值这些 outliers),如果有的话,平均值就会不准。此外,如果你的样本小,

平均数代表一个样本的平均水平。但是当你在查看平均值的时候要留意,样本里面是否有极值(极大值,极小值这些 outliers),如果有的话,平均值就会不准。此外,如果你的样本小,也容易产生更多极端的值。这个时候用中位数更合适。如下图:

向飙说:“社会生活里有很多问题都是老问题,一定要把老问题吃透。不要制造新的词汇,没有太大的意思”。

图片来源于《成长边界》

在这个不确定性极高的后疫情时代,多多提高自己对信息的辨别能力,更好的生活,从驳斥垃圾信息开始。

但是这些容易传播的短视频、短信息,大量充斥着假话和谬论。

作为律师你说,“等一等,法官你确定 DNA 匹配不是巧合?”

图片来源于《成长边界》

所以伪科学/信息的另外一个特征就是不可证伪。不管怎么解释它,都对的。

读数据的时候,当我们看到相关关系,需要继续提问或者反思,背后的原因是什么,是否还有其他可能性。

(用嘴型来表达家庭的财务安全度)图片来源于 B 站公开课程

团队里面大部分人的判断都是要参赛。但是当我们把缺失的比赛数据补齐时,我们看到:

图片来源于 B 站公开课程

比如你发现汽车儿童座椅销量变高,同时婴儿出生数量也在变高,是一个正相关的关系。但是不能说,因为儿童座椅销量变高了,所以导致婴儿出生率变高。这是逻辑是谬论。

在表达中使用一堆假大空的词汇,每个词你都认识,组合在一起也仿佛说得都对,但是就是不知道对方在说什么。比如各种黑话指南:

40华氏度引擎出问题的概率很高,参赛的结果可想而知。赛车队故事背后是 NASA 真实的案例。1986 年,在一次火箭发射事件中,NASA 的高层基于部分数据,对于密封火箭助推器一个连接处的 O 型圈失效可能性做出了判断。最终结果是,剧烈燃烧的气体直接从连接处冲向外部,“挑战者号”在升空 73 秒后就爆炸了,7 位宇航员全部丧生。

但是当我们放大横坐标的时候仔细一看,会发现,横坐标根本不是等分的。从最开始的每 5k 一个间隔,到后面 5百万一个单位。

以下图为例,作者给你看的图是这样的,我们会快速认为,yes 和 no 的比例是 5/5 开。但是细看我们会发现,这两个分类左边的 y 轴并不一样,根本不是 5/5 开的关系。

短视频、短信息时代蒸蒸日上,改变了公众话语的内容和意义,政治、宗教、教育、体育、商业和任何其他公共领域的内容,都日渐以“短娱乐”的方式出现,并成为一种文化习惯。

多年前,台湾地区有一个研究表明,家用电器的数量和避孕工具的使用最相关。但是你应该不会有这样的想法,在高中发放免费的烤箱以解决青年早孕的问题。因为这两个变量存在相关,但是没有因果关系。

还有一类经常被大家搞错的是,误把关联关系当作因果关系。

看完之后,一脸问号,他在说啥?

当有人和你阐明数据和观点的时候,你可以思考以下几个问题:

所以对于一个很低的 p 值,不要认为这事就肯定成立了。

图片来源于 B 站公开课程

这则小故事告诉你不能绝对相信 p 值。因为 p 值不是用来告诉你假设的正确性的。而是用来告诉你,在整个群体中检测错误的可能性有多大。

什么是 p 值?

过度装饰的图被称作 data visulization ducks。ducks 原意是用在建筑领域指过度装饰的建筑。图表也是如此,好的图表不要过度装饰,过度装饰反而会失去了他本来想要表达的内容。因为 ducks 会阻碍信息的交流。

图表也可以操控每个箱子的尺寸大小来表达他想要的意思。比如下文是华尔街一篇臭名昭著的报道。这张图乍一看中间部分的 y 值最大。

我们来说一个故事。假设你是一个律师,现在法官要审判一起杀人案件,而你的辩护人被指认谋杀。但是案发时,你当事人在蛋糕房里面做蛋糕,并不在案发现场。现在你要为他辩护。

题图来自Unsplash,基于CC0协议

Steven Pink 说过:活着好过死亡,健康好过疾病,富足好过匮乏,自由好过胁迫,幸福好过苦难,知识好过迷信和无知。

庭上法官拿出 DNA 检测报告表明,案发现场凶器上的 DNA 和你当事人 DNA 完全吻合。所以你的当事人才被指认。

你说,“别急,我们来画一个图。百万分之一的可能性表达的是所有人群里面,错误识别的可能性。但是我们这里应该要看的是,识别出来的结果里面,被误识别的可能性。”


文章来源:《时代教育》 网址: http://www.sdjygw.cn/zonghexinwen/2022/0816/2297.html


上一篇:青岛工学院开展全媒体时代教育舆情分析与应对
下一篇:从“大有可为”到“大有作为”——新时代中国