热搜
您的位置:首页 >> 娱乐

百度高考预测以大数据为锤子砸扁高考的钉子

2019年05月15日 栏目:娱乐

百度使用数据分析对2014高考作文题目预测这件事,值得再写篇文章。这是一次相当成功的预测,据有人分析,预测命中了全国18卷中12卷作文方向。

百度使用数据分析对2014高考作文题目预测这件事,值得再写篇文章。这是一次相当成功的预测,据有人分析,预测命中了全国18卷中12卷作文方向。其实在我看来还不止如此,甚至可以说全中。不过这些都不重要,乃至高考也不重要。重要的是,大数据的这种玩法,会给世界带来什么改变。

百度高考预测可以胜任高三考生报考决策指南的角色,它可以分析出全国大学和专业哪些热门、哪些好考

锤子和钉子

中国高考作文的出题方法有个固定的套路:给你讲一段小故事,然后让你根据这个故事,想想自己受到什么启发,写篇文章。换句话说你的作文重点根本不是这个故事,故事只是你要写的主题的一个素材。

同一个素材,各人思考角度不同,可以对应不同的主题。但更重要的是,不同的素材可以对应同样的主题。

比如全国卷的一个题目是不要给野生动物喂食,否则它会丧失自己的觅食能力。出题者的意图明显不是让人写一篇关于野生动物喂养的科普文章。

一个角度是把自己想象成野生动物,主题是年轻人应该自己闯荡,不能依赖前人经验的灌输。这不就是百度预测生命的多彩中的奋斗、自由和青春吗?而使用同样的主题,只要把文章稍加修改,完全还可以对付上海市的作文题:你可以选择穿越沙漠的道路和方式,所以你是自由的;你必须穿越这片沙漠,所以你又是不自由的。

另一个角度则是把自己想象成面对野生动物的人,那么主题就是要尊重自然,保护环境。这不就是百度预测发展的困惑中的自然、环境和尊敬吗?一样的主题下把文章稍加修改又可以对付辽宁省的作文题:惋惜漫天繁星没有了,沧海桑田转眼之间啊!当年那些先人岩穴边点燃篝火,看月亮初升天汉灿烂,他们欣赏的也许才是美景。

现在我们的关键问题来了。到底是主题多呢,还是素材多?答案当然是素材多。素材怎样编都可以,但全部高中生都能想明白和说明白的道理就那末几个 具体说来,据百度数据分析发现,只有六个方面而已。

只要一个人熟读这六个方面各种可能主题的文章,掌握其写作套路,不管高考出甚么素材都能应对自如。

这就正如有句谚语说如果你手里有一把锤子,你看什么东西都是钉子。这句谚语本来是贬义的,意思是告诫人们不要把甚么东西都往自己掌握的有限理论上套。比如近年来人们学会了进化心理学以后,就不管看到甚么社会现象都想用进化心理学解释,以至于我现在一听进化心理学就浑身起鸡皮疙瘩。

可是如果把这个锤子精神用在准备考试上,那是不过了 只不过你需要掌握的不是一把,而是六把锤子 有了这6把锤子就可以对付几近所有的高考钉子。其实锤子精神还可以用在领导讲话上,任何事情都必须高举中国特色社会主义伟大旗帜,以邓小平理论、三个代表重要思想为指导,深入贯彻落实科学发展观这方面目前1共有三把经常使用锤子,它们总是同时出现。

那么百度发现这些锤子用的是什么技术呢?

主题模型

给你一篇文章,你怎么能看出来这篇文章是说什么的呢?具体说来,你怎么能让机器知道这篇文章是说什么的呢?这个思想叫做主题模型(topic modeling)。

百度作文预测使用的主题模型技术叫做隐含狄利克雷分布(Latent Dirichlet allocation,LDA)。这是一个2003年才被提出的新技术,它的发明人之一正是刚刚加入百度,负责百度大脑项目的吴恩达。

LDA的基本思想非常简单。计算机认为文章只不过是一些词汇的集合。而每个主题,也只是一些关键词的集合。计算机没必要理解每一个主题或者每个词的意思,甚至根本不用管这些词出现的先后顺序。

我们人为地设定一些主题,并且在数据分析的帮助下给每一个主题设定好关键词。比如狗的主题下的关键词可以包括骨头、汪星人、忠诚、朋友等等,如果是近的研究恐怕还要加上广西玉林。这些关键词的设定没必要非常严格,到底哪个词更重要可以交给机器去发现。

这样我们就有了一个主题的集合,每个主题又都是一大堆关键词的集合。一样一个词可以在多个主题中出现,但是在不同主题下出现的概率是不同的。

计算机要做的仅仅是使用一定的数学方法对根据每篇文章中的词汇进行分析。一篇文章拿过来,你要做的就是把事先设定的所有主题一个一个的过1遍,计算这篇文章中的词汇对应每一个主题的可能性是多少。计算结果,就是这篇文章说的是每个主题的概率大小。一篇文章也许可以有超过一个主题,这不是问题。关键在于,计算机可以判断一篇文章有可能说的是什么主题,第二可能说的是什么主题这就相当于计算机已读懂了这篇文章。

百度只要把海量的作文都用这种方法分析一遍,就得到了各种不同主题的出现总几率。更进一步,再结合年度风云搜索信息和当年的热门信息,就可以判断现在的作文主题是什么了。

LDA有很多应用。只要把文章改成图象,把主题改成物体,它就可以用来分析一张图片中都有什么物体,并用于给图像分类。它还可以用来分析音乐的乐句,再结合每首歌的受爱好程度,就可以用于歌曲推荐。我猜主题模型的方法还可以用于分析报道、电影剧本、小说和游戏情节,这样机器就能比任何文化批评家更早意识到现在流行什么。

如果机器如此厉害,人又当如何呢?

未来

假想几年之后,所有考生都知道了百度能预测作文题。这些考生将会熟练掌握百度指出的任何主题。这样一来,他们的高考作文成绩将会非常接近 而这是出题者所不愿意看到的,因为高考的作用不是为了证明学生学得好,而是为了选拔,选拔要求必须有比分差距。

出题者怎么办?他们必须打破俗套,发明全新主题!从这个意义上讲数据分析带来了社会进步。

但这有一个问题。数据分析会迅速发现这个新主题,并且促使它以比以往快得多的速度流行开来。等到所有考生都掌握了新的主题,这个新主题就又没用了。

所以数据分析的真正作用是能让好东西迅速流传开来然后迅速消亡。这里说的固然不只是高考作文,更重要的是电影剧情之类。

华尔街的金融公司使用各种数学模型进行股票交易。这些模型的特点是一开始如果只有你在用,你或许可以非常赚钱,可是一旦别人也开始用同样的模型,那么市场就会在这方面变得越来越有效率,以至于这个模型的回报率就越来越低。因而你就只能再去发明一个新模型,一个更复杂的模型。直到这个模型也变得不好使。

结果华尔街就需要新模型,而且越来越复杂,愈来愈不容易赚钱。这是一场军备竞赛。

主题也是如此。一个好使的主题会因为有太多人使用而变得不再好使,人们被迫发明新主题,但新主题也将会变得不好使。

这都是互联和数据分析带来的。整个过程的节奏可能会越来越快。

经期延长腹痛吃什么药好
月经后期的颜色
经期延长该吃什么药