机器解读知识,从海量的知识中抽取出「元知识」-02
这是mixlab无界社区的成员Jeff的《如何让机器量化知识》系列文章的第02篇。为我们介绍知识的数据化、量化,以及如何把开放的问题转化为封闭式问题让机器解读。
本期主题是「 元知识 」,从海量知识中抽取出5000个元知识,然后以此为元素,组合出各种知识。此过程非常像mixlab之前探索过的颜色谱图的构建:聚类算法+word2vec=传统色彩图谱。
本文作者:
ML03 -Jeff - 产品/设计/运营/人工智能/物理
GET人工智能创始人
def extract ( knowledge ) :
「 对世界的理解从定义元知识开始 」
化学中我们常常最小的单位理解为元素,元素的排列组合建立起了我们看到的化合物到现在世界见到的物质。我们从简单量化创造象形文字,大约在公元前32世纪,我们的象形文字在500个左右,到后来公元前5-7世纪有5000个左右。基本相当于我们现在常用的中文汉字,但是随着发展,按理说文字的创造会增加,可是实际上变化非常甚微。因为我们在量化这个世界时候遇到了,我们人类本身不可逾越的记忆力困扰,我们发现一旦超过5000个新字符基本会遗忘很多。
思考:如何定义5000个「元知识」?
「 元知识 」应该是被其他知识大量引用的知识,与其他知识重合度越高,相似的知识越多的,是不是就是「 元知识 」?
这个时候元知识开始起到作用了,这个如同我们标记5000个字符为元素,那么元素与元素可以有效排列组合,这种组合就诞生了我们一个简单的知识。元知识就是最简单的组合,这些组合看似简单却拥有神奇的魔力,如同指数的增加,用单一的模式量化我们人类对世界的理解。
我们认为,「 元知识 」的排列组合,是一个在多维空间里的向量运算过程。
元知识重要在于我们能够用一个词来表达复杂的信息。在中国历史的发展中古文其实就是很可怕,我们在字符元素中的理解那么多解释,晦涩难懂。有了对元知识的创造本身就是在减轻人类对信息的记录和传播。一下子我们在过去2000年通过元知识的排列组合建立了文明和制度,如果没有元知识的组合我们的法律条文基本难以传达。正是这样的组合方式发挥让我们把信息能够有效存储,这个在人类发展中有了决定性作用。也许我们感叹过去文明的发展是如此神奇,但是在今天,我们信息已经不在只是你能够一辈子接触的几百人那么简单,互联网信息发展简化了空间的距离关系,强化了信息的指数交流。这个时候元知识似乎排列的速度更加快,快到我们人类必须进行第二次蜕变。
return
下期预告:
「 算法组合知识 」,用算法来重构知识之间的关系。
关于MIXLAB
MIXLAB 无界社区是一所面向未来的实验室,它提倡“跨界创新,开放成长”的理念。
——跨界 开放 互助 学习 思维 创新。
目前社区汇集了20000+跨学科人群,主要来自GoogleBrain、微软、华为、阿里鲁班、腾讯、旷视、三角兽、物灵科技、众安保险、美团、360等科技人才、设计师及CEO和投资人;
高校分布MIT、Oxford、Cambridge、CMU、UoM、清华、北大、复旦、上交大、同济等学生及教师群体;
学科跨越机器学习、自然语言处理、量化交易、物联网、区块链、前端、后端、产品经理、UI设计、建筑设计、服装设计、珠宝设计、音乐、艺术等。
详细介绍点击以下卡片:
mixlab期待您的加入!
让你具备无限可能……
不赞赏下?
不点下广告?
不转发下?