重走机器学习之路——形而上者谓之道

形而上者谓之道,形而下者谓之器,化而裁之谓之变;推而行之谓之通,举而措之天下之民,谓之事业。——《易经·系辞》

天地间本就存在种种规律和法则,这些规律和法则在物质世界相互作用、不断演化形成了世间万象,比如水蒸气遇冷液化成雨,比如万有引力让苹果落到地上。世间万象称之为“形”或“象”。

世间之“形”“象”,大致可分两种:一种是物质的种种“现象”,风雨雷电、花鸟鱼虫,另一种是精神的种种“意象”,或者说“观念”。两者背后都蕴含着很多规律,人们发展出各种学科,如物理学、心理学等,都是在尝试更准确地描述“形”“象”背后的规律,从而指导实践。

人们通过持续观察自然认识自我,初成感觉和猜想,进行实践,总结规律,不断修正和创造,进而改造自然,推动社会进步。比如古人观察到火烧后的土地会变硬,学会了烧陶,但是对于烧制结实耐用容量大的陶器而言,这个阶段的认识是片面且肤浅的,在不断烧制实践的过程中,进一步总结规律,调整工艺,知道了如何烧制更好的陶器。

是因为物理法则的存在,才会产生“火烧后土地会变硬”的现象,物理法则即是现象背后的道,此为“形而上者谓之道”;人们对这些现象的观察和总结是在尝试刻画“道”、拟合“道”,应用认识到的规律,烧制出陶器,此为“形而下者谓之器”;但认识到的规律是片面的,与真正的“道”之间是有偏差的,这种偏差表现在实践过程中就会暴露出种种问题,像易碎、裂纹、变形,然后完善认知总结出更准确的规律,改进工艺,此为“化而裁之谓之变”;当总结出的规律足够准确,工艺足够好之后,就可以推行了,传授给更多人,应用的范围越来越广,改善了大家的生活,此为“推而行之谓之通,举而措之天下之民,谓之事业”

但是,如果总结出的规律一直存在人的脑袋里,或者停留在工艺层面,别人并不能很快掌握和应用,而且到了一定阶段后难以进一步改进,这对推行和发展是不利的。于是需要数学,数学通过抽象可以将结论和规律高度概括为公式,易于验证、推行和改进。需要注意的是,通过数学公式描述的规律——模型,也仅仅是对“道”的拟合,与“道”仍有偏差,从牛顿力学到爱因斯坦相对论再到量子力学,在简单场景下好用的规律到更广泛的场景下可能就不好用了,这即是偏差,有差距就会推动发展出更准确的模型。

这个“认识自然、总结规律、修正改进”的过程能否通过机器(计算机)实现呢?答案是可以的,利用机器“上溯寻道”的方式就是机器学习,而且已经形成了相对清晰的“寻道”路线图,认识自然——认识数据,总结规律——形成模型,修正改进——模型优化。根据你的问题场景,收集相关数据,总结规律得到模型,分析暴露出的问题,缩小“偏差”,得到更准确更贴近“道”的模型,接下来就是应用模型——应用通常表现为预测,就像利用公式预测苹果落地时间一样,这就是机器学习的实践过程。

假设用$P$来评估计算机程序在某任务类$T$上的性能,若一个程序通过利用经验$E$在$T$中任务上获得了性能改善,则我们就说关于$T$和$P$,该程序对$E$进行了学习。——《Machine Learning》Tom Mitchell, McGraw Hill, 1997

这里,$T$ 是你的问题场景,$P$是对“偏差”的评估,$E$是从数据中学得的模型。

江湖流传,训练深度学习模型的过程是“炼丹”,输入的数据是炼丹的材料,丹方是模型结构和设计,tensorflow、mxnet这样的框架是炼丹炉,得到的模型即“金丹”。我们不仅仅是在“炼丹”,更是在“问道修仙”,希望早日成就“金丹大道”。

炼丹
炼丹

个人博客地址:重走机器学习之路——形而上者谓之道

0%