AI还需要理论么？

为值得而战 · 发表于 2023-7-16 20:32:37

比来，有几个伴侣以分歧的方式跟我表达了同一个意思：过去十年，机器学习理论没有给AI的成长带来任何辅佐，它只是个理论圈自娱自乐的玩具。
这个说法当然存在夸张成分，但是它背后的含义却让人难以辩驳。如果我们把AI顶会过去10年90%以上的机器学习理论论文都删去，恐怕几乎不会影响AI过去10年的成长，也几乎不会影响OpenAI推出ChatGPT。更直白一点说，那些AI大佬们恐怕底子没有时间去阅读机器学习理论论文，因为他们要忙着做真正能够敦促AI前进的事情。
AI还需要理论么？
我认为，并不是AI不需要理论，而是我们之前做理论的方式有问题。
AI理论应该长什么样子？

姚班的学生经常会说，“我不想做工程；我想要做偏理论的研究”。我时常会想，什么是理论，什么是工程？
学生往往是很淳朴的，就像孩子一样。孩子看见了胡子就以为是老子，而学生则认为必然要有数学符号才是理论。这个想法本来无可厚非，但是在AI顶会内卷的今天，几乎每篇论文城市绞尽脑汁地加一点装饰性的数学公式，所以光靠数学符号来做分类，效果就不太好了。
所以进一步的，恐怕理论论文里面不光要有数学符号，还得要有定理和证明。除此之外，最好还有假设，断言，引理，推论。当然，免不了还要有 \eta, \lambda, \epsilon,\delta 等十种希腊符号加上一整页以上的推导。这些推导可以是优化方面的导数分析，也可以是泛化方面的Rademacher复杂度求界，如果都有的话那就是一盘色香味俱全的菜——很丰满了。
做完上述法式，可以说已经登堂入室，距离一篇顶会论文也只有一步之遥。还差什么呢？还差论文的立意和创新点。数学中可以证明的东西很多，倘若没有和机器学习算法成立起实际联系，那确实还不能算上乘之作。所以，理论论文的画龙点睛之笔，就是和机器学习的现象构建起联系。
这看似画龙点睛的联系，却成了理论论文被人诟病的根源。原因很简单，让理论和实际构建起联系，最后得到的结论大多成了对现象的解释，而很少能对未来有本色性的预测或指引。当然，我们不能说所有的机器学习理论论文都无法导出新的算法；但是实际上绝大部门的重要AI算法都是实践派所得，不属于理论学家的贡献。
话说回来，这样的斗劲也许并不公平：对于一个AI科学家，他提出一个新的算法只需要做一些尝试有效果就可以了；而理论学家的负担更重，在尝试有效果的同时，他还需要有相应的理论证明。这就相当于栓着铁球和别人赛跑，难度增加了不少。因此，理论学家追着AI大佬追得很辛苦，对AI大佬提出的新概念如数家珍；但是AI大佬却可以对理论工作视而不见，直接摆摆手说，那些东西我不太了解。
看到这里，很多伴侣可能会说，机器学习理论不就是这样的么？理论论文不这么写，还能怎么写？
登山与铺路

在机器学习理论圈待过几年之后，就会发现理论并没有想象中那么神圣。像Knuth大神当年写的Toilet paper一样，只要一个人愿意，他总是可以写出非常复杂的让人望而生畏的证明，虽然这些证明未必有太多实际价值和意义。（我对Knuth大神的Toilet paper不了解，可能他这篇论文是个例外）所以说，纯挚从证明和符号的复杂程度，似乎并不能够用来判定论文的价值。
我认为，世界上的理论大体可以分为两种，登山式理论和铺路式理论。
登山式理论

登山式理论像登山一样，总是充满挑战，让人热血沸腾。这一类理论工作特点是方针清晰，就仿佛珠穆朗玛峰顶一样。当我们站在山底，方针很明确，就是要想方设法、不惜一切爬到山顶。不外，到山顶的路有千万条，我们只需要找到一条最合适的路就可以了。虽然说，我们迈出的每一步都是数学推导，但是当山峰很高很陡的时候，我们也很难快速地找到一条可行之路。这个时候，有两类东西是斗劲常用的：

制定例划。登山之路过于漫长，我们可以找到几个重要的节点，把登山之路拆分成几个分歧的阶段，每次措置此中的一个阶段。这样，把一个复杂的问题拆分成很多简单的问题，往往就会容易很多。
加假设。一旦制定了明确的登顶方针，理论分析的难度就容易受到影响。很多处所不是靠制定例划就可以解决的，有的法式你不得不用一些东西，比如绳索、直升机、木板等等才能过去。这样的东西在机器学习理论圈就是加假设。比如，我们可以假设输入x从命高斯分布，可以假设方针函数是光滑的，lipschitz的等等。

在很多机器学习理论的论文中，假设的拔取是核心艺术。如果假设太强了，比如我们使用了传送器直接传到了山顶，那么整个登山路线显得索然无味。如果假设太弱了，比如我们连绳索都不准用，那么就会发现爬来爬去爬不到山顶。问题是，这些用于登顶的假设，在实际中往往是不完全成立的；或者说，就算成立，可能也只覆盖了一个很小的部门，不能够真正用于解释和分析实际的AI算法。
举个例子，我们不雅察看到了LayerNorm在实际算法中效果很好，于是我们决定把LN的分析当做我们的山顶去攀登。可是，实际的数据分布到底长什么样子？我们可能不得不假设数据从命高斯分布。损掉函数满足什么性质？我们可能需要假设它是光滑的。网络布局是什么样子？我们可能需要假设它是一个两层或者三层的网络，因为网络层数一多阐倡议来就非常困难。优化算法的步长是多少？我们可能需要假设它非常小，这样优化的过程在一个小小的邻域中才便于分析。这些假设就像是登山运带动的东西包里形形色色的东西，要清晰理解它们的用途并不容易，把它们组合起来完成登顶的任务更是一种壮举。但是，真实的训练过程往往和这些假设有必然差距：机器学习理论工作所攀登的山峰，更像是作者精心设计的抱负山峰，而不是AI科学家日常真正遇到的那些。
过去十年，AI范围蓬勃成长，各种概念层出不穷。理论学家为了理解一个概念或算法，制定了很高的登山方针；但是限于东西的能力，又不得不加上各种假设助力登顶。最后，很多结论背道而驰，得不到理论圈外部的承认，我认为这和登山式理论的研究范式是脱不开关系的。
铺路式理论

如果说登山式理论方针明确，一切都是围绕登顶；那铺路式理论则更加佛系，完全是好奇心驱动。我把它叫做“铺路式”，可能会有一些歧义：听起来这样的理论仍然有方针要完成，毕竟铺路也是一项工程。我想澄清的是，使用“铺路”这个词，我更想强调它是从某个点出发，向四周蔓延，是一种自然而然的过程。如果我们看到了一个小池塘，就修一条到小池塘的路；如果我们看到了一个小山坡，就修一条绕开它的路。总之，修路的方针就是以修路的方式对这个世界进行四处探索，忠实地、不加假设或点缀地去理解世界。这样的路一开始修得很慢，但是会越来越快，因为在数学的世界里，一切已有的结论都可以成为未来结论的基础；这样的路也修得很扎实，因为从头至尾都在描述世界的真实，所以修一步算一步——只要人们对这个世界有兴趣，就会想要来看看已经修好的路。
有很大都学大师有过类似的不雅概念，我不外是吠影吠声，换了个比方。例如，

柯西：在纯数学的范围里，似乎没有实际的物理现象来印证，也没有自然界的事物可说明，但那是数学家遥遥望见的应许之地。理论数学家不是一个发现者，而是这个应许之地的报导者。
格罗滕迪克：人们永远不应该试图证明那些并非几乎显而易见的事情。
格罗滕迪克：我脑海中浮现出的类比就像是把坚果浸入某种软化液体中。你会不时地擦拭，以便液体更好地渗透进去，其他时候则是让时间流逝。颠末数周甚至数月，外壳变得更加灵活，当时间成熟时，手的力量就足够了，壳就像完美熟透的牛油果一样打开！几周前，我有了另一个形象。未知的事物在我看来就像是一片地皮或者坚硬的白垩，抵当着渗透……海水无声无息地缓缓推进，似乎没有什么发生，没有任何东西移动，水太远了，你几乎听不见它的声音……但最终，它包抄了阿谁抵当的物质。

小平邦彦讲的故事则更加引人入胜：

此刻数学的研究对象一般都非常抽象，实例也十分抽象，让人难以理解。所以依靠具体事实归纳来猜想定理的方式，在大大都情况下已经难以适用。目前的情况下，关于发现新定理的思考尝试方式，我本人也是不得而知。如果将精力都花费在思索新的思考方式上，恐怕难有所得。实际上很多时候无论如何思考都得不到相应的成果。这样看的话，是否可以说数学研究是一份极其困难的工作呢？不外这倒也未必。有时候感觉本身什么也没做，那些该当思考的事情却很自然地呈此刻眼前，研究工作也得以顺利推进。
夏目漱石在《梦十夜》中对运庆（注：日本镰仓时代的高僧，雕镂技艺十分精湛）雕镂金刚手菩萨像的描述，充实表示了这种感到感染。这部门内容引用如下：
运庆在金刚手菩萨的粗眉上端一寸处横向凿刻，手中的凿刀忽而竖立，转而自上而下凿去。凿刀被敲入坚硬的木头中，厚厚的木屑应声飞落，再仔细一看，金刚手菩萨怒意盈盈的鼻翼轮廓已清晰呈现。运庆的运刀方式无拘无束，雕琢过程中丝毫没有任何迟疑。
“他的手法真如行云流水，凿刀所到之处，居然都自然地雕琢出了内心所想的眉毛、鼻子样子。”我感慨至极，不禁自言自语道。
成果，方才那位年轻男子回应道：
“什么呀，那可不是凿刻出的眉毛、鼻子，而是眉毛、鼻子本来就埋藏在木头中，他只是用锤子、凿子将其呈现出来。就像从泥土中挖出石头一样，当然不会呈现偏差。”
在这种时刻，我常常感到世间没有比数学更容易的学科了。如果遇到一些学生在踌躇将来是否从事数学方面的工作，我就会想建议他们“必然要选数学，因为再没有比数学更容易的学科了”。

这些故事自然有趣，但是如果没有亲身体验，恐怕云里雾里，不知所云。我想，铺路式科研最重要的一点就是它没有预设的方针，不会为了某个方针而强行插手假设；它更在意研究对象的真实性质，以泛泛心忠实地记录。现代的纯数研究，大多都是遵从这一思想向前推进的。
工程式理论与理论式工程

理解了登山式理论和铺路式理论，就很难不察觉到这两者的区别。我认为，登山式理论是一种“披着理论外衣的工程”。虽然整个论文充满了复杂的数学符号，但是它的推进方针是预先给定的，而在推进的过程中，阐扬了工程师“逢山开路,遇河搭桥”的特长，引入各种假设与东西，把最后的方针解决。而铺路式理论，则是一种“真实的理论”，因为它更在意研究的方针世界的性质，而把解决问题的但愿寄托在对方针世界更深刻的理解基础之上。因此，我姑且把登山式理论称为“工程式理论”。
既然有工程式理论，自然有理论式工程。理论式工程，顾名思义，就是“披着工程外衣的理论”。它虽然整个过程中都没有使用数学符号，但是它没有明确的工程方针，是以“铺路”的方式敦促工程的进展，更强调一个问题“应该”如何解决，而不是一个问题“要”如何解决。
我认为，此刻AI范围所采纳的研究方式，其实是一种典型的理论式工程。这个判断有几个支撑：

Pytorch/Tensorflow作为AI底层框架，把所有的函数都模块化，做越来越高层次的封装，使得使用网络模型变得越来越简单。这些封装本身并没有辅佐人们解决某个具体问题；但是长远来看，封装可以节约人们的时间，把本来用来写代码的精力用于解决更重要的问题上。这其实就是一种铺路的过程，就仿佛在数学范围，从最简单的基本公理开始，得到越来越强大的理论东西，可以用来解决越来越难的问题。
过去十年，人们提出了各种各样的算法，很多算法通过一些工程上的trick能够一时霸榜，但最后能真正留下来的往往是简洁优雅的极少数。这似乎已经成为了AI算法设计的一种哲学：少便是多。算法的成功依靠的是对网络布局和数据的理解，而不是工程上的技巧。
在预训练模型范围，像SimCLR, GPT, CLIP等算法的设计理念，均推崇从第一性道理出发、大道至简。实际上，在已有的Pytorch/Tensorflow平台提供的高层次封装基础之上，给定高质量的数据，这些算法往往只需要至多几百行代码就可以实现。因此，它们更像是哲学意义上的水到渠成，而不是工程意义上的翻山越岭、披荆斩棘。

所以，AI范围的实践之路走得非常扎实稳健，反而是机器学习理论圈努力了十年，却没有形成太多真正安靖的、让人信服的理论基础。我想，这就是理论式工程和工程式理论的最大区别。
最后回到标题问题。既然AI成长得这么好，那它还需要（非工程式的）理论么？我认为它必然还是需要的，只是我们应该反省之前做理论的方式，摒弃登山式/工程式理论的研究范式，探究真正能够描绘、刻画人工智能的新理论。

cn#aGkGGaGfBG · 发表于 2023-7-16 20:33:13

对于ml theory，最近几年有铺路式理论的例子不[潜水]

rise · 发表于 2023-7-16 20:33:46

半夜偶然刷知乎居然没想到看到老师的感慨哈哈。老师写的真好，因为之前对理论接触的比较少所以很多例子都没怎么听说过，但都很有意思。就我而言，其实让我来比喻，我更愿意把理论，或者计算机/AI理论比喻成建造城邦。从目标定要盖一个小房子的登山式到通过各种结构的小房子经过组合推理铺路式研究达成华丽的建筑。在我的理解中，登山这种工程性研究和应数更像，而铺路式其实更像大多纯数（虽然很多纯数也是为了证明xx猜想，说白了也是登山）。像我学数学的途中，就是单纯的构建自己的思维体系，把新学的内容彻底融入之前的思维中，所以学习阶段可能较为费时但是输出阶段引起的都是链式反应。所以我认为铺路式和我学习的过程非常像，可这单纯是学习而非研究。在你学到很多建筑蓝图后，你心里也许会有很多大型建筑的尝试，可是那么多的大型建筑，并不是所有都具有实际价值（至少现阶段你不知道有什么用）。比如一个大型教堂和一个发电站。在中世纪大家会觉得教堂比后者有用的多，因为他们并不知道发电站有什么用处，可就现在我们所知实际价值而言，显然后者更有用。按之前搭建小镇的例子就是，每个建筑都最好要明确其价值和意义，才能共同运转成为一个真正的城邦乃至文明。用登山来说，我觉得理论研究就像一个被迷雾遮盖的山，你永远不知道最高处是什么，有多少个山峰，你能看到的是仅凭你的经验，你的能力（科研嗅觉）去看到近处似乎有价值建立营地和标记的山峰，然后通过攻克各个子峰去继续拨云见雾。你永远不知道山顶是什么，甚至你不知道是否有山顶，但是你在一步步扩充自己的认知，从火，到电，再到各种电器，你就会知道发电厂原来这么有用，可是发电厂是你的山顶么？并不是，他只是一个子峰的延伸，是你通过登山加铺路得到的新的认知，是一个小的质变。然后你就会看到名为火力发电周围还有风力发电，水力发电…乃至核电站…所以我认为任何事情一定要有一些短期的事野目标，作为你的子峰攀登，探讨更高的山峰再由铺路完成，因为阶段性跨越只能通过之前各种子峰经验，不断试错，以及新的方法去实现，比如从手爬到绳索。anyway，我认为理论研究一定要基于实际应用，至少你要知道你研究出来的东西有什么价值。比如你研究出来一个发电站那你就要知道发电站为何有用，你要先解释电的作用，否则如何让中世纪的人们意识到其重要性，甚至你自己可能也不知道，那么这个发电站要么被你忽略，要么没什么意义。所有的东西一定都是基于现实再去升华，包括各种猜想为什么这么重要，因为他们大多都有重要实际价值。单纯的符号串联是没有任何意义的，简单的直接应用往往说服力也稍显遗憾。比如你铺了一条从河流到城镇的路，而你只说了这条路可以连接两个地方，这是毫无价值的。但是你说明这条路可以让居民更好的去接水，甚至可以直接引水，那么这就是一个伟大的东西，也许你最初只是想研究水泥有什么用，修路有什么意义，桥怎么搭，用什么方法，登上这些认知的山峰，你才会去修成一条通往罗马的路。所以研究一定是登山+铺路，一个引导肉体一个引导灵魂，也许最后便可登云揽星～

萌面小怪瘦 · 发表于 2023-7-16 20:34:34

我觉得问题还是出在研究的目的上。实践领域的研究，即使是所谓的“理论式工程”，其成效和收益也是立竿见影的，有收益就能活下去甚至赚大钱，是两全其美的事情，何乐而不为呢？而做理论研究的人，要吃饱饭不得不做所谓的“登山式理论”研究，或者是工程式地研究。像纯数那样做铺路式研究当然可以，但这样有可能很长时间甚至一辈子都出不了成果。大家都羡慕张益唐的心态，希望能多几个这样的天才，但扪心自问一下，设身处地的情况下，又有几个人能肯定自己可以撑得下去呢？

潇洒小帅 · 发表于 2023-7-16 20:35:31

理论本天成，妙手偶得之[耶]

tara蓝45 · 发表于 2023-7-16 20:36:11

对对对，只要吃第六个馒头就饱了

潭口西锤卵蛋子 · 发表于 2023-7-16 20:36:22

老师写的真好！[赞同][赞同][赞同]

临时升降号 · 发表于 2023-7-16 20:37:07

理论一般需要长期实践的积累，才有可能提出（规律性的）问题，然后才有证明。看看那些做历史、哲学基础研究的学者，要读万卷书、行万里路（看现实），才能真正进入或理解所谓的理论层面，尝试提出问题。个人认为，目前自然科学的理论研究过于急功近利了，因为上个世纪理论物理变现了原子弹，生物学科的研究范式更是带坏了整个自然科学的研究。数学会有年少的天才，但如果每个数学博士都发表文章了，就是笑话和悲哀，数学界和那些博士的。

camille儿 · 发表于 2023-7-16 20:37:28

如果是优化的话，（个人觉得）edge of stability算是一种铺路式的（没有公式推导的）理论

良家企鹅皿 · 发表于 2023-7-16 20:38:27

就想问问4年过去了，中医AI怎么样了？

		自动登录	找回密码
密码			立即注册