由正则表达式所引发的

由正则表达式所引发的

2017年的时候,我记录了一篇博客,叫做浅谈正则表达式,转眼间,六载光阴一晃而过,生成式人工智能已经如火如荼。我记得那时候我还在实验室搬着计算机视觉相关的砖,广州的春天不算寒冷,因为闷热已经触手可及。兴许我那会儿需要采集一些数据,因而需要使用爬虫技术,在爬取信息的过程中,则要用正则表达式来更为精确地匹配到需要的信息。正则表达式相当于一门字符匹配类的编程语言,它的可读性相比其他的通用编程语言是差很多的,因此,写正则表达式并不是一件那么友好的事,因为它强制你在它定义的有限语义下编程,虽然那时候也有很多工具来帮助你可视化字符匹配的过程。

2023年初的时候,ChatGPT开始流行,越来越多的人开始接触并使用AIGC(生成式人工智能),如今,你只需要向ChatGPT提问,它就会告诉你它所知道的答案,那些由过去四五十年积累的互联网语料,通过成千上万的GPU日夜辛勤审阅,一层又一层,成千又上万遍,在概率论的时空背景下一一被安排得明明白白的答案,效果是真的惊人。比如,我问ChatGPT如何用正则表达式在下面这段话中找出字母a和字母e之间的字符

write regular expression to capture all characters between a and e, don't do it greedily: Tall trees stand, their leafy embrace, Witness to a moment, time cannot erase. Warm sun paints the scene with grace, A poem of fall, a tranquil space. ‌

a(.*?)e

上面是它给出的正确答案,加粗的就是被这段正则表达式标记出的字符,核心就是我在浅谈正则表达式里提到的非贪婪匹配。这段正则表达式看似简单,但假设我不是一个经常使用正则表达式的人,那么我一时可能难以想起非贪婪匹配的语法,因此,按照六年前的思路,我可能要搜索一下,假使匹配变得更加复杂,那么我可能需要在不同的网页间切换再总结出一个思路,这就涉及到一个时间成本的问题。

2023年的人类,聪明地给自己和机器之间找了一个翻译员,在这之前,我们需要自己去和机器交互,使用机器能理解的语言来解释自己的需求,如今,ChatGPT相当于翻译员,让那些不懂机器语言的人也能通过自己日常交流的语言来指挥机器实现自己的需求。但我们知道,翻译是有损的,从一种语言翻译到另一种语言多少会损耗一些原始的信息。我们经常说的信达雅,则是翻译的最高境界。一个具有最高翻译水准的翻译员,不仅能够翻译得信达雅,而且还要能够辨别出原始信息里面的表述误差,用这种容错能力将真实的意图翻译出来。在这一点上,ChatGPT是远远不及的。ChatGPT的回复准确性依赖于使用者对自己需求的准确描述,也就是我们说的prompt(提示)。于是,2023年的人类将自己与机器长期以来打交道的工作,转化为了人类与翻译员交互的工作,如何培训这位翻译员成了一个艰难或持久的问题,在这之前,我们需要扮演好人类的角色,学习向翻译员精确地传达自己的意图。这是一种进步吗?当然!

自钻木取火以来,人类在不停地朝着解放生产力的步伐前进,文明与科技的进步往往伴随着将人类的双手转移到更为精密复杂更具创造性的工作上去。在软件工程领域,无数的框架或者库的构建是为了让工程师更好地专注于与需求强相关的形态各异的部分。而ChatGPT则扮演了这个框架的角色,它让你的双手可以更安心地放在那些更复杂、更昂贵、更耗时间的创造上面。

但是,ChatGPT也仅仅是框架。科幻小说《你一生的故事》的作者特德·蒋年初在纽约客上面发表了一篇文章ChatGPT Is a Blurry JPEG of the Web,他将ChatGPT对于互联网语料整合并输出的这种行为比喻为图片的有损压缩,我其实很喜欢他这个比喻,很具科幻浪漫主义气质,但是,我认为他的阐述是不完全正确的。他更多地是站在艺术创作者的角度来评价ChatGPT,而显然的,ChatGPT所展现的创造性不仅是有限的,更是东拼西凑而非博采众长的。就拿它所依赖的图片生成工具DALL·E来说,我至今没有看到过一张自己喜欢的由DALL·E生成的图片,因为所有这些图片的Artificial Intelligence气息都太浓了,当然这和个人的审美有主要的关联。这种互联网压缩的比喻其实很像现在的短视频,通过短视频你是无法深入地了解并学习一门知识的,那些魔鬼般的细节往往又是如此地决定性,从艺术的角度来说,掌握了无数绘画技巧的你和梵高画同一幅画,远远看去差不多,但是,有人会说你和梵高画得一样好吗?但刨除艺术的部分,如果从工程领域的实用主义角度出发,ChatGPT代替的是搜索引擎的角色。原来,你需要一页一页翻找你所查询的知识,如今ChatGPT直接提炼出那些知识点,当然你会说,这不就是一种压缩吗?但事实上,互联网里面无数的网页几乎没有价值或者说充斥着废话,这不正是该被丢弃的部分吗?从这个角度来说,压缩是真压缩,但是不是有损,倒不一定。即使是有损压缩,你依然可以回到纷繁的网页中去佐证它的压缩损耗,而它所带来的便利性,却可以解放你的双手。因而,作为框架的ChatGPT是光明的,但作为AGI(通用人工智能)的ChatGPT却依然虚幻。