21世纪经济报道记者白杨 北京报道
在4月13日召开的2023知乎发现大会上,知乎宣布,已通过联合研发与战略投资的方式与国内顶尖大模型团队面壁智能达成深度合作,双方将共同开发中文大模型产品并推进应用落地。
与此同时,双方共同研发的“知海图AI”中文大模型也正式亮相,并且该模型已经被应用进知乎热榜。知乎创始人、董事长兼CEO周源表示,“热榜摘要”是知乎的首个大模型功能,现已开启内测,它将利用超强的语言理解能力对知乎热榜上的问题回答进行抓取、整理和聚合,并把回答梗概展现给用户。
知乎入局大模型,外界其实早有预料。在今年2月份,ChatGPT的热潮刚刚掀起时,知乎就成为了备受关注的ChatGPT概念公司之一。只不过当时,知乎的回应是,正密切关注ChatGPT代表的前沿技术发展方向,并看好其在内容和产业领域释放的积极价值。
周源在分享中则表示,过去一个月,发生了太多的事情,新技术带来的冲击,让人既兴奋,又感到担心。而他是一个乐观派,认为所有新技术最终都会与人类需求所匹配,服务于人,赋能于人,成为人类能力的扩增。“现在就像人们第一次看到飞机一样,很兴奋,但也担心飞机乱飞怎么办,但结果告诉我们,飞机被部署到飞机场、跑道、空中航线之中,最终实现了为人类服务。”
经过两个月的思考,知乎围绕AI也有了更清晰的定位。周源说,在AI 时代,生产力的三要素分别是应用场景、专有数据和基础模型。其中,知乎以问答为基础的讨论场景是天然的应用场景,而每天不断增长的内容,用户与用户之间、用户和内容之间进行的互动,则构成了独一无二的专有数据。
至于基础模型方面,以GPT为代表的基础模型层在快速发展,性能表现越来越好,成本快速下降。“对知乎而言,我们不仅要夯实在应用层和数据层的优势,同时也要在基础模型层成为新生产力的开发者。”周源表示。而投资面壁智能并与其进行模型共建,是知乎构建基础模型层能力时,选择的一条捷径。
面壁智能是谁?
公开资料显示,面壁智能的核心团队成员均具有知名大学博士和硕士学历,来自国内自然语言处理研究顶尖实验室,在国际国内权威期刊发表论文百余篇,获得十余项专利授权,科研和技术实力处于国内领先水平。早在2020年底,面壁智能就发布了首个中文大语言模型 CPM-1,之后又陆续发布了 CPM-2、CPM-3、CPM-Ant、CPM-Bee等模型。
面壁智能联合创始人、CTO曾国洋出生于1998年,虽然年纪轻轻,但他已有10多年的研发经历,在高二时就已经获得了全国青少年信息学竞赛金牌,并因此保送清华大学。在大二时,曾国洋加入清华NLP实验室从事大语言模型的开发,也是CPM-Ant和CPM-Bee两个模型的主要开发者之一。
曾国洋告诉21世纪经济报道记者,“面壁智能这个团队,其实是国内最早做大模型的团队,整个团队对大模型都有非常强的信心,大家都相信大模型最终是通用人工智能可行的道路,所以面壁智能的最终目标也是通用人工智能。未来发展无论如何,包括做垂直、做合作还是做产品,我们都会围绕通用人工智能这个目标为基准,向前走。”
而知乎选择与面壁智能合作,也是经过一系列评估后,认为面壁智能最新的大语言模型CPM-Bee是其视野范围内能够看到的最好的中文大语言模型之一。不仅如此,在短暂的技术交流过程中,知乎也发现两个团队的产品观跟价值观都非常匹配。事实上,曾国洋与知乎也颇具渊源。此前,曾国洋一直是知乎机器学习领域的优秀答主,并在2018年便与知乎有过学术上的合作。
今年3月份,知乎完成了对面壁智能的天使轮投资,随后双方开始了大语言模型的深度共建。曾国洋表示,在与知乎的合作过程中,面壁智能首先将注意力放在如何训练更强大的中文模型上。“经过一个多月的持续努力,我们在CPM-Bee这个模型的基础上训练了一个新的模型,它拥有更强大的逻辑推理能力和更快的训练推理速度。”
这个模型便是“知海图AI”,据曾国洋介绍,在训练模型的过程中,为了让模型能更好、更快理解知乎的回答,双方团队花了不少时间来调教大模型,比如让它在算法工程师的陪伴下阅读了大量知乎中的优秀回答。
从效果来看,曾国洋表示,他们做了一个测试,即选择41个知乎热门话题,然后将“知海图AI”模型与OpenAI最新的GPT-4进行了一个横向对比。最终,“知海图AI”在6个问题中表现的比GPT-4更好,GPT-4在7个问题中表现的比“知海图AI”更好,而在其他问题上,“知海图AI”与GPT-4打成了平手。
以人为先
对于知乎而言,这波AI浪潮也将引发一场新的革新。知乎CTO李大海向21世纪经济报道记者表示,在知乎的设想中,大语言模型的能力几乎能够帮助知乎将所有的软件系统进行一遍改造。而对社区用户来说,李大海认为他们能看到的变化主要体现在三个部分。
首先是对创作者的赋能。通过给创作者提供各种智能的工具,能够提升他们的创作质量跟创作效率,从而提高生产力;其次是对讨论场的赋能。通过提供像“热榜摘要”这样的产品,能够整体提升讨论场的讨论氛围跟讨论质量;最后则是对信息获取的赋能。利用大模型,可以把知乎的搜索和推荐两个功能变得更聪明,从而让用户在使用搜索推荐时,能够更快、更准找到自己想要的内容。
另外,在谈及AI应用时,周源表示,虽然知乎上线了AI创作辅助功能,但他呼吁所有创作者,要为自己创作的作品来负责,因为社区是以人为先,每个参与其中的人都应该为自己负责。
“我们在今年年初上线AI工具,就是告诉大家,用这样的工具没有问题,因为这是一个大趋势。但是,内容最后的发布键是由创作者来按的,所以对于内容,创作者需要负责。接下来,我们也会去做一些功能,比如让大家能够知道相关内容是用AI的方式生成的,另外对于AI可能产生的一些问题,我们也会尽可能规避掉。”周源说。
除了作为生产力工具外,知乎也开始使用大模型AI技术来对AI产生的劣质内容进行识别。据周源透露,这项工作的进展非常快,它可以帮助知乎在AI时代获得更好的、更强大的社区治理能力。
而谈及国家互联网信息办公室近日发布的《生成式人工智能服务管理办法(征求意见稿)》时,周源认为意义非常重大。“我们只有在控制好虚假信息传播,保护好个人隐私和个人信息,以及所有创作者知识产权的基础上,才能更好创造价值”。
周源表示,大家应该立足于自身的定位来发挥能力,对知乎来说,就是要让AI在知识科普、文化传播、教育培训等方面去发挥真正正向积极的作用。“最近我也特别关注AI如何帮助人获取新知识和新技能,这里面便蕴藏着巨大的价值宝藏。我相信人类社会有机会在AI的帮助下获得更大的进步,从而让更多的人实现自己的梦想。”