新华财经北京12月29日电 2022年11月底ChatGPT-3.5版本上线后,AI发展进入全新纪元。越来越多的资源投入多模态大模型的开发之中,百行千业将面临AI带来的全面冲击与变革,而AI本身的演化也在过去的一年,以日新月异的速度让人目不暇接。

  目前多模态AI可以阅读文本、图片、视频,与人类无障碍交流;可以根据图片内容提供设备故障维修建议;可以解读冷笑话的笑点;新一代敏捷机器人可以手握鸡蛋翻转跳跃。人工智能迅速破圈,不仅让众多职场人感到了“失业危机”,甚至程序员也深感“将来替代你的不是AI,而是会使用AI的人”。

  被理解与被超越,“能力恐慌”之外,AI还带来了“生存恐慌”。OpenAI创始人之一兼首席科学家Ilya、Grok和SpaceX的老板马斯克以及众多AI领域顶级科学家都认为,AI发展强大后可能会威胁人类的生存。目前四大头部平台ChatGPT、Bard、Claude和Grok发展迅猛并竞争激烈。国内四大通用平台豆包、文心一言、通义千问和腾讯混元的性能也逐渐追了上来。

  Gemini Ultra 和GPT-4 Turbo的多模态融合更为强大

  谷歌CEO Pichai认为,目前正在进行的AI变革,其影响程度将远远超过移动互联网或者更早的互联网。根据谷歌官方报告披露,Bard支持模型升级为Gemini,其采用了全新的底层架构,相较于ChatGPT采用的通用型Transformer架构,Gemini基于多模态数据处理搭建了全新的架构,这意味着它是AI多模态大模型的原生架构,可以更好地理解、操作与结合不同类型的信息,包括文本、代码、音频、图像和视频。从技术指标上来看,Gemini在绝大多数领域的表现均优于GPT-4;从实际使用感受上来看,Bard在多数情景下的交互结果确实更加优秀。

  Gemini开创了AI多模态原生的概念。在此之前,正如OpenAI的报告中提到的,Transformer是一个便于扩大规模的模块,能够用于生成大型数据训练模型。因此同类模型,大多需要训练不同模态的单独组件,然后将它们组合在一起,大致模仿多模态下的AI的某些功能。因此,这些非多模态原生的模型在某些任务方面(单一模态,比如文字)表现良好,但在综合概念性和复杂的多模态推理上则难以应对。补充一点,Transformer也是谷歌团队率先研发的神经网络模型。目前谷歌迎头赶上,有可能会促使GPT-5更快面向公众开放。

  AI编程能力不断提高,开发者增值业务不断被颠覆。从OpenAI开发者大会之后的初创公司反馈来看,大量基于大模型的API进行低代码量开发的应用,基本被淘汰掉了。毕竟通过自然语言提需求,程序就已经写好了。通过AI赋能降低传统IT公司代码交付成本的业务,很可能在AI一轮一轮的升级过程中逐步退出市场。目前AI可以理解、解释并生成世界上最受欢迎的编程语言(如Python、Java、C++和Go)中的高质量代码,并且具备跨语言工作并理解复杂信息的能力。谷歌在报告中估计,基于Gemini 的代码生成系统 AlphaCode 2,还擅长解决竞争性编程问题,包括涉及复杂数学和理论计算机科学的问题,甚至在编程竞赛中的表现优于 85% 的竞赛参与者,甚至有专家估计AI能达到Top0.2%的水平。

  国内头部互联网平台也纷纷推出多模态大模型底座,迎头追赶先进水平

  受制于AI算力芯片的制约,国内多模态大模型的发展暂时落后于美国。尽管困难重重,2023年我国人工智能领域的成果也依然让人目不暇接。2023年6月16日,我国首个AI框架联合倡议在上海人工智能框架生态峰会上发布,这标志着国内企业和科研机构正在联合突围,打造中国的原生AI底层架构,其重要性堪比AI领域的操作系统。

  12月22日,百度文心一言、腾讯混元大模型、阿里云通义千问、360智脑四款国产大模型首批通过官方评测,通用性、智能性等维度达到国家相关标准。“大模型标准符合性评测”由工信部中国电子技术标准化研究院发起,为国内首个官方评测标准。从底层架构出发,以客观标准为引,我国大模型已经涵盖文本、语音、图像、视觉等多模态领域,并围绕通用性、智能性、安全性等维度立体展开。

  豆包是基于字节跳动的云雀模型开发的人工智能,底层也是基于Transformer结构的语言模型。豆包具有良好的访问便利性,是一款免费向公众开放,且整合了文本、图片和拓展功能的AI工具。通过官方评测的首批大模型中,阿里云通义千问是唯一的开源模型,其性能表现及安全性得到了大范围的公开检验。12月1日开源后,通义千问在海外权威排行榜HuggingFace上,超越Meta公司的开源大模型Llama2问鼎榜首,成为业界公认的性能强大的开源大模型。

  百度文心一言是中国市场第一个公开发布的ChatGPT竞品,其基础模型目前已经迭代到文心大模型4.0版本。腾讯混元大模型在商业模式上进行了探索,面向B端发布了一系列行业基础大模型,客户只要加入自己的场景数据,就可以生成契合自身业务需要的专属模型,目前涵盖了金融、政府、文旅、传媒、教育等。“360智脑”在安全方面具有优势,原生安全是其特色。

  在颠覆中被“颠覆”,AI商业变现三条路径

  人工智能版本迭代太快,各路商业私服也在“需求爆满”和“门可罗雀”的跌宕起伏中度过了漫长的2023年。我们梳理了三条主要赛道,以帮助对未来的AI商业赋能路径有更清晰的认识,它们是语言模型外围应用、图像视频生成和多媒体内容造假。关于最后一条赛道,尽管充满了法律和伦理道德的风险和争议,然而却是技术和市场关注的重点之一。我国对电信诈骗的打击取得了卓有成效的战果,然而AI对于光影、音频和面部细节的仿真已经到了专业人员难分真假的地步,这对于整个社会体系的正常运转都会是一项巨大的挑战,值得警惕。

  回顾2023年波澜壮阔的AI创业大潮。首先,围绕GPT做AI插件的公司估值大涨,本质就是在大模型的加持下,拓展应用范围和进行本地化的部署,并打包成具有市场价值的软件产品。其中比较核心的技术就是向量数据库和与之相关的检索AI增强。各种企业内部大量非结构化数据资产如何利用和盘活一直是个行业难题,在LLM大模型的聚合框架下,可以为非结构化数据创建和索引向量字段,并构建支持快速近似最近邻查询的向量索引,为这些数据提供了先进的语义搜索和检索增强功能。在AI的加持下,经过一定量的开发工作,可以为用户构架本地向量数据库,盘活非结构化数据,并对用户内部查询结果进行预处理,并提供更精确和高效的搜索结果。

  检索增强(RAG)技术解决了GPT针对特定领域知识库不全的问题。在大模型进行商业化本地部署的时候,弥合大模型的常识与客户背景知识之间的差距非常重要,RAG因此被视为对向量数据库的重要突破。客户的需求如果是一道考题,AI就是能力超强的学生,RAG的部署将原本的闭卷考试变成了开卷考试。类似的商业场景包括,语义搜索、问题回答、商品推荐,甚至无需直接提供私有数据给大模型,就可以被AI赋能。

  其次,商业插画、PPT设计和图像转视频等领域。AI绘画无论在画质还是对细节的把控上都已经逼近或者超越了人类的极限。Midjourney、Stable Diffusion和DALL·E在升级优化中,各项能力你追我赶。作为免费开源和插件众多的Stable Diffusion,是创业公司打造爆款应用的首选。2023年爆火的“妙鸭相机”就是基于证件照底板参数,用户进行微调打造属于用户个性化最美证件照的APP,一度引发众多用户排队支付9.9元生成美美的证件照。

  最后,造假。目前的专业化AI工具,可以根据少量音频、视频和照片的学习,生成以假乱真的声音、图片和视频,甚至可以调整仿真人物的面部表情和嘴型,来达到匹配语音的程度。当前充斥网络的名人搞笑视频,大多都是使用这种技术制作的。比如:So-vits可以根据某个人的音频资料生成专属模型来模仿这个人的声音,2023年爆火的孙燕姿AI翻唱各种歌曲就是用它做的。Sad-talker可以将一张人物照片和某段音频进行匹配,让人物开口说话。Video-retalking可以将一段人物说话的视频与指定的音频进行匹配,改变原视频的讲话内容,合成效果更自然。HeyGen整合了各种造假技术,更容易生成一段虚假视频。这些骗人的技术确实会给社会带来危害,但是用在合法合规的影视和广告领域,也许会开创一片商业蓝海。

  在颠覆中被颠覆,核心数据和数据更新能力才是王道。年初估值飙升的向量数据库公司和检索增强企业,在OpenAI公司推出GPT内置向量数据库和内置检索增加插件之后,GPT Agents和GPTS直接将GPT生态圈的估值全面归零。市场就是这么残酷,不是你不明白,而是AI升级太快。在可以预期的GPT-5和Gemini的后续版本中,AI已经升级为超级智能体,一旦某条商业路径被初创公司走通,经过AI迭代模仿的升级版马上就会出现。展望未来,纯技术之路的商业价值保质期将越来越短,而技术与原生数据、知识库和专利库相结合的细分领域优质项目将会体现出更强大的生命力。