人与AI,参差不齐的协作边界_人与人的参差怎么读

deer332025-02-18技术文章52

楔子

在上篇博文《码农忧心忡忡,听说我最容易被取代?》 开头,我提供了如下图表来直观展示AI对于不同岗位技能可覆盖的比例,但我没有特意说明的一点是:这张图表是GPT-4生成的(因为CodeInterpreter环境不支持中文,为避免乱码,使用了英文标注),我的贡献是指示AI绘图,而不是直接操作excel或python绘图库。从结果来看,AI相当擅长数据分析和可视化的工作,如果把数据分析师岗位加入领英的调研报告,我估计可被AI替代的技能比例与下图中排名第一的软件工程师差相仿佛。

具体来说,为了更直观友好的可视化效果,我做了如下几项工作:

  1. 从报告中截取原始数据表,然后指示AI:“请将以下内容整理为一个markdown表格”;
  2. 校对 AI 输出的Markdown内容,然后指示 AI:“请根据表格中两列百分比数据做成一个专业的图表——百分比堆叠柱状图,横轴为职业,纵轴为百分比,每根柱子由每个职业的两个百分比数据构成,左边是最容易被AI替代的职业,右边是最不容易被替代的职业,图表使用英文标识” ;
  3. 进一步指示 AI 修改完善图表展示形式,比如“图表中柱子的下半截百分比使用偏黄颜色,上半截百分比使用偏绿颜色,请使用适合商业图表的专业和谐的配色方案,在适当位置标注出百分比数据”,以及“仅标注图表中柱子下半截的百分比数字,上半截柱子不标注百分比,颜色调整的更商务更和谐一些”,等等;

值得一提的是,这个交互过程相当自然,我没有打开Excel操作任何一行数据,更没有敲一个代码,而是像面对一个同事一样提出我的意见。如果你没有深刻体会过“前ChatGPT时代”的AI智障程序,你很可能都意识不到ChatGPT带来的巨大进步。比如说,我在对话中使用了一系列模糊含混的指称——“表格中的两列百分比数据……左边……右边……柱子的上半截……更商务的颜色……”,这作为以往的程序输入是不可想象的,也许花大力气训练一个特定场景的专用AI模型都未必管用。但现在我就这么干了,而GPT-4 理解执行的很好。

OpenAI公司CEO山姆奥特曼说:“五年前,所有人都认为AI会按照以下顺序改变世界: 首先是蓝领工作, 此次是简单的白领工作, 然后是复杂认知的工作, 最后是创意类的工作。 但现在,AI正在以完全相反的方式运行。” 是的,我们在预测未来方面一向没有信誉可言,就算到了现在,我们是否已经有足够信心说,我们已经弄清楚了哪些事AI干不了,哪些事AI干得好?换句话说,我们与AI结合的“甜蜜”边界在哪里?

哈佛报告:AI对知识工作者的影响分析

在上篇博文中,我提到一个由哈佛商学院、沃顿商学院、麻省理工以及波士顿咨询这几家知名机构联合发布的论文:《在参差不齐的技术前沿航行》,针对AI对知识工作者的生产效率和质量影响做了一个实验分析。我看互联网上的相关报道全部只写了一个吸引眼球的结论:“人工智能让知识工作者效率提高 25.1%,质量提高 40%”—— 估计小编只读了全篇报告的概述部分,甚至连概述都没有细读,因为这个结论是有限定条件的,但网上流传的文章里根本没提到这一点。

我觉得,这个报告基于咨询顾问这类高级白领的真实工作场景,做了较大规模的AI辅助提效的对比实验,与当前网上满天飞的大咖意见、个人心得体会相比,采取的是更科学的研究方法,值得展开深入解读一下内容:

实验设计

  1. 实验对象:受试者来自波士顿咨询集团(BCG)的战略顾问团队的758名咨询顾问,可想而知,他们是高端知识工作者的代表。实验采用注册报名制,组织者还设计了奖励措施,以鼓励受试者认真参与实验。
  2. 实验分组:受试者通过随机的方式分配到以下三组。
  • 控制组:这个组不使用AI支持,作为对照组;“GPT Only”组:这个组使用基于GPT-4的AI工具完成工作;“GPT + Overview”组:对这个组提供GPT-4工具以及提示工程概述说明,以帮助他们更好的使用AI工具;
  1. 实验任务分为两类,一类是AI能力边界内的简单任务,一类是AI能力边界外的综合任务。每类任务均包含一个评估任务以及一个实验主任务。
  • AI能力边界内任务:评估任务:提供新饮料产品的多个创意等5个问题;主任务:为细分市场人群提供新鞋设计创意等18个问题,涵盖创意、分析、写作、说服4个能力范畴;AI能力边界外任务:评估任务:为CEO准备一份报告,建议选择哪种分销渠道以推动公司的利润增长;主任务:根据提供的访谈记录和财务数据,找出哪个品牌具有最大的增长潜力,并向CEO提供建议;
  1. 实验步骤
  • 受试者首先需要完成一个评估任务,该任务与实验主任务相似,用于评估受试者的能力水平(平均水平之上或之下);随后,受试者被随机分配到三个实验组中的一个:控制组、"GPT Only"组和"GPT + Overview"组;受试者根据分配的组别进行相应的实验任务,使用或不使用AI工具完成任务;受试者的每个答复都通过两名人类评估员进行质量评分,并取平均值作为最终结果;

实验结果

  1. 针对AI能力边界内任务:
  • 使用AI的受试者提供的答复的平均质量得分为5.74,相比于控制组质量得分均值4.1提升了1.66,增长了40%。其中,“GPT + Overview”组相比于控制组提高了1.75,增长了42.5%;“GPT Only”组分数增加了1.56,相当于38%的增长;
  • 无论受试者技能水平如何,都受益于AI提升了输出的答复质量;相比之下,低水平的受试者得益更多,跟高水平受试者的差距从43%下降到17%;
  • 控制组完成前17个问题的平均时间为5023秒,而 AI 组平均耗时3767秒(提升25%)。其中“GPT + Overview”组平均耗时减少了1129秒(比对照组快了18.8分钟或22.5%),而“GPT Only”组减少了1388秒(比对照组快了23.13分钟或27.63%);
  • 基于对受试者对问题答复的相似性分析,虽然使用AI的实验对象生成了更高质量的创意,但这些创意更为同质化(回答相似性从高到低: GPT Only组 > GPT + Overview组 > 控制组);
  1. 针对AI能力边界外任务:
  • 此项任务的主要评估指标是“正确性”,对照组的正确率为84.5%,而 AI 组平均下降了19 pct;其中“GPT + Overview”组正确率降低到60%,降低了24.5 pct,“GPT Only”组正确率为70.6%,相比控制组降低了13.9 pct;
  • 无论最终答案正确与否,AI 组受试者提供的答复的质量都上升了,其中“GPT + Overview”组得分增加了1.47分(相对于对照组平均值上升了25.1%),而“GPT Only”组得分增加了1.05分(相对于对照组平均值上升了17.9%);
  1. AI 生成内容的保留率

大多数 AI 组的受试者在提交的答案中保留了非常高比例的AI生成内容(平均保留率大约为0.87)。

文末附上报告全文,更多细节内容,有兴趣可以自行下载阅读。

人与AI,如何融洽无间的结合

人与AI,如何融洽无间的“甜蜜”结合,以达成最优的效果?

这很大程度上取决于参差不齐的AI能力圈,以及我们是否能清楚认识到这个边界。哈佛的研究报告告诉我们,在AI的能力边界内,所有人都会从AI受益,而且相对低水平的人从AI受益更多,所以要更加勇敢的拥抱AI。但是研究结论的另一面却鲜少被媒体报道:

  1. 对于涉及复杂信息和综合分析的工作,引入AI可能会降低决策正确率;
  2. 虽然AI通常会提升人们在创意工作中的输出质量,与此同时却可能降低创意多样性;
  3. 在工作中引入AI 可能让人产生依赖行为,让部分人放弃独立的判断力;

哈佛报告中还提及了两种不同的人与AI协同模式,一种是人马模式(将工作拆分为子任务,根据人与AI各自的优势分派不同的任务),另一种是半机械人模式(在所有任务流程中交替使用人和AI,以细粒度协同的方式输出内容)。你倾向的协同模式是哪一种呢?

我们每个人都曾幻想过借助高科技手段变成一个更强大的自己,比如拥有一个巨大可操控的高达机器人,或者是像机械战警那样成为超人,但相比人类身体结构的机械改造,人与AI的结合更为隐秘而微妙。就像文字和书籍改变了人类文明传承的方式,手机和互联网改变了人们获取知识的方式,我相信AI也将改变我们运用知识的方式。

也许是时候超越“是否要在工作和组织中引入AI”的问题了,我们更应该询问的是“如何与AI协同创造最大价值”,后一个问题更导向实践,也更加有意义。