手机版欢迎访问伴佳68(www.banjia68.com)网站

当前位置：主页 > 洞察

OECD测评AI能力结果首次发布！PISA之父致信《上海教育》重磅推荐

时间：2023-06-03 21:49|来源：网络|作者：小编|点击：次

　　人工智能的快速发展备受关注，尤其是以ChatGPT为代表的生成性人工智能展现出了超乎想象的能力。在读写和计算两大技能领域，面对不同难度水平的问题，与处于不同精熟度水平的成人相比，人工智能表现如何？当人工智能能比人类更好地完成所有的读写或计算任务时，教育的目标需要做何调整？

　　经合组织（OECD）教育研究与创新中心于2016年发起“人工智能和未来技能”项目，同年启动一项试点研究，首创性地使用“国际成人能力评估计划”（PIAAC）中的成人技能调查工具，来评估人工智能在人类核心技能（读写与计算）领域的能力，并在2021年进行了跟踪测试，追踪评估人工智能的能力如何随时间的推移而发生改变，及其对教育和就业的启示。

　　研究过程中产生了很多珍贵且有意思的数据，2023年3月28日，OECD发布初步的研究成果报告《教育正跟不上技术步伐吗？——AI在阅读与数学领域的进步情况》。据悉，OECD未来将持续监测评估人工智能的能力及由此带来的影响。

　　OECD教育与技能司司长、PISA之父安德烈亚斯•施莱歇尔专门致信《上海教育》杂志，隆重推荐该项研究并撰文阐述原由。《上海教育》杂志邀请专家对相关报告进行解读。

　　当前，那些易于被教授和测试的东西也变得容易数字化和自动化。我们知道如何去训练“二流机器人”—— 擅于重复操作指令的人。然而在这个加速发展和人工智能的时代，我们应该深思人之为人的意义。按照传统，我们通过评估读写和算术技能来衡量教育的成功与否，为此，每隔十年，OECD都会开展“国际成人能力评估计划”（PIAAC），即针对成年人上述技能的测试。从2016年开始，我们让基于AI的计算机接受了该项测试，从中了解和比较人类与机器的表现。结果表明，到2021年，AI已经超过人类在读写和算术方面的平均水平。如果我们将此解读为人类不再需要精通读写和算术，那是错误的，因为那些不懂得算法的人将很快沦为算法的奴隶。事实上，我们需要更加审慎地反思作为人类，我们该如何适应和利用AI的发展，而不是取代它。

　　AI在阅读和数学上的快速进步，带给我们的启示是：教育不再是把知识“喂”给学生，而是帮助他们发展可靠的掌控能力和相应的技能，可以自信地在这个日益复杂、变化和不确定的世界上掌舵航行。今天教育的成功在于建立好奇心——打开思路、同理心——敞开心扉、勇气——调动我们的认知、社会和情感资源去采取行动。这些也是我们面对这个时代最大的威胁，即无知——闭塞的头脑、仇恨——封闭的心灵和恐惧——自主性的敌人的时候的最佳武器。

　　学校里的传统做法往往是把一个问题切割成可以驾驭的小部分，然后训练学生逐一地解决。但是现代社会创造价值的方式是把不同领域的知识融合、把看上去不相关的想法连接，从中产生创新。

　　在过去，学校是技术孤岛，技术仅限于用来支持和保障已有举措，学生们在学习技术以后，能力往往已经超越学校教育的范围。因此，现在学校需要挖掘技术的潜力来把学习从传统中解放出来，利用知识、创新、合作等新的和更有力的方式联结学习者。

　　回看过去，我们发现的是割裂：教师和所教内容被学科割裂、学生被期望的所选专业割裂；学校设计成把学生关在象牙塔中，和外部世界相割裂，学校和家庭、学校和学校之间相割裂；未来需要融合：强调学科之间的内在联系以及学生之间的互动合作。

　　在当今的学校，典型的形态是学生自顾自地学习，到了学期结束的时候，我们宣布他们的个人成绩。但是随着世界变得越来越互相联系，我们需要越来越多的协调和协作。学校应该帮助学生对现代世界的多极性建立起自动的思维方式和身份认同。无论是在工作、家里还是社会，人们需要对其他人的生活和思考方式、不同的文化和传统建立广泛的认知，无论是从科学严谨的角度，还是从人文关怀的角度。当然，这一切不会自己到来。而人类生来就有彼此联结的倾向，对家庭和其他拥有共同经历、目标和追求的人存在归属感。不过这需要教育领域有意和持续的努力，创造联结的纽带，提供分享经历、想法和创新的土壤，以增进人类彼此之间的信任。

　　人工智能（AI）最近几年来持续的快速进步，正引领一场大规模而快速的技术变革。人们担心AI是否将替代职场的工人，想知道它对于教育系统的启示是什么。

　　当前，了解人工智能的能力与人类技能的关联，以及它们如何随着时间的推移而发生改变，对于理解这一持续进程至关重要。同时，了解人工智能与人类相比能做什么，有助于预测哪些技能可能会过时，哪些技能在未来几年可能会变得更加重要，这些信息有助于决策者重塑教育系统，培养学生为未来做好最佳准备，并为成人学习者提供更新技能的机会。

　　自2016年以来，经济合作与发展组织（OECD）教育研究与创新中心一直致力于评估人工智能在人类素养的两个关键领域——读写与计算方面的能力及演变进程。

　　该项目使用独特的评估工具与方法，揭示了人工智能在读写与计算领域的能力随着时间推移的进步情况，以及与人类的阅读和数学技能比较的优势与劣势，同时思考了AI能力的发展对于就业及教育的启示，并提出了相关政策建议。

　　2016年，OECD教育研究与创新中心发起“人工智能和未来技能”（AI and the Future of Skills，AIFS）项目，旨在制定容易理解、全面、可重复及与政策制定相关的人工智能能力评估标准，以监测评估人工智能的能力及其对就业和教育的影响。

　　同年OECD启动一项试点研究，评估人工智能在人类核心技能（读写与计算）领域的能力。试点研究使用了经合组织“国际成人能力评估计划”（PIAAC）[1]中的成人技能调查作为评估人工智能是否可以通过为成人设计的教育测试的工具，将其能力与工作场所所需的各种人类技能直接进行比较。2021年，OECD使用相同工具开展了跟踪研究。

　　试点研究中，由来自不同领域（自然语言处理、推理、常识、计算机图像、机器学习和集成化系统等）的11名计算机科学家对AI完成PIAAC测试题目的成功率进行打分，以评估AI的能力。

　　这些专家由致力于研究AI对于经济的影响相关领域的社会科学家或其他计算机科学家推荐产生。2021年的跟踪研究中，试点研究中有6名专家继续参与，并基于最初专家小组的推荐补充了5名专家。

　　此外，为了更准确评价AI在算术领域的能力，2021年研究中还增加了4名侧重AI数学推理研究的专家。专家评估以在线调查的形式进行，并辅之以随后开展的小组讨论，就评估中产生分歧的地方进行研讨直至达成共识。

　　在PIAAC中，读写能力被定义为“理解、评估、使用和参与书面文本，以参与社会，实现个人目标，并开发个人知识和潜力的能力”。

　　试点研究中，专家们高度一致地认为，人工智能可以回答PIAAC大约80%的阅读问题，它可以解决大多数涉及在短文本中定位信息和识别基本词汇等简单问题，还能掌握许多需要在更大的文本块中导航以形成回答的更难的问题。

　　具体而言，在读写能力方面，目前AI在PIAAC测试中的表现大致相当于成年人的3级熟练程度。图1比较了在三种不同的读写能力精熟度水平下，AI的表现与成年人的预期表现的比较。

　　结果表明，在问题难度的前三个等级上，人工智能的得分接近于3级熟练程度的成年人。而在问题难度为4级及以上时，人工智能正确回答读写问题的预期比例接近4级熟练程度的成人。

　　图2比较了专家对人工智能的评分和在PIAAC读写测试中表现一般的成年人的平均表现。一个表现一般的成年人有望成功完成90%的1级及以下的问题；68%的2级问题；43%的3级问题；20%的4级及以上的问题。而根据大多数计算机专家的判断，人工智能可能在每个难度系数的问题上解决更大份额的问题。

　　此外，与试点评估的比较显示，自2016年以来，人工智能的读写能力有了相当大的提高。在2016年，根据大多数专家的评估，AI能够正确回答71%的2级精熟度问题、48%的3级精熟度问题和20%的4级及以上精熟度问题；而2021年，AI回答这些难度水平的成功率已达到介于93%~68%之间，这意味着AI在整个PIAAC读写测试中的表现进步了25个百分点。OECD认为这反映了自然语言处理技术（NLP）在这一时期的技术突破，并与引入预先训练的语言模型（如GPT）密切有关。

　　最后，根据大多数专家的预测，2026年，AI将在读写测试中表现更加优异。试点研究中专家预测2026年，AI在3级精熟度水平中的表现将达到91%，4级及以上达到80%；而后续评估中专家预期AI在2026年能够完成PIAAC的所有读写测试。

　　在PIAAC中，计算能力被定义为“获取、使用、解释和沟通数学信息和思想，以便参与和管理成人生活中一系列情况下的数学需求的能力”。

　　根据大多数专家的评估意见，AI能够回答PIAAC大约三分之二的更容易和中等程度的算术问题，以及不到一半的最难问题，这相当于AI在整个算术测试中达到66%~73%的整体成功率。

　　就不同难度水平而言，AI可以正确回答67%的1级及以下精熟度水平的问题，75%的2级问题，63%的3级问题和40%的4级及以上的问题。在2级难度下，AI的预期成功率介于熟练度处于2级（66%）和3级（89%）成人之间。

　　在3级及以上，人工智能的表现与熟练度与处于3级的成人相当。即人工智能预计在对于人类而言属于中等难度的问题上表现更好，而在人类认为最简单的问题上表现稍差（详见图3）。

　　图4比较了在PIAAC测试中AI与表现一般的成年人的计算能力。与人类的平均表现相比，AI计算能力在1级及以下的表现低于普通成人；在2级与普通成人相似；在3级及以上，AI计算能力预期表现高于普通成人。

　　不过，专家们普遍认为，在2016年至2021年期间，人工智能的计算能力不太可能发生太大变化。因为虽然作为计算问题基础的形式数学（formal mathematics）很容易实现自动化，但从需要一般知识并以语言和图像表示的任务中提取形式模型一直以来很少受到研究的关注。

　　但最近大型语言模型已经经过微调并应用于解决数学问题，同时该领域已经产生了一些重要的基准测试以及在这些测试中表现良好的系统，这些趋势促使专家们预计，人工智能在未来几年将在计算能力方面取得巨大进步，到2026年，人工智能将能够应对PIAAC中的所有计算测试。

　　第一，该研究的分析侧重AI的技术能力，而不是AI在经济中的有效运用。不断变化的自然语言处理技术以及AI数学推理领域技术是否能和如何应用到职场取决于许多因素，包括技术成本、资本投资、监管和社会接受度等。

　　第二，该研究只评估了两个技能领域（读写与算术）的AI能力，现实中，人类使用各种技能去执行职业中的各种任务。

　　第三，AI与人类在PIAAC测试中的表现对比并不意味着AI能够像相应熟练水平的成人一样灵活执行日常的所有读写和算术任务。但尽管有以上局限性，这项研究无疑表明，在读写和计算方面人工智能能力的提高可能对就业和教育产生重要影响，特别对于只有较低的读写和算术技能的工人在就业上的冲击，以及对于培养在数字化经济中就业所需技能的迫切需要。

　　当前，大多数员工每天都在工作中使用读写与算术技能（分别为70%和50%），可与此同时，在过去几十年里，大多数国家成年人的这些技能并没有提高。相比之下，人工智能在读写和计算方面的能力却正在迅速发展。

　　如前面的分析显示，AI读写能力超过PIAAC的3级熟练程度。相应的，大约27%的人类在日常工作中使用3级熟练程度的读写技能。另外还有32%的在职成人读写精熟度水平低于3级。这意味着AI可能影响劳动力中59%的人完成与读写相关的任务。

　　另外，AI在大多数PIAAC问题上由专家评估的算术能力超越处于2级精熟度的成年人，在一些问题上，接近3级精熟度的成人。相应的，在39个国家和经济体中，平均而言，27%的劳动人员日常在2级或以下精熟度水平上使用算术技能，44%的人在3级或以下精熟度水平上使用。如果算术任务构成人们日常工作的大部分的话，AI无疑会对这些人的就业产生消极影响。

　　此外，AI能力的提高对于就业的影响也取决于职业中执行的任务难度。如前所述，AI在对于人类更容易的读写和算术任务方面表现更好，在对于人类而言困难的任务方面表现更差。因此，AI更可能影响从事更简单任务的工人。

　　在参与PIAAC调查的39个国家中，平均而言有52%的工人工作中每天阅读备忘录或邮件；37%的工人阅读操作指南（说明书）和使用说明；22%的工人阅读报纸和杂志。较低比例的工人每天阅读更长的文本，如专业学术期刊（8%）或书籍（8%）。

　　同样，简单算术技能也比复杂算术技能应用更广泛。在日常工作中，所有国家平均而言，大约26%~38%的工人使用计算器、分数或百分比计算成本或制定预算，相反，只有3%的工人每天使用高级数学和统计学，8%的工人制作图表和图形，17%的工人使用几何或公式。这显示出可能对于AI而言非常简单的读写和算术任务在经济活动中更为普遍。

　　与此同时，AI促使工作自动化的潜能进一步取决于工作所需的技能组合，涉及多种技能组合的工作更能免于自动化，因为AI不太可能立刻复制许多不同的工人拥有的技能。

　　但OECD的调查显示，在所有参与PIAAC的国家，平均而言有36%的人在日常工作中结合使用读写和至少5种其他一般技能，29%的人结合使用算术和至少5中其他一般技能；有20%的人工作中只结合使用读写和其他3种一般技能，12%的人结合使用算术和其他3种一般技能。

　　以上结果表明AI在读写和算术技能方面的进步可能会对就业产生负面影响，因为读写和算术技能在工作中被广泛使用，这一点对于使用这些技能的精熟度低于AI的工人的就业尤其如此，这些人执行的简单任务对于AI而言很容易控制，他们在工作中只结合使用少量其他技能。

　　但是，OECD也指出，AI可能通过改变工作特征的形式从而不对劳动力的总需求产生影响。如AI有望通过比人类更快更准确执行特定任务而提高公司的生产力，确保人类专注于更重要的可能涉及创造力、管理或批判思考的任务；反过来，促使公司以更低成本生产，并提高对于产品的需求，这将推动使用AI的公司和其他与该价值链连接的公司中的劳动力需求上升。

　　此外，AI有望创造一些与职场中机器的应用和使用相关的新任务，在未来，将需要更多工人去生产数据、开发AI应用程序、操作AI系统和分析结果。OECD一项研究分析了四个国家（加拿大、新加坡、美国和英国）2012-2018年工作公告数据，显示出对于AI相关技能需求日益提高。

　　例如，在美国，AI相关工作空缺总量从2012年的2万个提高到2018年的15万个，特别是对于数据挖掘和分类、NLP和深度学习相关的技能需求在网上更频繁发布。最后，AI能够通过赋能新产品与服务的创造而导致全新职业和产业的出现。

　　当前，不断进步的AI将如何重塑就业和对于技能的需求仍然是一个未知的问题，但确定无疑的是工人将需要新技能才能满足未来需求——这些技能将确保他们与AI竞争及合作，这就提出了教育对于培养未来所需人才的作用这一问题。

　　技术变革迫使教育系统用合适的技能劳动力供给满足经济的需求。作为一个可能的回应，教育将努力提高劳动力的技能水平以超过计算机。在读写和算术领域，这意味着将人们的技能提高到最高精熟度水平——4级和5级。这一精熟度将确保工人理解、解释和批判评价复杂文本和多类型数学信息。

　　培养这些技能不仅对于超越AI在阅读和数学任务中的表现来说很重要，更为重要的是，更强的读写与算术技能为培养其他高阶技能奠定了基础，如分析推理和学会学习技能，从而更容易获得新知识和技术。

　　报告中，OECD呈现了在参与PIAAC调查的39个国家和经济体中，读写与算术能力达到4~5级精熟度的工人占比情况：读写能力排名最前的国家芬兰，有25%的成年人达到4~5级，然后是日本，有24%，荷兰有21%；在算术领域，排名前三的国家芬兰、瑞典和比利时，达到4~5级的工人占比21%~22%。

　　这显示出即使表现最好的国家也不能供给超过四分之一的具有超越AI所需的读写与算术技能的劳动力。对于表现中等的国家，这一比例更低，新加坡读写能力达到4~5级的工人占比10%，立陶宛算术能力达到4~5级的工人占比12%。这些国家将必须让读写与算术能力达到高熟练度的工人占比翻番才能赶上表现最优的同辈。

　　对于教育提供者而言，另一个努力目标可能是充分激发已证明对于AI而言很难的与基本技能相关的各要素。如读写能力涉及三种认知策略的使用：获得并甄别文本中的信息；整合并解释文本各部分之间的关系，如因果或问题/解决方案；使用自身的知识或者观点评估并反思文本中的信息。

　　这些读写技能的具体要素对于AI而言并不容易。根据专家的评估，AI有望解决需要获得和甄别信息的问题的94%；涉及整合和解释文本中关系的问题的71%；在包含评价和反思的问题上预期表现更低，为44%。

　　不过，评价和反思文本中的信息对人类也更具挑战性。平均而言，PIAAC中的受试者有37%的可能性成功完成这类问题。因此，增强人类评价和反思文本的能力将不仅给予他们超越机器的重要优势，也使他们能够应对数字化时代的信息过载，并根据不断传播的假新闻和误导信息的背景决定信息源的准确性与可靠性。

　　专家们普遍预测，到2026年，AI系统将可能很快能够完成PIAAC的所有读写与算术任务。如果这一预测准确，那么教育的目标可能需要发生实质性的改变。因为即使有更高的读写和算术精熟度，可能都不足以确保人类与AI竞争。

　　在这一背景下，更为可行的方案是，教育的重点可能需要更多地转向教学生使用人工智能系统以更有效地执行读写和计算任务；此外，教育系统还应该致力于增强个体的数字化技能，这些技能将有助于个体满足日益数字化的职场的需求，并抓住技术进步带来的机会。OECD曾使用两个数字化能力指标——不熟悉计算机的成年人占比与有多样化和复杂的互联网使用经历的成年人占比——基于以前对于欧洲家庭中使用信息与通讯技术社会调查数据分析比较发现，在有数据的国家中，挪威、荷兰和瑞典大约80%的人群具备允许多样化和复杂的互联网使用的技能。

　　在这些国家，以及新西兰和捷克，仅有不到7%的人不能使用计算机工作。相反，在希腊和波兰，大约40%的人群能够执行许多而复杂的在线活动，各自有五分之一和四分之一人群根本不能使用计算机。在秘鲁，不能使用计算机的成年人占比超过40%。OECD提醒，这些国家必须大量提升成年人的技能以满足技术变革出现的技能需求。

　　最后，如前所述，工作中多样化技能的使用可以使工人避免自动化。因此，教育系统应该将目标瞄准培养人具有全面的技能组合，这将确保人能够适应技术诱发的职业中的可能变化，也让职业之间的流动更自在。

　　OECD分析了十个国家具备三个关键领域稳固技能的就业成年人占比——在技术丰富的环境中读写、算术和解决问题，即读写和算术技能达到3级及以上，解决问题技能达到2级及以上的工人占比，结果显示，荷兰有最高比例的成年人具备三个领域的较强技能，达到42%，而在其他九个参与国家，具备均衡的技能组合的工人占比不到20%。

　　在这些国家，迫切需要通过教育培养人们具备强大的多样化技能组合，这些技能组合可以帮助人们避免AI革新带来的风险并收获其中的好处。

　　为了理解AI如何影响未来技能的使用与技能需求，对AI能力的评估将不仅仅局限于PIAAC中涉及的一般认知技能，这将需要有关职业中使用的所有技能领域的信息，以及人类在这些技能领域的熟练度的信息。

　　OECD的“人工智能和未来技能”项目正在开发一个综合而可靠的定期评估AI能力并将其与人类技能进行比较的办法。能力评估将涵盖对于就业而言非常关键、同时教育中非常重要的各种技能领域。专家对于AI在教育测试中的评判将是这一方法中使用的一个重要工具。

　　在过去几年，该项目一直在重复并扩大专家判断的范围收集。例如，该项目探索了使用大规模专家调查来评价AI在PISA科学测试中的表现；也收集了专家对于AI是否能够执行职业培训与教育中的职业测试的判断；最近，“人工智能与未来技能”项目开始使用来自AI系统直接测试的信息，包括直接将AI技术应用到各种任务中的一些基准性、竞赛性和正式性的评估；该项目也正在开发一种办法，列出并筛选高质量的直接评估AI能力的测试清单，同时将这些评估测试中获得的信息合成一组容易理解、并能影响政策制定的AI表现指标。

　　为了帮助政策制定者理解AI评估的意义，该项目将其与现有的职业任务的分类标准（如欧盟的ESCO、国家开发中心的National Center for O*NET Development）加以联系，这些分类标准提供了系统思考执行工作任务所需的技能范围的途径，以及不同技能融入职业的方式。

　　另外，该项目还绘制了AI表现指标和工人技能熟练度信息对比图。随着AI在大量技能领域的快速发展，这一办法可以系统甄别哪些技能将可能被淘汰，哪些技能可能变得对于就业和教育而言更加重要。

　　OECD强调，目前发布的这份报告只是该项目的初步工作成果，未来，一系列后续报告将描述AI评估指标集的开发以及评估指标使用方面的探索。有了这些信息，政策制定者将可以更好地理解AI对于教育和就业的启示。

　　注释：国际成人能力评估计划（Programme for International Assessment of Adult Competencies, PIAAC）是经合组织实施的国际调查之一，旨在调查16-65岁的成年人在读写、计算和用计算机解决问题方面的熟练程度，这些技能被认为是人类充分融入工作、教育和社会生活所必需的“关键信息处理能力”。PIAAC每十年开展一次，第一轮在2011-2018年进行，收集了39个国家和经济体的数据。第二轮的结果有望在2024年发布。

上一篇：“钱眼儿”里的货币表征与社会历史下一篇：中华人民共和国民法总则

热门导读

编辑推荐