北京市海淀区清华大学01062794781i-aiig@tsinghua.edu.cn

专题论坛6:前沿大模型风险研判与治理


12月9日下午,清华大学与香港科技大学联合主办的2023人工智能合作与治理国际论坛的专题论坛“前沿大模型风险研判与治理”在香港科技大学盧家驄荟萃楼(Lecture Theater, Lo Ka Chung Building)成功召开。

专题论坛上半场的主题为:科学界和人工智能开发者可以如何支持前沿人工智能安全和治理。

论坛由安远AI高级项目经理吴君仪主持,清华大学人工智能研究院名誉院长,中国科学院院士张钹致欢迎词。清华大学惠妍讲席教授、电子系长聘教授周伯文;xAI联合创始人吉米·巴(Jimmy Ba);Anthropic地缘政治与安全主管迈克尔·塞利托(Michael Sellitto);剑桥大学生存风险研究中心创始执行主任肖恩·欧·海格缇(Sean S. ÓhÉigeartaigh)分别做了主旨报告。

   

张钹院士在致辞中指出,生成式AI和大模型异军突起,点燃了通用人工智能的火花,但大模型在赋能千行百业的同时,也带来系列问题和挑战。以GPT为代表的大模型呈现出“涌现”现象和前所未有的能力,但同时也可能导致“幻觉”、鲁棒性差和缺乏自知之明。人工智能治理成为人类必须面对的问题。他表示,应采取有效手段,加强大模型本身的治理;同时,重视并解决涉及使用者的治理问题,构建创新与监管两手并重的新一代人工智能治理体系;此外,从算法模型原理上寻找突破口,根本解决人工智能安全问题。

周伯文在主旨发言中指出,通用人工智能的发展道路伴随着许多不确定性。亟需对其进行科学治理,以避免隐私、经济、认知等多重风险与隐患。他尤其强调应针对被视为现代人工智能的基础设施的基础模型展开全生命周期治理。全球目前已在人工智能治理方面取得了显著进展,治理举措强调多利益相关者之间的共同合作。对此,他着重阐释了科学家在此之中扮演的关键角色。具体而言,科学家可以从横向与纵向两个方面参与人工智能全生命周期的治理,一是科学家在各利益相关者之间扮演协调与平衡者的角色,二是科学家需积极参与从数据到模型再到应用等各个环节的治理进程。而当前科学界对人工智能治理的研究仍较为零散,缺乏跨学科的整体视角。他建议科学家应引导人工智能的发展轨迹,更多地投入到可信人工智能的构建过程之中。最后,他强调各方应该通过协作努力、构建透明的框架以及制定坚定不移的承诺来塑造人工智能治理的未来。

吉米·巴(Jimmy Ba以对GhatGPT 4等大规模语言模型的监管、治理和安全政策为切入点,提出人工智能的发展需要前瞻性(foresight)、洞察力(insight)以及监督性(oversight)。其中洞察力对人工智能的发展与治理尤为重要。他强调洞察力可以帮助了解人工智能需要什么样的监管,进而就人工智能治理展开更富有成效的讨论。而培养和提升针对人工智能技术的洞察力需要“两条腿”并行。一方面应提高普通民众的数字能力,利用人工智能拓展他们的专业知识。让人工智能技术赋能生产生活的同时,也可以帮助挖掘仍需改进的技术痛点。另一方面则是需要发挥专家在识别人工智能复杂问题方面的专业素养与洞察能力。此外,他还基于自身的教学经验,指出与其限制学生使用大模型,不如引导学生用辩证性的思维来评判大模型提供的答案与见解,这有助于培养学生理解什么是大模型,审视大模型存在什么问题,思考如何去改进大模型及可以提出何种治理政策建议。

迈克尔·塞利托(Michael Sellitto)介绍了Anthropic是如何开展负责任的技术创新工作的。他们通过负责任的扩展政策 (RSP) 定义了一个名为人工智能安全级别(ASL) 的框架,其基本思想是要求模型适应潜在灾难性风险的安全、保障和操作标准。而更高的 ASL 需要越来越严格的安全保障措施。ASL系统是通过“如果-那么”的逻辑和承诺关系开展工作的。如果模型显示出某些危险功能,那么它就需要符合下一个ASL级别的要求,并且需要新的安全、安全和部署措施。在训练期间定期运行评估,以便尽早确定何时达到更高的风险级别,他们会通过保守评估以搭建缓冲区。如果这些评估要求尚未到位,便会暂停进一步扩展和新的部署,直到达到要求目标。

                           

肖恩·欧·海格缇(Sean S. ÓhÉigeartaigh)在主旨演讲中强调了大模型开源的重要性。他认为大模型开源需要做到两点,一是使模型架构和权重可供任何人免费修改、研究、构建和使用;二是人工智能开源程度的灵活性,它应该可以在不同程度上开源。他指出开源的好处毋庸置疑,它既可以促进创新和对前沿的不断探索,又可以通过开放人工智能访问使之更加民主化。然而开源也是具有风险的,如恶意应用程序、有针对性的宣传和错误信息、欺诈的可能性、危险信息、保障措施禁用、漏洞识别等。因此,对于许多基础模型来说,尽管好处大于风险,但尖端前沿模型可能不应该开源。需要通过围绕开源决策进行严格的风险评估、探索获得开源优势的替代途径、多方共同努力定义开源发布标准、政府对开源人工智能模型的监督等方式应对开源的新形势。

主旨演讲结束后,微软亚洲研究院资深首席研究员谢幸、香港科技大学访问学者付杰加入了圆桌讨论环节。围绕监测评估人工智能安全性、人工智能风险管理和投资重点、模型评估的生态系统、人工智能一致性和道德考虑等问题展开了讨论。与会者认为,提高公众对人工智能功能和局限性的认识和教育对于防止滥用至关重要,同时设计课程以培养科学和政策制定方面的人工智能专业知识,也是至关重要的。


专题论坛下半场的主题为:政策制定者和国际社会如何共同努力来改善前沿人工智能安全和治理?


未来协会创始人兼主席尼古拉斯·米埃勒(Nicolas Mialhe)、Wadhwani人工智能和先进技术中心、战略与国际研究中心高级研究员迈克尔·弗兰克(Michael Frank)、华东政法大学政治学研究院院长、人工智能与大数据指数研究院院长高奇琦、新加坡信息通信媒体发展局可信人工智能和数据主管李婉诗进行了主旨发言。

尼古拉斯·米埃勒(Nicolas Mialhe)在致辞中对如何加强人工智能系统的价值观对齐、标准建设和多方合作发表了观点。他认为,应建立人工智能模型鲁棒性标准、人工智能风险评估标准、模型可靠性行为准则,从而区分高和低质量根基模型,确保人工智能模型的公平性和可靠性。公共部门应建设适应性强有弹性的机制、加强人工智能能力建设、设立重大事故预防制度及施行独立评估和审核。在多方合作方面,应兼顾人工智能系统中的多方利益相关者,与国际合作伙伴协调,确保全球治理的互操作性,创立基于计算和容量的分层方法,从而建立真正的人工智能通用性基准。

迈克尔·弗兰克(Michael Frank)在致辞中讨论了欧盟和美国在人工智能监管方面的治理方法、法规和政策连续性。他指出,欧盟趋于将人工智能应用分为各个风险类别,并禁止使用不可接受级的应用程序。而美国则倾向于使用行政命令对联邦机构提出具有约束力的要求,并为人工智能合规创造了广阔的监管空间。不过,美国由于两党体制以及政府连续性问题,很难深化人工智能政策变革,但是在高风险人工智能应用方面,例如情绪识别和行为操纵,欧美皆要求遵守官方合规要求。他呼吁在该方面达成国际合作。

高奇琦在致辞中提到了机器学习的可解释性和可扩展性、企业治理及人工智能开发等议题。他认为,关于人工智能治理方面,应该更注重于包容而不是排斥,通过各方利益相关者的合作促成国际共识;在企业治理方面,应设置首席风险官,延展内部审计过程的“红队判研”,确保相应比例的计算能力和人才用于调查在不同领域内的应用场景;而在人工智能开发方面,应用开源人工智能治理对社会道德的发展和人工智能对齐至关重要。

李婉诗在致辞中主要涉及对新加坡人工智能治理的评估问题。她说,新加坡的目标是通过新的国家战略有效地将人工智能运用于公共利益方面。新的时代,人工智能技术监管关键在于有效的监管工具和监管能力;在什么行业需要治理、旧体制是否适用新的治理模式等都是未知问题。她认为,在建立人工智能可信度方面,通过第三方验证、“红队判研”、标准化AI模型评估、建立测试基准等至关重要。此外,新加坡所开发新的AI测试系统工具AI verify,用于企业、公司及政府治理等方面。另外,她提出倡议:人工智能的治理应该建立多方合作,使单方治理与国际原则相符。

                           


主旨发言结束后,尼古拉斯·米埃勒、·迈克尔·弗兰克、高奇琦、李婉诗以及来自清华大学战略与安全研究中心副主任陈琪、香港大学黄乾恒中国法研究中心主任张湖月进行了圆桌讨论。讨论中,尼古拉斯·米埃勒致辞中指出,国际社会须为人工智能风险框架制定共同愿景,尤其是中美之间的合作对于应对人工智能风险至关重要。他建议,在人工智能风险管理方面,应用大语言模型建立预防机制。迈克尔·弗兰克在致辞中提出,各方国际机构之间的合作必不可少,从小处着手,将人工智能安全与竞争问题脱钩,并将有关人工智能风险的学术讨论转化为政策机制。高奇琦认为,持续学习和人工智能对齐是人工智能治理领域的重点,但是,现今该领域缺乏各界专家的共识,应及时采取行动制定相关风险管理机制。李婉诗在致辞中表示,人工智能监管的有效性和安全性是其治理的关键。在该问题上,我们不应拘束于单方体制,而应促进多方合作、制定国际通用原则。陈琪在致辞中强调,以应对人工智能技术的快速发展和其可能带来的潜在危险,需先明确定义通用人工智能。实现多边治理的重点在于与多方利益相关者创建共识和共同愿景。张湖月在致辞中提出,地缘政治紧张局势的加剧损害了人工智能治理方面的国际合作。唯有驱动共识,才能解决人工智能风险具有不可预测性。

                           


关闭

相关文章

读取内容中,请等待...