中国国家主席习近平。(美联社)
英国《金融时报》22日报导,根据中国网信办刊物“中国网信”20日在微信发布的讯息,这个大型语言模型是由网信办旗下研究机构“中国网络空间研究院”开发,语料库来自7大网信专业知识库,包括“习近平新时代中国特色社会主义思想知识库”等,该机构表示,“语料库的专业性、权威性,保证了生成内容的专业性”。
一名参与这项计划的消息人士说,目前这个新模型是内部试用,但是最终可能会对外释出以便更广泛应用。
金融时报指出,这是北京试图掌控人工智能如何向中国网络用户提供讯息的最新尝试,报导并将这个大型语言模型称为“Chat Xi PT”,是中国对美国OpenAI公司开发的生成式人工智能机器人ChatGPT的回应。
中国政府已用多种方式传播习近平的政治、经济和文化思想,包括出书、推出“学习强国”应用程式、要求10岁学童就得学习习思想,甚至在2018年将习思想写入宪法。而国家网信办面对生成式AI技术兴起发布的管理办法,要求这类产品“应当体现社会主义核心价值观”,生成的内容“不得含有颠覆国家政权”的内容,提供商要为其AI生成内容负责。
由于可供中国开发商用来训练大型语言模型的中文语料库不多,为此,“中国网络空间安全协会”去年底发布首批中文基础语料库,有1亿多条数据,宣称“高品质而且值得信赖”。
但是根据金融时报所检视的该资料库内容,大幅取自政府规范、政策文件、官方媒体报导和其他官方发表文件,当中一份文本档案中提到习近平的次数就多达8万6314次,例如“更加紧密团结在以习近平同志为核心的党中央周围”、“确保在思想上、政治上、行动上,同以习近平为核心的党中央保持高度一致”。