“文心一言”正开放实测:夫妻肺片终于不画夫妻了

文章来源: - 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
被阅读次数

8月31日,百度、百川智能、商汤科技等8家企业或机构已首批通过《生成式人工智能服务管理暂行办法》备案,可正式上线并面向公众提供服务。记者通过实际测评,发现文心一言部分文字、图片等问题回答比较精准,但一些容易引起歧义或有一定深度的问题,则容易回答不准确,甚至会出现类似于ChatGPT“一本正经胡说”的情况。

对此,齐鲁工业大学(山东省科学院)计算机系教授鹿文鹏解读称,大模型都是通过大量数据“喂”出来的,而且要靠高质量的数据。目前在文字、图像、设计等方面,AI聊天软件已经成为不错的辅助工具。在部分领域,大模型仍处于“幼儿期”,无法准确把握用户的意图,对此应该包容,后期通过不断学习、进化,当数据量大到一定程度,它所达到的能力将比我们想象地要强很多。

实测“文心一言”:会顺着用户的话说,画老婆饼仍会有“老婆”

31日,记者打开文心一言官网测评体验。对于同一问题,用户如果认为文心一言回答不准确,可以点击左下方的“重新生成”,当前最多支持5次重新回答。文心一言会提供“本次回答相较上次回答:更好、更差、差不多”的评价选项,供用户对于不同的回答进行评价和反馈。

记者通过多个问题对文心一言进行了测试。在“济南一日游规划”中,文心一言给出了千佛山、大明湖、珍珠泉、美食街、山东省博物馆等景点推荐,并根据这几个景点的实际位置分布,给出了比较合理的游览路线规划。

3岁孩子叛逆如何教育

对于“3岁孩子叛逆,怎么教育?”的问题,文心一言从“给予安全感、建立良好的沟通方式、设立明确的规则和限制、培养孩子的自我控制能力、给予正面激励”等5个方面给出了较为合理的建议,并总结“根据孩子的具体情况,采取适当的教育方法,帮助孩子克服叛逆情绪,健康成长”。

但在回答“泰山是济南哪里的景点?”这一问题时,文心一言并未纠正提问中的错误,而是先在第一段顺着用户的说法回答“泰山位于山东省济南市泰安市,是济南的著名景点之一”。在第二段的介绍中,文心一言又给出了正确的回答“泰山位于泰安市泰山区”。除了第一段的错误回答,回答中的其他信息都非常准确、精炼。

面对“写一张请假条”的问题,文心一言并未询问或让用户选择是学校请假条还是公司请假条,而是直接给出了一张学生请假条。从内容来看,这张请假条做到了用语礼貌、文字简洁、格式准确、要素齐全,并给出了“我已安排好相关的学习计划,并会尽快补上课堂上的内容”的内容,堪称学生请假条的范本。

记者提问“用柱状图展示山东省各市GDP情况”,文心一言用柱状图画出了青岛、济南、烟台、潍坊、东营、滨州6个市的2021年GDP统计数据,并按数据大小分别排列,但未完整展示山东省16市的GDP情况。

左图为今年3月文心一言测试阶段画图,右图为8月31日文心一言画的图

随后,记者用文心一言画了几幅图。在“画一个夫妻肺片”的问题中,文心一言相对准确的画出了5张“一盘切成片的中式凉菜”,并有辣椒、香菜末、酱汁等元素。就在今年3月份刚推出测试版时,面对这个问题,文心一言给出的答案还是在夫妻二人的卡通图片画上未知动物的肺。由此可见,文心一言已经根据用户反馈和数据训练,做出了更为精准的回答。

然而面对“画一个老婆饼”的问题,文心一言给出的5张图片中,有3张是将“老婆”和饼这两种元素融合在了一张图片中,另外2张只画了饼。

专业学者:宽容对待大模型高质量的大数据训练将使它超乎人类想象

根据网友们反馈的问答结果,有业内人士总结称,目前文心一言的缺点之一是语义理解能力有限,在处理一些语义模糊或不确定的文本时,可能会出现理解偏差或误判。这主要是由于语言本身的复杂性和多样性,以及模型在学习过程中可能存在的数据偏差或模型参数优化不足等问题。

“其实如果只是看‘老婆’、‘饼’,文心一言已经做的不错了,关键是大模型还没有人那么强的语义理解能力。”齐鲁工业大学(山东省科学院)计算机科学与技术系鹿文鹏教授分析称,AI大模型在画图时擅长分析用户要求里的关键字并进行体现,而对一些比较高深、需要意会的内容,目前它理解起来还是有一定困难的。

鹿文鹏教授分析称,人工智能大模型都是通过大量数据“喂”出来的,目前训练大模型从技术上来讲难度不大,但关键还是要靠高质量的数据。“它不可能刚开始就很完美,但它的学习能力很强,有人类的反馈进步改善会非常快。当模型的(数据量)大到一定程度时,就会发现它的能力比我们想象的要强很多。”

同时,对于“泰山是济南哪里的景点?”这类故意诱导的问题,鹿文鹏教授分析认为,面对这种可能引起歧义的问题,大模型的理解能力会相对弱一些,无法准确把握用户的意图,有时也会在用户的故意诱导下说一些不准确的话。

因此,鹿文鹏建议用户对大模型要有一定的包容性。他类比称,如果把“泰山是济南哪里的景点?”“画一个老婆饼”这类问题拿给人类的小朋友,他们也不知道什么意思,也很可能也会画错、说错。

“类似地也可以理解为大模型正处于幼儿阶段,后期会有越来越多的人教它,它是会学习的,后面肯定会进化。(老婆饼之类的问题)现在可能不行,到下个月估计就画得很好了。”鹿文鹏称。

“现在我就用一些AI大模型去帮助批改学生论文,它在检查、文字校对方面做得非常好,可以帮助减轻一些负担,但最后肯定要由人去把关。”鹿文鹏观察认为,在实际应用领域,文字、图像、设计、编程等领域的工作者把文新一言、ChatGPT等当成辅助工具是非常好的。

他举例称,目前让这些大模型写个摘要、会议日程、发言稿等,它们都能做得很好;设计工作者通过给出一个设计草图,AI软件就能生成一批类似的图供挑选,不需要再自己绞尽脑汁地一张张设计,其中有些图甚至能超过人的创意。

鹿文鹏分析,AI大模型的未来应用前景很广。目前大模型正往多模态、垂直领域等方向发展。一方面,它从简单的文字交互发展到图片、数据图等更多模态,另一方面,在政务自动问答服务、法律咨询、医疗咨询等特定领域,大模型也能做出一些相对精确的回答。

world1peace 发表评论于
ChatGPT 也是,同一问题间隔一个月问,还是上次那个错误答案,第一次我已经纠正过了
seator 发表评论于
这些修正说明根本不是智能,就是人工
山外山 发表评论于
能回答64吗。恐怕只能回答啥是69