县城里的数据标注员:有多少智能,就有多少人工
文章来源: 南方周末 于
- 新闻取自各大新闻媒体,新闻内容并不代表本网立场!
(谭畅使用AI工具生成/图)
2024年12月末,四季如春的云南降温了。在蒙自一处不起眼的二层小楼里,十位员工对着24英寸的电脑屏幕勾勾画画,办公室只有点击鼠标和敲击键盘的“哒哒”声。坐在窗边的男孩搓搓手,吸吸鼻子,继续工作。
他们在做的是针对自动驾驶车辆的数据标注工作。屏幕上显示一种由雷达车扫描生成的4D逻辑图层,他们需要标明图层中的车道线、行驶区域、道路边界线以及地面标识指引。
数据标注是指对图片、语音、文本、视频等数据进行处理,转换为机器可识别的信息,为人工智能模型的训练和优化提供素材。“前面有多少智能,后面就有多少人工”的调侃,道出了数据标注在人工智能行业发展中起到的基石性作用。
2020年2月,数据标注员作为人工智能训练师的一个工种,被正式纳入国家职业分类目录。短短几年,这个劳动力需求量巨大的行业,迅速在一些中小城市落地生根。
“做梦都在画车道线”
屏幕上的图层是黑白色的,像医学治疗中的X光片,主干路在布满黑灰噪点的阴影里,以更深的颜色突出显示。坐在屏幕前的数据标注员如同看诊的大夫,指着图中一片雾蒙蒙的阴影区域比划一圈,“这是绿化带,在道路边上,因为它有明显的分层。”
员工们熟练地滑动鼠标,画面不时翻转,呈现立体三维图,或俯视平面图。光标牵动着红色坐标线在画面上移动,定下的点变幻成绿色,多点连成线。员工每画出一条线、一个框,都意味着几分钱到手了。
工资,在这里是以分为单位累计的。
“我们按计件结算,一天可以标120块钱,每月能赚三千出头。”在蒙自,这座隶属于红河哈尼族彝族自治州的县级市里,一间约170平方米的办公室和12名数据标注员,是云南凯瑞科技有限公司现有的全部家当。27岁的彝族女孩李亚梅是公司里最年长的数据标注员,她高中学历,出身于蒙自农村,如今是一个两岁孩子的妈妈。她想通过这份工作,给孩子赚点尿不湿和奶粉钱。
月收入两三千元不算高薪,但相比于许多奔波劳累的工作,对着电脑重复操作界面8小时,就可以赚得这份收入,李亚梅感到满足。
以前,李亚梅做销售宽带的话务员,收入差不多,每天连续拨打7个小时电话,时常被人误会为骗子。那是份挑战她性格的工作,“好紧张啊,就希望对面不要接电话”。
数据标注这份工作,李亚梅没经面试,就直接被老板邢开瑞录用。邢开瑞也是27岁,他刚创业,缺人,对员工不设置门槛,“只要你愿意来,那来就好了”。
李亚梅的同事们,有从蒙自二本学院毕业找不到工作的本科生,有从山东老家追随女友到蒙自寻生计的小伙子,也有在夜市里跟城管“打游击”的烧烤摊贩。李亚梅记得,有次一个外卖员来送餐,立马看上了这个“坐着不动”的工作,很快办理了入职。
实际上,这份工作普遍门槛很低。一位做过数据标注的大学生将自己比作工业流水线上的“电子螺丝”,内容枯燥,节奏紧张:小图一天要拉两三百个框,大图六百个框,每天填表记录工作量,每周统计一次,数据不达标就要面临加班,“有时候上个厕所就完不成了”。一起来的三十多个实习生,中途走了三分之二。
“我刚开始接触的时候,晚上做梦都在画车道线。”李亚梅听老板讲,这份工作的意义在于促进自动驾驶汽车提升性能,那是李亚梅接触不到的东西。她不想那么多,“觉得枯燥,累到坚持不下去,我就想到小孩,就又能坚持。”
“我们做的所有东西都是为了训练人工智能算法模型,只有不停地标,算法模型才能训练得非常强大,直到模型非常完美,人就可以不用再标了,以后新生的内容直接过模型就可以。”在互联网大厂从事数据标注九年的魏盈(化名)告诉南方周末记者,她曾在两家互联网公司制定标注员操作规范。
魏盈介绍,训练一个成熟的人工智能算法模型要历经很多环节,算法工程师首先要就可行性进行内部评估,如果可行性较高,就在数据库中“跑”出百万条数据,再由专人总结数据特征、书写标注规范,标注员再根据规范进行标注。数据样本经质检合格,最终都被用于训练算法,样本量越大,种类越丰富,算法模型识别就会越准。
数据标注的种类繁杂,除了自动驾驶车企外,还涉及医疗、金融、家居、互联网公司等各个领域,与人工智能相关的各行各业普遍对数据标注有旺盛的需求。
在安徽合肥,大学生宋雨婷也在实习时做过数据标注工作,月入两千元。她要根据不同音色和主题进行英文音频转写,每天登录公司专门的接单平台后,播放一条两分钟的音频,将其分割,每句包含有效信息的英文间隙精确到不得超过0.5秒空白,转写后提交,如此重复完成十几条音频任务,涵盖上千个片段。
另一位在科大讯飞长沙分公司做过数据标注工作的大学生向南方周末记者介绍,他曾负责给AI对小学试题生成的答案打分并纠正错误答案。一天下来能完成120组有效人机对话,80组修改,以此帮助AI系统升级。
魏盈这么形容人工智能与数据标注员的关系:人工智能外表是一辆豪车,打开车门会发现,其实有一百个人骑着自行车抬它。
“隐秘而伟大的事业”
邢开瑞对人工智能的了解,也是随着进军数据标注行业一点点深入的。准确地说,他是抱着挖掘商机的野心,去拥抱人工智能。蒙自变成他理想的掘金地。
“蒙自市和周边一些小县城的年轻人外出务工,要么就来蒙自,要么就去省会昆明。”邢开瑞相信,作为红河州的州府和经济中心,蒙自有充沛的劳动力可雇用。
“我们主要对接自动驾驶的车企,数据标注合格率必须达到98%-99%,只有合格率越高,AI才学得越精准,不容易出错,毕竟自动驾驶人命关天。”邢开瑞说,他将来或许也是为国家人工智能发展作出微薄贡献的人。这样想来,他更觉得自己在小县城里,做着一件隐秘而伟大的事业。
他曾经干过销售、酒吧服务员,也追逐过飞盘热潮创业结果失败。2023年,AI随着ChatGPT问世在网上成为热门话题,邢开瑞听朋友提及“关键词标注”的商机,只是朋友也不知道如何起步。
邢开瑞查资料后明白,那是人工智能发展的必备基础工作,专业叫法是“数据标注”。对小县城来说,新词实在陌生,这既代表数据标注在这里有发展潜力和空间,也意味着启动资金难拉,人员难招聘。
创业初期,邢开瑞没钱,也没办公地点。他找了几十人拉投资,四处碰壁,“因为没人听说过数据标注,更不知道怎么做、风险多大,甚至觉得这个东西就是骗人的。”
那段时间,邢开瑞将办公室设定在自己家。那是一栋掩在深院里的破旧居民楼,楼外墙面斑驳,院门左拐是一家情趣生活馆,右拐是派出所,在对面的马路牙子上,整日蹲着一群寻活的农民工。
这办公环境与听着高端的“数据标注”根本不沾边。邢开瑞一遍遍给来应聘的人吃定心丸,“旁边就是派出所,有事你就大喊一声,他们也能来救你。”
八个月前,另一个彝族女孩陶致萍来到这家公司时,邢开瑞已经靠接几个项目赚了点钱,租下一间小办公室。但办公室外那扇半掩的卷帘门,看起来还是不太靠谱,陶致萍猜可能是传销组织。一转眼,她已经成为公司骨干,手腕因长期在鼠标垫上摩擦生出红茧。
陶致萍的父母对这份工作也疑惑,他们问女儿,是不是要提着油漆桶,在大马路上划线。邢开瑞回忆,他面试过上千人,但是知道数据标注的不超过5个。
在小县城做一门新概念生意受阻的经历,吴玥也有过。“我刚开始做数据标注的时候,地方不大,知道的人特别少,招过来的第一批员工很多都跑了,感觉我们在做诈骗。”吴玥说,2020年初,他与朋友在山东省东营市广饶县创立的团队只有五六个人,一直做到2023年还在赔钱。
“数据标注这个活相当于包工程,以攒人头为主,就需要大量人。”如今,吴玥的公司有固定成员六十多人,因公司与职校建立合作、产教融合,还有近230个学生可以按需动用,缓解人员流动的不稳定性。
吴玥的公司发展顺利,很大一部分原因是他得到邻近的利津县政策支持:针对规模20人以上的公司,每人每月补助1000元,场地免费,政府还包了装修费用。“利津县年轻人流动率大,政府要把年轻人留下,需要有大量劳动力(需求)的产业,就盯上了数据标注行业。”
累积的人脉资源有了政策的加持,吴玥的公司从此前集中做无人驾驶的道路识别数据标注,逐渐拓展到语音类采集、医疗领域标注以及智能物流数据标注业务,而且壮大规模,慢慢合并了县城里其他几家小型数据标注公司。
“基本在四五线城市”
多位从事数据标注的受访者告诉南方周末记者,一二线城市的大型公司为节省成本,往往会把数据标注业务外包给中小城市的数据标注公司。“如果花大价钱让正式员工来做这么简单的事情,用人成本太高,他们付不起这个钱,只能是在偏远的城市。”魏盈说。
魏盈在一家互联网大厂参与过三次业务结算。她向南方周末记者介绍,采购人员一般通过招标寻找供应商,每家供应商提前报价。为节省成本,公司会在其中选择价格最便宜的,后根据实际采购价定妥每条数据标注价格,最后按照质检通过的数据量结款。
这样的一手资源是众多数据标注供应商的首选,找上门求合作的供应商有几十到上百家。这两年,魏盈参与的三批体量相当的业务采购价越压越低,第一批每月6710元,第二批每月5677元,第三批降到每月4817元。
魏盈估计,除去外包公司抽成、管理费、税费等等,标注员每月工资能够拿到采购价的三分之二已较可观。例如按4817元每月的采购价,最终到数据标注员手里,可能税后不到2500元,员工想要增加收入,就得加班。“能拿这么低的价格,数据标注团队绝对不可能在北京上海,也不可能是在繁华城市,基本上都在四五线的小城市。”
邢开瑞也会通过众包平台领任务,他拿到的项目时常是被层层分包的低价订单,“有的价格低到你倒贴,赚的还不够发工资。”
扭转创业颓势是在2024年9月,邢开瑞终于跳过了层层分包商,直接与一家大型众包平台搭上线。那次合作项目完成后,他发完36名数据标注员的工资,还余出两万元。由于数据做得漂亮,新的合作很快就找上门来。
安徽智成长科技有限公司旗下的“伞云智慧”也是一个大型线上众包平台,范阳是其创始人之一。他向南方周末记者介绍,层层分包的模式中,每一环都会被扣除至少20%的利润,形成一条越向下越低级的食物链,以至于很多拿不到订单的数据标注公司,因入不敷出而倒闭。
随着人工智能的进步,数据标注的门槛逐渐变高,也成为在县城发展的新挑战。
李亚梅发现,他们如今接的道路识别项目,准确率比以前高出许多,对数据标注员提出的要求也越来越精确。同一个项目,第一版本只需员工标明车道线,提交后甲方要求更迭到第二版本,员工要标明普通车道和非机动车道,等到第三版本规则改变,员工要精细化识别各种交通标识。“后面新来的同事怎么培训都不会,除非从头培训,把前面的版本都教一遍。”
吴玥也发觉人工智能进步迅速,他长期与研发无人驾驶的车企合作,三四年前,数据标注员主要做2D图片拉框和分割业务,那时自动驾驶系统还没有预识别功能。如今2D类项目预识别已经能达到准确率85%,只需要人工进行微调。
“机器识别准确率变高以后,简单的项目变少,人力需求也变少,随之而来可能是一些难度比较高的项目。”吴玥在接医疗、外文翻译等相关数据标注项目时,会优先选择专业对口的本科生进行培训。
当数据标注的价格降低,而门槛又逐步升级,范阳预估,数据标注企业未来会大幅度被淘汰。他分析,一方面是不专业的数据标注公司加剧了行业内卷,乱象丛生;另一方面,很多科技公司受限于大环境,缩减科研投入,进而流向数据标注业务的价格也更低。
但邢开瑞不这么想,他对数据标注的未来充满信心。2024年整个12月,他都在热火朝天地筹备新的数据标注基地,以每年二十多万元的价格租了一栋四层小别墅,预计招聘200名数据标注员,“现在到处都在裁员,我还在特大规模招人。”
“未来人工智能发展需要用到的训练数据涵盖各行各业、千奇百怪,是我们想象不到的那种多,数据标注短时间内肯定是不会消散的。”邢开瑞坚信,只要人类存在,就会发展人工智能;只要人工智能发展,就需要人来训练;只要需要人,他就有钱赚。