“目前我国已有庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”
目前人工智能落地场景不断丰富,智能化应用正改变着我们的生活。而在AI产业高速发展的背后,数据标注师这个新职业的从业人数也正在壮大。数据标注行业流行着一句话,“有多少智能,就有多少人工”。目前AI算法能学习的数据,必须通过人力逐一标注,这些人力为AI产业提供养料,构建了AI金字塔的基础。
近日,支付宝公益基金会、阿里巴巴人工智能实验室联合中国妇女发展基金会在贵州铜仁万山区启动了“AI豆计划”,这是该计划在全国启动的第一个试点地区。作为一种 “AI+扶贫”的公益新模式,计划旨在通过AI产业释放出的大量就业机会,在贫困地区培训相关职业人才、孵化社会企业,让贫困群众实现在家门口就业脱贫。
这些从业者不需要背井离乡,她们可以受训上岗,为AI机器学习进行数据的分类和标注工作,让机器可以快速学习和认知文字、图片、视频等内容,成为一名“AI培育师”。
机器学习必需数据标注
AI数据标注员被称作“人工智能背后的人工”。“数据是人工智能的血液。当下是大数据基础上的人工智能,是数据智能的深度学习时代,可以说谁掌握了数据,谁就有可能做好。”中科院自动化所研究员、视语科技创始人王金桥告诉科技日报记者。他解释,当前的人工智能也被称作数据智能,在这个发展阶段,神经网络的层数越多,神经网络越深,需要用于训练的数据量越大,“比如目前人脸识别做得好的是中青年人脸识别系统,因为年轻人坐车住酒店,采集的数据量大,小孩和老年人数据相对较少。”
但同时,只有数据是没用的。对于深度学习来讲,数据只有加上标签才有意义,才能用于机器的学习和进化。“标注是一个必须的工作。”王金桥说。
王金桥介绍,从数据的收集、清洗、标注到校验都离不开人工。数据标注最基本的就是画框,比如检测目标是车,标注员就需要把一张图上的所有车都标出来,画框要完全卡住车的外接矩形,框得不准确机器就可能“学坏”。再比如人的姿态识别,就包括18个关键点,经过训练的标注员才能掌握这些关键点的标注,标注完成的数据也才能符合机器学习的标准。
不同的数据类型对标注员的要求也不一样。除了一般较为简单、可以通过培训掌握的标注,还有一些需要专业背景的标注,比如在医疗数据标注中,标注员需要做医疗图像的分割,把肿瘤区域标出来,类似工作就需要看得懂片子的医生完成。再比如地方方言或外国文字,需要的也是掌握那门语言的标注员。
人工标注帮助AI快速落地
随着人工智能的发展,数据的训练量非常大,数据标注公司应运而生,这些公司以网络方式运作,一个平台有产品经理和项目经理,接到一个任务就找人来做,大家通过网络群组报名后,由产品经理来培训,之后各自领取自己的任务,登录账号进行标注,检验经理校验合格后就付钱,不合格则需要重新修正。
“目前已经形成庞大的数据加工队伍,仅北京就有一百多家专门从事数据标注的公司,全国从事这项工作的人大概超过千万,很多头部的互联网技术企业都有自己的数据标注公司。”王金桥说,“这个阶段数据对性能的贡献是最大的,数据越多越丰富、代表性越强、模型效果越好,算法的健壮性和鲁棒性就越强。目前情况是大部分AI公司都还没有实现盈利,但标注公司除外。”
据王金桥介绍,国外也是一样,无人零售、无人驾驶等都需要大量的人力,基于用工成本的问题,除了隐私数据之外,他们会把标注工作放在第三世界国家完成,马来西亚、泰国、印度等国家都有数据标注分公司。
常见的报道中,数据标注总被描述为“血汗工厂”,这项工作和从业者被描述得廉价低质,人被重复性机械式的劳动异化。在王金桥的解释下,这一刻板印象也被逐渐打破。
他直言,目前这种大量的人工标注是有价值的,因为理论上解决问题很难,但有了大量数据,设计深度学习网络,可以在特定场景特定应用中用数据训练神经网络,从而在很多场景中可以让AI快速落地占领市场、驱动行业应用、促进行业升级和迭代。
“比如在手机玻璃缺陷、高铁轨道的缺陷、电网高压线绝缘子损坏等检测工作中,无人机拍摄画面后,由人来检测,随着数据量增加,机器得到的训练越来越充分,机器慢慢可以自动检测,类似工作可以很大程度上由机器代劳。”王金桥说,目前人工智能的智能性虽然比较弱,但在各行各业都会带来改变,这是AI推动产业革命的机会。
数据标注需求持续增加
“现在科研界研究的都是无监督、小样本的深度学习,通过三维合成数据,用虚实结合的数据生成方式来训练机器,尽量减少数据的采集和标注,让机器自主学习、自主进化。”王金桥说,但由于缺乏理论上的突破性技术,所以虽然技术增长速度很快,但整体水平还比较低,目前的深度学习还是依赖基于统计意义的大数据模型,这要求数据足够多、足够均衡、基本满足真实世界的分布。
因此,标注这项工作会一直存在。
但王金桥也表示,随着无监督、小样本深度学习的进步,重复性标注的工作量会越来越少。“机器的识别和人一样,人经过几千年的进化,用语言用文字记录和存储几千年的文明,所以看到桌子就知道是桌子,看到灵芝知道是灵芝。机器也需要不断理解更多的内容,有数据标签,它才能学习,才会有智能。数据的加工是一个长期存在的过程,由画框到基础词汇,慢慢形成自己的知识图谱,才能自我推理和思考。”
目前的数据标注公司基本采取“计件付费”的模式,标注员的待遇与任务量和难度直接相关,熟练工一天能标几千张图片,月收入最高过万。这项工作也有一定专业性,受过培训才知道怎么标、标得清楚,人也要认真细心。“每天产生的数据量太大了,数据量持续增加,对标注的需求也持续增加。”王金桥说。
据阿里巴巴集团副总裁、阿里巴巴人工智能实验室总经理陈丽娟介绍,贵州万山仅仅是一个起点,未来项目的整体规划将聚焦贫困地区,寻找更多更适合发展“AI标注”产业的地区来落地。同时,也希望更多的人工智能企业加入,把AI标注的订单定向输送给贫困地区,为贫困群众提供更多就业机会。陈丽娟说。
延伸阅读
AI数据服务发展新方向:细分化、多模态、专业化
数据表明,当前AI发展出现了细分化、多模态以及专业化三大特征。相应的,新变化对于AI数据服务行业也形成了一定的影响与方向指引。
当前AI已经进入技术落地阶段,应用场景涉及安防、金融、家居、交通等各大行业。而未来,在数据标注行业,从业者也将随着AI行业而一同进入细分市场追逐阶段。
同时多模态也成为了AI技术发展的一个特征。所谓多模态,即是对多维时间、空间、环境数据的感知与融合。如当前的自动驾驶需要雷达+摄像头才能跑的更稳,安防行业需要摄像头+雷达红外RFID才能感知得更精准、更真实。而在数据服务产业,企业也需要适应AI技术发展的多模态特征,掌握对多维传感器融合的数据采集与标注。
此外,尽管当前AI技术已经进入落地阶段,但是头部AI企业的落地场景相较传统行业的AI落地场景,在技术上会更有前沿性。而这些企业的一些先进技术研究也很有可能成为未来数据服务行业的一大发展方向,所以数据服务企业也需要在这些前沿场景中不断探索,才能在行业竞争中获得长期发展。
工信部:持续改善网络基础设施建设 引领带动绿色智能家电消费 在自家冰箱上下单,就能收到北京寄来的地道烤鸭;只要进入千兆城市,就能享受遍布的极速WiFi……在国务院新闻办公室日前举行的例行吹风会...
打造低碳零碳负碳原创技术的策源地 中国环保发起双碳科创园 5日,由中国环境保护集团(以下简称中国环保)发起的中国环保双碳科创园暨中欧双碳产业园(以下简称园区)启动会暨双碳战略座谈会在北京市顺义
支持资金近1.5亿元!内蒙古启动“双碳”科技创新重大示范工程 记者6月7日从内蒙古科技厅获悉,为将全区双碳科技创新工作迅速落到实处,内蒙古按照围绕产业链部署创新链、围绕创新链布局产业链的原则,紧
我国首个!首批两台HXN6型内电混合动力机车成功下线 6月9日,我国首批两台商品化HXN6型内电混合动力机车在中车资阳机车有限公司(以下简称中车资阳公司)成功下线。该车动力源采用动力电池组+柴
好消息!2022年起企业可提前享受前三季度研发费用加计扣除政策 近日,国家税务总局印发《关于企业预缴申报享受研发费用加计扣除优惠政策有关事项的公告》,明确从2022年起,企业可以在每年10月申报期申报
智能中遇见“未来”!中新新天津生态城将推出6个智慧应用场景 第六届世界智能大会云端召开在即。作为世界智能大会的永久展示基地,中新天津生态城今年将推出哪些值得期待的智慧应用场景?在智能中遇见未
【实探】中药价格狂飙过后的“药都”亳州:货车司机闲坐等接单 【实探】中药价格狂飙过后的“药都”亳州:货车司机闲坐等接单,当归,党
东方日升(300118.SZ)拟10股派2元 于7月14日除权除息 智通财经APP讯,东方日升(300118)(300118 SZ)公告,公司2022年年度权益
中国蜀塔(08623)拟420万元收购雅安宝盛金属材料余下30%股权 智通财经APP讯,中国蜀塔(08623)公布,于2023年7月7日,该公司全资附属
南王科技最新公告:拟投建高端环保食品级纸制品项目 南王科技公告,公司拟在广东省鹤山市鹤山工业城A区设立全资子公司“广
南王科技(301355.SZ):拟设立子公司投资建设高端环保食品级纸制品项目 格隆汇7月7日丨南王科技(301355 SZ)公布,公司于2023年7月7日召开第三
拉夏贝尔(06116):管理人仍有序开展债权申报、债务及资产核查等工作 智通财经APP讯,拉夏贝尔(603157)(06116)发布公告,自公司进入破产清算
2023年7月7日江苏省聚丙烯酰胺价格最新行情预测 中国报告大厅2023年7月7日江苏省聚丙烯酰胺价格最新走势监测显示:苏州
CCER重启真的要来了!生态环境部发布公开征求意见通知 CCER重启真的要来了!生态环境部发布公开征求意见通知,配额,交易,ccer,
云南建投混凝土(01847)附属高分子公司订立保理协议 智通财经APP讯,云南建投混凝土(01847)发布公告,于2023年7月7日,该公
明源云(00909.HK)委任梁瑞冰为联席公司秘书 格隆汇7月7日丨明源云(00909 HK)宣布,司徒嘉怡因其他工作安排,已提呈
彩客新能源(01986)4月21日斥资8.58万港元回购6.2万股 智通财经APP讯,彩客新能源(01986)发布公告,于2023年4月21日,该公司
富祥药业:7月6日接受机构调研,包括知名机构盘京投资的多家机构参与 2023年7月7日富祥药业(300497)发布公告称公司于2023年7月6日接受机构
广东宏大:预计2023年1-6月盈利,净利润同比增20%至30% 广东宏大发布业绩预告,预计2023年1-6月归属净利润盈利3 02亿元至3 27
冯奎章_冯奎 1、冯奎卖妻是明朝末年的故事。2、《冯奎卖妻》保定府有一对夫妻叫冯奎
注意!家里这些物品也要“防暑降温” 入夏以来,多轮高温天气来袭用电需求量较常年同期偏高面对“烤”验日常
2023年爱心售报|小报童带病坚持来卖报 孩子成长迅速让家长很欣慰 扬子晚报7月7日讯(记者季宇轩实习生王元钊)7月6日是2023年扬子晚报暑
粤电力A最新公告:预计上半年净利润8亿元-9.5亿元 同比扭亏为盈 粤电力A公告预计上半年净利润8亿元95亿元去年同期亏损1372亿元同比扭亏
潼关黄金(00340.HK)拟3.39亿港元收购宏勇投资100%股份 格隆汇7月7日丨潼关黄金(00340 HK)公告,于2023年7月7日,公司(作为买
小摩:转型和AI利好被负面因素抵消 首予IBM(IBM.US)“中性”评级 摩根大通分析师BrianEssex发表研报,首次覆盖IBM(IBM US),给予“中性
Wolfe下修派拉蒙环球(PARA.US)业绩预期 降评级至“跑输大盘” WolfeResearch将派拉蒙环球(PARA US)的评级从“与同行评级”下调为“跑
顺丰控股最新公告:4月速运物流业务营业收入146.46亿元 同比增长27.29% 顺丰控股公告,4月速运物流业务营业收入146 46亿元,同比增长27 29%;
青岛银行(03866.HK):提名陈霜及杜宁为董事候选人 格隆汇7月7日丨青岛银行(002948)(03866 HK)公布,董事会于2023年7月7日
深圳大动作!24条举措 剑指… 作为全国外贸重镇,深圳在促进外贸稳定健康发展上再加码!日前,中国人
我国人工智能蓬勃发展 核心产业规模达5000亿元 7月6日,2023世界人工智能大会在上海世博中心拉开帷幕。图为参观者在达
李玟妈妈首度发声,公开吐槽外国女婿缺点,李玟曾为老公整晚痛哭 阅读此文前,诚邀您点击一下“关注”,方便您随时查阅一系列优质文章,
中国银河(06881)因可转债转股2022年末期股息调整为每股0.22533元 智通财经APP讯,中国银河(601881)(06881)公布,由于公司于2022年3月24
正业科技(300410.SZ)选举余笑兵为董事长 智通财经APP讯,正业科技(300410)(300410 SZ)公告,公司董事会同意选举
紫金矿业(02899.HK)预计上半年净利约102亿元 同比下降19.2% 格隆汇7月7日丨紫金矿业(02899 HK)公告,公司预计2023年半年度实现归属
中航光电(002179.SZ):拟投资27.2亿元在洛阳购置土地建高端互连科技产业社区项目 格隆汇7月7日丨中航光电(002179)(002179 SZ)公布,2023年7月7日,公司
建发国际集团(01908.HK)根据以股代息计划发行1.08亿股 格隆汇7月7日丨建发国际集团(01908 HK)公布,根据公司以股代息计划而于
源自福特超级平台,江铃福特新款轻客来袭 说起轻客,大家的第一印象总是全顺...
多彩新媒协同多省IPTV加速布局大屏生态圈,“看中国”深度挖掘 智能大屏价值 6月16日,在北京论道暨第25届中国...
出击!招行信用卡协助警方重拳打击金融“黑灰产”! 在上海浦东新区某大厦内,挂着“法...
“2022-2023年度中国医药制造业百强”出炉,扬子江药业集团荣登榜首 7月4日,由全国工商联医药业商会、...
国庆假期怀柔北部山区的红叶进入最佳观赏期 吸引游客前来赏秋景 国庆假期,怀柔北部山区的红叶进入...
重磅!四川省科创贷款较年初新增620.35亿元 同比增长21.22% 记者日前从中国人民银行成都分行获...
252项“全程网办”!川渝两地企业登记档案实现跨区域互查 8月30日,记者从省大数据中心获悉...
2022年中国国际服务贸易交易会在京举办 四川参展企业数量创新高 8月31日至9月5日,主题为服务合作...