前两年行业还说 AI 是风口、是噱头,可到了 2020 年,我们会发现越来越多的人工智能开始落地,各行各业都迈入了 AI 时代。
如今,语言助手走入现实,智能驾驶逐步应用,人脸识别技术遍布每个角落……小到手机,大到城市交通管理系统,几乎所有能被科技影响的场景,都离不开AI的加持。可是在 AI 技术大范围、高频次的实际场景使用现状下,AI“不灵光”的情况还是时常发生。我们不禁要问,人工智能为什么总是出“错”,如何让 AI 产品更有“灵魂”呢?从我们的感受来看,不管是语音助手,还是人脸识别,总会在使用场景发生改变的时候(比如普通话夹杂方言、光线变换等),准确度开始下降。谷歌发布的 CNN 报告就提到过一个严重问题:智能驾驶车辆的识别系统相比白种人、黄种人,对黑色人种的辨别率会降低 10%。不过,如果有大量经过精准标注过的高质量数据,这样的误差便可以得到很大程度的缓解。在人工智能世界里,算法、算力和数据是三大支柱。有媒体总结,目前中国在 AI 领域有五家公司被称为“人工智能五强”。算法层有商汤、旷视,AI 数据领域有云测数据,硬件方面有涂鸦智能、地平线。这些公司专注于深耕各自领域并拥有让行业认可的成果。目前行业领先的 AI 公司都拥有了出众的算法和强大的算力,提升 AI 准确度的重任,更多落在了数据之上。Testin云测CTO陈冠诚曾表示:“人工智能正加速往应用人工智能方向发展,在算法、算力没有重大突破的前提下,高质量和安全性强的数据成为人工智能商业化落地的关键点。”如何找到高质量、安全性强的数据,已经成为整个 AI 行业都亟待解决的问题。
很多人愿意把数据比作人工智能的燃料,燃料可以在算力、算法持续提升的基础上,让 AI 能力更强、更准确。在人工智能发展初期,更多的是使用通用型数据产品来训练 AI 模型。不过这样的数据只适用于 AI 的早期训练。随着人工智能行业的不断发展,也对数据提出了更高的需求,众包数据服务模式开始出现。这对提升数据多样性、丰富性有很大的帮助,在一定程度上帮助人工智能进入更高阶的训练。而随着人工智能商业化落地进程加速,AI 产品对高质量数据的需求越来越强烈。精准、高质量的场景化数据服务为人工智能应用落地带来更多的可能性。很多头部的 AI 玩家甚至愿意拿出项目资金的 10%,用于数据的采集和标注。因为行业内的玩家都清楚,没有好数据 AI 就没有未来。有行业人士估算,2020 年数据标注行业的市场规模将达到 150 亿,巨大的需求将催动整个 AI 市场的变化。如何更好地产出高质量、高精准度的数据,已经成为产业发展的关键。艾瑞咨询的相关报告显示:2018 年中国人工智能基础数据服务年复合增长率为 23.5%,数据标注赛道主要玩家的增速远高于行业平均水平。与各种增长率相匹配的是,大量数据服务采集、标注公司应运而生。可我们也说了,并不是所有数据服务公司都可以提供高质量的数据服务。更高阶的数据服务公司,会通过生产高质量、高精准的数据,助推 AI 产品智能化发展。其中一直推动数据行业的高质量、场景化、精细化,提升数据隐私安全性的云测数据,则一直堪当数据服务行业的扛大旗者。因为他们深知:人工智能想要商业化落地,一定需要用高质量的数据来进行训练,这是 AI 行业发展的必然趋势。
众所周知,随着更多 AI 落地场景的逐步具象,企业对 AI 应用的准确性、安全性都会提出更高的要求。比如,现在的手机刷脸解锁、刷脸支付、远程身份验证等应用场景,通过活体检测等方法,使用人脸关键点定位、人脸追踪等技术,验证用户是否为真实活体本人操作,可以有效抵御照片、换脸、面具、遮挡以及屏幕翻拍等常见的攻击手段,从而帮助用户甄别欺诈行为,保障用户的利益。这背后,训练算法模型所要求的的 AI 数据维度更精准、更高质、更多维,对保证用户安全发挥着至关重要的作用。
放眼整个人工智能领域,随着行业走入落地期,有更多企业希望通过质量更高的数据,将 AI 产品的准确度提升到更大,同时把失误率压到最低。以 AI 技术中的一个重要分支——自然语言处理(NLP)为例,向更高级认知智能进发的每一步,都要求质量更高、针对特定需求提供的 NLP 标注数据。据云测数据总经理贾宇航介绍,图像采标有很强的规则性,按照规范化的指导文档工作即可,相比图像、视频等数据类型,NLP 数据采标方式更为复杂。专精于定制化、场景化、高质量数据服务的云测数据有一整套的标准化流程和方法论,用来产出更高质量的 NLP 数据。首先,从项目前期帮助客户梳理更贴合实际情况的需求,达成一致后进行小规模试标,试标验收合格后,再进行大批量的规模性标注。在数据标注作业提交后,云测数据还有三层质检环节,对于准确率达不到要求的数据会打回重新标注。在完成三层质检后,还有抽检环节,确保数据的高质量输出。其次,云测数据对数据服务团队的专业化能力有着严格要求。在云测数据,以智能客服单个场景的意图标注,就分为 10-20 个大类,上百个子类,根据业务需求可能还会有进一步的标注细分。尤其在医疗、法律、教育、智能驾驶等高度专业化的领域中,标注人员并不是随便找一个普通人员就可以做,标注人员需要非常专业,才能进行正确的数据标注与解读。再次,在技术层面,云测数据对软硬件设施的持续投入,直接拉高了行业的进入门槛。云测数据自研的数据标注平台会根据实际使用中的反馈,以每周甚至更快的频率进行功能迭代,以技术结合更多的落地场景,不断提升数据标注工具的技术含量。同时,云测数据也致力于通过工程化开发来减轻数据标注中的重复劳动,提升业务效率。基于自建的数据标注基地、场景实验室、全职的标注团队和硬实力的技术投入,云测数据的业务场景已经覆盖智能驾驶、智慧城市、智能家居、智慧金融、新零售等多个领域,全品类服务能力、独立第三方的身份和对数据隐私安全的严格把控,让众多 AI 企业和各个行业的龙头企业选择与云测数据合作,保持着长期良好的关系。
在云测数据总经理贾宇航眼中,当下对数据的使用有逐渐变“大”的趋势。他认为:“高质量、场景化的数据服务正在扮演越来越重要的角色,它带来的影响不仅是效率提升、技术升级。随着 AI 行业的高速发展,它所影响的,很可能是我们的未来生活的方方面面。”随着 5G 等技术的加速落地,未来不只是人工智能垂直领域,各行各业都将积极拥抱 AI 技术,进行产业智能化升级。这种趋势为云测数据这类高质量数据服务商,提供大有所为的广阔天地。AI 照进现实已经是指日可待的事情,虽然我们会经常吐槽 AI 出错,但我们很清楚,AI 无时无刻不再改变着我们的生活。我们购物时的人脸支付,去高铁站、机场的必须经过的安检,各大城市的智慧交通、智慧物流,玩手机、刷抖音时的各种个性化推荐……这些都离不开 AI 技术的加持。
Testin云测总裁徐琨曾在演讲中表示:“AI 是划时代的技术,我相信在不久的未来,AI 将成为像互联网一样的通用型技术,云测数据将成为人工智能技术的重要力量,成为 AI 创新的土壤和支撑。”如果说 AI 是摩天大楼,高质量的数据就是 AI 发展的根基。这种土壤所带来的支撑作用,会让未来 AI 行业的发展更稳固。未来,地基有多厚,大楼就会有多高,而数据质量的好坏,直接决定了 AI 发展的上限。这是 AI 高速发展的时代,更是云测数据这类高质量数据服务厂商的发展机遇。