今天我们要和大家分享的公司Scale AI,业务就是做人工智能训练数据标注,在短短6年的时间里,Scale AI已经成为了估值73亿美元的行业独角兽。
这是什么概念呢?根据iResearch、前瞻研究院的预测,2021年中国数据标注市场规模为43亿人民币,只有Scale AI估值的八分之一左右。
它如何取得如此高的估值?人工智能的上游,数据标注行业在发生什么变革?科技前哨今天与你一起了解。
1.又一个辍学创业的天才少年
Scale AI的创始人Alexandr Wang19岁就成立了这家公司,听名字就知道他是位美籍华裔,Alexandr出生在美国新墨西哥州,他的父母都是物理学家。
Alexandr Wang很小的时候就展现出了对计算机的兴趣,高中时参加了很多编程比赛,取得了不错的成绩,高中就收到很多硅谷科技公司的offer,他也抓住这个机会,别人考大学,思考未来专业的时候,Alexandr已经在好几家公司工作过。
这段硅谷科技公司的任职经历,让他发现机器学习和人工智能技术已经进入早期应用,未来会很有可能会掀起一场技术革命。
为了抓住这轮机会,他放弃了硅谷的工作,继续自己的学业,考入麻省理工学院攻读机器学习专业,为了尽快了解人工智能技术,他选修的全是研究生级别的计算机课程。
即便这样他还是认为太慢了,在大学待了一年后,他决定进入下一个阶段,毅然从麻省理工辍学。在一次采访中他谈到,这个决定让他的父母很失望,但再不行动就要错失机会,他必须这么做。
虽然辍学这个决定看起来有些冲动,他的创业路径可并不激进。辍学后,他先加入了创业孵化公司Y Combinator,因为Alexandr知道自己有了一些技术基础,但创业的方向和人脉都还需要探索。
正是这段经历给了他巨大的启发,Y Combinator当时有一个机器学习相关的创业项目,人工智能技术没有遇到大问题,如何获取训练用的数据一直无法解决。
2016年,19岁的他成立了Scale AI,为人工智能训练提供数据服务,仅仅3年后Scale AI就成为了一家独角兽公司,现在Scale AI已经成为了数据标注领域的龙头。
2.主要靠人工的数据标注行业
如今人工智能的主流训练模式就是“题海战术”,让人工智能做足够多的题目,再用答案告诉它对错,人工智能算法经过一遍遍训练,慢慢地就能明白怎么做题。
比如要培训人工智能识别照片里的猫,就要给他足够多猫的照片,提前把图片中的猫标注出来,一张张让AI自己识别,再对照答案判断对错,不断反复AI识别猫的能力就能越来越强。
数据标注做的就是把图片、声音中的关键信息标注、翻译成人工智能可以理解的内容,数据标注的好坏决定了人工智能训练成果的好坏。
这个行业很长一段时间都非常依赖人工,为此还兴起了“数据标注师”的职业,每天就是在各种图片上框选好物体,标上名字,特斯拉、英伟达为了训练自己的人工智能都有数千人以上的标注团队。
中国数据标注行业其实早有不少企业在做,耐不住大家“内卷“得太厉害,最后变成和外卖行业一样过度比拼人力的状态,产业没有得到真正的规模化发展。
3.Scale AI如何走出内卷?
Scale AI没有披露数据标注业务具体流程,从业内的判断来看,他们早期也走的是人工标注的路线,很可能他们的用的还是印度的的标注团队,靠着比美国更便宜、更高效的标注服务打开的市场。
在行业的选择上也非常有眼光,他们最早提供的数据就是用于训练自动驾驶,因此早早就和Waymo等自动驾驶龙头达成合作。
6年时间过去,Scale AI的业务早已不止自动驾驶这么简单,Uber、宝洁,Open AI,英伟达 ,Paypal,爱彼迎等大公司都与Scale AI有数据处理上的合作。
2020年9月,它们还和美国军方达成合作,拿下9100万美元的大单,协助美国军方开发、更新用于训练人工智能的数据集。
同样从人工标注数据起家,为什么国内的公司都在堆人力艰难求生,Scale AI却能在美国成为独角兽呢?
传统数据标注软件界面
4.数据标注最重要的是什么?
这其中既有偶然,也有必然。
偶然的部分,是他们作为数据标注行业的早期参与者,市场竞争并不激烈,有不少试错的空间;必然的部分在于,美国高昂的人工费让Scale AI没有陷入堆人力“内卷”当中,而是坚定的走技术解决方案。
数据标注业务本身的门槛非常低,数据是客户提供的,“数据标注师”也没有什么硬性的技能要求,要标注图片中的“猫”,你只要认识猫是什么样就能干。
与之相对的是,随着人工智能技术的发展,标注的要求越来越高,以前画个正方形把猫框住就行,后来为了精确,要像PS抠图一样,一个像素也不能多,这对人工的要求就越来越高。
为了解决这两个问题,Scale AI将人工智能应用到自己的数据标注服务中,先用人工智能识别一遍,人工主要负责校对其中的错误,校对完的数据再度用来训练自己的人工智能,让下一次标注更精准。
虽然用户的数据我不能向别人开放,但用户数据训练后的AI我可以用来帮别的企业做数据标注,随着训练数据越来越多,Scale AI做标注的效率也会越来越快,需要人工参与也会越来越少,成本自然也会越来越低。
5.自动化标注是大势所趋?
2021年底,他们为了进一步提高自己的技术实力,专门收购了一家数据管理平台公司SiaSearch,让平台的数据标注和管理能力进一步提高。
在商业上还做了一件很绝的事情,他们免费开放了自己标注好的一组激光雷达自动驾驶数据,向所有想做激光雷达方案的企业宣告“激光雷达的数据标注业务我们也有”。
正是凭借技术上的积累,商业上的持续跟进,它才得以从人工“内卷”中跳出来,走上一条平台发展之路。
Scale AI提供的机械臂图像标注
科技前哨判断,人工智能模型越来越大的趋势没有停止,更多训练数据的需求也不会停下,随着数据量越来越大,自动化的数据标注是必然之路,中国的数据标注行业也必然会走上这条道路。
只是在人工如此内卷的大环境下,如何搭建自己的平台,如何度过技术落地的困难期,中国企业面临的压力和竞争要大得多。