各位老铁都开工了吗?
新的一年,新的压力

春节假期也有很多关注了我的新朋友,借着新朋友们来的机会,想跟大家聊聊数据那些事~~


众所周知,近两年来,人工智能,已经跌入到两三年前大数据风口上,全民皆“数据科学家”的套路里了。大家都对各种人工智能的岗位好奇憧憬,但普遍都不了解各个岗位具体是做什么工作的。在这里给大家打个比喻,虽然不太恰当,但非常形象!!

做算法是屠龙,仗剑江湖,天外飞仙; 做工程是狩猎,跃马奔腾,纵酒狂歌;做数据是养猪,每天拌猪食清猪粪,一脸土一身泥。

作为码农一枚,笔者的工作内容正好在数据这个领域,今天就想聊聊做数据的到底都在干啥。

工业界直接应用 AI 技术的人员,大致可以分为三个不同角色:算法、工程,和数据。

<>01 做数据是在做什么

对于数据,需要从:i). 具有业务含义的信息,和ii).用于运算的数字,这两个角度来对其进行理解和掌握。

1.1 特征选取: 从业务角度区分输入数据包含的特征,并认识到这些特征对结果的贡献。

* a) 对数据本身和其对应的业务领域有所了解。
* b) 能够根据需要标注数据。
* c) 知道如何从全集中通过划分特征子集、加减特征等方法选取有效特征集。
1.2 向量空间模型(VSM)构建: 了解如何将自然语言、图片等人类日常使用的信息转化成算法可以运算的数据。

* a) 能够把文字、语音、图像等输入转化成算法所需输入格式(一般为实数空间的矩阵或向量)。
* b) 能够根据信息熵等指标选取有效特征。
1.3 数据清洗和处理: 对直接的业务数据进行筛选并转换为模型可处理形式。

* a) 能够运用统计学方法等ETL手段清洗输入数据。
* b) 能够对数据进行归一化(normalization), 正则化(regularization)等标准化操作。
* c) 能够采用bootstrap等采样方法处理有限的训练/测试数据,以达到更好的运算效果。
<>02 数据标注是什么

此处说得做数据并非数据的清洗和处理——大家可以看到做工程的岗位,有一部分工作内容就是ETL和处理数据。此处说的做数据是指数据标注。

2.1 标注数据的重要性

虽然机器学习中有无监督学习,但在实践领域被证明有直接作用的,基本上还都是有监督模型。近年来,深度学习在很多应用上取得了巨大的成功,而深度学习的成功,无论是图像、语音、NLP、自动翻译还是
AlphaGo,恰恰依赖于海量的标注数据。

无论是做 ML 还是 DL 的工程师(算法&工程),后者有甚,都共同确认一个事实:现阶段而言,数据远比算法重要。

2.2 数据人工标注的必要性
很多人误以为 AlphaGo Zero 100:0 大胜 AlphaGo 是无监督学习的胜利。其实,之所以有这样的结果,恰恰是因为 Zero
利用围棋严格完备而明晰的规则,自己制造出了巨大量的标注数据——这些标注数据的数量远超其前辈 AlphaGo 的输入,而且可以随时造出更多。

围棋是一个人为定义的在 19x19
点阵范围内,按完备无二义性规则运行的游戏,因此计算机程序才能依据规则自动产生标注数据。真实人类世界的事情,基本没有完全按矩而行无意外的情况。因此,对人类真正有用的模型,还是需要人工标注的训练数据。

固然,目前有多种技术用以在标注的过程中辅助人工,以减小工作量及降低人工标注比例。但至今没有能在应用领域完全自动化标注的技术出现。

换言之,在看得见的未来之内,人工标注数据仍然是 AI 落地的必要和主流。

2.3 什么叫做标注
举个很简单的例子说明一下什么是数据标注:

在开发聊天机器人的时候,我们需要训练意图判定和实体识别模型,因此也就需要标注用户问题的意图和出现的实体。

这是用户问题原始数据:“00183 号商品快递到伊犁邮费多少?”

这样一句话,很显然问它的用户是想知道某一种商品发往某地的邮费。邮费是商品的一个属性,我们把所有查询商品属性的意图都定义为“商品查询”。

因此,这样一句话的意图是“商品查询”。其中有包含了几个实体,分别是商品 Id,目的地和商品属性。

这句话被标注出来以后,就是下面这个样子:
[00183]<-{商品Id}号商品快递到[伊犁]<-{目的地}[邮费]<-{商品属性}多少?||商品查询

具体格式不必纠结。核心一点:标注就是将原始数据内全部或者部分内容,按照业务需求打上定义好的标签。

<>03 数据标注的日常工作

3.1 数据标注的日常工作
简单说:数据标注的日常工作就是给各种各样的数据(文本、图像、视频、音频等)打上标签。

【好消息】:数据标注工作几乎没有门槛。一般任何专业的大学毕业生,甚至更低学历,都能够胜任。上手不需要机器学习之类的专业知识。
【坏消息】:这样一份工作,是纯粹的“脏活累活”,一点都不 cool,起薪也很低。

所以,虽然这是一件谁都能干的工作,但是恐怕,没几个人想干。

3.2 数据标注的难点
就单个任务而言,数据标注是一项很简单的工作。它的难点在于数据的整体一致性,以及与业务的集合。

【1】数据一致性是指:所有数据的标注原则都是一样的。
当数据很多的时候,一致性是相当难以保证的,尤其是在有精标需求的情况下。
如果一份 raw data
由多个人同时标注,就算是反复宣讲标注原则,每个人也都有自己的理解和侧重,很难保证一致,很可能一句话在某个人看来是“查询商品”,而在另一个人看来就是“要求售后”。(即使是将所有数据交给一个人,也可能在不同时间段理解不同。)

出于对数据标注工作的不重视(正好与对算法的过分重视相映成趣),很多公司外包了数据标注工作。对于数据标注的不一致性,则采取一种暴力解决方案:让多个人(比如 3
个)同时标注同一份数据,一旦出现不一致,就采用简单多数法,取最多人一致认定的那种结果(比如 3 个人中两个都选“查询商品“,则选定”查询商品“为最终
label)。


这种方案对于粗标数据还可以起到一定作用,但如果是精标,则往往连多数人一致的情况都难以出现。如果三个人所标结果完全不一样,那么这条数据也就失去了标注价值。在现实中,经常会出现同一份数据因为质量过低,被要求重复标注的情况出现,费时费力。

【2】与业务的集合是数据标注面对的另一个挑战。
这一点在目前还不是很明显。因为:目前人工智能的落地点还比较有限,真正的商业化领域也就是语音和图像处理的少数应用;owner
都是大公司,有自己的标注团队,或者雇佣有长期合作关系的第三方标注公司,标注人员都相对有经验;业务要求也相对稳定,所需数据标注又相对通用化,普通人都不难理解数据含义和标注原则。

一旦未来人工智能的落地点在各个领域全面铺开,很可能需要的是针对具体企业、具体业务,不断变更的标注需求。


标注这件事情看似容易,但是一旦标注原则有所改变,就要整个重新来过。以前的标注不但不是积累,反而是累赘。如何应对快速变更的业务需求,同步更新标注结果,将是一个在AI真正服务于大众时全面爆发的问题。偏偏现阶段还未引起足够重视。

<>04 数据标注的职业发展

4.1 数据标注的潜力
就目前而言,数据对模型的影响远胜于算法。
一群年薪百万起步的算法工程师耗费经年的成果,对于模型质量直接的影响甚至比不上一个靠谱标注团队一两个月的精心标注。对模型的影响尚且如此,更何况是商业价值。

此时此刻,AI
在风口浪尖,商业企业能承受多少年不挣钱只烧钱?待潮涌过后,行业回归理性,模型还是要用来挣钱的。到了那个阶段,大小企业不会去算成本收益吗?他们会意识不到将资源投入数据和算法的不同产出比吗?

企业为了创造利润应用 AI
技术,算法工程师不是刚需,而数据标注这个人工智能领域的“勤行”,人工智能蓝领,一定是刚需!一切标注工作的难点和潜藏的风险,也就是这项工作的潜力和从事这项工作未来职业发展的可能性所在。

4.2 数据标注的职业发展
如前所述,数据标注的难点在于:

* 如何根据业务设定标注原则
* 如何快速统一地实现标注原则
同时,和所有门槛低的工种一样,从事数据标注工作,要面临如何从极大量基数资质类似的人员中脱颖而出的问题。还有就是如何与越来越多的自动化标注技术共处的问题。

因此,笔者个人建议的数据标注职业提升路径:经验+业务+管理。大致步骤为:

* 通过实践积累数据标注的工作经验
* 深入理解业务需求并将其体现到数据的标注结果中
* 管理标注团队达到高效的标注结果与业务变更align
未来也许会出现一个“数据经理”之类称谓的职位:其职责以负责提供高质量标注数据为基础,技术上衔接工程领域的 ETL
和数据处理,产品上对接业务,带领团队为公司产品或服务的 revenue 提供直接贡献。

<>05 认清形势,脚踏实地

来总结一下,近来一段时间,根据在公众号咨询我的朋友们,能明显感到,想入行 AI 的人越来越多,而且增幅越来越大。


为什么这么多人想入行AI呢?真的是对计算机科学研究或者扩展人类智能抱着无限的热忱吗?说白了,大多数人是为了高薪。人们为了获得更高的回报而做出选择、努力工作,原本是非常正当的事情。

关键在于,找对路径。而我们做数据的也算是近水楼台先得月了,可能相比其他的技术人员,入行 AI
更容易一些,学一学人工智能的基础知识,例如机器学习、深度学习等。了解不同层次人才定位,并结合自己实际寻找一条可行之路。

新的一年,新的 flag

给大家推荐一个入行 AI 的训练营课程 《21 天入门机器学习》 ,改变,从挑战 21 天技能升级开始。想参加的老铁们可以扫码了解一下详细内容

微信扫描二维码查看详情


<>训练营导师介绍

李烨,微软(Microsoft)高级软件工程师, 曾在易安信(EMC)和太阳微系统(Sun
Microsystems)任软件工程师。先后参与聊天机器人、大数据分析平台等项目的开发。

<>关于课程的其他介绍及报名方式

1. 开营时间: 3 月 1 日开营。
2. 学习形式: 图文课程内容 + 打卡学习+课后练习题 + 实践项目+助教监督提醒+奖学金助学。
3. 训练营名额: 限额 200 人。
3. 训练营价格: 前 200 名特价 399 元。
4. 报名后如何参加学习: 报名成功后加助教-「梦梦」微信,提交购买截图,助教会拉你进学习训练营社群。
5. 购买疑问请咨询:训练营小助手微信(gitchat2018)

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:ixiaoyang8@qq.com
QQ群:637538335
关注微信