发布时间:2024-09-19
在人工智能蓬勃发展的今天,有一群默默无闻的工作者正在为AI的智能提供源源不断的“燃料”。他们就是数据标注员,AI背后的“人工”。
数据标注员的工作看似简单:坐在电脑前,阅读一段文本或查看一张图片,然后给出相应的标注。 但正是这些看似简单的操作,构成了AI模型训练的基础。 以OpenAI的ChatGPT为例,为了训练这个强大的语言模型,OpenAI雇佣了大量数据标注员 ,其中不乏时薪不到2美元的肯尼亚劳工。他们负责给数以万计的文本片段添加标签,包括暴力、仇恨等带有攻击性的言论,帮助ChatGPT学会识别和过滤有害内容。
数据标注的工作流程包括数据标注、打标签、分类、调整和处理等环节。 对于像ChatGPT这样的预训练模型,数据标注的需求尤其高。据《时代周刊》报道,Sama公司为OpenAI雇用的数据标注员每九小时轮班阅读和标记150至250段文字,每段文字大约100词到1000词不等。这种高强度的工作不仅考验标注员的耐心和细心,还可能给他们带来心理创伤。
然而,数据标注员的工作远不止于此。随着AI技术的发展,数据标注的需求也在不断变化。除了传统的文本和图像标注,现在还出现了语音、视频等多媒体数据的标注需求。例如,一些公司正在招聘能够标注无人车、道路、人物、动作等复杂场景的数据标注员。这要求标注员具备更全面的知识和技能。
数据标注员在AI发展中扮演着至关重要的角色。 他们就像是AI的“老师”,通过标注数据来“教导”AI如何认识和理解世界。正如一位业内人士所说:“如果说未来AI取代人类,他们也会是最后一批被取代的。”因为总会有新的行业需要引入AI,需要数据标注员为它们做数据准备。
尽管数据标注员的工作对AI发展至关重要,但他们面临的挑战也不容忽视。 首先是薪资问题。据报道,一些外包公司的数据标注员时薪仅为1.32美元至2美元。其次是工作强度和心理压力。长时间接触暴力、仇恨等负面内容,可能会给标注员带来心理创伤。此外,随着AI技术的进步,一些基础的标注工作可能会被自动化取代,这给标注员的职业发展提出了新的挑战。
尽管如此, 数据标注行业仍然呈现出蓬勃发展的态势。 据统计,北京、杭州、成都、深圳、上海等地对数据标注员的需求量较大,平均薪资水平也相对较高。对于想要进入这一行业的人来说,除了基本的电脑操作技能,还需要具备快速学习能力、细心和耐心,以及一定的数据分析能力。
随着AI技术的不断进步,数据标注员的工作内容和要求也在不断演变。未来,数据标注员可能会更多地参与到数据质量控制、标注工具开发等更高级的工作中。同时,随着行业规范的完善,数据标注员的工作环境和待遇也有望得到改善。
数据标注员,这群AI背后的“人工”,正在用自己的辛勤劳动推动着人工智能的发展。他们的工作虽然不为人知,却至关重要。在享受AI带来便利的同时,我们也不应该忘记这些默默奉献的工作者。未来,如何更好地保护和提升数据标注员的权益,将是AI行业需要共同面对的课题。