管理好AI数据,成为重要的创新机遇
诚然,随着算法模型、技术理论和应用场景的不断突破,加之“新基建”浪潮下算力基础设施的快速建设,AI产业对数据“量”的需求在不断增长,数据量“短缺”一度成为AI产业链条上的瓶颈问题。
但是,这可能并不会持续很长时间,嗅到机会的科技巨头、创新企业前些年在数据采集与标注上广泛布局,推动合格数据的“量”快速增长,这也使得数据标注行业作为AI上游基础产业在短短数年间实现了爆发式发展。数据标注行业市场规模为30.9亿元、36亿元左右,年均复合增长率20%左右,预计到2025年,国内数据标注市场规模将突破100亿元大关。
过去AI模型训练以一个个项目为主,做完项目、得出一个预期质量的AI模型后,使用过的数据便被“丢弃”;而现在,企业倾向于持续把过去已有的数据利用起来,逐步形成属于企业的数据池子,将数据在多个相关模型开发中进行重复利用。
这就导致单个企业所积累的数据量越来越多,而众所周知数据量的增长又以非结构化数据为主,企业所面临的AI数据集管理的挑战越来越明显,甚至出现一个Excel表格管理数据的现象;数据随意拷贝、传输,存在重大的资产损失风险等等。显而易见,这时候,能够帮助企业管理好AI数据,就成了重要的创新机遇。