2021-12-30 22:46:17|已浏览:208次
“每购买一个面包就会有一只柯基失去它的屁股。”
在这个段子背后,是面包与柯基屁股的相似性引发的视觉混淆。
相似的事物尚且容易引发人眼的视觉混淆,具有相似特征的数据则会引发人工智能的误解,使AI程序抓取的数据出现偏差,从而使AI程序作出错误的判断。
利用机器学习的这一特征,攻击者直接将伪装的数据和信息“注入”人工智能程序,从而污染机器学习模型,误导AI做出错误判断,这一威胁网络安全的行为就被称为“数据投毒”。
一直以来,人工智能都依赖大量的数据进行模型训练,但这带来了过度收集个人数据、脏数据清洗难度大、数据匮乏领域依然存在“数据孤岛”等问题。近日,美国网络安全和新兴技术局(以下简称“CSET”)发布研究报告《小数据人工智能的巨大潜力》,指出长期被忽略的小数据人工智能潜力不可估量。
在当下人工智能产业迅速发展的情况下,大数据行业正在发生哪些变化?人工智能行业的数据合规又将走向何方?
从大数据回归小数据
自2006年,“AI教父”杰弗里·辛顿以及他的学生鲁斯兰·萨拉赫丁诺夫提出深度学习理念后,基于深度学习技术的人工智能浪潮席卷全球。机器通过学习样本数据的内在规律与层次,从而获得预测能力。
随着深度学习算法从学术界走向工业应用,大数据资源的使用也越来越普遍。无论是早期如语音识别、人脸识别等应用数据生产,还是互联网电商体系下的行为数据生产,都是基于大规模数据分析结果,以此推动了整个数据产业的发展。
在人工智能领域,小数据方法并不是新鲜词。与依托于海量数据总结规律的学习方法不同,小数据方法是基于人类的先验知识,在仅有少量数据的情况下利用小样本数据集进行训练的人工智能方法,大致分为迁移学习、主动学习、强化学习、贝叶斯方法、数据生成等。
一方面,在数据量较少或没有标记数据可用的情况下,不得不基于小样本数据加以人工的先验知识或者预训练模型来训练新模型。
对于学术界而言,早期的模型训练运用数据量都不多,基于人类先验知识的迁移学习和强化学习就是小数据方法的初始应用。同盾科技合伙人兼人工智能研究院院长李晓林给记者举了一个例子:“我曾经参加过一个实验,对美国周边某种濒危海象的图片特征进行深度学习,以此来为动物保护协会识别、去重、入库和统计这种海象的数量。全球这种海象的数量一共2000多头,个体表面差别很小,在这种情况下只能采用小数据方法训练模型。”
另一方面,随着深度学习算法的发展,数据价值不断被挖掘,同时,像开头所述的“数据投毒”等网络攻击使得数据治理的工作量加大,对机器处理复杂数据的能力也提出了更高的要求。
“随着人工智能从感知走向认知,逐渐进入到商业本质,信息处理的维度使得人工智能进入到深水区。”天云数据CEO雷涛告诉记者,“我们开始接触到信息化系统因为流程处理所沉淀的小数据,这些交易、流程中的数据价值密度更高,比图像视觉等传统信号体系复杂得多,因此需要认知层的人工智能基础设施来挖掘其中的含义。”
雷涛认为,在真正拥有推理和解决问题的强人工智能到来之前,在问题泛化表达能力出现之前,小数据可以用于进行数据本身的优化。在机器模型建立的环节,需要大量的人借助先验知识的小数据和材料数据做交互,比如数据衍生、数据升维、数据降维,都是一些基于答案的数据或是基于业务的显性特征,利用算力和数据之间做交互,来完成模型更有效的学习。
基于小样本数据的分析偏差也是显而易见的,李晓林告诉记者,避免小数据方法出现失误,势必需要丰富的人类先验知识作为支撑,进行迁移学习。
“当下对小数据方法的重视并不意味着就摒弃了基于大数据的模型训练。”洞见科技CEO姚明表示,目前小数据模型主要用于和大数据模型的交叉核验,在二者相结合的情况下完善模型。
本文由培训无忧网AAA教育专属课程顾问整理发布,希望能够对想参加北京大数据分析培训的学生有所帮助。更多大数据分析培训课程资讯欢迎关注培训无忧网大数据人工智能培训频道或添加老师微信:15033336050
注:尊重原创文章,转载请注明出处和链接 https://www.pxwy.cn/news-id-11383.html 违者必究!部分文章来源于网络由培训无忧网编辑部人员整理发布,内容真实性请自行核实或联系我们,了解更多相关资讯请关注人工智能频道查看更多,了解相关专业课程信息您可在线咨询也可免费申请试课。关注官方微信了解更多:150 3333 6050