亚博直播-微软亚研院20周年独家撰文:数据智能的现在与未来

亚博直播

亚博直播|。如果将数据视为新的“石油”,则数据智能是“炼油厂”。数据智能通过数据分析获得价值,将原始数据处理为信息和科学知识,转化为决策或行动,成为推动数字化转型必不可少的核心技术。

数据智能的重要性更加突出,近年来取得了缓慢的发展。数据智能技术强调了我们探索数据空间未知部分的能力,在很多领域提供了巨大的机会。搜索引擎、电子商务、社交媒体应用程序等许多新的基于互联网的业务本质上是在数据智能的基础上构建和运营的。

数据智能技术正在重组现有的业务分析或业务智能领域。根据Gartner的研究,新的“强化分析”分析模式正在政治上宣传现有方式,预计在几年内将成为商业智能系统订单的主导力量。这种“强化分析”模式就是数据智能技术,它提供了自然语言查询和说明、增强的数据规划、自动高级分析、基于可视化的数据导航等多种核心功能。那么,数据智能领域的技术发展怎么样呢?今后数据智能研究的热点是什么?数据智能的技术进步与数据智能相关的核心技术大体上可以分为数据平台技术、数据整理技术、数据分析技术、数据交互技术、数据交互技术、数据可视化技术等。

与传统的数据处理、数据分析相比,数据智能面临许多新的挑战和新的问题。在解决这些问题和挑战的过程中,各种技术革新层出不穷。为了反对大规模数据系统和平台大规模数据处理和分析工作,新的数据存储系统必须接受和反对高效的数据突然、低可扩展性和低容错。传统数据库OLTP是为交易市场需求而设计的,不适合大规模数据统计分析类的市场需求查找和应用。

今天的大容量数据系统更注重读取效率、数据容量和系统可扩展性。特别是,使用经过验证的数据块将数据拆分为块,并将每个副本集中在多个物理系统上,以防止单个系统损坏对数据完整性的影响。保持数据的验证可提高系统的可靠性,同时提高数据加载时系统的性能。另外,为了节省成本,现代的大型数据系统在相对便宜的普通服务器上运行。

这些机器通过高速网络连接建立高效的数据传输。大量数据的废弃和分析包括很多计算,从而产生了许多分布式NoSQL数据处理系统。

在计算模型中,MapReduce的销售对大数据并行处理产生了革命性的影响。以MapReduce为基础,新的计算模型Spark被更明确地提出。

Spark充分利用了内存中计算的优势,并在原始MapReduce中大大优化了Shuffle带来的效率问题。经过多年的发展,Spark用业界特别重要的大容量数据处理框架取代了MapReduce,并开发了对生态系统非常丰富的应用程序。另外,基于流的计算模型是为了应用反对大变化和改编的大数据而开发的。

为了超过流量计算模型中的更动态修改,每当到达数据事件时,都会开始处理。Spark Streaming、Storm和Flink都是比较流行的流式计算平台。在反对对大容量数据进行在线交互式搜索和分析的同时,各领域的技术慢慢融合,共同构建更加动态高效的大容量数据交互搜索平台。

以ElasticSearch为代表的技术之一,它将搜索系统的索引体系结构和技术相结合,对大规模非结构化和半结构化数据展开块、索引,反对缓慢的查询。
以Spark Kylin为代表的另一项技术将现有的数据立方体技术扩展到大规模数据领域,同时使用部分预先计算的数据立方体内存,在操作中大大加快检索速度。

随着技术的发展,对数据的低意义水平自动分析变得更加重要。自动分析技术经常需要在不同的搜索条件下经常计算单体结果,一个分析搜索可以包括数百次非常简单的单体搜索。这提出了对搜索性能的明确拒绝。

为了解决问题,同时,在大数据分析中,大部分工作都考虑到数据的完整性太脆弱,学术界明确提出了Blinn DB、BigIN4等技术和系统,利用通过采样或预期算术获得的部分数据来估计用户的搜索结果,从而超出了计算速度更慢的目的。BlinkDB试图利用分层使用方法增加估计错误,而BigIN4则试图通过贝叶斯估计方法优化用户发现的估计错误。

基于自然语言的交互似乎是一个理想的方案,以减少数据分析的门槛,将自然语言作为交互方式使用。此后,普通用户可以更慢、更有效地开展数据浏览和数据分析。

近年来,自然语言处理和人工智能技术变化缓慢,用自然语言查找和分析数据变得更加可行。自然语言数据分析中需要解决问题的最重要问题是语义分析。语义分析技术是将自然语言需要转换为可以继续运行的程序(如SQL语句)。基于关系数据库/数据表的语义分析技术是解决问题自然语言交互查询的重要方法。

早期主要使用模式匹配基础方法,后来经常出现以语法分析和语义分析为基础的第二代方法。近年来,随着深度自学技术的发展,出现了一系列综合意义分析模型。典型的结束-结束模型使用sequence-to-sequence的方法依次编码自然语言,然后逐渐分解SQL语句。

但是,此方法的缺点是,它可以轻松地生成不准确或不能再执行的SQL语句。因此,在综合方法的基础上,增加搜索空间,减少限制,引入SQL语法科学知识映射、表单信息引入、WordNet等外部知识库等,不融合各种科学知识。分析的自动化数据分析是数据智能的最核心部分,一般可分为说明分析、临床分析、预测分析、指导分析等四类,每一类都以数据为基础提出不同的问题,再生可能性更大,带来的价值更低,使用的技术也更简单。

数据智能分析工具的发展经历了以下四个最重要的阶段和层次:第一阶段:数据智能专家的主要任务是自学和理解特定领域的问题,建立“结束-结束”的分析过程和平台,并以特定领域的数据分析师为主要用户,解决问题特定领域的专业问题。第二阶段:数据智能专家通过对各领域的深刻印象,提取出共同依赖不同领域任务的适当市场需求单位(例如差异分析、主要驱动因素分析、预测分析等)。

将与每个市场需求单位相对应的数据智能技术组织成一个由积木组成的分析平台,用于各个领域。(威廉莎士比亚、数据智能、数据智能、数据智能、数据智能、数据智能、数据智能、数据智能、数据智能)用户可以根据自己分析工作的市场需求,在分析过程中自由选择相应的技术模块。

官方网站

第三阶段:更充分地发挥机器的“智能”,在分析任务的所有部分都具有洞察力(Insight)。
第四阶段:前三个阶段,数据处理、特性选择、模型设计和参数优化等核心链接严重依赖机器学习专家的科学知识和技术。随着机器学习理论的进一步发展,Auto ML技术经常出现并开始发展,其核心是在对众多机器学习成果的总结基础上,系统地抽象上述重要部分,融合发展较慢的计算机废弃能力,逐步实现自动化,进一步减少数据智能模块的研发门槛,扩大对长尾任务的反对,促进人类智能和机器智能的进一步融合。

数据融合的自动化如何有效地整理和整合如此多样和复杂的数据是数据智能领域最重要的。与数据融合相关的技术总体上需要解决以下主要问题:第一,在机器从数据中提供智能之前,机器必须准确地背出各种数据。机器友好关系的数据是与关系数据库相似的结构化数据。

但是实际世界上没有大量的非结构化数据,例如自然语言文本。还有两者之间的半结构化数据,如电子表格。

目前机器很难解释这些非结构化的方面。只有将数据作为机器友好关系的结构化数据处理,机器才能充分发挥特长,从数据中提供智能。将非结构化数据,特别是半结构化数据转换为结构化数据是构建数据智能不可或缺的任务。

第二,数据不是孤立的。数据智能应充分利用数据之间不存在的关系,传输和合并其他数据源或数据集包含的信息。为数据分析工作获得更丰富的信息和角度。

最后,数据并不极端。早期检测和修复数据中不存在的缺陷或错误是确保数据智能得出正确结论的重要部分。数据可视化数据可视化基本上不存在于感官和数据交换中,包含嵌入式、图形设计、心理学等多种领域。

在当前大数据流行的时代,数据可视化逐渐崭露头角,发挥着更重要的作用。可视化技术被用作分析,成为数据智能系统的必要组成部分。

这些技术通常不构建在图形界面中,而是显示一个或多个可视化视图。用户需要在这些视图中扩展搜索、选择、过滤器等交互,以导航和分析数据。可视化工具变得越来越形式化和大众化,使一些高水平的分析变得更加容易。

(威廉莎士比亚,泰姆派斯特,可视化,可视化,可视化,可视化,可视化)Word Cloud,Treemap,Parallel Coordinates,Flowmap,ThemeRiver在决策过程中,可视化也起着最重要的作用。可视化可以使信息更加准确,丰富,容易解释,大大提高人们之间的沟通效率。视觉故事(visual storytelling)研究如何将可视化用作信息展示和沟通。今天的主要数据分析平台,如Power BI、Tableau、Qlik等,都有可视化故事线的模型。

可视化故事线的研究还处于比较早期的阶段,人们正在探索标记形式、故事线方式、交互手段、上下文、记忆性等各个方面。如何评价可视化故事还需要进一步研究。

近年来,基于隐私维护的数据分析备受关注,随着GDPR等与数据保护相关的法律的实施,研究人员开始积极探索保持隐私的数据分析技术。也就是说,在保持数据隐私的同时管理和销毁数据。

一个方向是确保可靠的计算环境,继续执行脆弱的操作员。
用户的数据始终是加密的,只有在可信的计算环境中才能解密和销毁。

另一个方向是对加密数据的废弃获得所需的结果。因为数据不解密,隐私得到保证。可选加密技术长期以来被广泛用于多媒体内容维护,但很难扩展到其他类型的数据。另一种适用的可能性是同类型加密。

这允许对密文进行乘法和/或乘法等一些同构操作者的扩展。密文下的运算结果与解密后适当操作员对明文的结果完全一致。数据智能技术的未来热点数据智能研究今天大数据时代的各个领域、各行各业都在从数据中挖掘、构建价值、实现数字化转型的迫切需要,近年来受到充分推崇,增长迅速。

随着数据智能在更好的领域落地和发展,新的应用和方案、新的问题和挑战将进一步激发和驱动数字智能研究,保持强劲的增长势头,更上一层楼。(大卫亚设,Northern Exposure(美国电视),数据名言)展望未来,数据智能技术将朝着更自动、更智能、更可靠、更普遍、更高效的方向发展。热点1:如果想在更高的语义解释水平上展开分析,更智能地分析数据,就需要对数据进行更丰富的语义解释。与科学知识地图(Knowledge Base)不同,数据分析中最常用的关系数据模型也是对实体和关系建模,但关系数据模型的建模是针对检索和存储性能进行优化的,经常会失去很多意义信息。

如何引进领域科学知识和常识型科学知识是更好地解释数据所必需的。如何从表格数据和网页等其他容易获取的文本数据中自动提供语义信息,加强和丰富表格数据,是必须研究的最重要方向。

例如,检查表中的行或pee的实体类型(包括名称、地名、机构名称等命名实体、时间、地址、货币等数据类型)。表格中往往没有文本中丰富的上下文信息,因此表格中的实体识别与其他自然语言处理任务中的实体识别非常困难。除了处理物理识别外,从数据表中挖掘和分析物理关系也很重要。充分挖掘实体之间的关系,就可以完成一些实体类型的推荐和数据分析问题。

热点2:结构标准化科学知识和模型的框架人类需要对科学知识和方法进行一般反三反三的沟通。从数据分析领域到分析中使用的科学知识和模型必须在不同的数据对象和分析任务之间共享和迁移。机器学习领域已经有很多相关工作,明确提出了自学、多任务自学、实际自学模式等几种方法。

为了构建这个“反三”的目标,不仅要深入研究明确的机器学习算法,还要在模型和科学知识的框架体系中思考。要研究适当的数据分析领域标准化的科学知识和模型的原语体系,以及科学知识和模型移动共享的统一框架。热点3:创建高质量的教育数据集和基准数据集由于教育数据不足,人工智能、深度自学等技术更多地应用于数据智能领域。

正如ImageNet数据在计算机视觉领域的研究方面取得明显进展一样,数据智能领域的研究也需要建立共同的大规模、高质量的教育数据集和基准数据集。如果有丰富的教育数据,自动分析、自然语言交互、可视化推荐等数据智能领域的很多研究将无法取得突破性进展。

亚博直播

热点4:获得可解释分析结果的用户仍然依赖于白色墨盒的智能、末端、末端和整个操作,需要更加细致、针对性和半透明的数据智能。(威廉莎士比亚,《北方执行报》)。
例如,数据智能用作财务审计系统,准确推荐最危险的交易记录,进行优先级审查,将系统风险降至最低,最大限度地提高审计效率。

需要在这些系统的研发中建立可破解性强的模型。亚博直播在推荐高风险交易记录的同时,尽可能确保系统基于什么部分,通过什么逻辑知道这是高风险交易的相关依据。

(威廉莎士比亚、温斯顿、高风险、高风险、高风险、危险)这与过去常用的黑匣子技术路线有明显的变化,将沦落为今后技术发展的趋势。热点5:人类智能和机器智能更加紧密融合的现有人工智能技术,本质上仍然是被动地遵循人类原著的既定逻辑,自动运行,最终无法突破人类传授的自学框架,没有创造力。

因此,在可识别的未来,数据智能将仍然无法摆脱与机器合作的模式,需要对人类在数据分析方面的智能和经验进行综合总结,系统地构建在众多智能系统中,以便于转换为机器算法。(大卫亚设,Northern Exposure(美国电视),电脑)热点6:强有力的指导性分析沦为主流数据分析的核心目标之一是指导性行动。不管分析有多好,如果不采取行动,分析的价值就会切实反映出来。这就是指导分析的最重要价值。

例如,根据详细的分析,数据智能预测下一季度一个品牌的销售量不会下降10%。如果分析任务到此为止,数据智能将无法尽到所有责任,人们还需要根据之前的分析融合自己的经验,找出如何才能防止潜在的销售量减少或下降。适当的指导分析可以看出,要想保持下一季度的销售量不变,需要采取哪些措施。

指导分析的结果是将特定子产品的产量增加20%。其他两个子产品的产量分别减少10%等。目前的数据智能技术在得出指导分析的同时,还不具备足够的解释模型,无法获得充分的依据,使人类用户能够充分信任自动推荐的结果。

获得具有更好解释的指导性分析是趋势。热点7:基于隐私维护的数据分析更加成熟通过法律、技术、用户参与等全方位的共同努力,隐私维护将进一步添加到未来的数据分析中。在技术层面,个人数据需要控制数据主体收集、管理、废弃和共享的方法,在整个生命周期内进行维护,开发和分发保持隐私的数据处理技术,以获得保持隐私所需的结果。热点8:智能分析助手获得一般化的智能代理(Intelligent Agent)技术和数据分析技术的融合是最重要的方向。

在立即的未来,智能数据分析支持应该帮助人类更有效地分析和利用数据。这种数据分析智能助手可以通过自然语言对话交换数据分析的任务和结果,解释分析的背景和上下文,完成人类传达的特定数据分析任务(根据分析的意义水平,可以分为基本分析命令和高级数据挖掘任务),或将有业务价值的数据事实推荐给人类用户(例如,从数据中自动挖掘的数据洞察力),并对特定数据事件执行这些智能,同时还具有自学能力。热点9:简化协作。

可用的分析。随着各种通信工具的蓬勃发展和普及,简化协作。可用的分析不会成为热点。

与传统的面对面、小规模协作不同,新的协作分析往往是异步的、大规模的,人们有不同的时间和地点,以便对不同的设备和相同的数据进行可用的分析。在这个过程中如何协商人们的合作?如何防止重复工作?如何确认其他人在其他显示终端看到的数据是否完全匹配?如何共享各种信息?如何建立高效的协作平台?这些都是必须解决问题的技术挑战。热点10:可视化将无处不在,我们确信可视化将显得半透明。

像文字和声音一样,普遍渗透到我们的日常生活中。为此,必须有三个技术储备。首先,可视化视图需要缓慢生产和消费。

目前,大部分可视化视图的分解仍然是必不可少的,但在人工智能的帮助下,今后在人工智能的帮助下,可以大规模准确地分解可视化视图,从而大大减少可视化创作支出。第二,要开展互动方式的变化。传统的键盘、鼠标式交互模式不是最自然的方式,各种人类(如手势、笔、触摸等)需要进化成更成熟的交互手段。

最后,要查明设备的普及情况。衣着,手里,人们日常生活中经常出现的东西的表面表明,设备一定会构建在人的生活中。(威廉莎士比亚、哈姆雷特、设备名言)只有在设备表明无处不在的情况下,可视化才能成为沟通的基本方法。特约原告被刊登在许可禁令上。

下面,我们来听一下关于刊登的注意事项。:亚博直播。

本文来源:亚博直播-www.yu-si.com