工业和信息化部主管 中国电子报社主办
收藏本站 投稿

技术应用

两服务上线,AWS数据湖方案进一步丰满

“过去,数据来了像一个小河,我们知道河大概有多少水,于是设计河道、闸门来处理使用数据。但是今天的互联网时代,数据呈爆炸增长,一下子涌出来,很难掌握数据的性质,数据像洪水猛兽,要规则整理存储数据于数据库里,需要花很多时间,在这样的背景下,我们找到一大片湿地、洼地,把所有数据就像湖水一样、洪水一样先蓄在这里。”AWS首席云计算企业战略顾问张侠用小河与湿地、湖泊来讲述传统数据与数据湖之间的差异。有了数据湖就可以非常容易地快速缩放数据,然后有各种各样的工具来方便查询数据,进行各种各样的分析。

3月24日AWS中国宣布在西云数据运营的AWS中国(宁夏)区域推出两个重磅的数据分析服务AWS Glue和Amazon Athena,这使得AWS的数据湖解决方案拼图进一步完善。

在数据经济时代,传统的数据库、数据仓库的方法越来越难以满足,爆炸、快速增长的数据挖掘价值需求。“一方面,其设计思路始于常见的企业级单体/核心应用,与大数据特征和环境不匹配;另一方面,无法有效应对数据的快速增长,支持各种数据类型和分析需求。”张侠表示,基于此数据湖越来越受到青睐。

所谓数据湖,就是一个集中式的、安全的存储库,它依托云计算的技术和基础设施,允许企业或机构以任意规模,存储所有的结构化和非结构化数据。客户可以按原样存储数据,无需先对数据进行结构化处理;可以对这些数据运行不同类型的分析,从数据仪表板和可视化数据展现,到大数据处理、实时分析和机器学习,指导客户做出更好的决策。

事实上,在今天我们想象到的各类大数据分析场景中,数据湖框架都是基础架构体系的“唯一正解”。从客户市场服务方面的消费者细分、商品门类分析、客户忠诚度/流失率分析,金融风控领域的异常交易/欺诈侦测、各种风险评估预警,企业市场活动中的价格分析、需求预测,到医疗领域的疾病传播模式、药物发现等,包罗万象。

2006年,AWS发布Amazon S3,引发云计算革命。十多年来,AWS逐渐将Amazon S3发展成云上数据湖的核心,并围绕Amazon S3陆续开发出一系列数据湖相关服务,构建了一套完整的云端大数据分析体系。

比如,通过面向大数据处理的Amazon EMR,用户可在AWS上轻松运行Spark、Hadoop、Presto、Hbase等大数据分析;对应实时数据分析这一分析框架的重要组成部分,Amazon Kinesis可支持用户轻松地实时收集、处理并分析视频和流数据;数据湖还可以与机器学习和人工智能结合,通过Amazon SageMaker开展更多自动化的预测性分析,充分释放大数据的潜能。

就像张侠所言,当我们有了数据湖,我们需要各种各样的工具来对“湖”中不同类型、不同需求的数据进行抓取、调用,来快速实现数据的分析和挖掘,释放数据价值。而这次3月24日宣布上线的两项服务:AWS Glue和Amazon Athena让AWS的数据湖的工具链进一步完善,让AWS的数据湖解决方案大拼图越渐丰满。

据介绍,AWS Glue是一种全托管的数据提取、转换和加载(ETL)服务及元数据目录,实现了数据分析准备工作的自动化,让客户从准备数据到开始分析的时间由几个月缩短到几分钟。由于AWS Glue是无服务器服务,客户在执行ETL任务时,只需要为他们所消耗的计算资源付费。

Amazon Athena是一种交互式查询服务,它让客户可以使用标准SQL语言、轻松分析Amazon S3中的数据,几秒钟内便可获得查询结果。

据了解,目前AWS的分析组建涵盖了数据移动、数据存储、数据湖、分析和机器学习五大维度,基于AWS的整个大数据分析全景图中,绝大多数服务目前都已在中国落地。针对各类现代应用和大数据分析场景,各行各业的用户都可以在AWS上快速构建,通过各种产品方案组合匹配需求。

AWS全球副总裁及大中华区执行董事张文翊表示,“客户经常问我们,是否可以让他们方便地对Amazon S3数据湖中的数据执行查询,而不用关心配置和管理服务器、集群这些事情。现在,我们很高兴由西云数据运营的AWS中国(宁夏)区域推出Amazon Athena,以响应AWS中国客户的需求。Athena完全不需要管理基础设施,任何能够编写SQL查询的人都能以高性价比的方式快速分析他们在Amazon S3中的数据。”“AWS可扩展、可靠的云存储,加上我们广泛的分析服务,使客户比以往任何时候都更容易收集、存储、分析和共享数据。随着AWS Glue在由西云数据运营的AWS中国(宁夏)区域正式上线,中国区域的客户可以轻松地从任意多的数据源传输和处理数据,整合数据到数据湖,并且可以选用多种AWS分析服务,迅速开始分析所有数据。”

客户对于AWS的数据分析解决方案也给出了使用反馈。茄子快传是一家全球化的互联网科技公司,累计有18亿用户。茄子快传搭建了一个数字内容连接入口,帮助全球200多个国家和地区的用户获取优质数字内容。茄子快传数据运营负责人何诚表示,“茄子快传的数据量大,分析维度多,业务也非常复杂,所以经常需要多维度多颗粒度的高并发分析,AWS的分析工具很好地满足了我们日常的数据提取和分析需求。使用Amazon Athena,我们可以轻松地运行交互式查询,分析数据,不必构建和部署额外的集群。同时,我们运行新数据分析所需的时间缩短了30%,大幅减少了成本与运维方面的风险。”

大宇无限是一家专门从事移动应用程序开发的公司,主要为中东、东南亚和拉丁美洲等新兴市场提供移动短视频服务。大宇无限平台技术负责人李睿表示,“每个月,我们的业务运营都需要花费大量人力,分析全球十亿用户的海量数据。使用Amazon Athena交互式查询服务之后,我们可以用SQL语言直接在 Amazon S3 中轻松查询、分析用戶数据,节省了成本,减轻了运营压力,普通的工程师与业务部门人员都可以方便地自助查询各类业务数据,极大地提高了生产效率。

责任编辑:李佳师


声明

1、本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2、本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3、作者投稿可能会经我们编辑修改或补充;4、如本站的文章或图片存在版权,请拨打电话010-88558835进行联系,我们将第一时间处理。

相关链接

视频

专题

聚焦2021年全国两会

3月5日,第十三届全国人民代表大会第四次会议在北京人民大会堂开幕。党和国家领导人习近平、李克强、汪洋、王沪宁、赵乐际、韩正、王岐山等出席,栗战书主持大会。初春的北京,处处生机盎然。第十三届全国人民代表大会第四次会议5日上午在人民大会堂开幕。近3000名全国人大代表肩负人民重托出席大会,认真履行宪法和法律赋予的神圣职责。

2021年全国工业和信息化工作会议

12月28-29日,全国工业和信息化工作会议在京召开。会议以习近平新时代中国特色社会主义思想为指导,全面贯彻党的十九大和十九届二中、三中、四中、五中全会精神,认真落实习近平总书记重要指示批示精神和中央经济工作会议部署,总结2020年工业和信息化工作,分析形势,部署2021年重点工作。工业和信息化部党组书记、部长肖亚庆作工作报告。

2020年中国家电市场报告

3月22日,中国电子信息产业发展研究院发布了《2020年中国家电市场报告》(以下简称《报告》)。《报告》显示,2020年,我国家电市场零售额规模达到8333亿元,在疫情冲击之下显示出较强的韧性;电商渠道对家电零售的贡献率首次超过50%,网络零售对家电消费的促进作用进一步提升;高端产品、生活家电大幅增长,有效促进了消费升级和产业转型。

世界超高清视频(4K/8K)产业发展大会

会议

2020世界显示产业大会

11月20日,由工业和信息化部、安徽省人民政府共同主办的2020世界显示产业大会在合肥市举行。在开幕式上,工业和信息化部部长肖亚庆、韩国驻华大使张夏成发表视频致辞。安徽省委副书记、省长李国英,工业和信息化部副部长王志军出席开幕式并致辞。

2020世界超高清视频(4K/8K)产业发展大会

11月2日,由工业和信息化部、国家广播电视总局、中央广播电视总台、广东省人民政府共同主办的2020世界超高清视频(4K/8K)产业发展大会在广州市召开。广东省委书记李希出席开幕式,省长马兴瑞出席并致辞。国家广播电视总局局长聂辰席、工业和信息化部副部长王志军、中央广播电视总台副台长蒋希伟出席开幕式并致辞。

2020世界VR产业大会云峰会

10月19日—20日,由工业和信息化部、江西省人民政府主办的2020世界VR产业大会云峰会在南昌举行。在10月19日的开幕式上,中共中央政治局委员、国务院副总理刘鹤发来书面致辞。江西省委常委、南昌市委书记吴晓军,工业和信息化部副部长王志军,江西省委书记、省人大常委会主任刘奇先后致辞。开幕式由江西省委副书记、省长易炼红主持。

世界显示产业大会

本周排行