构建最开放的数据云生态系统:谷歌云宣布BigQuery 支持非结构化数据
数据是任何数字化转型中最有价值的资产,数据复杂性空前高涨,随着数据量的增长,数据正在跨云分布,用于更多工作负载并被更多人访问。只有开放的数据云生态系统才能释放数据的全部潜力,消除数字化转型的障碍。
Google Cloud正在构建最开放、最强大、 可扩展的数据云平台,确保客户可以使用任何来源的数据,无论数据在哪,是什么格式。
近日谷歌在Google Cloud Next 2022大会上宣布了“数据云”的愿景,并对现有的数据服务进行了大量更新,同时推出了一些新的服务,这些更新都旨在实现开放的、可扩展的数据云这一愿景。
包括:
谷歌副总裁、Google Cloud数据分析业务总经理Gerrit 在接受采访时表示:“如今每一家公司都是大数据公司,这就需要一个数据生态系统,而且这个系统将成为现代企业的关键基石。”
实现这个愿景的第一步,是要确保客户确实可以使用他们的所有数据。为此,谷歌的数据仓库服务首次增加了分析非结构化流数据的能力。
现在可以提取各种数据,无论是以什么格式存储的或者位于什么环境中。谷歌表示,这一点很重要,因为当今大多数团队只能使用来自运营数据库和各种应用(例如、、Workday等)的结构化数据。
但是非结构化数据,例如来自电视视频归档、来自呼叫中心和广播的音频、纸质文档等,占到了当今组织可用的所有信息的90%多,这些数据被尘封已久,而现在可以在中进行分析,并通过熟悉的结构化查询语言界面用于为机器学习、语音识别、翻译、文本处理和数据分析等服务提供支持。
这是向前迈出的一大步,但到目前为止还不是唯一的一步。谷歌表示,为了进一步实现目标,谷歌将对BigLake存储引擎增加支持主流的数据格式google云计算技术,例如Apache Iceberg、Delta Lake和Apache Hudi。表示:“通过支持这些被广泛采用的数据格式,我们可以帮助组织消除那些让他们无法从数据中获得全部价值的障碍。借助BigLake,你可以跨多个云管理数据。”
与此同时,与Apache Spark进行了新的集成,这将让数据科学家们能够显着缩短数据处理的时间。也将与集成,让客户能够更有效地从AlloyDB、、MySQL和Oracle等其他第三方数据库来源复制数据。
谷歌表示,为了增强用户对所持数据的信心,谷歌将扩展服务,使其能够对提高数据质量和谱系相关流程实现自动化。说:“例如,用户现在可以更轻松地了解数据沿袭情况,也就是数据的来源以及数据是如何随着时间的推移进行转换和移动的,从而减少那些手动的、耗时的流程。”
统一化的商业智能
让数据更易于访问是一回事,但客户还需要能够使用这些数据。为此,谷歌表示,将把自己的商业智能工具产品组合都整合到Looker品牌下。Looker将与Data Studio以及其他核心的商业智能工具集成,以简化人们从数据中获取洞察力的方式。
谷歌表示,在此次整合中,Data Studio被重新命名为Looker Studio,通过为工作流程和应用注入现成的智能来帮助客户进行数据驱动的决策,从而帮助客户不止是看仪表板这么简单。例如,Looker将与Google 集成,更轻松地从Sheets等生产力工具中获取洞察。
此外谷歌表示,这将让客户更容易使用他们所选的商业智能工具,例如,Looker已经与Tableau 集成,很快还将集成微软Power BI。
为人工智能赋能
当今最常见的数据用例之一就是为AI服务提供动力——谷歌在这一领域明显处于领先地位,而且也不打算很快放弃这一领先优势。为了让基于AI的计算机视觉和图像识别更易于使用,谷歌推出了一项名为Vertex AI Vision的新服务。
该服务扩展了Vertex AI的现有功能,提供了一个用于获取、分析和存储视觉数据的端到端应用开发环境。谷歌表示,这样用户就能够从制造工厂流式传输视频,以创建可以提高安全性的AI模型,或者获取有关商店货架情况的视频片段以更好地管理产品库存。
解释说:“Vertex AI Vision可以将创建计算机视觉应用的时间从几周缩短到几个小时,成本仅为当前产品的十分之一。为了实现这样的效率,Vertex AI Vision提供了一个易于使用的拖放界面和一个预训练的机器学习模型库,用于常见任务例如占用计数、产品识别和对象检测等。”
对于那些技术能力较低的用户,谷歌正在引入更多的“AI代理”google云计算技术,这些工具让任何人都可以轻松地将AI模型应用于常见的业务任务中,从而让几乎任何人都可以使用AI技术。
此次谷歌新推出的AI代理包括 Hub,支持自助服务文档翻译,并且在发布时支持多达135种语言,令人印象深刻。 Hub结合了Google的神经机器翻译和AutoML等技术,通过从多种文档类型(包括Google Docs、Word文档、幻灯片和PDF)中提取和翻译内容,不仅保留了精确的布局和格式,而且还带有精细的管理控制,包括对后期编辑的循环反馈以及文档审查。
研究人员可以使用 Hub与世界各地的同事共享重要文件,而商品和服务提供商则能够进入那些还没有充分开发的市场。此外谷歌表示,这也让公共部门的管理人员可以用他们的母语与社区成员建立更紧密的联系。
第二个新的AI代理是 AI ,它可以更轻松地构建自定义文档解析器,训练这些解析器从大型文档中提取和总结关键信息。“ AI 可以消除构建自定义文档解析器中的障碍,帮助组织提取业务特定需求的字段,”谷歌云AI和行业解决方案副总裁June Yang说。
谷歌还推出了 AI ,旨在克服从文档中标记和提取数据的诸多挑战。
扩展集成
最后谷歌表示,正在扩大与一些最受欢迎的企业数据平台的集成范围,以确保他们的客户也可以访问存储在这些平台上的信息。
解释说,为客户提供跨任何数据平台工作的灵活性,这对确保选择多元化和防止数据锁定来说是至关重要的。他说,在这方面,谷歌正在致力于与所有主要的企业数据平台提供商展开合作,包括、、Elastic、、MongoDB、Reltio和Strimm,确保谷歌的工具可以配合这些平台使用。
公司产品管理高级副总裁David Meyer在接受采访时表示,在与AWS和微软进行了类似的集成之后,已经与谷歌合作了大约两年的时间,让支持的Delta Lake。
Meyer说:“这样你就不必将数据移出数据湖,从而降低了成本和复杂性,我们认为这是一个拐点。”他补充说构建最开放的数据云生态系统:谷歌云宣布BigQuery 支持非结构化数据,即便如此,这只是与Google Cloud合作的开始免费b2b网站,两家公司将致力于攻克其他挑战例如联合治理。
表示,谷歌还将与数据云联盟(Data Cloud )的17个成员企业展开合作,以促进数据行业的开放标准和互操作性。谷歌还将继续支持开源数据库引擎,例如MongoDB、MySQL、和Redis,以及Google Cloud数据库,例如AlloyDB for 、Cloud 、和Cloud Spanner。
【本文来源于互联网转载,如侵犯您的权益或不适传播,请邮件通知我们删除】