暂无图片
暂无图片
3
暂无图片
暂无图片
暂无图片

实时数仓融合AI,数仓BigQuery集成Gemini,ClickHouse收购PeerDB,Snowflake开源元数据管理·

868

点击上方蓝字关注我们




行业快讯与友商动态 2024年第25期:

近期,实时数仓发展趋势备受瞩目。其发展展现了众多新趋势:与云原生、人工智能等技术融合深化;强化数据治理,确保数据准确、安全、合规;提升实时分析能力,以快速响应市场变化;增强跨平台互操作性,实现数据自由流动和共享等。


市场方面,星环科技基于ArgoDB构建的实时湖仓平台位居中国实时湖仓市场领导者类别。


谷歌云将Gemini添加到数仓BigQuery和BI产品Looker,提供生成式人工智能功能,以简化数据任务和增强数据分析能力。


高性能实时分析数据库ClickHouse宣布收购 PeerDB,一个领先的数据复制和同步平台,专门为PostgreSQL(Postgres)数据库提供变更数据捕获(CDC)解决方案。


Snowflake宣布其Apache Iceberg表格式的元数据目录Polaris Catalog现已在GitHub上提供,并在其云上作为公共预览版提供。这家数据仓库巨头还宣布计划将Polaris与Project Nessie合并,后者是Dremio为Iceberg开发的元数据目录。


本周焦点
1.星环科技位居IDC MarketScape中国实时湖仓市场领导者类别!
2.实时数仓架构实战——高效可靠数据处理平台构建的“道”与“术”
3.湖仓一体的发展历程、痛点、实现路径、未来趋势

大数据
4.星环科技重磅发布大数据开发工具Transwarp Data Studio 4.0
5.全国多地成立数据集团,布局数据开发利用与流通、政企数字化服务、数字产业投资
6.泰伯智库发布《时空数据治理白皮书(2024)》,重点围绕时空数据治理
7.谷歌云将Gemini添加到BigQuery和Looker,推出生成式人工智能功能
8.ClickHouse收购PeerDB,以推进Postgres CDC集成解决方案
9.Snowflake宣布将元数据目录Polaris Catalog与Nessie合并,并在GitHub上提供

数据库
10.分布式时序数据库TimeLyre 9.2发布:原生多模态、高性能计算、极速时序回放分析
11.悦数图数据库v5.0 RC发布,全面拥抱GQL
12.巨杉文档型数据库Vector Search,助力RAG检索增强生成
13.阿里云向量检索服务Milvus版正式上线!
14.AI原生矢量数据库公司WeaviateAI开发人员提供集合和资源管理器工具,增强云控制台

数据安全
15.Devo推出数据编排、数据分析和安全运营增强功能
16.NIST发布新工具来检查AI模型的安全性
17.Fortinet完成数据驱动的云安全独角兽Lacework的收购
18.IBM推出新的生成式 AI 驱动的网络安全助手,用于威胁检测和响应服务

AI
19.新功能让谷歌的Spanner成为人工智能专用数据库
20.Contextual AI获8000万美元,为大模型提供RAG 2.0
21.Groq获得6.4亿美元资金,以提高 AI 推理的速度和能力
22.Zendata推出全新AI治理和数据隐私解决方案
23.Stability.ai开源3D模型,仅需0.5秒就能快速生成



本周焦点


1.星环科技位居IDC MarketScape中国实时湖仓市场领导者类别!


近日,全球领先的 IT 市场研究和咨询公司 IDC 发布《IDC MarketScape:中国实时湖仓市场2024年厂商评估》(Doc# CHC51768224,2024年7月)报告,对13家典型实时湖仓厂商的收入规模、产品技术能力、市场和生态以及未来发展战略等方面进行了综合评估,星环科技位居中国实时湖仓市场领导者类别。


星环科技基于ArgoDB构建的实时湖仓平台,提供统一元数据管理、多模式计算引擎、数据实时入湖、高性能查询响应、跨平台数据集成、数据治理与质量、数据安全与合规等能力,可实现落地即分析、实时数仓增量计算、一体化流式处理等。结合湖仓集一体技术架构,ArgoDB支持一种数据格式,满足数据实时入湖、数仓模型加工、高性能集市在线分析;通过行列混存技术实现基于一张表提供高并发精确查询、即席分析、复杂批处理等多种混合业务。


2. 实时数仓架构实战——高效可靠数据处理平台构建的“道”与“术”


在IT风向标“大数据技术-实时数仓技术”专场沙龙活动中,镜舟科技解决方案架构师负责人谢寅、阿里云Hologres产品专家丁烨、星环资深架构师陈潜龙、偶数科技解决方案高级总监张立群四位重磅专家,从场景需求、技术变化以及方案创新角度分享了实时数仓架构实践心得。


综合大家观点,几位专家一致认为:实时数仓技术架构并不是孤立存在,而是在业务推动以及技术创新过程中逐渐演进而来。所以,无论是早期的分析型数据库、离线MPP数据库模式,还是现在的实时数仓、HTAP、云原生湖仓,本质上都是数据处理和分析的需求在推动,企业想通过更新鲜的数据来驱动业务决策,同时希望通过更高效、更可靠、更具性价比的现代化技术栈来满足数据消费需求。


简单理解,从早期偏固定分析的报表,到今天实时、自助的数据分析,从传统数仓建设到现在的湖仓一体,从存算一体到存算分离,虽然技术路线不同,但最终目标一致,那就是让企业的数据分析变得更快、更易用。(sohu.com


3.湖仓一体的发展历程、痛点、实现路径、未来趋势

随着信息技术的快速发展,企业数据量急剧增长,数据类型也变得更加多样化,从传统的结构化数据扩展到半结构化、非结构化数据。如何高效、灵活地管理和分析这些数据,已成为大数据领域工作者面临的重要挑战。


本文将详细介绍数据平台的发展历程、数据湖与数据仓库的特性分析、湖+仓混合架构的痛点、湖仓一体技术的诞生与实践路径,以及产业现状和未来发展趋势,为大数据领域工作者提供参考。


大数据


4.星环科技重磅发布大数据开发工具Transwarp Data Studio 4.0


星环科技重磅发布大数据开发工具Transwarp Data Studio 4.0 版本,新版针对数据资产运营和语料管理的过程实现了三大能力提升:


第一,提升了数据管理的广度:为应对AI时代下对各种语料的基础管理能力,TDS资产目录提供兼具技术视角和业务视角的多重目录体系,在原来管理结构化数据的基础上,支持非结构化数据的管理,同时也覆盖API、指标、消息列队等其他类型数据的支持。新版本提供了一套灵活、多视角的资产编目,提供各种的资产归集归类,能够在上面做管理发布。


第二,数据管理的深度更深:TDS4.0 新版本增加了入湖向导和智能盘点的能力。其中入湖向导是基于星环数仓构建方法论标准化数据湖仓构建流程。可通过模板将架构规划、建表、ETL、ODS层表算法设计、任务调度、数据保留策略等功能有机串联,大大简化配置、快速完成批量数据入湖构建。


第三,数据价值体现更聚焦高时效性场景:TDS 结合星环分布式分析型数据库 ArgoDB 湖仓集一体的能力,打造了更快的实时同步和对外的服务编排,支持秒级延迟的数据实时同步,保障全链路数据最终一致性,提供高可用性保障和横向扩容能力。


5.全国多地成立数据集团,布局数据开发利用与流通、政企数字化服务、数字产业投资


近日,江苏省数据集团有限公司宣告成立,注册资本30亿元,整合省联合征信和国信数科两家公司。数据集团将重点布局数据开发利用与流通、政企数字化服务、数字产业投资三大板块,包括公共数据授权运营、企业数据开发与运营、建设省数据交易所、适时成立省数据研究院等。


近年来,各地政府为进一步深入推动数字经济发展,纷纷响应国家号召,积极谋篇布局,成立数据管理机构与数据集团等,以推进数据管理、数据运营等工作,促进数据要素市场培育与发展。截至目前,我国已组建几十家数据集团公司。


截至目前,我国已组建几十家数据集团公司。其中,陕西、湖南、湖北、上海、云南等省份已组建省级数据集团公司,厦门、杭州、拉萨、南京、成都等地也组建了相应的市级数据集团公司。


6.泰伯智库发布《时空数据治理白皮书(2024)》,重点围绕时空数据治理


在WGDC2024第十三届全球地理信息开发者大会上,泰伯智库正式发布了最新研究成果《时空数据治理白皮书(2024)》。这是国内首个重点围绕时空数据治理领域进行研究的成果白皮书。


据泰伯智库推算,2023年中国时空数据治理市场规模超390亿元,2024年将超过470亿元,2028年市场将突破千亿元。2023年至2030年年复合增长率将达到19%。


泰伯智库认为,提升时空大数据规模和质量,激活数据价值,建立数据制度、守护数据安全是测绘地理信息行业发展的新要求和下一站。因此,时空数据治理有望成为未来五到十年最重要的研究课题之一。时空数据治理是数字孪生之基,实景三维中国的开展也为时空数据治理提升了新的高度,其成熟也将为数字孪生的大规模应用提供高质量的数据基底,有助于赋能更多场景高质量发展和不断创新。


7.谷歌云将Gemini添加到BigQuery和Looker,推出生成式人工智能功能


谷歌云基于生成式AI的聊天机器人Gemini整合到其完全托管的数据分析服务BigQuery中,以便为企业专业人士简化多个与数据相关的任务。


Gemini在BigQuery中的功能将包括代码生成、代码补全、代码解释(SQL、Python)、数据画布的帮助,以及提供分区和聚类建议。


对BigQuery的最新更新包括Delta格式支持。在2022年,谷歌增加了对Apache Iceberg的支持。


谷歌还在添加支持,通过SQL、Spark和Vertex AI集成来分析结构化、非结构化和开放格式的数据。


谷歌还为BigQuery增加了对Apache Spark和Apache Kafka的支持。


谷歌也在其商业智能工具Looker中添加了Gemini,不过目前还只是预览阶段。公司表示,这款基于生成式AI的聊天机器人可以帮助公式辅助、从复杂公式中创建指标、生成幻灯片,以及提供新的数据展示方式。(infoworld.com


8.ClickHouse收购PeerDB,以推进Postgres CDC集成解决方案


高性能实时分析数据库ClickHouse宣布收购 PeerDB,一个领先的数据复制和同步平台,专门为PostgreSQL(Postgres)数据库提供变更数据捕获(CDC)解决方案。


虽然ClickHouse已经提供了一个Postgres 连接器,用于在流行的关系数据库和分析数据库之间进行数据传输和同步,但 PeerDB 的收购提供了高达 10 倍的速度提升和 ClickHouse 以前没有提供的额外专业功能。


在构建实时数据驱动的应用程序时,速度的提高可以提高开发人员的工作效率并缩短价值实现时间。此次收购的价格尚未披露。不过,值得注意的是,PeerDB 确实在2023年底完成了 360万美元的种子轮融资。


今年早些时候,PeerDB发布了一个用于Postgres 变更数据捕获(CDC)的 ClickHouse 目标连接器。该连接器成为 Postgres CDC 增长最快的目标连接器,超过了Snowflake 和 BigQuery 等其他数据仓库。现在,通过此次收购,PeerDB将为ClickPipes的Postgres CDC连接器提供支持,ClickPipes是帮助客户将数据移动到ClickHouse的原生集成引擎。


ClickHouse 于 2021 年从 Yandex 分拆出来,最初是一个开源项目,后来演变成大型企业的实时数据仓库。多年来,它已经发展成为一个被广泛采用的数据库系统,其客户群包括 Microsoft、德意志银行、Spotify、GitLab、eBay、Fastly 和 HubSpot。datanami.com


9.Snowflake宣布将元数据目录Polaris Catalog与Nessie合并,并在GitHub上提供


Snowflake宣布其Apache Iceberg表格式的元数据目录Polaris Catalog现已在GitHub上提供,并在其云上作为公共预览版提供。这家数据仓库巨头还宣布计划将Polaris与Project Nessie合并,后者是Dremio为Iceberg开发的元数据目录。


Snowflake推出的Polaris是一个分水岭,标志着Snowflake完全接受开放数据格式和框架,并首次让Snowflake客户可以选择在他们的 Iceberg 数据上运行开源查询引擎,例如 Apache Spark、Apache Flink、Presto、Trino 和 Dremio,此外还可以继续在客户以 Snowflake 专有表格格式存储的数据上运行 Snowflake 专有的 SQL 查询引擎。


Snowflake 承诺将在 90 天内将 Polaris Catalog 的源代码贡献给大数据社区。通过将 Polaris Catalog 放在 GitHub 上并带有宽松的 Apache 2.0 许可证,大数据社区现在可以自由地开始使用它,并将更新和修复贡献回项目中。


通过 Project Nessie是 Dremio 2020 年开发的另一个元数据目录,用于与 Iceberg 表一起工作。Nessie 的开发是为了为元数据目录中的数据提供类似 Git 的体验,从而使用户和工具能够“跟踪更改,通过分支隔离修改,合并更改以供发布,并为所有表中易于复制的时间点创建标签”。


将 Nessie 合并到 Polaris 有助于培养“一个包容性社区,致力于为开放湖仓一体架构开发最强大的开源目录。datanami.com


数据库


10.分布式时序数据库TimeLyre 9.2发布:原生多模态、高性能计算、极速时序回放分析


近日,TimeLyre正式发布V9.2版本,支持海量时序数据的同时,具备原生的多模态数据混合存储能力,能够整合和处理不同类型的数据,帮助企业实现数据的多维分析。同时提供高性能分析、热温冷数据分层存储、极速时序数据回放分析等新功能,可以有效支撑大规模时序数据湖、投研一体化平台、时序数据中台等新场景,充分满足企业对多模态数据存储分析的需求,助力企业发挥数据深层价值。


TimeLyre以原生的多模态架构高效实现了多种数据模型的转化流转与关联分析,具有复杂度低、开发和运维成本低、数据处理效率高等优势。


11.悦数图数据库v5.0 RC发布,全面拥抱GQL

悦数图数据库v5.0正式发布!作为一款分布式 GQL 图数据库,标志着图技术迈上了新台阶!悦数图数据库v5.0在设计上致力于提供卓越的性能与效率,旨在满足现代数据运营中的核心需求。


新版本引入了全新升级的架构,全面释放了 GQL 强大的功能;配备的增强内核引擎,为子图计算、多集群管理等新功能提供了卓越的性能基础,确保了数据的可靠性和安全性。


悦数图数据库 v5.0的内核引擎已根据最新的 GQL 标准进行升级和优化,增加了新特性和功能,以更好地满足客户需求。


12.巨杉文档型数据库Vector Search,助力RAG检索增强生成


巨杉文档型数据库基于JSON分布式文档型数据库技术,提供高效的Vector Search 特性,提升文档型数据库的“RAG检索增强生成”能力。


数据库业界对于向量数据处理有两种方法:一是建立独立的向量数据库产品,二是基于现有数据库中提供向量数据处理能力。


巨杉作为一家聚焦分布式文档型数据库12年的公司,选择自然是在巨杉文档型数据库中提供向量数据处理能力,为客户实现更为丰富的增值特性,而非建立新产品。


13.阿里云向量检索服务Milvus版正式上线!

阿里云正式宣布向量检索服务Milvus版在杭州、上海、北京、深圳四大region正式可用并开放公测!这是由阿里云与产品生态合作伙伴Zilliz联合推出的一款业内领先的云原生向量检索引擎。


向量检索服务Milvus版在上一代EMR Serverless Milvus 公测版的基础上全新升级并继续提供公测服务,不仅继续100%兼容开源版内核,同时联合ZIlliz提供更强大的商业化内核,极致的存算优化,使得性能得到3倍以上提升,资源节约30%以上,更与PAI-EAS、通义等阿里云AI产品打通,并全面兼容LlamaIndex,提供友好易用的RAG解决方案。


14.AI原生矢量数据库公司WeaviateAI开发人员提供集合和资源管理器工具,增强云控制台


AI 原生矢量数据库公司 Weaviate 宣布,它将发布一个由工具和应用程序组成的开发人员“工作台”,以及灵活的分层存储,以满足组织将 AI 投入生产的需求。


受Weaviate充满活力的开源社区的启发,Weaviate的新开发人员产品加速了AI应用程序的开发,并为一些最常见的AI用例提供了端到端的解决方案,帮助组织实现从AI原型到生产的飞跃。


·推荐器应用:提供完全托管的低代码解决方案,用于快速开发可扩展的个性化推荐系统。Recommender 为项目到项目、项目到用户和用户到用户的推荐场景提供可配置的端点,并支持图像、文本、音频和其他形式的多模态数据。注册成为私人测试版的一部分。


·查询工具:使开发人员能够使用 GraphQL 接口在 Weaviate Cloud 中查询数据。现在可通过Weaviate Cloud Console使用。


·收藏品工具:允许用户在Weaviate Cloud中创建和管理收藏品,而无需编写任何代码。现在可通过Weaviate云控制台使用。


·资源管理器工具:允许用户通过图形用户界面(GUI) 搜索和验证对象数据。即将在Weaviate Cloud Console上推出。datanami.com


数据安全



15.Devo推出数据编排、数据分析和安全运营增强功能

安全数据分析公司Devo Technology推出数据编排、数据分析云和安全运营中心(SOC)工作流程增强功能,为安全团队提供数据控制、成本优化和高效的自动化。


随着Devo 新的数据编排和数据分析云的推出,组织不会因为成本太高而被迫省略数据源。Devo 的 SOC 工作流增强功能还使分析师能够通过 AI 驱动的自动化功能轻松处理该数据,以实现精确的威胁检测和事件响应。


Devo将数据编排集成到采集管道中,以提高成本效益。Devo Data Orchestration使公司能够完全控制其数据,因此可以根据自己的条件从任何来源大规模管理和分析数据。它筛选数据并将其路由到 Amazon S3、Databricks、Snowflake 等目标,以确保最有价值的数据可用于实时分析和警报,同时优化存储价值较低的数据的位置。这使企业和托管安全服务提供商 (MSSP) 能够灵活地管理成本,同时进行扩展以满足不断增长的数据量。


Devo引入了一个开放的数据分析云,让组织能够控制。随着数据源的增加,组织需要灵活的解决方案,使他们能够根据需要进行控制和定制。Devo Data Analytics Cloud 可编排和从任何源或数据湖中摄取 PB 级的结构化和非结构化数据。它还使安全团队和 MSSP 能够构建自定义安全应用程序和集成。组织还可以使用 Devo 的预构建警报、应用程序和仪表板来快速入门。


Devo 可自动执行最耗时的 SOC 工作流,以改善分析师体验。SOC 团队需要能够让他们更高效地工作并更快地做出决策的解决方案。在推出 Devo DeepTrace 的基础上,Devo 成为唯一具有攻击追踪 AI 的 SIEM,Devo 继续将 AI 嵌入到 SOC 工作流程中,为安全团队提供正确的背景信息,以便快速且自信地采取行动。(devo.com


16.NIST发布新工具来检查AI模型的安全性

美国商务部国家标准与技术研究院(NIST)发布了一个新的开源软件包 Dioptra,它使开发人员能够确定哪种类型的攻击会降低 AI 模型的性能。


NIST在一份声明中表示:“测试对抗性攻击对机器学习模型的影响是Dioptra的目标之一,Dioptra是一个新的软件包,旨在帮助AI开发人员和客户确定他们的AI软件对各种对抗性攻击的承受能力。


NIST解释说,该软件包可免费下载,还可以帮助AI系统的开发人员量化模型的性能降低,以便他们了解系统故障的频率和情况。


Dioptra 的发布与拜登总统于 2023 年通过的行政命令有关,该命令要求 NIST 帮助进行模型测试。


除了新的软件包外,NIST还发布了几份文件,根据行政命令促进人工智能安全和标准。


其中一份文件是其开发基础模型指南的初步公开草案,称为“管理两用基础模型的滥用风险”。(infoworld.com)


17.Fortinet完成数据驱动的云安全独角兽Lacework的收购


推动网络和安全融合的全球网络安全领导者Fortinet宣布已完成对云安全和云原生应用保护平台(CNAPP)开拓者Lacework的收购。


Lacework 的加入符合 Fortinet 的承诺,即通过创新解决方案保护客户,这些解决方案在本地和云环境中提供一致的安全性。“将 Lacework 有机开发的云原生平台与 Fortinet Security Fabric 集成,将产生来自单一供应商的最全面、全栈 AI 驱动的云安全平台。


Lacework 提供领先的 AI 驱动的云安全平台,可无缝集成所有关键的 CNAPP 服务。凭借获得专利的 AI 和机器学习技术、用于数据收集的代理和无代理架构、自主开发的数据湖以及强大的代码安全产品,Lacework 受到近 1,000 家客户的信赖,可提供从代码到云的全面安全性。


Fortinet 以其网络安全创新而闻名,其专利数量超过最接近的三个竞争对手的总和,并在行业分析报告中纳入了 100 多项内容,包括在八份 Gartner® 魔力象限™报告中得到认可。Fortinet 将其解决方案作为 Fortinet Security Fabric 安全架构的一部分提供,Fortinet Security Fabric 是一个集成的网络安全平台,涵盖安全网络、AI 驱动的安全运营和统一 SASE,其中包括访问和云安全。


Fortinet 打算将 Lacework 的 CNAPP 解决方案集成到 Fortinet 的统一 SASE 产品中,从而形成单一供应商提供的最全面的全栈 AI 驱动云安全平台之一。这将帮助客户识别、确定优先级并修复从代码到云的复杂云原生基础设施中的风险和威胁。(fortinet.com


18.IBM推出新的生成式 AI 驱动的网络安全助手,用于威胁检测和响应服务


IBM 宣布在其托管威胁检测和响应服务中引入生成式AI功能,IBM 咨询分析师利用这些功能来推进和简化客户的安全运营。新的IBM Consulting Cybersecurity Assistant 基于IBM的 watsonx 数据和AI平台构建,旨在加速和改进对关键安全威胁的识别、调查和响应。


除了包含在IBM Consulting的威胁检测和响应实践中外,Cybersecurity Assistant还将成为IBM Consulting Advantage 的一部分,这是一个具有专门构建的 AI 资产的 AI 服务平台,旨在使 IBM顾问能够以一致性、可重复性、质量和速度为客户提供价值。


IBM的威胁检测和响应 (TDR) 服务可以自动升级或关闭多达 85% 的警报1;现在,通过将现有的 AI 和自动化功能与新的生成式 AI 技术相结合,IBM的全球安全分析师可以加快对需要采取行动的剩余警报的调查。具体而言,新功能帮助一个客户将警报调查时间缩短了48%。新的网络安全助手提供以下功能:通过历史相关性分析加速威胁调查和补救,使用高级对话引擎简化运营任务等。datanami.com


AI


19.新功能让谷歌的Spanner成为人工智能专用数据库


谷歌云公布了其Spanner数据库的一系列新功能,旨在实现人工智能应用程序的开发和部署。


这家科技巨头在东京用户会议上推出的新功能现在处于预览阶段,包括用于添加图形处理Spanner Graph、矢量搜索和全文搜索等功能。


Spanner Graph 是一个图处理功能,旨在帮助开发者使用图查询语言——图数据库的行业标准——结合 SQL 来发现和查询连接的数据。


向量搜索同样支持相似性搜索,能够一次发现多个数据点或数据集,这些数据可以用于训练模型和应用。


全文搜索则让用户能够同时搜索大量文档,以找到相关数据。


Google Cloud于2017年首次以Cloud Spanner的形式正式发布Spanner,它是一个多模式数据库,历来支持结构化数据。为了开发AI模型和应用程序,包括生成式AI,非结构化数据也至关重要。


矢量搜索、全文搜索和图形处理都有助于应用程序开发人员发现和操作非结构化数据。因此,BARC美国分析师Kevin Petrie表示,一旦全面推出,Spanner将成为一个人工智能数据库,以及其他多模式功能,这是一个重大举措。


企业不再只是简单地将其数据与大型语言模型相结合,以实现生成式 AI 探索和分析。取而代之的是,他们正在开发自己的生成式人工智能应用程序,这些应用程序可以相互协调工作。这需要像Google Cloud添加到Spanner在内的功能。(techtarget.com


20.Contextual AI获8000万美元,为大模型提供RAG 2.0


Contextual AI在官网宣布获得8000万美元A轮融资。Contextual AI创立于2023年,其联合创始人兼首席执行官Douwe Kiela曾在微软研究院、Meta、Hugging Face担任AI研究员,主攻方向就是RAG(知识检索增强)。


RAG是一种创新的技术框架,旨在增强大模型处理知识密集型任务的能力。在生成式AI领域,模型受限于在训练过程中所接触到的信息量,即使是最先进的大型语言模型,例如,GPT-4,也可能在面对特定领域或实时数据查询时显得力不从心,因为它们的训练数据是有限的。


在今年的3月19日,Contextual AI提出了RAG 2.0版本,将语言模型和检索器作为一个单一的集成系统进行训练。这意味着RAG 2.0不仅能从头开始预训练模型,还能针对特定任务进行微调,同时确保检索器和语言模型之间的无缝协作,以最大化整体性能。


21.Groq获得6.4亿美元资金,以提高 AI 推理的速度和能力


快速AI 推理领域的领导者Groq以28亿美元的估值获得了6.4亿美元的 D 轮融资。独特的、垂直集成的 Groq AI 推理平台引起了寻求卓越速度的开发人员的需求。


“如果没有推理计算,你就无法为 AI 提供动力,”Groq 首席执行官兼创始人 Jonathan Ross 说。“我们打算提供这些资源,以便任何人都可以创造尖端的人工智能产品,而不仅仅是最大的科技公司。这笔资金将使我们能够在 GroqCloud 中部署超过 100,000 个额外的 LPU。训练 AI 模型已经解决了,现在是时候部署这些模型了,以便世界可以使用它们。在获得两倍的资金后,我们现在计划大幅扩大我们的人才密度。我们的团队使数十万开发人员能够在开放模型上进行构建,而且我们正在招聘。datanami.com


22.Zendata推出全新AI治理和数据隐私解决方案

领先的数据隐私和 AI 可解释性解决方案提供商 Zendata 宣布推出其高级 AI 模型和数据使用扫描平台。这一创新产品在整个 AI 和数据生态系统中提供全面的治理、偏见检测和合规性功能,满足了企业对透明和负责任的 AI 部署日益增长的需求。


最近的行业报告显示,73.1% 的 AI 专家认为数据隐私、安全和治理是企业采用 LLM 的主要关注点。Zendata的新平台直接解决了这些挑战,为组织提供了对其AI运营和数据使用的前所未有的可见性和控制力。


Zendata的高级AI模型和数据使用扫描平台的主要功能包括:


·人工智能副驾驶的风险管理:解决与 AI 驱动的助手相关的潜在风险,包括数据泄露、不适当的输出和未经授权的访问。


·全面的人工智能治理:实施强大的框架以有效监督 AI 运营,确保与组织目标和监管要求保持一致。


·高级偏置检测:利用最先进的模型来识别和减轻人工智能系统中的偏见,促进公平和合乎道德的决策。


·持续合规监控:确保在整个 AI 生命周期中持续遵守不断发展的数据隐私法规和行业标准。


·暗数据发现:发现并管理组织内隐藏的数据源,减少潜在漏洞并改善整体数据治理。


·统一数据可见性:对数据流和 AI 决策过程获得清晰的洞察,使复杂系统更加透明和易于理解。(datanami.com


23.Stability.ai开源3D模型,仅需0.5秒就能快速生成


著名开源大模型平台Stability.ai开源了3D生成模型——Stable Fast 3D。


用户通过图片仅需0.5秒就能快速生成高质量3D模型,还包括UV展开网格、材质参数、具有减少照明烘焙的反照率颜色,以及可选的四边形或三角形重网格等,这也是目前最快的3D生成模型。


而SF3D是基于TripoSR架构,通过引入多个新模块来改进输出质量。增强的Transformer网络预测更高分辨率的三平面,有助于减少混叠伪影。该网络从DINO切换到改进的DINOv2以获取图像标记,低分辨率(64×64)的三平面会引入明显伪影,而通过提高分辨率可以缓解这一问题。

识别图中二维码

关注我们

END


最后修改时间:2024-08-08 10:43:08
文章转载自Hadoop大数据应用,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论