
行业快讯与友商动态 2024年第6期:
就在Sora疯狂刷屏那天,还有两款重磅产品发布:一个是谷歌的Gemini 1.5,首个支持100万tokens上下文的大模型;另外一个便是全球科技、社交巨头Meta的V-JEPA。
谷歌的 Gemini 1.5 对 OpenAI 的 Sora 生成的视频的真实性提出了质疑,将其标记为虚假并指出了重大的不一致之处。
因此,AI大模型应用的基础还是维护公共利益和道德标准,构建一个负责任、可信赖的大模型良性发展生态。
本周焦点
1.星环科技成为大模型责任联盟首批成员单位,构建负责任、可信赖大模型良性发展生态
2.美国发布2024版关键和新兴技术清单
大数据
3.MongoDB 发布 Atlas Stream Processing 公共预览版,流处理统一动态数据和静态数据
4.华为发布全新数据湖解决方案及全闪存新品,加速数据资产化进程
5.开源搜索技术OpenSearch新特性公布
6.Artie为其实时数据复制平台获得330万美元种子资金
7.通过分析事件序列来回答复杂的业务问题,数据探索公司Motif Analytics完成570融资
数据库
8.调查发现:采用多种数据库现在已成为常态,维护与管理复杂性和成本增加
9.Oracle自治数据库将 AI 引入数据
10.TiDB 7.5.0 LTS 推出高性能数据批处理方案
11.一款方便快捷的数据库文档管理工具SmartSQL
数据安全
12.Akto推出全球首个主动GenAI安全测试
13.Qualys推出带有TruRisk Insights的TotalCloud 2.0,以消除云和SaaS应用程序中的网络风险
14.2023年勒索赎金激增20%,对关键行业的打击最大
AI
15.美国成立人工智能安全研究所,领先企业纷纷加入新成立的联盟
16.LangChain完成2500万美元融资,并正式推出LLMOps产品LangSmith
17.OpenAI推出AI系统,将文本转换为逼真的视频
18.谷歌推出Gemini 1.5 Pro,并称 OpenAI Sora 生成的视频是假的
19.Meta开源V-JEPA,追赶OpenAI的Sora,让AI学会认识世界!
20.Azure OpenAI服务正式发布 Assistants API、支持微调的新模型、文本转语音等新功能

本周焦点

1.星环科技成为大模型责任联盟首批成员单位,构建负责任、可信赖大模型良性发展生态
近日,由传播内容认知全国重点实验室科技伦理委员会指导、人民网科技公司联合大模型企业共同发起成立了“大模型责任联盟”。星环科技凭借在大模型领域的深耕布局和技术实力,以及在推动大模型产业发展过程中发挥的重要作用,成为大模型责任联盟首批成员单位。
大模型责任联盟旨在推动落地科研项目、促进行业交流、推动标准建设、组织人才培育,在大模型的研发、应用与推广过程中维护公共利益和道德标准,构建一个负责任、可信赖的大模型良性发展生态。
星环科技大模型产品目前已经在政府、金融、运营商、制造、能源等多个行业有诸多落地案例。
2.美国发布2024版关键和新兴技术清单
2024年2月,美国国家科学技术委员会(NSTC)发布了新一版关键和新兴技术(Critical and emerging technologies, CETs)清单。CETs清单以美国2020年发布的《关键和新兴技术国家战略》为基础,每两年更新一次关键和新兴技术领域列表,及各领域内的具体技术清单。
2024版美国关键和新兴技术清单包括了先进计算、先进制造、人工智能、清洁能源、半导体与微电子等共18类技术领域。与2022版清单相比,2024版清单在大的技术领域上基本保持了稳定,主要区别是将2022版清单中的核能技术、金融技术领域分别并入清洁能源技术、数据和网络安全技术领域,并新增了定位、导航和定时(PNT)技术领域。
从清单中的具体技术内容看,2024版清单主要在人工智能技术、数据和网络安全技术、下一代通信技术、无人系统技术、定位导航技术、空间技术等方面显著加强了技术布局。这些新变化代表了美国联邦政府对于近未来关键技术的分析判断,也体现了美国国家科技政策对近两年来科技发展新趋势和全球形势变化迅速积极地响应。



大数据

3.MongoDB 发布 Atlas Stream Processing 公共预览版,流处理统一动态数据和静态数据
MongoDB宣布 Atlas Stream Processing推出公共预览版,使开发人员能够灵活地使用文档模型和 Query API。通过Atlas Stream Processing,MongoDB将这些相同的基本原则带到了流处理中。
Atlas Stream Processing重新定义聚合和丰富高速、快速变化的事件数据流的体验,并统一了如何处理动态和静态数据。
除了通过更改流实现对Atlas数据库中的数据进行连续处理外,开发人员还可以将Atlas流处理与由Confluent、Amazon MSK、Azure Event Hubs和Redpanda等重要合作伙伴托管的Kafka 数据一起使用。
公共预览版中的新功能包括:
·精致的开发人员体验
·扩展的高级特性和功能
·改进的操作和安全性
·精致的开发人员体验。
在公共预览版中,该公司通过进行两项额外的增强来加倍努力:
·VS Code 集成:MongoDB VS Code 插件增加了对连接到流处理实例的支持。
·改进的死信队列 (DLQ) 功能:DLQ 支持是强大的流处理的关键元素,在公共预览版中,扩展了 DLQ 功能。(dbta.com)
4.华为发布全新数据湖解决方案及全闪存新品,加速数据资产化进程
华为正式发布全新数据湖解决方案,旨在帮助金融、政府、运营商及教育科研等各行业充分释放数据资产的巨大潜能。同时,华为还针对商业市场与分销市场发布了全闪存存储新品,推动全场景闪存普惠。
华为推出基于GFS全局文件系统的数据湖解决方案,实现数据资产的可视、可管、可用。数据湖解决方案具备三大能力:
首先是数据资产一张图,实现跨域、跨站点、跨厂家等复杂数据的全局可视、实时更新。
其次是数据目录智能化,满足数据自动标签、聚合、检索、呈现,推进数据按内容、合规、热度等维度的全自动化分类分级。
最后是数据流通安全高效,通过构建数据可信空间,确保流动可信、可控和可追溯。
值得一提的是,华为正式宣布open-GFS开源计划,将数据湖解决方案核心引擎GFS的能力开放给伙伴和最终用户,通过开源加速数据产品开发进程,助推企业融入数据要素流通生态。
5.开源搜索技术OpenSearch新特性公布
2023 年是人工智能 (AI) 和机器学习 (ML) 领域快速创新的一年,而搜索是这一进步的重要受益者。在整个 2023 年,Amazon OpenSearch Service 进行了投资,使搜索团队能够使用最新的 AI/ML 技术来改善和增强您现有的搜索体验,而无需重写您的应用程序或构建定制编排,从而实现快速开发、迭代和产品化。
2023 年,OpenSearch Service 推出了多项功能和改进,包括新功能,这些功能是持续增强搜索的基本构建块。
·比较搜索结果工具在 OpenSearch Service 版本 2.11 中正式提供,允许在OpenSearch 控制面板中并排比较两种排名技术的搜索结果,以确定一个查询是否比另一个查询产生更好的结果。
·随着搜索管道的发布,从 OpenSearch Service 版本 2.9 开始,您可以将搜索查询和结果处理构建为模块化处理步骤的组合,而不会使应用程序软件复杂化。
·OpenSearch 中的 k-NN 插件已经支持索引和查询 float 类型的向量,每个向量元素占用 4 个字节。
·OpenSearch Service 以前支持语言分析器插件,如 IK(中文)、Kuromoji(日语)和 Seunjeon(韩语)等。我们添加了对 Nori(韩语)、Sudachi(日语)、拼音(中文)和 STConvert Analysis(中文)的支持。
·OpenSearch Service 还在 2023 年进行了改进,以增强关键搜索功能的易用性,如使用神经搜索进行语义搜索;AI/ML 连接器,支持 AI 驱动的搜索功能;分数组合支持的混合搜索等。
·OpenSearch Service 现在具有新的搜索方法,如神经稀疏检索、多模态搜索等。(aws.amazon.com)
6.Artie为其实时数据复制平台获得330万美元种子资金
Artie是一家帮助公司更快地在内部系统之间移动数据的新初创公司,已经筹集了330万美元的种子投资。
典型的企业记录分散在多个数据库环境中。为了便于处理,开发人员通常会将这些记录移动到云数据平台(如 Snowflake),在那里可以集中分析它们。Artie 提供了一个开源平台,有望加快信息同步过程并降低相关成本。
将记录从公司数据库移动到其数据仓库的任务不是一次性活动。相反,每当有新信息可用时,工程师都会定期执行该过程。每批新添加的记录可能需要数小时以上的时间才能同步到数据仓库。
相比之下,Artie表示,其平台能够每隔几秒钟同步一次信息。原因是它会在新记录到达后立即将新记录发送到数据仓库,而不是等待大量文件累积后再同步它们。在后台,Artie 使用开源 Apache Kafka 数据流引擎来移动信息。
当公司定期在两个系统之间传输记录时,它可能偶尔会发送之前已经同步的数据。这种不必要的文件移动会产生额外的硬件费用。Artie 的平台使用一种称为变更数据捕获的技术来确保只有新记录才会发送到数据仓库,从而减少基础设施使用,从而降低成本。(siliconangle.com)
7.通过分析事件序列来回答复杂的业务问题,数据探索公司Motif Analytics完成570融资
Motif Analytics是一家位于美国旧金山的数据分析初创公司,筹集了570万美元的种子资金。
Motif Analytics提供一种分析产品,用于通过分析事件序列来回答复杂的业务问题。它通过提供交互式数据整理、可视化和探索体验来解决这个问题,以在事件序列(“主题”)中找到见解。
Motif 建立在 5 项关键创新之上,这些创新共同加快了探索性分析:
·丰富的交互式序列可视化,用于识别用户和业务流中的模式。
·以分析师思维方式查询流数据的小型序列操作 - 大多数实际查询只需不到 10 行代码。
·增量查询引擎,可根据分析师的需求在查询精度、速度和成本之间进行权衡。
·人工智能,用于使用突破性 LLM 产品(如 ChatGPT)背后的神经网络模型来识别事件序列中的转化预测因子(用于对事件序列进行建模,而不是文字)。
·浏览器内本地模式,无需设置、数据准备或数据共享,即可立即体验专有数据的 Motif 功能。(finsmes.com)

数据库

8.调查发现:采用多种数据库现在已成为常态,维护与管理复杂性和成本增加
根据Redgate的最新调查,在过去三年中,采用多个数据库的组织数量增加了17个百分点,增加了组织有效管理数据库所需技能的复杂性。

2020年,Redgate调查的组织中有 62% 使用了两个或多个数据库。到 2023 年,这一数字已增加到 79%,其中 29% 的组织使用五个或更多数据库。
在去年接受该公司调查的3,849名专业人士中遇到了16个不同的数据库。该公司表示,排名靠前的数据库是 Oracle、SQL Server、MySQL 和 Postgres。
企业采用多种数据库的主要原因是正在争先恐后地跟上日益增加的数据复杂性、合规压力以及人工智能和云等新兴技术,并正在寻求缩小技能差距的解决方案。
数据库数量的激增具有各种影响,包括增加保持数据库良好维护和运行所需的技能;技能多样化、灵活性,以及数据迁移和数据安全问题增多。
为了应对这种新的多数据库趋势,数据库管理员 (DBA) 和开发人员必须获得新的技能来管理和监控数据库并保持成本一致,无论是在本地还是在云中运行。(头条)

9.Oracle自治数据库将 AI 引入数据
Oracle 决定将 AI 嵌入到全栈(包括数据库)中,让您无需迁移数据即可获取 AI 的力量。Oracle将推出多个 Oracle自治数据库(Oracle Autonomous Database)增强功能,包括将 AI 和高级机器学习 (ML) 集成到应用中等创新。这些直观且易于使用的增强功能包括:
·Autonomous Database Select AI 现在支持开发人员创建 AI 应用,可在会话线程中理解用户用自然语言提出的问题,并从专用数据中获取答案。
·Oracle Machine Learning 中的空间增强功能支持企业在 ML 模型中包含位置关系,从而提高模型准确性。
·全新用户友好的“无代码”模型监视界面可简化 ML 模型中质量和概念漂移的及时检测。
·通过 Autonomous Database Graph Studio 新的用户界面,企业可以通过拖放方式创建资源描述框架 (Resource Description Framework, RDF) 知识图的属性图形视图,无需进行复杂的编码或数据复制,即可跨知识孤岛进行探索。
这些自治数据库增强功能反映了 Oracle 一直致力于为您提供将 AI 和 ML 集成到应用中的工具,从而帮助您快速从数据中获得洞察并及时做出业务决策。这些新创新都直接内置在自治数据库中,让企业可以轻松地立即使用。
10.TiDB 7.5.0 LTS 推出高性能数据批处理方案
过去,TiDB 由于不支持存储过程、大事务的使用也存在一些限制,使得在 TiDB 上进行一些复杂的数据批量处理变得比较复杂。
TiDB 在面向这种超大规模数据的批处理场景,其能力也一直在演进,其复杂度也变得越来越低:
前不久刚发布的 7.5 LTS,正式 GA 了一个 IMPORT INTO ( https://docs.pingcap.com/zh/tidb/stable/sql-statement-import-into#import-into ) 的功能,该功能将原本 tidb-lightning 的物理导入能力集成到 TiDB 计算节点上,使用一条 SQL 语句就可以完成大批量数据的导入,大幅简化了超大规模数据写入时的复杂度。
TiDB 7.5.0 引入的 IMPORT INTO 功能,结合 SELECT ... INTO OUTFILE、以及 NFS/对象存储,让 TiDB 上增加了一种更加简单且非常高效的批处理方案,JAVA 应用程序处理时更加简单,ETL 调度也更简单。
11.一款方便快捷的数据库文档管理工具SmartSQL
SmartSQL 是一款方便、快捷的数据库文档查询、导出工具!该工具从最初支持CHM文档格式开始,通过不断地探索开发、集思广益和不断改进,又陆续支持Word、Excel、PDF、Html、Xml、Json、MarkDown等文档格式的导出。同时支持SqlServer、MySql、PostgreSQL、SQLite等多种数据库的文档查询和导出功能。


SmartSQL 是一款开源的数据库文档管理工具!支持SqlServer、MySql、PostgreSql、SQLite等多种数据库文档查询、生成。该工具从最初支持CHM文档格式开始,通过开源,集思广益,不断改进,又陆续支持Word、Excel、PDF、Html、XML、Json、MarkDown等文档格式的导出。同时支持对数据库表、视图、存储过程进行自定义分组管理、导出。

数据安全

12.Akto推出全球首个主动GenAI安全测试
为了解决GenAI安全漏洞,API安全解决方案提供商Akto推出新的GenAI安全测试解决方案。新平台使组织能够增强其 GenAI 和大型语言模型 (LLM) 的安全性。该公司声称,这项新服务是世界上第一个用于GenAI安全的主动平台。
一个组织平均使用10个GenAI模型,大多数情况下,生产中的LLM通过API间接接收数据。这意味着通过 LLM API 处理大量敏感数据,使其成为安全漏洞的潜在漏洞。
Akto的新安全测试平台通过使用最先进的算法来解决此类威胁,包括由Alto的GenAI安全专家团队开发的60多个内置测试用例,涵盖了广泛的GenAI漏洞。
该测试的工作原理是通过“清理 LLM 的输出”来识别安全漏洞。该解决方案能够检测注入恶意代码或其他类型的网络攻击的尝试,这些攻击可能会危及系统。Akto 平台还测试了 GenAI 应用程序生成不相关或虚假报告的倾向。(datanami.com)
13.Qualys推出带有TruRisk Insights的TotalCloud 2.0,以消除云和SaaS应用程序中的网络风险
Qualys是一家颠覆性的基于云的 IT、安全和合规解决方案提供商,正在推出 TotalCloud 2.0,提供单一的云风险优先级视图,并将其保护扩展到 SaaS 应用程序。
带有 TruRisk Insights 的 TotalCloud 2.0 提供了单一的、优先的云风险视图。该解决方案关联了来自不同 Qualys 来源的独特指标,如云工作负载保护 (CWP)、云安全态势管理 (CSPM) 和云检测和响应 (CDR)。公司将这些与SaaS和基础设施态势相结合,使组织能够快速修复最有害的威胁。
Qualys TotalCloud 2.0 的增强功能通过提供以下功能来简化操作:
·TruRisk Insights:简化了对最高风险资产的识别。
·为 SaaS 应用程序提供全面保护。
·供应链风险缓解。
·降低运营风险,通过 ITSM 集成简化运营并消除 IT 和安全之间的孤岛。(dbta.com)
14.2023年勒索赎金激增20%,对关键行业的打击最大
Arctic Wolf Networks公司的一份新报告显示,随着网络犯罪分子继续利用长期披露的漏洞来谋取经济利益,2023 年网络安全的赎金要求和商业电子邮件泄露事件急剧上升。
2023 年的初始勒索软件赎金需求中位数同比增长 20%,达到 600,000美元,法律、政府、零售和能源行业的赎金需求中位数为 100 万美元或更多。
该报告解释说,勒索软件需求的趋势是继续增加,2024 年可能会特别不稳定,因为勒索软件组织扩大了他们的目标列表,并探索了新的压力策略,以应对执法工作和拒绝支付举措的势头不断增强。

AI

15.美国成立人工智能安全研究所,领先企业纷纷加入新成立的联盟
美国拜登政府正式任命白宫高级助手伊丽莎白·凯利(Elizabeth Kelly)为新成立的人工智能安全研究所所长,领导美国国家标准与技术研究所(NIST)的人工智能安全研究所(AI Safety Institute)。
美国商务部宣布成立美国人工智能安全研究所联盟(AISIC)。该联盟隶属于NIST,将联合人工智能创造者和用户、学者、政府和行业研究人员以及民间社会组织,支持安全可靠的AI的开发和部署。
该联盟专注于生成式人工智能的安全开发和部署,在支持生成式人工智能GenAI的安全发展方面发挥作用。MongoDB宣布成为美国人工智能安全研究所联盟(AISIC)的创始成员,Microsoft、Alphabet 旗下的谷歌、苹果、Facebook 母公司 Meta Platforms、OpenAI等也纷纷加入。
来自工业界、政府、学术界和非营利组织的领导者将与NIST合作,支持其创建安全可靠AI的努力。该联盟将专注于最先进的人工智能系统,如最先进的基础模型,以评估当前和下一代人工智能技术对个人和社会的风险和影响。(nist.gov)
16.LangChain完成2500万美元融资,并正式推出LLMOps产品LangSmith
致力于通过其开源框架帮助开发LLM 应用的初创公司 LangChain 宣布,完成由红杉资本领投的 2500 万美元A轮融资,同时还宣布,即将正式推出首款付费的LLMOps产品 LangSmith。
LangSmith被设计为一个一体化平台,使开发者能够加速他们的 LLM 应用开发流程,包含了从开发、测试到部署及监控的整个项目生命周期。
通过其开源框架,LangChain为开发者提供了一个迫切需要的编程套件,包含了一系列通用的最佳实践和可组合的构建模块,旨在帮助开发者构建由 LLM 驱动的应用。平台能够通过 API接入不同的LLM,将它们整合在一起,并与数据源及工具相连,以执行各种任务。从一个简单的副业项目起步,该项目迅速成长为超过 5000个LLM 应用的核心支撑,这些应用涵盖了内部应用、自主代理、游戏、聊天自动化等多个领域。
而 LangSmith新推出的付费解决方案赋予开发者调试、测试及监控LLM 应用的能力。
17.OpenAI推出AI系统,将文本转换为逼真的视频
OpenAI公布了一种新的人工智能系统,该系统可以根据用户的文本提示创建逼真的视频,使其成为最新一家采用生成视频技术的人工智能公司。
这款名为Sora的人工智能系统可以快速制作长达一分钟的视频,这些视频可以呈现“具有多个角色、特定类型的动作、以及主题和背景的准确细节的复杂场景”。
Sora 是 OpenAI 全新的超酷文本视频工具,可以创建长达 60 秒的视频,具有高度详细的场景、复杂的摄像机运动和具有鲜艳情感的多个角色。许多人还称这是视频生成中的 ChatGPT 时刻。
18.谷歌推出Gemini 1.5 Pro,并称 OpenAI Sora 生成的视频是假的
谷歌的 Gemini 1.5 对 OpenAI 的 Sora 生成的视频的真实性提出了质疑,将其标记为虚假并指出了重大的不一致之处。
此前,科技巨头谷歌和OpenAI分别公布了他们的最新进展——Gemini 1.5 Pro和Sora。OpenAI的Sora 发布的战略时机引发了人们的猜测,即有人故意转移人们对谷歌 Gemini 1.5 的注意力。
谷歌的Gemini 1.5具有1M代币的惊人上下文窗口,不仅超过了 GPT-4 Turbo 的 128K,也超过了Anthropic Claude 2.1 的 200K,它可以一次性处理大量信息——包括1小时的视频、11小时的音频,以及超过30,000行代码或超过 700,000 字的代码库。(analyticsindiamag.com)
19.Meta开源V-JEPA,追赶OpenAI的Sora,让AI学会认识世界!
就在Sora疯狂刷屏那天,还有两款重磅产品发布:一个是谷歌的Gemini 1.5,首个支持100万tokens上下文的大模型;另外一个便是全球科技、社交巨头Meta的V-JEPA。
V-JEPA通过分析视频中物体之间的相互作用来提高机器对世界的理解。该模型延续了Meta 副总裁兼首席 AI 科学家 Yann LeCun 的愿景,即创建与人类学习相似的机器智能。
I-JEPA的第五次迭代于去年年中发布,从比较图像的抽象表示而不是像素本身,并将其扩展到视频,取得了发展。它通过从图像到视频的学习来推进预测方法,除了空间信息外,还引入了时间(基于时间)动态的复杂性。
V-JEPA 可以预测视频中缺失的部分,而无需重新创建每个细节。它从未标记的视频中学习,这意味着它不需要人类分类的数据来开始学习。
这种方法使 V-JEPA 更有效率,需要更少的资源来训练。该模型特别擅长从少量信息中学习,与旧模型相比,速度更快,资源密集度更低。
Meta希望AI模型也能像人类那样,通过观察以及自我思考、总结,来获取对世界新事物的认识,最终学习并模拟他们。
20.Azure OpenAI服务正式发布 Assistants API、支持微调的新模型、文本转语音等新功能
Azure OpenAI 服务新增多项功能、发布更多模型,且价格也有改进。我们即将推出 Assistants API 海外公共预览版、新的文本转语音功能、即将更新的 GPT-4 Turbo 预览版和 GPT-3.5 Turbo 模型,新的 embeddings 模型,以及对微调 API 的更新。
Assistants API 使开发者能轻松地在应用程序中构建高质量的 Copilot 体验。
自从2023 年 10 月 16 日宣布 Azure OpenAI 服务可对 Babbage-002、Davinci-002 和 GPT-35-Turbo 模型支持微调起,越来越多的开发者可以构建自定义模型。今天,微软对 GPT-35-Turbo 1106 的微调支持,这是新一代 GPT-3.5 Turbo 模型,具有改进的指令跟随、JSON 模式、输出重现、并行函数调用等功能。使用 GPT-35-Turbo 1106 进行微调支持 16k 长度的训练数据,允许您使用更长的信息进行微调,生成更长、更连贯的文本。
此外,推出两项新功能,创建更复杂的自定义模型,并轻松对其进行更新。首先,将推出具有函数调用能力的微调,使您能够教会自定义模型何时应该进行函数调用,并提高响应的准确性和一致性。
其次,将推出持续微调,这使您能够使用新数据训练先前微调过的模型,而不会丢失模型先前的知识和性能。

元宵节快乐


END





