暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

大模型元年,行业应用+大模型纷纷落地;向量数据库无服务器版;部署并监控LLM工具;AI简化数据分类;蟑螂数据库;知识图谱即服务·

368

行业快讯与友商动态 2024年第3期:


2023年堪称大模型元年,各种大模型层出不穷,大模型应用眼光缭乱。不过在大模型纷繁的消费者市场之外,国外企业如微软、AWS等最成功的做法是将企业应用与大模型结合;而在中国,最成功的商业模式是行业应用与大模型结合。这些两种成功的商业模式正在AI行业重新洗牌。


云上数仓企业继续推出针对行业的方案,这次是电信运营商。改名后的StoneDB推出2.0数仓版,Pinecone推出Serverless向量数据库,Cockroach v23.2目标对准甲骨文。


在大模型方面,时序数据库GreptimeAI + Xinference联合方案,帮助用户高效部署并监控LLM 应用;国内首个网络安全大模型评测平台SecBench让您检测自己大模型的安全性。Oracle更是先人一步,在OCI中,将生成式AI嵌入到整个技术堆栈中,支持企业大规模采用AI。


本周焦点
1.星环科技:构建完善大模型生态,确保行业应用+大模型的模式落地
2.行业大模型10大典型场景应用
3.行业大模型落地加速,AI大模型+各行业应用生态加速形成


大数据
4.赛迪发布“2023城市数据要素市场发展100强”,上海、北京、深圳位列前三
5.卓数大数据底座V3.0发布,为数据基础设施建设注入新活力
6.产品品牌升级!StoneData改名为StoneDB数仓版,2.0公测镜像版发布!
7.Databricks推出为电信和网络服务提供商量身定制的预构建解决方案
8.航天壹进制X华为云,发布企业级数据仓库联合灾备解决方案
9.GreptimeAI + Xinference联合方案:高效部署并监控你的 LLM 应用


数据库
10.星环科技分布式时序数据库TimeLyre通过信通院“可信数据库”基础能力测试
11.Pinecone推出Serverless向量数据库,以降低成本为目标
12.中国首款自研云原生数据库PolarDB发布“三层分离”全新版本
13.AllegroGraph Cloud为神经符号AI应用提供“知识图谱即服务”
14.Cockroach v23.2吸引高端传统工作负载
15.向量数据库Milvus 2.3.4发布,支持上万个 Collection、新增 Accesslog 功能


数据安全
16.Skyhigh Security推出AI驱动的DLP助手,以简化数据分类
17.Aloudata BIG全球首个实现算子级血缘解析的主动元数据平台
18.国内首个网络安全大模型评测平台SecBench发布


AI
20.星环科技入选“2023 AGI独角兽TOP100”榜单
21.Credo AI宣布与Databricks建立合作伙伴关系,以大规模实现负责任、合规、安全的AI
22.零一万物发布了开源多模态语言大模型Yi Vision Language(Yi-VL)
23.Oracle将生成式AI嵌入到整个技术堆栈中,支持企业大规模采用AI
24.人工智能生成的语音初创公司ElevenLabs筹集8000万美元的新资金



本周焦点



1.星环科技:构建完善大模型生态,确保行业应用+大模型的模式落地


在2024年新年之际,财联社、《科创板日报》联合上海市人工智能行业协会,邀请人工智能领军者与行业精英推出“2024·AI领先者心声”系列报道,回顾过去的一年,展望新的一年AI大模型发展的机遇与挑战。


星环科技创始人孙元浩向《科创板日报》记者表示:2023年作为大模型元年,AI行业重新洗牌,各行业应用+大模型的模式纷纷落地,行业主管部门也纷纷牵头大模型语料的组建,聚焦高质量语料的积累、开放共享及安全治理,逐步完善大模型生态构建,确保大模型更好地应用落地。


针对垂直类的专家型应用场景,仅用思维链、微调及外挂行业知识库方式是无法满足实际业务需求的,企业至少需要对通用大模型做二次预训练及微调,才能实现一款专家级别的大语言模型。



2.北京公布行业大模型10大典型场景应用


日前,北京市科委、中关村管委会正式发布北京市首批10个行业大模型典型应用案例。


涉及城市治理、医疗健康等领域,均由技术供给方与场景需求方联合研发,展现了大模型技术能力,并深度结合不同行业需求特点,在帮助行业用户“降本提质增效”的同时,开发新功能、形成新产品、拓展新应用,推动人工智能技术与行业深度融合。




3.行业大模型落地加速,AI大模型+各行业应用生态加速形成


AI大模型及行业应用呈现百花齐放局面。世界人工智能大会期间,多家厂商AI大模型及应用产品相继亮相,AI+行业应用生态持续成熟。

AI+金融、AI+医疗、AI+安全、AI+教育、AI+政务···这些难得一见的AI大模型+行业典型应用,将AI带给行业用户,也加速了大模型与行业融合应用的快速落地。


大数据




4.赛迪发布“2023城市数据要素市场发展100强”,上海、北京、深圳位列前三


赛迪四川正式发布《中国城市数据要素市场发展评估报告(2023年)》暨“2023城市数据要素市场发展100强”,本次评价研究遵循客观性、代表性、可操作性原则,从数据要素政策环境、数据要素产业基础、数据要素供给、数据要素流通、数据要素治理多个视角,对城市数据要素市场发展情况进行全面、科学评估,最终形成2023城市数据要素市场发展100强评价结果。


第一梯队由上海、北京和深圳3座城市构成。该梯队的城市总指数得分均超过80分。


第二梯队由重庆、广州、杭州、成都、武汉、贵阳、南京、天津和济南共9座城市组成。


第三梯队由青岛、苏州、合肥、福州、长沙、郑州、南宁、厦门、无锡、西安、长春、宁波、德阳、呼和浩特、佛山、兰州、海口和珠海共18座城市组成。



5.卓数大数据底座V3.0发布,为数据基础设施建设注入新活力


浪潮卓数大数据在数据安全、数据治理、数据分析等方面实现了全面升级,发布卓数大数据底座(TDOS大数据开发平台)V3.0,为政府和企业数字化转型提供强大支持,为数据基础设施建设注入新活力。


卓数大数据底座V3.0实现了多节点分布式单向隔离网络下的自动化数据采集,极大地提高了分布式隔离数据汇聚、查询及ETL调度的可靠传输及安全通信的效率。


针对政务内外网隔离下的数据资产一致性管控问题,浪潮卓数大数据通过自研取得重大技术突破,卓数大数据底座V3.0成功实现了政务网络下双数据底座的数据资产一致性管控、数据加密及安全隧道传输、数据资产跨集群管理等功能。


此外,卓数大数据底座V3.0还实现了基于自然语言的标签自动生成、快速查询和数据快速定位等功能,使用户能够更方便快捷地获取数据,有效降低了业务查询复杂度,极大提升了用户体验。



6.产品品牌升级!StoneData改名为StoneDB数仓版,2.0公测镜像版发布!


石原子科技旗下云数仓产品 StoneData 于 2024 年 01 月 21 日正式更名为 StoneDB数仓版,品牌战略全面升级!


StoneDB 数仓版 2.0 Release Notes:优化数据库连接管理,;增加向量化执行;增加湖仓能力,增加了直接访问 Hive 外部表的能力;大幅提升数据装载性能,写入性能较之前版本有 3-5 倍的提升;修复若干 bug,提升系统稳定性等。



7.Databricks推出为电信和网络服务提供商量身定制的预构建解决方案


数据和人工智能公司Databricks推出通信数据智能平台,一个为电信运营商和网络服务提供商量身定制的统一数据和人工智能平台。


借助通信数据智能平台,通信服务提供商(CSP)可以从其数据和AI 的统一基础中受益,并且可以在不牺牲数据隐私或机密 IP 的情况下全面了解其网络、运营和客户交互。


通信数据智能平台基于开放式湖仓一体架构构建,将行业领先的数据管理、治理和数据共享与企业级生成式 AI 和机器学习 (ML)工具相结合。


Databricks创建了用于通信的数据智能平台,使 CSP 能够更好地预测市场趋势、预测需求模式、将其数据作为产品货币化,并将数据洞察民主化给所有员工,无论其技术专长如何。


Databricks Data Intelligence Platform for Communications 使 CSP 能够:


·使用所有类型的数据来改善客户体验和支持


·统一治理和合规性


·实现低成本的开放式协作。


Databricks 与其合作伙伴生态系统建立在数据智能平台之上,提供打包的解决方案加速器,帮助组织处理行业中最常见和高价值的用例。其中包括几个特定于通信的加速器,如用于客户支持的大型语言模型 (LLM),电信网络分析,地理空间分析以识别欺诈行为,客户实体解析。dbta.com



8.航天壹进制X华为云,发布企业级数据仓库联合灾备解决方案


近日,航天壹进制携手华为云共同发布了基于黑方容灾备份与恢复系统和数据仓库服务GaussDB(DWS)的联合解决方案。该方案结合航天壹进制安全可靠的数据保护驱动力,可满足在多种应用场景中应对不同的业务模式下华为云GaussDB(DWS)海量大数据存储、分析、处理等需求。


针对行业应用新趋势,依托航天壹进制黑方系统对华为云数据仓库GaussDB(DWS)提供数据备份与灾难恢复、业务连续性保障等多种灾备能力,以此帮助用户应对大规模、高复杂性的数据仓库、数据集市、实时分析、实时决策和混合负载等场景下的数据安全保护需求,使其专注数据价值释放。未来,航天壹进制将继续深化与华为云在数据仓库服务领域的技术合作,面向金融、车联网、政企、电商、能源、电信等领域用户提供安全、可靠的解决方案及服务,共同护航数字产业全面转型升级。



9.GreptimeAI + Xinference联合方案:高效部署并监控你的 LLM 应用


如何能高效地持续监控 LLM 应用的运行表现,而又不增加额外的开发复杂度?在这些问题上,GreptimeAI 和 Xinference 提供了切实可行的解决方案。


GreptimeAI 构建在开源时序数据库 GreptimeDB 之上,是为大型语言模型(LLM)应用提供的一套可观测性的解决方案,目前已经支持 LangChain 和 OpenAI 的生态。GreptimeAI 使您能够实时全面地了解成本、性能、流量和安全性方面的情况,帮助团队提升 LLM 应用的可靠性。


Xinference是一个专为大型语言模型(LLM)、语音识别模型和多模态模型设计的开源模型推理平台,支持私有化部署。Xinference 提供了与 OpenAI API 兼容的 RESTful API,并集成了 LangChain、LlamaIndex 和 Dify.AI 等第三方开发者工具,便于模型的集成与开发。


如果你正在使用开源模型构建 LLM 应用,并希望用 OpenAI 的风格进行 API 调用,那么使用 Xinference 来管理推理模型,配合 GreptimeAI 来监控模型运行情况是个不错的选择。


数据库



10.星环科技分布式时序数据库TimeLyre通过信通院“可信数据库”基础能力测试


近日,中国信通院 2023 年下半年“可信数据库”评估评测结果正式发布,星环科技自主研发的分布式时序数据库TimeLyre成功通过信通院时序数据库基础能力测试,包括数据库基础功能、兼容能力、管理能力、高可用特性、扩展性、安全性6大项共计33项测评,充分反映了其对海量时序数据优秀的存储分析、管理支持能力。


目前,TimeLyre分布式时序数据库已在能源、制造、金融等多个行业中应用落地,助力企业打造实时高性能时序数据平台,提升海量时序数据管理能力、复杂场景应对能力和重点业务处理效率。



11.Pinecone推出Serverless向量数据库,以降低成本为目标



Pinecone 推出了一种新的无服务器矢量数据库,旨在降低基础设施管理成本,同时帮助提高生成式 AI 应用程序的准确性。


Pinecone Serverless 现已在 AWS 云区域推出公共预览版,并计划接下来在 Microsoft Azure 和 Google Cloud Platform 上提供新数据库。


Pinecone 总部位于纽约市,是一家矢量数据库专家,其功能使用户能够存储、发现和操作非结构化数据,以训练用于为业务决策提供信息的应用程序和模型。迄今为止,该供应商已筹集了1.38 亿美元,其中包括 2023 年 4 月的 1 亿美元和 2022 年 3 月的 2800 万美元。(techtarget.com



12.中国首款自研云原生数据库PolarDB发布“三层分离”全新版本



1月17日,首届阿里云PolarDB开发者大会在京举办,中国首款自研云原生数据库PolarDB发布“三层分离”全新版本,基于智能决策实现查询性能10倍提升、节省50%成本。面向开发者,阿里云全新推出数据库场景体验馆、训练营等系列新举措,广大开发者可率先免费体验PolarDB数据库核心特性及NL2BI等AI新功能。


PolarDB采用存储计算分离、软硬一体化设计,并在业界开创性地落地“三层解耦”(计算、存储、内存)架构、多主多写、HTAP、Serverless等一系列前沿技术,以50%成本、实现6倍于商业和开源数据库的性能。


本次大会上,阿里云重磅发布PolarDB新版本。据悉,PolarDB是业内首个支持三层分离形态的云原生数据库 ,深度实现三层解耦分离,内存弹升可在1秒内完成切换,单节点最大内存可扩容8倍,可帮助用户节省高达50%的数据库成本;同时接入大语言模型,大幅提升数据库智能决策水平,IO依赖查询性能提升10倍。围绕PolarDB Always On系列技术升级,加速向云原生纵深发展。



13.AllegroGraph Cloud为神经符号AI应用提供“知识图谱即服务”


Franz是人工智能的早期创新者和图形数据库的领先供应商,目前推出 AllegroGraph Cloud,Franz神经符号AI平台的托管版本,为用户提供了一个方便易用的入口,以构建高级AI应用程序。


AllegroGraph Cloud建立在最近发布的AllegroGraph v8 之上,AllegroGraph v8 是一个开创性的神经符号 AI 平台,将大型语言模型 (LLM) 组件直接整合到 SPARQL 中,以及向量生成和向量存储,以实现全面的 AI 知识图谱解决方案。


AllegroGraph v8 重新定义了知识图谱的创建方式,并扩展了 AI 在市场上最安全的三重存储数据库中所能实现的边界。


AllegroGraph 8.0 的改进包括以下变革性功能和增强功能:


· LLM 的检索增强生成 (RAG)


· 自然语言查询和推理


·企业文档深度洞察


· AI 符号规则生成


· 简化的本体和分类创建


·增强的可扩展性和性能 AI 和知识图谱领导力。(datanami.com



14.Cockroach v23.2吸引高端传统工作负载


自从推出基于CockroachDB 的第一批产品和服务以来,Cockroach Labs 一直瞄准数据库市场的高端市场,为全球运营维护单一数据库或对停机时间容忍度非常低的公司服务。


CockroachDB 是一个主要基于 Postgres 的开源数据库,但具有一些额外的功能和复杂性来处理分布式读写。新版本的 CockroachDB v23.2现已发布,比以往任何时候都更容易实现企业架构现代化,更快地从云故障中恢复,并通过更智能的数据分发来提高性能。


CockroachDB的新特性和功能,包括:


·除了用户定义的函数外,还支持PL/pgSQL;


·支持读取提交隔离级别,以便更轻松地从PostgreSQL迁移;


·使用增强的可观测性功能和集成轻松管理;


·使用 MOLT 实时迁移服务对实时迁移的预览支持;


·面向2个数据中心上的组织的物理群集复制。datanami.com



15.向量数据库Milvus 2.3.4发布,支持上万个 Collection、新增 Accesslog 功能


2024 年开年,Milvus 好消息不断。除了收获 Github 25,000 颗星的成就,Milvus 也发布了新年的第一个版本—— 2.3.4。


此次发版的主要目的是为用户提供一个高扩展性且更易用的 Milvus 版本。为此,Milvus 新增了许多易用性功能,比如:可追踪外部接口调用的 accesslog;对 parquet 数据格式的导入做了支持;引入了更清晰的错误消息;更快的加载速度以及更好的查询分片平衡能力。


在扩展性方面,团队通过对内部处理逻辑进行优化以及对内存使用效率的提升,使得 Milvus 集群目前可支持多达 10,000 个 Collection,可以满足大数据量和多租户场景下的要求。


数据安全



16.Skyhigh Security推出AI驱动的DLP助手,以简化数据分类



企业云数据保护公司 Skyhigh Security LLC 今天推出了一款人工智能驱动的数据丢失保护助手,旨在帮助简化复杂的 DLP 任务。


作为 Skyhigh Security Service Edge 产品组合的一部分,AI 助手允许客户根据自然语言表达式创建复杂的数据分类。据称,该能力可以提高运营效率并最大限度地减少因人为错误(例如误报或漏报)而导致的不准确。


DLP 助手支持多种语言的查询,并允许用户轻松快速地创建、测试和验证客户数据分类。该解决方案通过快速生成即时分类器并为需要自定义预定义分类的场景生成定制表达式来节省时间。


该助手通过利用 AI 创建复杂的表达式来降低复杂性并弥合知识差距。据说人工智能的使用消除了对广泛的“正则表达式”或正则表达式知识的需求,也消除了对专门人工智能应用程序的访问,使该技术易于访问和用户友好。


该公司表示,该助手还提高了分类的准确性和精确度。DLP 助手通过提供即时创建和验证准确且精确的正则表达式建议来提高分类准确性。这些建议仅采用 Google RE2 格式,这是由 Google LLC 开发的一种正则表达式语法,旨在避免与其他正则表达式库的常见陷阱和漏洞。(siliconangle.com)



17.Aloudata BIG全球首个实现算子级血缘解析的主动元数据平台


Aloudata BIG 作为全球首个实现算子级血缘解析的主动元数据平台,其研发目的正是通过技术手段达成数据管理自动化。


Aloudata BIG 主动元数据平台首先要解决的是企业数据管理的第一个主要难点——数据链路“看不清”的问题,当前数据血缘技术普遍存在不够全、不够准以及不够细的问题,由于无法精细、准确、全面地刻画数据链路,许多企业为了理清监管报送等重点链路的血缘以及各个字段的计算口径,只能耗费巨大人力进行人工盘点。


Aloudata BIG在数据血缘解析技术上实现了重大突破,彻底根治了现有血缘技术的弊病。


Aloudata BIG 数据血缘的第一大特点是“精细”,可以实现对列算子级的高精度血缘解析,即便是最复杂的数据链路,也可轻松打开链路加工“黑盒”,抽取字段计算口径,清晰展示每一个字段的加工细节,而不仅仅是数据列间的依赖关系,数据人员可快速获知列与列之间是通过何种加工过滤或维度汇总得到的,而不需要费时费力去人工扒代码。



18.国内首个网络安全大模型评测平台SecBench发布



1 月 19 日,业界首个网络安全大模型评测平台 SecBench 正式发布,该平台由腾讯朱雀实验室和腾讯安全科恩实验室,联合腾讯混元大模型、清华大学江勇教授 夏树涛教授团队、香港理工大学罗夏朴教授研究团队、上海人工智能实验室 OpenCompass 团队共同建设,主要解决开源大模型在网络安全应用中安全能力的评估难题,旨在为大模型在安全领域的落地应用选择基座模型提供参考,加速大模型落地进程。同时,通过建设安全大模型评测基准,为安全大模型研发提供公平、公正、客观、全面的评测能力,推动安全大模型建设。


SecBench 网络安全大模型评测平台,将重点从能力、语言、领域、安全证书考试四个维度对大模型在网络安全领域的各方面能力进行评估,为大模型研发人员、学术研究者提供高效、公正的基座模型选型工具和研究参考。


AI




20.星环科技入选“2023 AGI独角兽TOP100”榜单


日前,在2023 极新 AIGC 行业峰会上,《AGI独角兽TOP100》榜单重磅发布,星环科技成功上榜。《AGI独角兽TOP100》榜单集中了AGI领域的的100家公司,是该领域独角兽的领先者,是破釜沉舟、勇立潮头的开拓者和创新者。


星环科技致力于打造企业级大数据基础软件,围绕数据全生命周期提供基础软件与服务。星环科技在AIGC全面布局,既提供自主研发的智能分析工具Sophon、综合性大模型统一运营管理平台Sophon LLMOps、布式向量数据库Hippo 和分布式图数据库 StellarDB等工具,又提供无涯金融大模型Infinity和求索大数据分析大模型SoLar等行业大模型,为企业用户应用LLM提供强大支持。



21.Credo AI宣布与Databricks建立合作伙伴关系,以大规模实现负责任、合规、安全的AI


AI治理软件的全球领导者 Credo AI宣布与 Databricks建立合作伙伴关系。作为 Databricks 技术合作伙伴,Credo AI 将其领先的 AI 治理平台与 Databricks 数据智能平台结合在一起,使组织能够更轻松地大规模采用负责任、合规、安全的AI。


负责任的 AI 开发要求 AI 开发人员和提供商在整个开发生命周期中对其 AI 系统保持透明。Credo AI 治理平台是组织跟踪和管理 AI 风险和合规性的集中存储库,作为 Databricks 技术合作伙伴,Credo AI 使组织能够更轻松地将其所有现有数据和证据引入治理。


Credo AI创始人兼首席执行官Navrina Singh表示:“Databricks和Credo AI将共同彻底改变组织处理AI治理的方式,使其更有效地满足新兴法规并生成关键的治理工件。“这种合作关系不仅是我们向前迈出的一步,而且是行业在负责任的人工智能开发方面的巨大飞跃。”(datanami.com



22.零一万物发布了开源多模态语言大模型Yi Vision Language(Yi-VL)


零一万物发布了开源多模态语言大模型——Yi Vision Language(Yi-VL),该模型基于 Yi 语言模型开发,有Yi-VL-34B 和 Yi-VL-6B 两个版本。


基于 Yi 语言模型的强大文本理解能力,只需对图片进行对齐,就可以得到不错的多模态视觉语言模型。不仅能够有效处理图文对话,还能在跨学科的复杂任务中发挥作用。在教育、医疗、娱乐等领域,Yi-VL可以深入理解和响应用户的需求,提供更为丰富和精准的信息。


目前该模型已经在 Hugging Face、ModelScope 等平台上开源了。



23.Oracle将生成式AI嵌入到整个技术堆栈中,支持企业大规模采用AI


甲骨文公司1月23日宣布全面推出 Oracle 云基础设施 (OCI) 生成式 AI 服务,以及新的创新技术,使企业能够更轻松地利用生成式 AI 的最新进展。


OCI 生成式 AI 服务是一项完全托管的服务,可无缝集成 Cohere 和 Meta Llama 2 中的大型语言模型 (LLM),以满足各种业务用例的需求。


OCI 生成式 AI 服务现在包括支持 100 多种语言的多语言功能、改进的 GPU 集群管理体验以及灵活的微调选项。客户可以通过 OCI 专用区域在 Oracle 云和本地部署中使用 OCI 生成式 AI 服务。


“Oracle 的 AI 重点是解决实际业务用例,以便在企业中广泛采用。为此,我们将生成式 AI 集成到我们的应用和融合数据库中,并提供新的 LLM 和托管服务,从而将 AI 嵌入到技术堆栈的所有层中,所有这些都由快速且经济高效的 AI 基础设施提供支持。“我们没有提供需要组装的工具包,而是提供了一套强大的预构建生成式人工智能服务和功能,这些服务和功能协同工作,帮助客户更智能、更快速地解决业务问题。”



24.人工智能生成的语音初创公司ElevenLabs筹集8000万美元的新资金



超过40%的财富500强企业使用的合成语音平台开发商ElevenLabs今天宣布,它已经从一群知名投资者那里筹集了8000万美元。


“这笔新资金使我们能够应对更大的挑战,并专注于保持我们在研究和产品开发方面的竞争优势,”ElevenLabs首席技术官Piotr Dąbkowski说。


ElevenLabs,正式名称为 Eleven Labs Inc.,提供了一个使用人工智能生成合成语音的云平台。用户可以访问一个包含 1,000 多种声音的库,这些声音分为“富有表现力”、“自信”和“叙述者”等类别。客户使用其平台完成创建有声读物和讲述电影等任务。


对于需要更多定制的公司,Eleven Labs 提供了所谓的语音克隆功能。该功能可以上传简短的语音样本,并让平台模仿说话者。它可以根据一分钟的录音生成基本的语音克隆,而专业级复制品需要 30 分钟。(siliconangle.com





2024春节

龙年大吉 万事勝意



END


文章转载自Hadoop大数据应用,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论