暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

OpenAI 宣布对其最强大的AI模型 GPT-4o开放定制功能;IDC 发布《中国大数据平台市场份额》

121

点击上方蓝字关注我



行业快讯与友商动态 2024年第27期:


近日,全球领先的 IT 市场研究和咨询公司 IDC 发布《中国大数据平台市场份额,2023:数智融合时代的真正到来》(Doc# CHC51598124,2024年8月)报告,星环科技大数据平台私有化部署市场份额增速第一,并连续4年保持专业厂商市场份额第一。


本周,OpenAI 宣布对其最强大的AI模型 GPT-4o开放定制功能,允许企业通过微调技术优化模型以适应特定业务需求。这一新功能意味着企业可以更轻松地创建专属的 AI 助手,如客服聊天机器人,而无需依赖外部服务或使用性能较低的模型。尽管目前微调过程仅支持文本数据,但这一进展显著简化了企业定制AI的操作流程,并有望提升 AI 投资的回报。OpenAI 通过开放 GPT-4o 的定制功能,进一步巩固了其在企业级 AI 应用市场的领导地位。我们期待看到更多企业利用定制化 AI 解决方案,实现业务的智能化升级。


微软最新力作Phi-3.5系列模型现已开源,为中小企业和个人开发者带来福音。这款小参数量的模型,性能却超越了Meta的Llama 3.1 8B和Mistral 7B等知名开源模型,成为开源大模型排行榜中唯一入选前10名的小参数模型。


本周焦点

1.星环科技!中国大数据平台连续4年蝉联专业厂商市场份额第一!

2.中央网信办、国家数据局等部门组织编制了《数字化绿色化协同转型发展实施指南》

3.中国电信完成超亿元数据资产入表

大数据

4.开源数据分析公司 Grafana Labs 完成 2.7 亿美元融资

5.Starburst认定数据治理和联合数据访问是AI采用中的关键趋势

6.Gartner发布从数据中台转向“数智基建”的三大趋势

7.斯巴鲁选择 Informatica 来增强其全球运营的数据管理

8.优步推动 Apache Kafka 的分层存储功能,从而引发效率之争

数据库

9.Onehouse推出向量嵌入生成器,用于管理数据湖仓中的大规模向量数据

10.字节火山云veDB MySQL发布透明HTAP支持

11.微软正支持PostgreSQL突破OLAP性能

12.浪潮KaiwuDB2.0正式开源

AI

13.OpenAI开放GPT-4o定制功能,助力企业打造专属AI助手

14.昆仑万维发布全球首款AI短剧平台15.SkyReels 推动短剧创作进入新时代

16.微软开源Phi-3.5:支持手机、平板电脑,性能超Llama 3.1

17.英伟达推出LongVILA-实现长视频理解帧数扩展128倍,性能飙升1.6倍

亚马逊8000万美元收购边缘AI企业18.Perceive,深度布局未来科技赛道

摩根大通面向6万名员工推出AI助手

数据安全

19.河南:“数据要素×”行动实施方案明确2个气象行业专项


本周焦点



1.星环科技!中国大数据平台

连续4年蝉联专业厂商市场份额第一


近日,全球领先的 IT 市场研究和咨询公司 IDC 发布《中国大数据平台市场份额,2023:数智融合时代的真正到来》(Doc# CHC51598124,2024年8月)报告,星环科技大数据平台私有化部署市场份额增速第一,并连续4年保持专业厂商市场份额第一。


IDC中国研究总监卢言霞表示:“星环科技是大数据领域少有的聚焦基础软件且持续稳定发展的企业,其在金融、政务、能源、电信、交通、制造等领域的多年实践案例也助力其打造扎实稳定的大数据产品。可以说,创新且稳定的产品能力、行业客户服务能力,是客户选择星环科技的重要理由。”


报告中指出,“2023年中国大数据市场规模达179.3亿元人民币,相比2022年增长 24.6%。其中,私有化部署市场规模达 107.1 亿人民币,占总市场规模的59.3%,相比2022年增长13.6%。在本次市场追踪中,星环科技的增速也最为领先。”



2.中央网信办、国家数据局等部门组织编制了《数字化绿色化协同转型发展实施指南》



为更好指导部门、地方、社会组织、企业等开展数字化绿色化协同转型发展工作,中央网信办、国家发展改革委、工业和信息化部、自然资源部、生态环境部、住房城乡建设部、交通运输部、农业农村部、市场监管总局、国家数据局等部门组织编制了《数字化绿色化协同转型发展实施指南》(以下简称《实施指南》)。《实施指南》明确了推动数字产业绿色低碳发展、加快数字技术赋能行业绿色化转型等双化协同两大发力方向;明确了数字化绿色化基础能力、数字化绿色化融合技术体系、数字化绿色化融合产业体系等双化协同融合创新三方面布局。



3.中国电信完成超亿元数据资产入表



8月20日,中国电信发布了上半年中期财报,宣布数据资产入表金额超过1亿元人民币。在中期财报核心的三大表之一——合并资产负债表中,可以发现数据资源项目共“入表”1.05亿元,均在开发支出项目中。在开发支出科目明细中,可以看到数据资源本期增加1.05亿元。


中国电信目前日均采集数据1.6PB;针对海量数据,公司组建了专业的数据标注团队对数据进行清洗,用于自有大模型的训练和外部数据业务的合作;同时,公司通过自研“灵泽”平台加大外部数据引入,丰富大模型数据集。


大数据



4.国开源数据分析公司 Grafana Labs 完成 2.7 亿美元融资



Grafana Labs 是一家提供数据可视化和分析服务的开源公司,日前宣布完成了 2.7 亿美元的融资,这笔资金由公司现有投资者 Lightspeed Venture Partners 牵头,其估值增至 60 亿美元以上。融资所得将用于公司运营和部分股东撤资。


Grafana Labs 侧重于帮助企业分析和可视化基础设施服务数据,提供 Grafana Cloud 托管服务和 Grafana Enterprise 自托管服务,旗下产品还包括用于追踪应用性能、用户监控和事件响应管理的工具。


Grafana Labs 专注为企业提供数据可视化和分析解决方案,其开源项目现为全球 2000 万用户使用,成为观测领域市场领导者,公司通过多元化的营收模式,保持开源项目可持续性的商业模式。



5.Starburst认定数据治理和联合数据访问是AI采用中的关键趋势



Starburst发布了一份报告,强调了实时混合数据访问和强大安全措施在成功实施AI中的关键作用。报告揭示了数据管理的几个关键趋势,这些趋势正在塑造AI格局:52%的受访者采用了数据治理和联合数据访问策略,以改善数据质量和跨系统的可访问性,包括本地和云中。59%的人利用基于云的平台进行可扩展性,61%的人使用敏捷方法进行数据项目管理。实时数据访问至关重要,62%的受访者强调其在AI成功中的关键作用。



6.Gartner发布从数据中台转向“数智基建”的三大趋势



Gartner高级研究总监顾星宇提出企业应从数据中台转向"数智基建"的部署。"数智基建"是聚焦数据、分析和AI生态建设的新部署模式,通过供应商合作构建全面的解决方案,提供分析型数据库、数据集成等技术能力。与传统数据中台相比,"数智基建"更注重生态合作,避免厂商锁定,提供可组装、敏捷、鲁棒的平台。


Gartner预测,到2028年,50%的中国D&A平台将因与生态系统脱钩而过时。影响"数智基建"市场的三大趋势包括:1)多云及跨云数据管理,满足企业多样化需求;2)灵活便捷的部署方式,让企业快速享受技术红利;3)使用AI就绪型数据支持生成式人工智能应用。


中国企业面临的云环境更复杂,需要加快与云供应商合作,提高跨云数据管理效率。同时,供应商应与行业SaaS供应商合作,快速实现技术部署。AI就绪型数据的提供是持续循环过程,需要与AI厂商合作,共享元数据,持续优化数据使用。



7.斯巴鲁选择 Informatica 来增强其全球运营的数据管理



斯巴鲁公司选择Informatica来提升其全球运营中的数据管理能力。SUBARU在2019年面临数据孤岛和使用问题,随后在2020年启动了全球产品生命周期管理(PLM)项目,旨在整合从车辆开发到生产和售后维护的关键业务流程数据,并构建一个公司范围内的数据集成平台。


2022年,该数据集成平台完成并投入使用,实现了从车辆开发到制造、销售和维护的全生命周期数据,以及客户ID等信息的无缝链接。Informatica提供的AI驱动的智能数据管理云(IDMC)平台及其云数据集成和目录功能,使SUBARU能够在全球范围内整理其开发、采购、制造、销售和维护服务的数据,从而从可靠和值得信赖的数据中获得业务洞察。



8.优步推动 Apache Kafka 的分层存储功能,从而引发效率之争



Uber在Apache Kafka中添加分层存储功能,该功能允许Kafka将其存储功能从本地代理磁盘扩展到远程存储系统,如HDFS、Amazon S3等,以解决大型Kafka集群在可伸缩性和效率方面的挑战。分层存储架构引入了本地层和远程层两个存储层,可以独立于计算资源扩展存储,降低成本和运维复杂性。文章还分析了分层存储的优势和潜在问题,并提到了AWS在Amazon MSK中对分层存储的进一步发展和实际测试结果。


数据库



9.Onehouse推出向量嵌入生成器,用于管理数据湖仓中的大规模向量数据



Onehouse公司推出了一款向量嵌入生成器,旨在简化为生成式AI应用构建向量嵌入的过程,提高效率和可扩展性。作为其管理ELT云服务的一部分,该生成器自动化了嵌入管道,持续地将来自云存储上的数据流、数据库和文件的数据传递给OpenAI、Voyage AI等基础模型,然后将嵌入数据存储在用户的数据湖中优化的表中。随着AI项目的加速,管理用于支持RAG应用的众多孤立向量数据库中的数据成为一个日益增长的难题,导致成本过高和向量的浪费再生。


数据湖因其开放的数据格式和可扩展、经济的云存储,成为集中和管理AI模型使用的大量数据的自然选择平台。Onehouse的产品与向量数据库集成,支持实时用例的大规模、低延迟向量服务。这种架构为构建大型语言模型(LLMs)和智能搜索等AI应用提供了规模、成本和性能优势。MIT技术评论和Databricks的调查显示,几乎四分之三的组织已经采用了数据湖架构,其中99%表示该架构有助于实现他们的数据和AI目标。



10.字节火山云veDB MySQL发布透明HTAP支持



云数据库 veDB MySQL 版支持 HTAP 能力,能够同时满足业务需要处理大量事务操作和复杂数据分析查询的请求,即通过一套数据库系统可同时满足业务的 OLTP(TP) 和 OLAP(AP) 需求。veDB MySQL HTAP 版本采用了 veDB MySQL plugin 架构方式,能够对 MySQL 进行 OLAP 执行加速。具体功能如下:100% 兼容 MySQL 协议,完全兼容 AP 和 TP,包括查询和 DDL/DML。


AP 和 TP 请求在内核侧自动分流,无需在业务侧进行手动分流;如需分流,可通过 Proxy 进行分发。基于内核的自动分流能力,在单业务口可以同时享受索引执行以及向量化执行的查询加速能力。HTAP 执行节点采用 MPP 架构,可实现弹性扩缩容。



11.微软正支持PostgreSQL突破OLAP性能



微软支持的开源数据库项目pg_duckdb,将DuckDB作为PostgreSQL的一个扩展,旨在提升集中式数据库在分析型(OLAP)业务领域的性能。DuckDB是一款自2018年起开发的开源嵌入式OLAP数据库,以其轻量级和强大的数据分析性能受到开发者青睐,在GitHub上获得21.9K的Star,并以月下载量超200万次的频率流行。


PostgreSQL(pg)作为流行的关系型数据库,以其代码逻辑清晰、功能强大而受欢迎,但在OLAP领域尚未广泛应用。微软对pg_duckdb的支持可能改变这一局面,使PostgreSQL成为同时擅长事务处理和分析的HTAP数据库。这不仅是对PostgreSQL生态的一次重要补充,也为中国等地区的兼容pg的集中式数据库提供了发展机遇。目前,pg_duckdb项目支持Postgres 16、17版本,以及Ubuntu 22.04或MacOS操作系统,仍在研发阶段,在GitHub上获得800个star。


12.浪潮KaiwuDB2.0正式开源



KaiwuDB 2.0 正式宣布开源,社区版本名为KWDB。KWDB 是一款针对 AIoT 场景设计的分布式多模数据库产品,支持时序库和关系库的融合处理,满足数据管理需求及关键行业核心系统的自主可控需求。


开源后,KaiwuDB 希望与广大开发者共同探索技术潜力,推动项目和社区成长。开发者可以在 Gitee 获取 KWDB 相关资料,参与社区贡献,提交 Issue 或 PR。KaiwuDB 官网也提供问答求助、发布博客、参与活动等功能,并提供数据库工程师认证。KaiwuDB 通过开源,期待与社区共同促进技术创新和行业发展。


AI



13.OpenAI开放GPT-4o定制功能,助力企业打造专属AI助手



本周,OpenAI 宣布对其最强大的AI模型 GPT-4o开放定制功能,允许企业通过微调技术优化模型以适应特定业务需求。这一新功能意味着企业可以更轻松地创建专属的 AI 助手,如客服聊天机器人,而无需依赖外部服务或使用性能较低的模型。


尽管目前微调过程仅支持文本数据,但这一进展显著简化了企业定制AI的操作流程,并有望提升 AI 投资的回报。OpenAI 通过开放 GPT-4o 的定制功能,进一步巩固了其在企业级 AI 应用市场的领导地位。我们期待看到更多企业利用定制化 AI 解决方案,实现业务的智能化升级。



14.昆仑万维发布全球首款AI短剧平台SkyReels推动短剧创作进入新时代



昆仑万维推出SkyReels,这是一款革命性的AI短剧创作平台,标志着创作工具的智能化和便捷化迈出了重要一步。SkyReels核心亮点包括:(1)全流程服务:从剧本生成到视频合成,SkyReels提供一站式解决方案。(2)高清视频输出:自动转换内容为1080P 60帧高清视频,单次视频最长180秒。(3)AI智能推荐:自动推荐背景音乐和音效,一键添加,简化创作流程。(4)多场景应用:适用于个人创作、教育、广告宣传、社交媒体和游戏开发。SkyReels的推出,不仅为创作者提供了一个强大的AI辅助创作工具,也预示着AI技术在内容创作领域的广泛应用前景。



15.微软开源Phi-3.5:支持手机、平板电脑,性能超Llama



微软最新力作Phi-3.5系列模型现已开源,为中小企业和个人开发者带来福音。这款小参数量的模型,性能却超越了Meta的Llama 3.1 8B和Mistral 7B等知名开源模型,成为开源大模型排行榜中唯一入选前10名的小参数模型。Phi-3.5系列包含三种模型:mini指令微调、专家混合和视觉微调,其中Phi-3.5-mini:支持128K上下文,擅长文本/代码生成、数学推理等。


Phi-3.5-vision:除文本生成外,还支持图像识别、光学字符识别等视觉任务。Phi-3.5-MoE:专家混合模型,420亿参数中只有66亿参数激活,实现资源的高效利用。微软Phi-3.5系列的开源,为开发者提供了一个性能卓越、资源消耗低的AI模型选择。无论是在移动设备上还是在资源受限的环境中,Phi-3.5都能发挥出色的表现。



16.英伟达推出LongVILA-实现长视频理解帧数扩展128倍,性能飙升1.6倍



AI视频理解技术迎来重大进展!英伟达联合多所高校的研究者们推出了LongVILA,这是一套全新的全栈解决方案LongVILA不仅支持1024帧的视频,而且在长视频字幕任务上实现了接近100%的准确率,相当于274k个token的上下文长度。这一成果,为长视频分析和理解提供了强大的技术支持。LongVILA涵盖了系统设计、模型训练策略和数据集构建,为长上下文VLM提供了全面的解决方案。


同时,它采用了多模态序列并行(MM-SP)框架,有效支持了内存密集型的长上下文训练。在VideoMME和长视频字幕任务上,LongVILA展现了卓越的性能。特别是在1024帧上训练的模型,在1400帧的测试中达到了99.5%的准确率,显著超越了现有技术。


17.亚马逊8000万美元收购边缘AI企业Perceive,深度布局未来科技赛道



亚马逊近日以8000万美元收购了边缘AI企业Perceive的大部分资产,这标志着亚马逊在边缘计算和人工智能领域的深度布局。Perceive专注于边缘AI推理技术,其技术在智能家居、物联网等领域具有潜力。市场数据显示,边缘计算市场预计在未来五年内年复合增长率可达20%以上,为亚马逊带来巨大市场机会。


此次收购有助于亚马逊在智能设备领域提升竞争力,尤其是在语音识别和智能推荐等方面,增强如Amazon Echo等产品的用户体验。对投资者而言,此次收购展现了亚马逊对未来科技发展的信心,但投资者在决策时应考虑市场反应、技术整合表现及行业政策变化,注意科技股的波动性,制定合理的资产配置和风险控制策略。



18.摩根大通面向6万名员工推出AI助手



近日,摩根大通推出了一款名为LLM Suite的人工智能助手,旨在采用多种大型语言模型。Investopedia的一位发言人证实了这条消息。截至为止,已有6万多名员工可以使用该款AI助手,但摩根大通的目标是使其在公司得到无所不在的应用。据报道,摩根大通此前曾因数据隐私问题在公司内部禁止使用ChatGPT。


数据要素


19.河南:“数据要素×”行动实施方案明确2个气象行业专项


近日,河南省发展和改革委员会等20个部门联合印发《河南省“数据要素×”行动实施方案(2024—2026年)》(以下简称《实施方案》)。“数据要素×气象服务行动”作为《实施方案》确定的重点行业领域12大行动之一,通过实施两个专项,加速气象数据要素供给和流通使用,激活气象数据要素价值,赋能河南经济社会高质量发展。


扫码关注我们

扫码关注我们

END

文章转载自Hadoop大数据应用,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论