暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

报名开源之夏,与 StarRocks 一起畅游代码的海洋!

StarRocks 2023-05-22
348





开源之夏是由中科院软件所“开源软件供应链点亮计划”发起并长期支持的一项暑期开源活动,旨在鼓励在校学生积极参与开源软件的开发维护,培养和发掘更多优秀的开发者,促进优秀开源软件社区的蓬勃发展,助力开源软件供应链建设。

2023 年,开源之夏与 133 家优秀开源社区紧密合作,成功为本届活动上线 594 个项目任务,项目涵盖了操作系统、编译器、人工智能、大数据、数据库、云原生、RISC-V 等众多热门领域,涉及技术标签 110 多个。

数据库作为现代软件系统的核心组成部分,扮演着存储、管理和处理数据的重要角色。了解数据库的原理和技术,掌握数据库管理和优化的方法,对于从事软件开发、数据分析和系统架构等领域的学生和专业人士来说,都具有极大的价值和必要性。

作为一款高性能分析型数据库,StarRocks 社区在本次活动中提供了 3 个项目供同学们认领,分别涵盖基础难度和进阶难度,适合不同阶段的同学进行实战练习!通过参与 StarRocks 社区的项目,你将深入了解最前沿的数据库技术发展动态,零距离体验顶级开源项目并通过社区导师的耐心指导和实际项目参与经历,培养良好的编码习惯和能力,实质性提升自身的专业能力,为未来的职业生涯奠定坚实基础。

参与开源之夏的同学们将获得丰厚的回报。除了开源之夏的结项证书,你还有机会赢得最高 12000 元的结项奖金。作为 StarRocks 社区的一员,你还将收获专属的社区周边礼品。

加入我们,一起开启数据库技术的奇妙之旅吧!期待与你相约 StarRocks 社区!🚀🌟


报名时间:4 月 29 日 至 6 月 3 日 15:00 UTC+8

报名方式:扫描上方「海报左侧二维码」报名复制链接到浏览器打开:https://summer-ospp.ac.cn/org/orgdetail/fbddcc44-29d8-407b-abc4-13dcaf02d662?lang=zh

报名指南及注意事项:开源之夏学生报名官方公告

报名要求:本活动面向年满 18 周岁在校学生




StarRocks 社区简介



StarRocks 是一款高性能分析型数据仓库,使用向量化、MPP 架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks 既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。

StarRocks 兼容 MySQL 协议,可使用 MySQL 客户端和常用 BI 工具对接。同时 StarRocks 具备水平扩展,高可用、高可靠、易运维等特性。广泛应用于实时数仓、OLAP 报表、数据湖分析等场景。

截至 2022 年底,StarRocks 已被全球超过 200 家市值 70 亿美元以上的头部企业采用,开源社区聚集 200 多位贡献者,近万社群用户。目前 StarRocks 在 GitHub 星数已超 4400 个,是《2022 开源大数据热力报告》中热力值增速第一的项目。StarRocks 也是全球顶级基金会 Linux Foundation 旗下的开源项目。

开源协议Apache License 2.0

社区邮箱:community@starrocks.com

官网地址:https://www.starrocks.io/

社区项目主仓库:https://github.com/StarRocks/starrocks




导师介绍






StarRocks 开源之夏 2023 任务详情




任务一(基础难度)

持 StarRocks Kettle Connector


项目简介:Kettle 是一款开源的 ETL 工具,采用 Java 编写,可以在 Windows、Linux、Unix 上运行,支持低代码、拖拽方式开发 ETL 数据管道,可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源。本项目为 StarRocks 支持 Kettle connector,支持通过 Kettle 将数据写入到 StarRocks。

项目产出要求:
  • 实现 StarRocks Kettle Connector,并贡献到开源社区
项目技术要求:
  • 熟悉 Java 语言,了解数据库基本操作

导师:李鹏飞 lipengfei@starrocks.com


任务二(基础难度)

在 StarRocks 中实现 ORC Chunk Writer


项目简述:

ORC 文件格式是 Hadoop 生态圈中的一种列式存储格式,用于降低 Hadoop 数据存储空间和加速 Hive 查询速度,也是当前 OLAP 系统中最常用的列存格式之一。和 Parquet 类似,ORC 并不是一个单纯的列式存储格式,而是根据行组分割整个表,在每一个行组内进行按列存储。StarRocks 当前已经实现对 ORC 文件的读取功能,能够正常访问其他数据源的 ORC 数据文件。本项目考虑在 StarRocks 中实现 ORC Chunk Writer,支持将 StarRocks 的 chunk 数据写入到 ORC 文件当中。

项目产出要求

  • 在 StarRocks 上实现 ORC Chunk Writer,并贡献到开源社区
项目技术要求
  • 熟悉C++语言,有一定的数据库基础

导师:杨关锁 yangguansuo@starrocks.com


任务三(进阶难度)

用 JIT 加速 StarRocks 表达式执行


项目简述:

Just-in-Time (JIT) compilation 技术广泛应用于现代的数据库系统中。它是将用户输入的表达式、查询、存储过程等现场编译成二进制代码再执行,相比解释执行的方式,运行效率要高得多。尤其是对于计算密集型查询、或频繁重复使用的计算过程,运用代码生成技术能达到数十倍的性能提升。StarRocks 的执行引擎主要是采用向量化技术加速,如何将向量化和 JIT 结合是一件值得研究的课题。本次实践主要是用 JIT 优化 StarRocks 向量化执行引擎的表达式计算。

项目产出要求

  • 用 LLVM 来完成表达式的 JIT 优化,并贡献到开源社区

项目技术要求

  • 有一定的 C++ 和 数据库执行引擎的基础

导师:方祝和 fangzhuhe@starrocks.com




社区介绍视频




欢迎各位同学报名参 StarRocks 项目 ,与广大的 StarRocks 社区伙伴们携手共建极速统一的湖仓分析新范式!

无论是技术上的疑问还是项目中的挑战,如果你遇到任何问题,别担心!扫描下方二维码加入“开源之夏 2023 x StarRocks 活动群”,我们将为你提供最大程度的帮助和指导。


关于 StarRocks 

Linux 基金会项目 StarRocks 是数据分析新范式的开创者、新标准的领导者。面世三年来,StarRocks 一直专注打造世界顶级的新一代极速全场景 MPP 数据库,帮助企业构建极速统一的湖仓分析新范式,是实现数字化转型和降本增效的关键基础设施。
StarRocks 持续突破既有框架,以技术创新全面驱动用户业务发展。当前全球超过 200  家市值 70 亿元以上的头部企业都在基于 StarRocks 构建新一代数据分析能力,包括腾讯、携程、平安银行、中原银行、中信建投、招商证券、众安保险、大润发、百草味、顺丰、京东物流、TCL、OPPO 等,并与全球云计算领导者亚马逊云、阿里云、腾讯云等达成战略合作伙伴。
拥抱开源,StarRocks 全球开源社区飞速成长。截至 2022 年底,已有超过 200 位贡献者,社群用户近万人,吸引几十家国内外行业头部企业参与共建。项目在 GitHub 星数已超 4400 个,成为年度开源热力值增速第一的项目,市场渗透率跻身中国前十名。






👇 阅读原文了解   产品详细信息

文章转载自StarRocks,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论