暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据科学|六位专业人士对2021技术发展的展望

数艺学苑 2021-01-18
270


6 experts’ views on tech in 2021

Data Science, Data Engineering, and Tech



随着2021年的到来,我们想花点时间来反思技术的变化,并看看当前技术的发展趋势。

 

不管你是关注初创公司和他们的ipo,还是关注科技的进步,还是关注亚马逊的re:Invent,我们都看到在2020年,有很多公司在不断尝试突破边界。

 

我个人最喜欢的2020年的公告是AWS的SageMaker Data Wrangler,它旨在加快机器学习和人工智能应用的数据准备。这似乎是一个伟大的举措,将有更多的流体机器学习管道,有望进一步使机器学习更容易地为企业和公司所用,而不只专注于技术。

 

2020年已经结束,所以我们采访了来自科技界不同地区的人们,请他们提供他们对2021年的展望和期待——无论是关于新的创业公司、新技术还是新实践。

 

让我们看看他们怎么说


Sam Cannon       

                 Facebook数据科学家

我觉得自然语言处理(NLP)目前正以不可思议的速度发展,这既令人兴奋又令人沮丧。一旦我为文本分类或分布式词表示聚类建立了一个像样的综合解决方案,马上就会有一个新的模型出现,它的性能很有可能会超过我昨天使用的模型,这意味着我需要不断地更新。


话虽如此,我对NLP的发展前景非常看好——特别是针对复杂的NLP任务的开源解决方案。在这个领域中,我最喜欢的公司之一,也是我个人对开放源码、最先进的NLP的晴雨表,是Hugging Face。Hugging Face遵循“解决自然语言处理”的信条,拥有复杂的自然语言处理模型和任务,而这些模型和任务通常由于缺乏计算能力或专业知识而不可能被许多人使用。


他们已经提供了简单的情感分析解决方案,这个方案只需要最少的用户输入。在此基础上,我认为2021年将迎来一波预先打包的SOTA NLP模型,这些模型只需要一行代码就可以使用。虽然不可能预测什么会真正的在2021年实现,我相信,至少,开箱即用的NLP模型将允许更多的人都能从他们的自然语言数据中获得的见解——这就是我在2021年最期待发生的事情。


凯瑟琳·陶(Catherine Tao)    

                 数据标准,数据科学家

我非常期待云计算明年在技术领域的创新。目前,云是公司存储数据的空间。这方面存在一些挑战,比如可伸缩性、效率、数据流等等。


我们将密切关注云计算的改进,以平衡科技企业所面临的一些主要问题。许多公司都在为如何将人工智能引入自己的业务而苦苦挣扎,这导致某些公司在科技行业落后。通过对云计算的创新,更多的公司应该能够在他们的公司中实现人工智能,并以更高的生产力水平部署项目和产品。


Riley Kinser       

                地形,产品主管

展望2021年(希望这是商业地产更加光明的一年!),我的目标是成为绘制地理数据工具的专家。我绘制路线图的主要目标之一是将我们对地形的见解转化为最终便于用户理解的地图。

 

当今行业中的许多案例都是使用ArcGIS完成的,ArcGIS是一种较老但很好的数据映射工具。我相信可能会有更好的工具,这将为我们的客户提供一个新的机会。我感兴趣的两个工具是Uber开发的开源项目:H3和kepler.gl


我认为H3的主要优势之一是可以根据变焦程度将世界细分为不同大小的六边形这解决了我们早期发现的一个问题,即不同的用户喜欢以不同的视角来看待社区、次级市场或大都市区域内城市的边界。这也使我们能够更好地开发国际地图,因为边界附近的数据很难获得。

 

另一方面,kepler.gl也很有趣,因为它比较容易在线上开发和管理。优步开发kepler.gl的目的是让用户可以在内部快速开发地图,并通过地理空间数据将想法可视化。kepler.gl支持的另一个有趣的功能是能够轻松地可视化时间序列中的地理数据。我希望以kepler.gl为我们MVP的开始,然后我们会在收集用户反馈同时不断探索H3。


Chris Zeoli        

                 Base10合伙人  

目前有一些趋势让我感到非常兴奋,其中电子商务(尤其是Shopify及其相关工具的崛起)和远程医疗是我最感兴趣的两个领域。我曾经写过关于Shopify生态系统的文章,该公司不断达到新的高度,为200多万商家带来了超过1000亿美元的GMV。

 

令我特别兴奋的是,它与Facebook/Instagram、TikTok、支付宝、Affirm和Pinterest等公司建立了新的合作关系,因为Shopify已经成为消费者所在的主要网络的底层商务基础设施。它的软件以及第三方生态系统的蓬勃发展令人兴奋不已。看到传统电子商务领域继续增长(服装和时尚、CPG产品、健康和保健等),同时看到食品/杂货、汽车等新类别通过Shopify等平台上线,这很有趣。

 

我也对远程医疗新的数字医疗体验感到非常兴奋。很明显,就我们的经济中“必不可少”的东西而言,医疗保健是首要和中心。这一类别占GDP的20%(而且还在增长),但几乎没有突破性的成果,也没有规模巨大的公司。我想在五年内,至少会有一个主要的参与者(我也希望看到苹果、谷歌和亚马逊继续进军医疗保健领域)。2020年对于远程医疗来说是非常重要的一年,Teladoc收购了Livongo,创造了迄今为止数字医疗领域最强大的品牌,企业总价值超过300亿美元,ARR超过15亿美元,增长>100%。

 

我很高兴看到一波全新的数字健康体验上线,它能满足人类照顾自己的最基本需求。


Jun Kim        

                Facebook数据工程师

即将到来的2021年技术中最让我兴奋的是人们期待已久的Apache Airflow 2.0。自2015年首次发布以来,Apache Airflow一直是数据工程中最流行的工作流管理系统之一。

 

它的巨大成功可以归因于这样一个事实:它允许将工作流写成代码,简单但有效的GUI,以及它在结构化数据流程方面的一般灵活性。随着新的2.0版本的发布,每个人都喜欢的工作流管理系统将变得更好。Apache Airflow2.0将有许多令人印象深刻的附加特性,包括完全支持和全面的REST API、TaskFlow API和任务组。它还提供了许多改进,包括简化的Kubernetes执行器、低延迟的调度程序和更直观的GUI。

 

我很高兴能尝试新的改进后的Airflow


Michael Mirandi       

                 Saturn Cloud.io战略主管

2021年有几个技术趋势是我很期待看到的,但最期待的就是GPU计算在数据科学和机器学习中的日益普及。这种转变首先是由性能驱动的,同时开源项目RAPIDS使得易用性成为可能。如果您不熟悉它,RAPIDS允许用户在NVIDIA硬件上执行Python代码。

 

该团队在今年早些时候发布了行业标准的大数据分析基准测试结果,结果显示他们的表现超过了近20倍!同样有趣的是,这些基准测试不仅展示了GPU计算在数据科学工作负载方面的能力,还展示了它加速传统数据工程ETL工作的能力。这会导致更广泛的Python采用吗?我很愿意打赌,尤其是最近一批新的数据科学初创公司发布了分布式GPU计算平台——这是一种以前所未有的速度在云上运行GPU集群的能力。


2021年及未来的科技


2021年有很多值得期待的东西,无论是可以用一行代码使用的预打包SOTA NLP模型,自然语言查询,还是对诸如Airflow这样框架的改进。


无论大小科技公司似乎都在继续发展,即使是在一切变得焦虑疲劳的情况下。


我们希望2021年不仅仅是技术进步的一年,也是我们在提升每个人的船的领域取得进步的一年。


感谢您的阅读,祝您在新的一年里好运!


1

END

1


本文作者


指导老师


扫码关注我们

数艺学苑

欢迎扫码关注公众号

沈浩老师

图片来源:网络

原文链接:https://medium.com/better-programming/the-future-of-data-science-data-engineering-and-tech-7f0a503745fd



文章转载自数艺学苑,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论