
Reddit 是综合社交新闻站点,也是国际知名的去中心化在线社区。无论用户拥有什么样的兴趣爱好,都可以在此找到同好,找到归属,共同“提前于新闻发声,发出互联网的声音”。
为提高网站可访问性,尤其是方便盲人和视障用户,Reddit 决定运用 AI 工具,为平台数百万图片自动生成替代文本。在微软智能云 Azure 认知服务产品团队的帮助下,Reddit 选择 适用于视觉的 Azure 认知服务(Azure Cognitive Service for Vision),优化了网站 SEO(搜索引擎优化),提升用户“冲浪”体验。

海量图片,定位心仪内容

Reddit 是由无数社群组成的网络社区,差异化的个体因共同爱好在此聚集。Reddit 上的社群叫做 subreddit,由用户(redditors)自行创建,并由用户决定每个社区的风格和规则。用户能够浏览各类社群,发布链接、帖子、图片、视频等多种形式的内容;用户也可以给每条内容投票——要么点赞以奖励优质内容,要么点踩以隐藏低质量内容。
为了方便包括视障用户在内的人群访问,Reddit 决心利用 AI 和机器学习工具,优化网站可访问性。Reddit上目前有数百万张图片,并以每天几十万张的速度持续新增。鉴于工作量巨大,Reddit 希望运用计算机视觉服务,快速生成高质量图片描述,用作替代文本(alt text)。
Reddit 客户体验和 SEO 产品经理 Tiffany Ong 表示:“方便用户搜到、查看想要的图片,是我们的主要目标。为此,我们需要给图片添加准确的说明性替代文本。”
数百万张图片转换,准且快

Reddit 调研了多种 AI 图片描述生成服务,开展了多轮测试,以分析各类图片的图片描述质量,包括动物、风景、人物和绘画等。最终 Reddit 选择了 适用于视觉的 Azure 认知服务 。
Ong 表示:“微软服务生成的图片描述,既保证准确,又满含细节,我们内部十分认可。此外,还有 API 和服务易于使用、图片处理速度快等优点,加之微软还提供了大量优秀文档在内的充分支持,更坚定了我们与之合作的决心。”
项目启动阶段,Reddit 团队定期与微软会面。“但凡我们有问题,微软都及时响应,满足我们的独特需求。例如,为适配 Reddit 庞大的图片数量,微软帮我们手动提高了速率限制,”Ong说,“我们还十分认可微软对负责任人工智能的承诺;为确保图片描述准确、合规采取的审慎措施,也让我们感到满意。”
Reddit 计划使用适用于视觉的 Azure 认知服务,为平台已有的数百万张图片,以及用户持续上传的图片生成描述。“用上微软的视觉技术之后,用户会更容易发现、理解我们的内容,”Ong 说,“新生成的图片描述使 Reddit 更具可访问性,为 redditor 提供了更多探索图片、参与讨论、建立社群的机会。”
简单部署,也能流量升级

使用微软服务生成数百万张图片的替代文本图片描述后,Reddit 的内容将更易于盲人、视障用户,以及低带宽网络的用户访问。对于使用屏幕朗读软件理解图片内容的用户而言,替代文本的作用不言而喻。图片描述更准确,更能改善他们的浏览体验。
“我们希望提供详尽的图片描述,方便使用屏幕朗读软件的用户全面理解图片,”Ong 解释道,Reddit 理想中的图片描述,要能检测图片中的对象和动作,再用书面形式描述出来,“图片描述涉及的用语范围相当广泛,并且比起单纯的对象检测,包含的细节数要高上一个级别。正因如此,图片描述才更适合在 Reddit 上使用。”
自从将图片描述添加为替代文本以来,Reddit 搜索引擎优化(SEO)上的图片流量显著增加。Ong 表示:“为图片添加替代文本,有助于搜索引擎理解,也更方便用户搜到,进而为我们平台引来了更多流量。”
从节约成本、减少耗时的角度来看,微软解决方案也优势显著。Reddit 客户体验和 SEO 工程经理 Catarina Oliveira 表示:“微软解决方案开箱即用,不需要机器学习支持,我们就能上手构建项目。要是我们自己从头构建所有内容,开发时间至少还要增加两倍。”
Catarina 表示,Reddit 将继续与微软技术合作,为持续上传到平台的图片生成描述:“我们期待使用 Azure 认知服务,为 Reddit 平台上的数百万张图片提供一流的替代文本图片描述,”Catarina 说,“生成图片描述之后,能让更多人搜到、访问我们的内容,支持 Reddit 将可访问性扩展到所有用户。”
▲ 本文翻译自微软全球案例中心

「智有可为」
从惊讶到拥抱,人工智能在极短时间内掀起了产业的巨大变革。作为行业先行者,Azure AI 产品及服务已经帮助全球众多行业开始了智能新转型。「智有可为·产业长镜头」栏目将陆续推出全球智能转型领先企业的深度故事。
📝 本期观影笔记






