暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

文本挖掘如何说明品牌形象?

原创 刺史武都 2022-10-25
386

简介_

每天都会通过 Facebook、Instagram 和Twitter等社交网站的帖子、点赞和推文生成大量文本数据。这些数据包含大量信息,我们可以利用这些信息来产生洞察力。尽管如此,这些数据中的大部分都是非结构化的,还没有准备好进行统计分析。可以理解为商业利益管理非结构化数据,因为大约 80% 的业务数据是非结构化的。随着社交媒体的指数级增长,其份额将随着时间的推移而不断增加。

这些海量信息可以帮助我们创造有价值的见解,但这些信息是高度非结构化的,需要进行处理以进行分析。本文着眼于使用从 Twitter 提取的数据创建的用例的结果,以在品牌丑闻公开后生成有关品牌形象的见解。

通过将大量非结构化客户反馈转化为可操作的见解,分析文本中的这些非结构化数据可以帮助营销人员进行客户体验管理、品牌监控等。分析大量自 由格式文本时的一个常见问题是,没有人可以在合理的时间内阅读它。在这种情况下,文本挖掘是处理非结构化数据和释放客户反馈价值的答案。本文研究了在某个主题上发布的推文如何将有价值的见解作为一个用例解锁。

文本挖掘应用

概述F

最近震惊整个汽车行业的最重大争议之一是大众汽车 (VW) 在美国的污染排放测试中作弊的事件。大众丑闻引起了全球客户的关注。这家被称为“柴油骗子”的德国汽车巨头承认在美国的排放测试中作弊。根据环境保护署 (EPA) 的说法,在美国销售的一些汽车在柴油发动机中安装了可以检测它们何时进行测试的装置,从而相应地改变性能以改善结果。

EPA 的调查结果仅涵盖美国的 482,000 辆汽车。但大众汽车承认,全球约有 1100 万辆汽车安装了所谓的“失败装置”。在这种情况下,分析客户的推文以了解他们在谈论公司是很有趣的。为了创建这个用例,在大众汽车(VW)排放丑闻公开后,使用搜索标准“大众汽车”提取了推文。分析与大众汽车相关的推文的目的是了解消费者目前对大众汽车及其汽车的看法。

工具

市场上有大量用于执行文本分析的工具和技术。尽管如此,Python 和 R 编程语言中的开源文本挖掘包可能是最受欢迎的。这两种编程语言中的软件包是数据科学家首选的用于从 Twitter 中提取数据并使用它执行分析的程序,因为 Python 和 R 都具有高级图形功能,并且由于它们的开源性质,这些编程语言有庞大且支持性的社区.

方法

所采取的方法大致分为三个步骤,如图所示,

                                             图 1. 文本分析的步骤

第一步,使用搜索标准“大众汽车”从 Twitter 中提取数据。它涉及使用 Twitter 的开发人员部分创建 Twitter 应用程序,并用 Python 或 R 编写代码以使用凭据对象建立安全连接并提取有关所需主题的推文。例如,R 库“twitteR”和“ROAuth”可用于提取原始数据并将其存储在逗号分隔值 (CSV) 文件中。R 中的以下代码显示了如何提取推文。

推文提取完毕后,我们需要进行第二步,即预处理。包含推文的 CSV 文件有多个列,例如:“text”、“favorite”、“created”、“screenName”、“retweetCount”等。由于我们只处理“text”列中的数据,因此我们将其分开信息并将其存储在文本文件中。从提取的数据中提取的一条推文示例如下:“大众汽车:德国检察官对前老板发起调查 http://t.co/H1GQfdp2Gm……”。

我们可以观察到推文有一个明确的模式,该模式以一个以“http://”或“https://”开头的 URL 结尾。作为预处理的第一步,我们需要通过从提取的文本中删除此类 URL 来清理数据。对于这个任务,R 的“gsub”函数与正则表达式“(f|ht)(tp)(s?)(://)(.*)[.|/](.*)”可以是使用如下代码所示。

接下来,我们需要删除换行符,并使用“粘贴”功能将所有行合并并折叠成一个长字符串。存储在向量对象中的字符串被转换为小写。我们还必须删除空格、用户名和标点符号,以及清除文本的停用词。最后,我们拆分字符串和正则表达式“\W”来检测单词边界,从而产生来自推文的单词列表。得到单词列表后,我们就可以开始分析数据了。为了开始分析,我们计算唯一词的数量。然后我们建立一个单词类型及其对应频率的表。以下代码用于执行这些步骤。

最后,我们创建了一个常用词的语料库,并生成了以下词云。

这个由推文生成的“词云”帮助我们直观地表示出现频率更高的词,并有助于理解它们在所分析文本中的重要性。

挑 战

我们在本练习中面临的一些挑 战是从 Twitter 中提取的信息是高度非结构化的形式,因此需要对数据进行预处理和清理以应用统计分析技术。最后,由于限制,可以从 Twitter 中提取并处理以进行进一步分析的数据量是有限的。

文本挖掘分析

在用例中,我们的旅程从 2000 条推文开始,占 27,157 个单词。但是,经过预处理和数据清理后,我们得到了 2,919 个唯一词。我们为这些独特的词创建了一个频率表以及它们的出现次数,最后,我们从中生成了一个词云。当我们查看词云中频繁出现的词时,我们发现:

“丑闻、
被骗、欺骗、恼人、排放、死亡”

自从我们分析以来,客户中表示负面情绪的词语的普遍性已经很明显了。在汽车行业最大的丑闻之一被曝光后,人们发布了推文。届时,品牌形象和整个行业的整体预期都将是负面的。但是,如果我们仔细观察,我们会得到一些更令人兴奋的词,这些词会导致对该主题的有价值的洞察。来自词云的词的一个这样的例子是:

“特斯拉、
伊隆、麝香”

汽车行业,尤其是柴油车制造商,在影响客户和政府方面失去了相当大的信誉和权力,特斯拉等电动汽车制造商的崛起就是例证。尽管大众汽车排放丑闻促使欧洲和美国对其他汽车品牌展开调查,但特斯拉汽车公司首席执行官埃隆马斯克表示,客户可能会认真考虑放弃化石燃料并接受新技术的时机。自 2015 年这起丑闻发生至今,我们确实见证了特斯拉(如果不是电动汽车行业)的惊人崛起。另一组这样的词是:

“德国,
汽车,欺骗,被骗”

德国人通常被认为是工程方面的佼佼者,他们的汽车与性能、质量和可靠性有关。尽管如此,从我们对推特数据的分析中可以明显看出,大众丑闻不仅损害了大众,也损害了德国汽车制造商的声誉。

这个用例通过一个从推文生成词云的简单示例展示了社交媒体分析的强大功能,甚至无需涉及花哨的算法和高级分析技术。它展示了文本挖掘如何,即使是在基本层面上,也可以对客户如何看待品牌提供有用的见解,但这还不是全部。我们可以通过执行情绪分析和比较竞争对手的产品和品牌推文来进一步推进它。我们还可以通过考虑其他领域来丰富我们的研究,例如转推、经度和纬度,这些领域也可以在从 Twitter 中提取的数据中找到。

结论

正如本文通过用例所描述的,使用简单技术的文本挖掘应用程序可以表明行业发展方向和步伐的根本转变。它展示了如何使用文本挖掘;我们可以测量客户对一家公司或其品牌的认知,以及这种认知产生的原因。这种方法可以帮助营销人员分析品牌认同与品牌形象之间的差距。在本文中,我们描述性地使用文本分析来了解客户在事件发生后对特定公司及其品牌的看法,这可以重复用于其他品牌和其他事件。同样,我们也可以以预测的方式使用文本分析来了解事件的未来结果。

因此,我们可以有把握地得出结论,将文本分析应用于社交媒体内容是不同行业了解消费者对品牌的看法并决定其未来行动方针的方式。为此,读者可以先从生成词云等简单的技术开始分析,然后再跳入文本挖掘的海洋,等待进一步探索。


原文标题:How Does Text Mining Tell a Lot About Brand Image?

原文作者:Saikat Das 

原文地址:https://www.analyticsvidhya.com/blog/2022/10/how-does-text-mining-tell-a-lot-about-brand-image/

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论