人工智能算命:使用自然语言处置惩罚预测人格类型

  • 时间:
  • 浏览:281
  • 来源:世界杯买球盘口网址app

你在网上公布了几多关于你自己的信息?好吧,在当今时代可能有许多。我们不停地联系在一起,与许多人分享生活中的瞬间,无论这些人是否认识我们。这很好,只要你决议你想展示什么。可是,如果我告诉你,通过写文章,你所展示出的隐私凌驾你所意识到的内容呢?

我们可以想象,一小我私家的写作气势派头可能与他或她的个性有某种联系。使用“哇”、“拥抱”、“聚会”等词可能讲明我们在阅读性格外向的人写的信息。另一方面,也有很直观的内向词汇的荟萃,例如:“孤苦”,“书籍”,“平静”。很显着,这有点夸大了。事实上通过词汇判断性格并不是那么容易。人类要庞大得多,不能仅仅通过人格特征典型的词语来确定小我私家性格。或者以下图片中的他们可以?

说一小我私家的个性可以通过写篇文章来预测,就像上图一样

互联网上充斥着种种各样的人格测试。其中一些是用来让你感受更好并以此说服你付费的。这基本上和测星座一样,没有任何实际价值。但在这片骗子和伪心理学家的海洋中,有一些基于科学研究的有趣测试。在我看来,值得特别注意的是迈尔斯-布里格斯类型指标(MBTI)。对我来说,这个效果很是准确,许多人似乎也有同样的感受。所以我决议在这个领域举行掘客。在研究历程中,我发现了一个Kaggle数据集,其中包罗一篇来自8600多人的帖子,这些帖子凭据作者的测试效果标注了作者的个性特征。

什么样的数据是可用的?

上面提到的数据集很是简朴。它只有两个专栏,其中一个包罗来自Personality Cafe网络论坛的暂时帖子,另一个是带有作者MBTI测试效果的标签。

基于此,我们可以就这些数据提出几个有趣的问题:

1,每小我私家格特质在论坛用户中的漫衍情况如何?

2,每个特质都有最重要的代表词吗?外向者的写作方式和内向者差别吗?或者是那些比力敏感的人在使用情感词汇?

3,最后:能否凭据某人的职位预测其性格类型?

让我们开始这个数据游戏

在我们继续之前,我们应该先解释一下这个神秘的缩写词到底是什么意思。每一个字母代表一个个体的特征。我们可以选择8种差别的类型,四种类型的组合缔造了个性类型。

所以让我们试着回覆第一个问题并检查数据集中每小我私家的漫衍。

这个世界上似乎有更多的内向者而不是外向者…嗯,经由再三思量,笔者认为漫衍似乎不正确。让我们检查一下测试作者的统计数据。

这真是太有趣了!上表中最受接待的特征似乎是ISTJ和ISFJ,得分划分为11%、6%和13.8%。这些效果与我在盘算Kaggle数据集中的漫衍时获得的效果完全差别,在Kaggle数据集中,这两种类型的人约莫占2-2.5%。

我们发现这些差异险些适用于所有类型。看起来,拥有INFP、INFJ、INTP和INTJ类型的人最有可能在个性类型论坛上发帖。

此外,当我们在提供的图像中重新建立左侧的表时,我们可以看到它也完全差别。字母I、F和P在他们的首字母缩略词中的人将占过多的比例。在我们之后的分析中,我们必须记着这些数据是不平衡的。

结论

自然而然得出的结论是,更注重分析自己的性格的是内向者,而不是更善于外交的外向者。基于这个原因,我们可以预期,他们将更有可能举行人格测试,并在保证这种匿名性的论坛上谈论自己。一点也不奇怪,情绪化水平更高的人(字母F)会更频繁地写自己。尤其是当它涉及到与内向的联系时,这往往会使这些人难以表达自己。

文天职析

正如我们之前看到的,数据有点杂乱。它包罗许多巨细写混淆的字母、标点符号、链接等。在我们开始分析之前,我们应该把它清理洁净。我所做的相对简朴,包罗:

1,删除链接。

2,删除所有数字和标点符号。

3,所有字母小写。

4,删除休止符。

5,一开始我使用了单词变体还原,可是它导致了准确度的显著降低,所以在进一步的分析中我放弃了它。

6,用数字表现替换每个单词。