にほんごのれんしゅう

日本語として伝えるための訓練を兼ねたテクログ

bertで知る炎上とブランドイメージの関係

bertで知る炎上とブランドイメージの関係

イントロダクション

近年のSNSでの炎上は企業にとって大きなリスクとして認識されています。炎上してしまうと、企業はその対応に追われ、多大な労力を払うことになります。また、企業のブランドイメージの既存があると一般的に認識されているようです。
2020年は企業・国務に関連した多くの不祥事がありました。不祥事が起こるたびにその対策は行われてきましたが、炎上自体が引き起こす、ブランドイメージの低下等は定量化されていないようです。
今回、twitterのデータと機械学習のbertと呼ばれるアルゴリズムを用いることで、炎上した企業・商品・公人がどのような影響を受けたかを定量化し、曖昧であった炎上のリスクを可視化したいと思います。

類似した研究等

どのように定量化したか

twitterのデータを取得し、bertの感情分類モデルでスコア付けし、統計処理を行うという流れになります。

データの取得
twitterのデータはtwintと呼ばれるapi likeに使えるプログラムを用いて取得しました。
全て取得すると非常に時間がかかるので、一日あたり1000件に限定して取得を行いました。

twintの使い方を私のgithub.ioでまとめているので必要に応じて参照してください。

分析対象の選定
2019 ~ 2020年度の炎上のまとめサイトを見ながら、対象とするキーワードを選択しました。

選択したキーワード

ブランドイメージを定量化する機械学習
twitterに出現するような表現に対して柔軟かつ精度良く、そのツイートが良い感情をもって表現されたかネガティブな感情をもって表現されたかを推論するアルゴリズムに、bertと呼ばれるアルゴリズムを用いました。
bertpretrained modeltweetを入力すると、ポジティブネガティブのフラグと0.0 ~ 1.0のスコアが得られます。これをネガティブを負の値に変換して1/2にスケーリングして、ポジティブを1/2にスケーリングすると-0.5から0.5に正規化された値を得ることができます。

このスコアを利用して、あるキーワードに対する一日あたりの平均のスコアを算出することが可能になります。平均したスコアを28日(4週間)の移動平均をとり、乱雑さを軽減しました。
x軸日付, y軸平均スコアが表示されることになり、炎上を経験した企業・商品・公人のイメージを追跡することが可能になります。

実際にこのモデルにてプリキュアを分類した結果を確認すると以下のようになり、期待した動作が得られました。

スクリーンショット 2021-02-06 12 40 17 スクリーンショット 2021-02-06 12 40 34

上:ポジティブな検出例, 下: ネガティブな検出例

具体的な機械学習でのセンチメント(感情)分析の方法はこちらを御覧ください

統計を正確にするためのヒューリスティクス
twitterのデータを扱う際には気をつけるべきポイントが幾つかあります。広告目的やポイント等のインセンティブを狙った機械的な投稿や、偏執的に同一の話題に対して何度も発言する人などのバイアスを外す必要があります。

そこで以下のようなルールを入れました。

  • ある人が一日に特定の話題について複数回話していても、採用するのは一回のみ
  • http等URLを記入した投稿は採用しない

結果

東京五輪

大規模なネガティブなイベントを捉えることに成功しています

直近の感染者増加、森元首相の発言等で更に東京五輪のイメージは冷え込みそうです。
Twitterのデータから取得したのでTwitterユーザの特性が反映されるというバイアスを考慮した上でも、東京五輪の印象は右肩下がりのトレンドを持っているようです。

けものフレンズ

テラスハウス

自殺という非常に重い話題のためか、テラスハウスの印象の回復に相当の時間がかかっているように見受けられます。

くら寿司

くら寿司バイトテロに対して訴訟を起こし業界の健全化を図ろうとするなど、社会的に良い行いを行おうとしています。
テラスハウスが回復が遅いのに対して、すぐにイメージの回復を行えている等、炎上時の初期対応がいかに重要かがわかります。

ドコモ口座問題

この問題の本質は銀行との認証のやり取りに問題があるということでしたが、銀行側のイメージはサービスに比べて、すぐに回復しているようです。
ドコモ口座の印象は地に落ちた状態になっており、ここから回復するのは至難に見えますが、ドコモさんはサービスを継続するようです

電通

わたしが新卒の頃は電通さんは高給取りでそんなに悪いイメージはなかったのですが、SNS上では年々、電通さんに対してネガティブな投稿が増えているように感じました。
長期的なトレンドを把握したく例外的に長期間集計したのですが、高橋まつりさんの事件をきっかけに、細かいイメージダウンを伴う炎上を繰り返して、イメージが下降傾向になっています。電通報を一時期鍵垢にするなど説明を果たす立場をとり、炎上が静まるまで待ってしまった戦略が尾を引いているのではないかと想像してしまいました。

各政党

NHKの調査によると、最も支持されているのは自民党であるということになります。
政党に対する感情と、政党支持率は全く関係していないことが明らかになりました。

現政権を担う政党であるから最も批難される立場にあるということを考慮しても、支持率と感情が比例していないのは驚きの結果であります。

コンビニ各社

規模が大きなコンビニでは、セブンが一人抜きん出てイメージが強いですが、セブンペイの不祥事等でイメージが一時的に低下しています。ミニストップセイコーマートのような規模がそんなに大きくないコンビニはイメージがよいです。

セイコーマートが顧客満足度で一位というデータも有ます。

議論

2020年あたりに発生した主要な炎上事件を見ていきました。

わかったこととして、炎上が発生するとイメージが低下すること、時間が経つことに多くは回復するが、くら寿司やテスラハウスを見るとその後の誠意のある対応を行ったかどうか等で回復のスピードが異なるなど、対応の方法が炎上後の回復に影響していそうなことがわかりました。

政治に関し、実際の政党支持率と感情に関係がない結果になりました。小さい政党ほど熱心なファンを獲得しやすいという傾向があるように見えます。この傾向はコンビニでも同様でした。
コンビニの各社に対する感情も、売上と感情は比例していません。

結論

企業のイメージと売上との関連を見たいと考えていたのですが、電通さん以外は、説明するのが難しいと考えました。SNSの影響は年々強いものになっていますが、今現在はSNSに影響されない人も相当数存在する社会であり、企業のSNSの炎上のダメージが及ぼす売上への影響はまだ支配的でないと考えます。

しかし、SNSの使用時間は年々増加しており、SNSから受ける印象が企業の売上に影響を与えるということがありえてくるでしょう。

かんたんな機械学習と統計操作で感情の分析をすることも可能であり、リアルタイムに推論と集計を行うことで炎上検知等にも用いることができそうです。

いずれにせよコンプライアンスを遵守し、SDGs等で企業イメージを一定以上に保つというのは、これからの情報化社会を考えると、やるべきことだと言えます。

コード管理とデータセットについて