楽天市場の口コミをpythonで抽出してMeCabで形態素解析してみた

   

楽天市場の口コミをpythonで抽出してMeCabで形態素解析してみた

どうも楽天マニアです。

楽天お買い物マラソンが続いていますが
素敵な商品を購入することが
できたでしょうか??

さて、楽天市場は
ポイントが高還元率なので
大好きなのですが
サイトが重くて見にくいのが
とても難点です。

そこで、楽天市場を
軽快に使用できるツールを
作ってみようと思い立ち
手始めに口コミ解析してみました。



とりあえず楽天市場の使いにくさを挙げておく

検索結果が被りすぎ

楽天市場の口コミをpythonで抽出してMeCabで形態素解析してみた

まずこれだと思います。

具体的な商品名を絞り込まず
抽象的な検索キーワードにすると
この問題が生じます。

例えば、『ソーラー充電器』と検索した場合、
同じ充電器ばかりが上位表示されます。

 

同じ商品は後で価格比較するので
同じ画面に出てこなくしたいですね。

とにかく商品ページが重い

これもあるし、こんなのもあるよ
って押しが強すぎます。

目的の商品にたどり着く前に
他の商品画像が出すぎ
ます。
結果としてページを開くのに
時間がかかりすぎます。

ページ離脱率と読み込み速度の関係とか
よく言われていることだと思うのですが
この辺りのUIは一向に変わらないですよね。

サクッと商品情報を知れて
さらに追加情報として
関連商品や比較商品が見れる方が
購入する側としたら便利なのですが。

そう、Amazonみたいに。。。

ポイントの計算が良く分からない

大量にポイントがもらえるのですが
実際にどれくらいのポイントがもらえるのか
細かく計算しないと分かりません。

また、ポイントは即時付与ではないので
本当に付与されているのか
把握できていないことも多い
です。

楽天ポイントカードのページと
楽天での購入履歴から
何でいくら付与されたか
分かりやすくなっても
いい気がします。

付与された日に購入商品の画像と
とともにポイントがポップアップするみたいな。

pythonで口コミ解析

愚痴はこのぐらいにして本題に入ります。

口コミも見にくい

また愚痴の続きですが
口コミも見にくいですよね。

例えばお米が買いたいって場合
検索窓に『お米』と入力すると
大量のお米商品が現れます。

具体的に『ミルキークイーン』とか
目当ての商品があれば
ある程度絞り込めますが
無い場合は大変です。

大量のお米から購入すべき一つを
探さなければならないからです。

 

ここで重要になってくるのが
みんな大好き『口コミ』です。

やっぱり失敗はしたくないですから
先人の教えに耳を傾けます。

しかし、いざ口コミを見始めてみると
その膨大さに疲れてきます。

口コミの多い順に並び替えて
2,3ページ見たところでギブアップ。

3種類くらいの商品を見ただけで
比較した気になってしまい
面倒だから評価の高いやつを
選んでしまったり
してませんか??

これって結局口コミで
変な意見が無いかをスクリーニングして
みんなが良いって言ってるから
間違いないだろう
って気で
買っちゃってるだけですよね。

それならば、わざわざ口コミを見ずとも
口コミに出てくるキーワードだけ抽出すれば
その商品の概要が分かるんじゃないかな

ってことでキーワード抽出してみました。

キーワードの抽出方法

詳しいコードはgitかnoteかQiitaに
気が向けば上げます。

楽天のWEBAPIから
口コミ情報は抜けません。

そこでwebスクレイピングにて
口コミページを拾いました。

Seleniumのヘッドレスです。

 

得られた文字列をMeCabで
形態素解析し品詞分け。

名詞や形容詞に分けて
出現頻度を測定しました。



検索キーワード『お米』(5-9.9kg)で口コミが最も多かった商品

楽天市場の口コミをpythonで抽出してMeCabで形態素解析してみた

【送料無料】お米 新米 福袋米 白米 10kg 2018 平成30年 滋賀県産 10kg×1袋でのお届けです♪ 送料無料

*なお、9000件以上の口コミがありますが、web表示されたのは1500件(100ページ)まででした。

出現頻度の多かったキーワードは??

  1. 米(836回)
  2. 美味しい(313回)
  3. 購入(310回)
  4. 今回(249回)
  5. 楽しみ(234回)
  6. 何(225回)
  7. 美味しく(159回)
  8. 銘柄(149回)
  9. 福袋(146回)
  10. 美味しかっ(128回)

お米だけに1位は『米』でした。

2位、7位、10位に『美味しい』関係。
特に『美味しく』は『いただきました』が
続きそうですし、『美味しかっ』は『た』が
続くことが予測され
これだけで十分美味しかったことが伝わります。

さらに、このお米の特徴である
銘柄は届いてからのお楽しみ要素を
『何』『銘柄』『楽しみ』『福袋』が
表現しています。

マイナス要素のキーワードも

  • 残念(33回)
  • ハズレ(24回)
  • 微妙(8回)

などのマイナスキーワードもちらほら。

きっとミルキークイーンなどの
高級銘柄が当たることを期待していて
『ハズレ』たから『残念』なのでしょう。

3つのキーワードのつながりで見てみる

  1. 滋賀県産(26回)
  2. 米の楽しみ(23回)
  3. 2回目(17回)
  4. 回目購入、何の楽しみ(14回)
  5. 美味しい米満足(13回)

『滋賀県産』の銘柄が当たるのでしょう。

次は何の米が届くのかと
ワクワクしている感情が読み取れます。

また『2回目』や『回目購入』から
リピーターが多いことも分かります。

4つのキーワードのつながりで見てみる

  1. リピートリピートリピートリピート(11回)
  2. 何年リピート年々(7回)
  3. 2回目購入、2回目注文(6回)
  4. 毎回何の楽しみ(5回)
  5. 今回3回目、一粒一粒、毎回銘柄の楽しみ、文句なし文句なし(4回)

リピータが多いことが分かります。

検索処理時間

1500件の口コミ(100ページ)で
約2分くらいです。

実際に1000件を超える口コミは
そんなにないので
200件とかなら数十秒で出ます。

もう少し早くして数秒で出れば
面白いかもと検討中です。

例えば、商品ページのURLを
Linebotに投げれば
口コミ内容をまとめてくれて
類似商品も比較してくれるとか。



まとめ

  • 楽天市場の商品検索は使いにくい。
  • 検索結果のページも重い。
  • 口コミも読みにくい。

そこで口コミを集約してみました。
なかなかイケてそうな感じ。
もう少し面白くできる方法を
検討してみます。

とりあえずこのお米は買いですね。

 - 楽天市場 , , ,