楽天市場の口コミをpythonで抽出してMeCabで形態素解析してみた

      2019/05/05

楽天市場の口コミをpythonで抽出してMeCabで形態素解析してみた

 

どうも楽天マニアです。

 

楽天お買い物マラソンが続いていますが、素敵な商品を購入することができたでしょうか??

 

さて、楽天市場はポイントが高還元率なので大好きなのですが、サイトが重くて見にくいのがとても難点です。

 

そこで、楽天市場を軽快に使用できるツールを作ってみようと思い立ち手始めに口コミ解析してみました。

 

 

楽天市場が使いにくく感じる3つのポイント

 

検索結果が被りすぎ

 

楽天市場の口コミをpythonで抽出してMeCabで形態素解析してみた

 

まずこれだと思います。

 

具体的な商品名を絞り込まず抽象的な検索キーワードにするとこの問題が生じます。

 

例えば、『ソーラー充電器』と検索した場合、同じ充電器ばかりが上位表示されます。

 

同じ商品は後で価格比較するので同じ画面に出てこなくしたいですね。

 

この辺りがAmazonとの差だったりするんでしょうね。

 

とにかく商品ページが重い

 

 

これもあるし、こんなのもあるよって押しが強すぎます。

 

目的の商品にたどり着く前に他の商品画像が出すぎます。

 

結果としてページを開くのに時間がかかりすぎます。

 

ページ離脱率と読み込み速度の関係とかよく言われていることだと思うのですが、この辺りのUIは一向に変わらないですよね。

 

サクッと商品情報が知れて、さらに追加情報として関連商品や比較商品が見れる方が購入する側としたら便利なのですが。

 

そう、Amazonみたいに。。。

 

ポイントの計算が良く分からない

 

 

大量にポイントがもらえるのですが、実際にどれくらいのポイントがもらえるのか細かく計算しないと分かりません。

 

また、ポイントは即時付与ではないので本当に付与されているのか把握できていないことも多いです。

 

楽天ポイントカードのページと楽天での購入履歴から、何を買っていくら付与されたか分かりやすくなってもいい気がします。

 

付与された日に購入商品の画像ととともにポイントがポップアップするみたいな。

 

 

pythonで口コミ解析

 

愚痴はこのぐらいにして本題に入ります。

 

口コミも見にくい

 

 

また愚痴の続きですが口コミも見にくいですよね。

 

例えばお米が買いたいって場合、検索窓に『お米』と入力すると大量のお米商品が現れます。

 

具体的に『ミルキークイーン』とか目当ての商品があればある程度絞り込めますが、無い場合は大変です。

 

大量のお米から購入すべき一つを探さなければならないからです。

 

 

ここで重要になってくるのがみんな大好き『口コミ』です。

 

やっぱり失敗はしたくないですから先人の教えに耳を傾けます。出た!損したくないプロスペクト理論

 

しかし、いざ口コミを見始めてみるとその膨大さに疲れてきます。

 

 

口コミの多い順に並び替えて2,3ページ見たところでギブアップ。

 

3種類くらいの商品を見ただけで比較した気になってしまい面倒だから評価の高いやつを選んでしまったりしてませんか??

 

これって結局、口コミで変な意見が無いかをスクリーニングして、みんなが良いって言ってるから間違いないだろうって気で買っちゃってるだけですよね。

 

それならば、わざわざ口コミを見ずとも口コミに出てくるキーワードだけ抽出すればその商品の概要が分かるんじゃないかなってことでキーワード抽出してみました。

 

キーワードの抽出方法

 

 

詳しいコードはgitかnoteかQiitaに気が向けば上げます。

 

楽天のWEBAPIから口コミ情報は抜けません。

 

そこでwebスクレイピングにて口コミページを拾いました。Seleniumのヘッドレスです。

 

得られた文字列をMeCabで形態素解析して品詞分け。

 

名詞や形容詞に分けて出現頻度を測定しました。

 


 

検索キーワード『お米』(5-9.9kg)で口コミが最も多かった商品

 

楽天市場の口コミをpythonで抽出してMeCabで形態素解析してみた

【送料無料】お米 新米 福袋米 白米 10kg 2018 平成30年 滋賀県産 10kg×1袋でのお届けです♪ 送料無料

 

*なお、9000件以上の口コミがありますが、web表示されたのは1500件(100ページ)まででした。

 

出現頻度の多かったキーワードは??

 

  1. 米(836回)
  2. 美味しい(313回)
  3. 購入(310回)
  4. 今回(249回)
  5. 楽しみ(234回)
  6. 何(225回)
  7. 美味しく(159回)
  8. 銘柄(149回)
  9. 福袋(146回)
  10. 美味しかっ(128回)

 

お米だけに1位は『米』でした。

 

2位、7位、10位に『美味しい』関係。特に『美味しく』は『いただきました』が続きそうですし、『美味しかっ』は『た』が続くことが予測され、これだけで十分美味しかったことが伝わります。

 

さらに、このお米の特徴である銘柄は届いてからのお楽しみ要素を『何』『銘柄』『楽しみ』『福袋』が表現しています。

 

マイナス要素のキーワードも

 

  • 残念(33回)
  • ハズレ(24回)
  • 微妙(8回)

 

などのマイナスキーワードもちらほら。

 

きっとミルキークイーンなどの高級銘柄が当たることを期待していて『ハズレ』たから『残念』なのでしょう。

 

3つのキーワードのつながりで見てみる

 

  1. 滋賀県産(26回)
  2. 米の楽しみ(23回)
  3. 2回目(17回)
  4. 回目購入、何の楽しみ(14回)
  5. 美味しい米満足(13回)

 

『滋賀県産』の銘柄が当たるのでしょう。

 

次は何の米が届くのかとワクワクしている感情が読み取れます。

 

また『2回目』や『回目購入』からリピーターが多いことも分かります。

 

4つのキーワードのつながりで見てみる

 

  1. リピートリピートリピートリピート(11回)
  2. 何年リピート年々(7回)
  3. 2回目購入、2回目注文(6回)
  4. 毎回何の楽しみ(5回)
  5. 今回3回目、一粒一粒、毎回銘柄の楽しみ、文句なし文句なし(4回)

 

リピータが多いことが分かります。

 

検索処理時間

 

 

1500件の口コミ(100ページ)で約2分くらいです。

 

実際に1000件を超える口コミはそんなにないので200件とかなら数十秒で出ます。

 

もう少し早くして数秒で出れば面白いかもと検討中です。

 

例えば、商品ページのURLをLinebotに投げれば口コミ内容をまとめてくれて類似商品も比較してくれるとか。

 


 

まとめです

 

  • 楽天市場の商品検索は使いにくい。
  • 検索結果のページも重い。
  • 口コミも読みにくい。

 

そこで口コミを集約してみました。

 

なかなかイケてそうな感じなので、もう少し面白くできる方法を検討してみます。

 

とりあえずこのお米は買いですね。

 

ふるさと納税 1位のうなぎ 口コミを解析したら驚きの結果にwww
 どうも、楽天マニアです。 年末も近付いてきたので、そろそろふるさと納税しないとと思い始...

 

 - 楽天市場で損しない方法 , , ,