2012-01-22

http://anond.hatelabo.jp/20120121115303

楽天の商品ページを日本語処理する際の概要について。

これは、「事務職リーマンwebサービス作ってみた話」のトラックバックに対するトラックバックです。

サイズデータ抽出の正確性について

もちろん、この手のアルゴリズム処理に「完璧」は存在しません。

ですが、拾った結果の品質を数百個ばかり、サンプリングで調査した範囲では、商品サイズを拾える商品のうち、9割を大きく超える率で、正しいサイズを拾えていますので、

「たまにはミスってますが、おおよそ役に立つ」

レベル認識率は十分に達成していると思ってます

もちろん、検索できる商品数が尋常じゃないので、サイズ抽出ミスっていそうな商品を狙い撃ちで探すと、結構見つかったりはしますが。

ちなみに、上記の「商品サイズを拾える商品」という表現には、レトリックがありまして、結構楽天ではサイズ画像のみで記載されている商品もありまして、そういうものは、当然、検索できない商品となっています

まあ、これは仕方が無いところです。


商品サイズ抽出について

サイズは、正しくサイズを拾えるよう、複数の書き方パターンサイズ候補を抽出しています

おおまかには、

  ・幅XX × 奥行YY × 高さZZ(センチ)

  ・幅×奥行×高さ(単位センチ・・・・・・XX × YY × ZZ

 の2パターンで、このパターンを軸に、さまざまな派生対処しています

 この派生(というかノイズ要因)が滅茶苦茶いろいろなパターンであって、相当手を焼きました。

拾ったサイズ候補に対応するサイズ単位センチミリ)の抽出

 実はこれも、簡単そうに見えて、結構、面倒なところでした。

  ・サイズ記載部分から遠く離れた部分に(単位ミリ)とか書いてある場合がある

  ・センチミリを混在してサイズ記載している場合がある

 など、さまざまなパターンがあり、結局、サイズ記載箇所の前後を見て、距離などから重み付けを調整して、サイズ単位を拾っています

 また、そもそもサイズ単位が記載されていない(意外とよくある)場合は、サイズ値の大きさを見て推定したり、(例えば、家具カテゴリサイズ表記に小数点があれば、それはきっと、ミリではなくセンチだろう、など。)全く見当が付かん、というときには、決めで処理したり、仕方なくあきらめたり・・・といった処理をしています

正しい商品外寸の指定

 サイズを拾うだけでは、梱包サイズとか、引き出し内寸とか、ノイズが多いので、これらは、重み付けを行い、一番重み付けが高いものを外寸サイズとして拾っています

 この辺の重み付けは、ある程度、作りこんでいますが、もちろん、完全ではないので、今後のブラッシュアップが必要な部分です。

型番など等で、そもそも違う数字を拾ってしまうこと対策

 こちらは、型番等で誤反応を起こしやすい、W/D/Hでの記載サイズのレーティングを少し下げて対処しているのですが、初めのほうにトラックバックを頂いた方もご指摘されているとおり、それでもある程度引っかかっちゃいます

 タイトル中の型番を検索外すとかの手も無くはないのですが、型番って意外と本文中にも多くて、例えばテレビ台とかで、本文中にテレビ型番をズラズラ列挙されて、それが反応した時もあります

 一応、異常値についてはレーティングを下げたり、サイズ数値取れずで処理はしています・・・みたいなところではありますが、検討すべき改善箇所です。

意外と多い、店舗側のサイズ記述間違い対策

 ex)「幅800×奥行400×高さ100センチ」の棚・・・など。

 こちらは、最終的なサイズ数字を見て、「サイズ単位の書き間違い・拾い誤り推定」の判定を入れておりまして、判定に抵触したサイズについては、正しいと思われる単位に変更・救済しております

 もちろん、フォローにも限界があったり、フォローを行って二重遭難する場合もあるんですが、検証してみたところ、ほんのわずかな二重遭難よりも、誤り救済を行ったほうがはるかに結果がよかったので、処理を入れてます

楽天自体がサイズ検索対応することリスクについて

このリスクは、着手する前によく検討しました。

ただ、結論から言うと、サイズ情報に対する、楽天市場側の動きはほとんど無いと読んでおります

なぜなら、圧倒的にニーズが高く、ハードルも低いと思われる、送料込み価格検索すら、彼らは実現できてないからです。

恐らく、楽天側では、出店側に登録させる情報を、いじりたくないと思っているのではないでしょうか。

しかも、サイズ情報は、楽天が扱っているほとんどのジャンルの商品にとっては、それほど重要性の高くない情報です。

ごく一部のジャンル向け以外は重要性の高くない追加の登録情報なんて、楽天はあまり実装したくはないのではないでしょうか。

・・・と、そういう読みをしてますし、さらに、読みが外れて楽天対応を行ったとしても、別に私は片手間でやっているだけなので、それほどペナルティが大きい訳ではありません。

ということで、「許容できるリスク」と判断しています

以上、カグサイズのページ処理の内容部分の説明でした。

それではー。

----------

幅x奥行x高さ(家具サイズ)で商品を検索できる、楽天市場家具カテゴリ専門の検索エンジン

カグサイズ検索

http://kagusize.com

記事への反応 -
  • Webシステムとは縁遠い事務職のリーマンが、ある日思い立って、ニッチな用途の検索エンジンサービスを作ってみたので、ちょっと書いてみようと思います。 ちなみに、検索エンジンと...

    • ブクマですぐに簡単にとか言うやついる けど 数カ月かかってやってる事を簡単とか頭おかしいのかと…

      • 正確性をとろうとすると簡単じゃないねぇ・・・ 自由に記載された中から外寸を単位そろえて縦横高さと拾うのはけっこう骨が折れる 俺がやるならとりあえず数字が書いてある前後を...

        • 楽天の商品ページを日本語処理する際の概要について。 これは、「事務職リーマンがwebサービスを作ってみた話」のトラックバックに対するトラックバックです。 サイズデータ抽出の...

    • なんかうまく動作してないみたいなんだけど… たとえば、「幅460×奥行460×高さ1565mm」の商品が、「幅4.6cm奥行15.6cm高さ461.5cm」って拾い出されてた(4615は型番の一部) あと、何故か、...

    • 楽天の商品ページを日本語処理する際の概要について。 これは、「事務職リーマンがwebサービスを作ってみた話」のトラックバックに対するトラックバックです。 サイズデータ抽出の...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん