データ分析をしたい。
色んな情報が入ったExcelファイルがある。
1つのセルに色んな文章が入っていて、
「PC」だったり「パソコン」だったり「パーソナルコンピューター」だったり「Pc」だったり
「Parsonalcomputer」だったり、「パンコン」(ぱんこん)だったり…
とにかく曖昧な言葉が文章中に入っている。
これら全て学習させ、全てを「パソコン」と判別できるようにしたい。
データ自体は膨大で、20000行以上はあるはず。
1つ1つ曖昧な言葉を入れたりするのも考えたし、IF文も考えたりしていたけど、正直キツい。
このあいまい検索?について調べられるものってないのかな。
中には、「BA-101」「BC-102」「K11」などのキーワードは「エラー」としたいことがある。
で、最終的にはそれらを分類したいんだよね。
エラーなのか、その他不具合なのか、新しい不具合なのかとか。
うーん。いいサイト知らない?
調べても全然無いんだよね。チマチマ自分でExcelに書いていく他無いかな。
Permalink | 記事への反応(3) | 17:47
ツイートシェア
名寄せぐらいpythonで自分でコード書け
Pythonやったことない。 別途ツールとか必要? 名寄せっていうんだ。調べてみる。
そして名寄せされてしまう田中実さん
地道に痴漢していくしかない気がするが
とりあえず置換で良いと思うが、 その後の分類を自動にするんだったら機械学習とかかなぁ。 「やっぱり違いました!」とかなっても困るだろうし。