風俗店とかキャバクラに遊びに行っていると「風俗店摘発」とか「売春防止法違反」というニュースには敏感になる。
以前から、こういう風俗とか水商売関連のニュースを自動で集めたいなー と思っていた。
しかしながら、具体的な手法が判らず、ちまちまと グーグルのニュース検索でそれっぽいキーワードをしこしこ入力していた日。
それでも自分で少しずつ手法を探してみて、プログラムを組んで… それっぽいサイトが完成したので、備忘録的に記録しておく。
ここで関連キーワード「風俗」とか「デリヘル」を入力して、検索すると関連ニュースがヒットする。
参考サイト
http://so-zou.jp/web-app/tech/web-api/google/search/news/
2) RSSの内容を解析する。
RSS形式で取得したデータを、RSSパーサーを使って解析する。今回は「MagpieRSS」を使用した。
参考サイト
http://singoro.net/note/magpierss/
ライブドアブログでも試してみたが、こちらもうまく自動投稿ができた。
※内容が内容だけにアダルトOKのライブドアブログを選定した。アメブロでは試してないが、アメブロの自動投稿は難しいらしい。
今回はCRONは使わずにまたまた Google先生の力を借りる事にした。
Google Apps Scriptのトリガー機能を使って、CRONと同じような事を実現させた。
一番大変だったところが 3)の部分。
内容はさらりと書いているが、実際はちょっと工夫をしている(はず)
まず、記事のURLを取得→ このURLが過去に投稿されているURLかチェック。
投稿していないURLなら、記事元へアクセス。本文の内容を取得する。
参考にしたのがこちらのクラス
http://neoinspire.net/archives/60
本人が言ってる通り、精度は7割程度の感じはする。
さらに、テキストだけだと味気ないので、googlenewsの検索結果で画像が
また、同じ内容のニュースでも配信元が違うと重複して記事が投稿されてしまうが、
これは前述の通り、本文の取得クラスの精度が7割程度なので、重複させる事により
精度がUPするのではないか?と考えて特に何もしていない。
配信元が違うと同じニュースでも微妙にニュアンスが違う場合もあるので、それはそれで比較する際に
役立つかな?と思っている。
ワードプレスのプラグインで購読機能を付けているので、何かニュースが投稿される度に
自分のメールアドレスに通知されるので、たまに役立つ時がある。
しかし、前述の通り、同じ内容で違う配信先の記事が連投されるので、あーまたこれか。。。 と思う事の方が多い。
まとめとしては、今回使ったものは以下の通り
・MagpieRSS
・XML-RPC(XML-RPCを使ってWordPress に投稿する)
MagpieRSSのインストールとか大変だったはずだけどもう忘れてしまった。
http://anond.hatelabo.jp/20160216142020 前回の記事を書いた翌日の事、突然ニュースを自動収集しなくなった。 なぜニュースを自動収集しなくなったのかわかったって? →それは、本来収集し...