2016-02-16

アダルト関連ニュースサイトを構築した話

風俗店とかキャバクラに遊びに行っていると「風俗店摘発」とか「売春防止法違反」というニュースには敏感になる。

以前から、こういう風俗とか水商売関連のニュース自動で集めたいなー と思っていた。

しかしながら、具体的な手法が判らず、ちまちまと グーグルニュース検索でそれっぽいキーワードしこしこ入力していた日。

それでも自分で少しずつ手法を探してみて、プログラムを組んで… それっぽいサイトが完成したので、備忘録的に記録しておく。

1) GoogleNEWSのRSSデータを取得する。

https://news.google.com/

ここで関連キーワード風俗」とか「デリヘル」を入力して、検索すると関連ニュースがヒットする。

これをRSS形式で出力する。

参考サイト

http://so-zou.jp/web-app/tech/web-api/google/search/news/



2) RSSの内容を解析する。

RSS形式で取得したデータを、RSSパーサーを使って解析する。今回は「MagpieRSS」を使用した。

参考サイト

http://singoro.net/note/magpierss/



3) 記事概要投稿する。

今回はワードプレスを用いて自動的投稿するようにした。

ライブドアブログでも試してみたが、こちらもうまく自動投稿ができた。

※内容が内容だけにアダルトOKのライブドアブログを選定した。アメブロでは試してないが、アメブロ自動投稿は難しいらしい。



4) 一定時間毎に自動投稿させる。

今回はCRONは使わずまたまた Google先生の力を借りる事にした。

Google Apps Scriptトリガー機能を使って、CRONと同じような事を実現させた。

一番大変だったところが 3)の部分。

内容はさらりと書いているが、実際はちょっと工夫をしている(はず)

まず、記事URLを取得→ このURL過去投稿されているURLかチェック。

投稿していないURLなら、記事元へアクセス。本文の内容を取得する。

(この記事本文の取得精度が現段階での課題の一つ)

参考にしたのがこちらのクラス

http://neoinspire.net/archives/60

本人が言ってる通り、精度は7割程度の感じはする。

さらに、テキストだけだと味気ないので、googlenewsの検索結果で画像

載っていれば、画像投稿するようにした。

また、同じ内容のニュースでも配信元が違うと重複して記事投稿されてしまうが、

これは前述の通り、本文の取得クラスの精度が7割程度なので、重複させる事により

精度がUPするのではないか?と考えて特に何もしていない。

配信元が違うと同じニュースでも微妙ニュアンスが違う場合もあるので、それはそれで比較する際に

役立つかな?と思っている。

ワードプレスプラグインで購読機能を付けているので、何かニュース投稿される度に

自分メールアドレスに通知されるので、たまに役立つ時がある。

しかし、前述の通り、同じ内容で違う配信先の記事が連投されるので、あーまたこれか。。。 と思う事の方が多い。


まとめとしては、今回使ったものは以下の通り

Google NEWS検索

・MagpieRSS

ブログから本文を取得するクラス

WordPressと各種プラグイン

XML-RPCXML-RPCを使ってWordPress投稿する)

Google Apps Script


MagpieRSSインストールとか大変だったはずだけどもう忘れてしまった。

一度インストールすればこれ以上快適な環境はないので、一度苦労してでもインストールすると良いと思う。


作成したサイトがこちら

http://www.fuzokunews.net/

  • http://anond.hatelabo.jp/20160216142020 前回の記事を書いた翌日の事、突然ニュースを自動収集しなくなった。 なぜニュースを自動収集しなくなったのかわかったって? →それは、本来収集し...

記事への反応(ブックマークコメント)

ログイン ユーザー登録
ようこそ ゲスト さん