「スクレイピング」を含む日記 RSS

はてなキーワード: スクレイピングとは

2021-10-11

書評を書くために

書評が書けない」という投稿を読んで、いつか自分言語化したいと思っていたことだったので整理したいと思います

https://anond.hatelabo.jp/20211010201513

---

得意だった方からアドバイスも有りました。

https://anond.hatelabo.jp/20211010213345

これはこれで少し躓いている人には良いアドバイスだと思うのですが、

私の「書けなかった」のはかなり深刻なので、下記のブコメに納得していたところもあります

そのため筆を執る気になったということも付記しておきます

----

yabu_kyu 2021/10/11

こういうのは「得意だったタイプ」の人のアドバイスよりも、「壊滅的にできなかったけど教えてもらったらそこそこできるようになった」みたいな人のアドバイスの方が欲しい気がする。|「なんとでも書け」ないんだよ

----

私も大学生の途中までレポートが全く書けませんでした。そこそこの大学に通っていたのでそれなりに学力はあったとおもうし、その後書けるようになってからは書くことが楽しくなって今ではムダにFacebookに長文を書いているぐらいなので、つまづきのポイント自分の中では明確になっています

私の場合結論から書くと、「読み手がどう思うだろうか」「読み手が気分を害さないだろうか」という配慮が働きすぎて、怖くて文章が書けない(主張ができない)というものが原因でした。

自分は少し毒のある家庭環境で育っていたので、正直に自分の考えたことを吐露すると家族に叱られる。みたいなことがよくありました。(今となっては少し社会的配慮が足りてなかった側面は否定できませんが。)

今回の「書けない」方の状況に必ずしもマッチしているかどうかわかりませんが、参考になれば幸いです。

一般的対話において過度な配慮をするような性格の持ち主は、日常的なコミュニケーションもつい遠慮がちに話したりするので聞く側もそれなりの配慮必要になるケースもあります

何れにせよ、そういう性格気質の持ち主の場合は「自由に書いていいんだよ」ということを伝えても内在する遠慮が邪魔してなかなか改善されません。

私の場合問題解決につながったことは、私の場合大学の途中でマーケティングリサーチ会社アルバイトをするようになったことがきっかけでした。

最初報告書に使う帯グラフなどをExcelでシコシコつくるような作業をしていたのですが、その後の工程でその集計結果を見てかんたんなコメントを書くようになりました。

ウマ娘プレイしている人についてみると、女性より男性20ポイント高い」みたいなコメントです。このようなほぼ事実記述する内容はほぼ怒られる心配はありません。

単純な文章ですがその作業を任されるようになって楽しくなりました。

一般的マーケティングリサーチ報告書ではそれらの単純な集計結果を統合して、「ブリーフィング(まとめ)」を書きます

これはそもそも調査目的が、いまとある商材を売っているメーカーが今後どんなプロモーションをしたらもっと売れるようになるか?みたいなケースが多く、ある種の問題意識や仮説が明確です。

その仮説を検証するためにアンケート調査設計して、結果を分析しているので概ねまとめは書きやすものが多いです。

もっともまとめはある程度シニアリサーチャーが書くので、バイトが書くものではありませんでしたが。

私はこれらの経験作業を通じて、自分意見を主張する、考えを披露するということに関する自分なりのパターンを掴みました。

整理すると下記のようになります

1)読み手共通する問題意識を持つこと、

2)読み手と「事実」を共有すること

3)その事実に対する解釈を述べること

4)解釈をまとめて、問題意識に対する自分なりの見解を書くこと。

結局、私はバイト経験したマーケティングリサーチ面白かったので、その後色々あってアンケートスクレイピングデータを用いた実証的分野の大学教員になるのですが、文章を書くときの考え方の基本は一緒です。

もっとも、実証的な研究というのは論文価値にしめる実証データ存在が大きいので、上記の考え方を当てはめやすいですが、実証という考え方が存在しない読書感想文書評のケースでは困ってしまうかもしれません。その場合の「事実」はその本に書いてある表現書き手の主張として考えてもらえると良いのですが、自分大学教員としてレポート指導していても書けない学生にはなかなか伝わらないことも理解しています

そのため、下記のような思考実験をやってみてもらえませんか?

A)自分が興味がある対象を選ぶ(漫画でも鉄道でもいわゆる趣味と呼ばれているものが良いと思います。)

B)その対象において自分選択を振り返る(例:少年漫画より少女漫画が好きだ。)

C)その理由について考えて、構造化する。(自分少女漫画が好きな理由は〇〇である。)

まず大事なことは自分の興味がある対象を選ぶことです。

世の中の読書感想文のよくある問題は、読み手が全く興味がない本でも読まされて何か意見を表明しなければならないことだと思います

すくなくとも、同好の士との対話想像して、自分がそれなりに語れる(周辺知識単語が内在している)ジャンルを選んでください。その語りの内容をテキストに落とすことを考えます

もちろん書評場合は、自分が興味のある本をA)の対象にしてください。

また、読み手の読解力に比べて記述内容が難解な本の場合はなかなか感想が出ないことも一般的だと思います

(例えば村上春樹は私にとって面白小説であるが、感想をかけと言われてもとても困る題材だったりする。そのあたりは個人によって異なる。)

Withコロナ時代になり、私もフルリモートで勤務していますが、知識労働としての適切に文章のまとめられる能力ますます重要になってきていると思います

少し書評とは異なるかもしれませんが、元増田さんの書けないが改善されることを願ってやみません。

PS

文章のお題なのに書きなぐりのテキストすみません仕事に戻らないと。

2021-08-11

はてなブックマークを辞めたい

が、情報の引き出しが無くなるのは怖い。

ツイッタートレンド代用しようにもアレはアレで偏った世界に見える。

はてなはてなで偏っているわけだが。

個人ニュースサイトブームが終わったせいか皆やる気を無くしているように見える。

ヤフーニュース等の企業スクレイピングランキングサイトもそれぞれのカラーが強くなってきて総合的なトレンドを追う役にはたたなくなった。

ツイッターニュースアカウントを片っ端からフォローしたリストは3種類ほど作ってみたがどれも内容が薄い上に重要度が分かりにくい。

そもそも必死になってニュースを追う必要があるのかどうかが疑問なのだが、全く情報を閉ざしてしまうと何も知らない人になってしまいそうで怖い。

そう考えると朝のニュース番組の需要が分かる。

とりあえずあれだけ見ておけば最低限度の情報は入ってくるし、情報ソースによる偏りも「はてなブックマークを使っているから」だとヤバい人だが「朝のニュースはあのchの」と言っておけばまだ許されそうな気がする。

そういう時に理由付けとしてニュースキャスターの好みなんて言っておくと政治色が抜けて無難なのかも知れないが、突然の性癖暴露現代社会ではセクハラなのでこのやり方は時代遅れに思える。

どういうやり方がいいのかが分からん

とりあえずはてなブックマークで上位のニュースは見るけどブコメは見ないというのはありかも知れない。

晒し上げとしてトップに来ているのかどうかの確認が出来なくなるが、そもそもヤフーAPI導入によって今やまともな意見はかき消されていちいち🐻のAAを並べているような承認おばけと、ダラダラ話が長いだけの承認おばけばかりで、副読URLなどのちょい貼りは流されがちだ。

ブコメを見る時代は終わったのだろう。

ネットドッグイヤーと考えればかれこれ私は50年ぐらいはてなをやっている。

50年、人も会社も何回でも腐り果てることが出来るだけの時間が経っている。

私もいい加減はてな卒業するときなのだろう。

思えばかつて私は個人ニュースサイトだとか2chまとめサイトだとかに張り付いていたのが、カトゆー家が本当に断絶した頃にははてなに重心が移っていた。

これからまた次の時代に備えて重心の位置を変えていくべきなのだろう。

そもそも自分の年齢を考えるとそろそろ表層の薄い知識を追うのを減らして腰を据えて深い知識を集めなければいけない時季だ。

学生時代暇つぶしでちょこちょこと図書館知的好奇心のために本を借りていたのと比べると今のインプット量はあまりに少ない。

年令を重ねた割に言動が薄いと感じる度合いが年々増えていっているのも錯覚ではなく実際にそうなのだろう。

はてなブックマークにあずけていた体重を少しずつ減らしていくべきなのは事実なのだろうな。

2021-07-22

五輪関係情報流出報道鵜呑みにするのをやめてくれカカシ

五輪チケット購入者らの認証情報ネット上に流出してるという報道が出ている。

https://nordot.app/790552913157406720

それに対して、案の定五輪組織セキュリティ体制について懸念するコメントが多数投稿されている。しかし、朝日新聞記事を読むと少し事情が違うことがわかる。

https://www.asahi.com/articles/ASP7P7F5XP7PUTIL067.html

そもそもこれらの記事の経緯としては、(かまし企業として名を馳せている)「ダークトレーサー」という企業がダークウェブ上に認証情報リークされていると言及したことに端を発するようだ。

記事中の彼らの発言引用すると、(ここが重要なのだが)「情報は、購入者ボランティア詐欺目的フィッシングサイトなどに誤って入力した際に、盗み取られたものとみられる。公式サイトからサイバー攻撃などで流出したものではないと同社はみている。」とのことである

これは、確かに購入者ボランティア認証情報リークされている」が、それは「五輪チケットの購入サイトから流出した物ではないと思われる」ということである

この情報について記者が正しく認識していれば、そもそもこのリークに関して大した報道価値はないと判断できるはずである

一般人Amazonフィッシング認証情報をパクられたとして、誰がそんなことを共同通信朝日新聞で知りたいと思うだろうか?

こういった背景から、これらの記事は「五輪運営組織批判する目的を持ったミスリーディングな記事」だと思う。

そもそも、こういった誤認する可能性のある情報を流すスレットインテリジェンス企業にも問題はある。

連中は犯罪者サイト勝手スクレイピングして情報収集し、それを元に企業をそそのかして金儲けしてるような輩集団である

とまあ、インターネットは嘘とも言い切れない情報で溢れている。

文章ちゃんとよく読んで、てめーの写輪眼で見極めろ。

2021-07-04

Pythonデータ分析の基礎(Pandas, Numpy, matplotlib)を一通り学んだけど…Excelでよくないこれ?

グラフの描画も表計算数値計算Excelの方でよくない??

関数、ピボットVBA、ソルバー当たり使いこなせばだいたいのことできるのでは…

強いて言うならpandasのdf.describe()には感動したけど、普通にExcelでも関数書くだけだしな〜と思ってしまう。

データ分析の基礎しか勉強していないから、あれなんだけど、これからどんどんExcelではできない作業Pythonではできるようになるの???

データ分析の先輩教えて下さい。

ちなみに、スクレイピングとかは圧倒的にVBAよりPythonとかなんだろうなってのは思っています

追記

皆さんありがとうデータの量という観点が抜け落ちてました。重大なご示唆ありがとうございます

あとは機械学習発展させていくと、Excelではできるかもしれないけど面倒そうですね。

2021-06-02

anond:20210530141509

>なんかコロナ禍になる少し前ぐらいから、

意識高い系のやつらが「サウナ趣味」って言いがちな感じがあったよね。

個人的に、「サウナキタイ」のサ活をスクレイピングしていて、

サウナ流行について分析してみていたので、ちょっと言及してみる。

確か2018年4月から始まったサ活機能

当初の投稿数は月間1,500件程度。

サ道のドラマが始まる2019年7月ごろには、月間約10,000件に達していた。

サ道が終わった2019年10月には、月間約20,000件に達し、3か月間で約2倍に増加していた。

20203月には月間約39,000件に達している。半年さらに倍増していた。

あくまで「サウナキタイ」の投稿ベースだが、元増田言及の通り、サウナ利用者短期間で相当増えているようである

ちなみに、コロナ禍で20204月5月は相当減っているが、6月ごろから持ち直し、7月には3月とほぼ同程度まで投稿回復している。

8月以降も増えており、8月時点で約44,000件、2021年3月は月間約65,000件になっていた。

ちなみに人気の施設は、「湯乃泉 草加健康センター」で、近頃は平日で約50件、休日には約100件の投稿がされている。

(コロナ都内人気施設が閉館しまくってるのも影響してそうだが。)

一概に、サウナ利用者が倍増、というつもりはないけど、

ネット好きなサウナ利用者層は2018年4月からサウナキタイを使っていたと思うので、

その層はかなりの数増えている、とみることができそうだ。

2021-05-17

anond:20210517130529

クローリングとかスクレイピングという語彙にいまはじめて触れた!ありがとう

何となく朧に道筋が見えた気がする

ちなみに、特に定型ではない書き込みからキーワード抽出するのってどうやったらできるかな

例えば【依頼レス】で言うと

お願いします。

刑事捜査官が主役のドラマで、主人公が何かに復讐することを目標としている作品を教えてください。

バディものの要素があるとなおいいです。

みたいな書き込みから

刑事」「捜査官」「ドラマ」「復讐」「バディ」ってワードうまいこと抽出するようなイメージ

2021-04-04

コロナ失職したアラフォーおっさん自作WEBサービスを公開するまで

(2021/4/5 15:00 追々記)


https://twitter.com/pakeura

各所でいただいたコメントの返信手段に困り途方に暮れたので、Twitterアカウント作成しました。コメントはすべて目を通しています。励みになります

直近の開発予定や、アクセス状況とアフィリエイト収入などの数値についてつぶやく予定なので、よければフォローいただけると。

ただしベースが筆不精なためまったく更新しない可能性も大いにあります。何卒ご了承のほど。


(2021/4/5 2:00 追記


ブコメも含め、反響があって嬉しい。拙文を読んでいただきサービスも使っていただいてありがとうございますコメントはすべて目を通し、より実用的なサービスにしていきます

取り急ぎ気になったコメントへの返信を。

パッケージ引用について】
著作権知的財産権を含む権利関係FANZA担当部門確認し、アフィリエイトのためのPR目的であれば使用問題ないことを確認済みです。


ーーー 以下もとの本文


当方独身アラフォー、去年の秋口までは貿易関連の零細企業に勤める、しがないサラリーマンおっさんだった。

当時世間的にもなかなか話題になったが、コロナウィルス蔓延の影響の一環で海運用コンテナ価格が暴騰した。そのアオリを受けた私の会社でも流れる仕事の量が激減し、私個人も暇を言い渡される運びとなった。話の本筋から逸れるので詳しくは触れないが、最終的に雀の涙程度の退職金と引き換えに、40を目前に控えて職を失うことになった。

これまで趣味らしい趣味も持たず給料の大半を貯金に回して生きてきた。そのため一生を生き抜くにはとても足りないが、向こう数年間は食べていくのに困らない程度の貯金が手元にあった。それにあわせて、無限とも言えるような暇な時間を得たのだった。


何をするにも自粛自粛で気が滅入る日々だったが、しばらく心身を休めたことで若干の活力が湧き、貿易実務に関連する資格勉強なんかを始めてみた。

しかしこれがどうにもピンとこない。退職した企業に勤めていたのも、もともと新卒時代就職活動の失敗に端を発することであったし、仕事内容に魅力を感じていたわけでもなかった。


そんなときにふと、前々から「こんなサービスがあったら絶対使うのに」と温めていたアイデアがあったことを思い出し、WEBサービス開発というものに手を出してみようと思い立った。

が、しかしそのために必要知識はまったくと言っていいほど持ち合わせていなかった。数年前にちょっとしたホームページを作ろうと、 HTML/CSS/Javascript/PHP やらの、本当にさわりを学んだ程度だ。

HTMLCSSについてはなんとかかんとか「書いたものを画面に出せる」程度まではいけたが、JavascriptPHPについては当時その存在意義も含め、トンと理解できなかった記憶がある。


そんなこんなで自分の作りたいものについて調べるうち、どうやらクローラーやらWebスクレイピングやらについて学ぶ必要があり、それにはPythonという言語についてある程度詳しくある必要があるらしかった。

サラリーマン時代エクセルで本当に簡易なマクロを書いていたが、当時からPythonマクロ上位互換というイメージを抱いており、いつかは勉強してみたいと思っていたので、これは幸いだった。

入門書を数冊購入し、Udemyというオンラインスクールで入門講座を受講した。かなり漠然とではあるものの、なんとか最低限の知識を身につけることはできたようだった。たぶん。

サービスの開発を志してからここまで一ヶ月ほどだっただろうか。平日休日を問わず毎日PCには触れるようにし、風呂場やトイレで「Qiita Python tips」とかググって出てきた記事に目を通していた。

(余談だがこのころに受講した https://www.udemy.com/course/python-beginner/ というコースは、PC環境を整えるところからまり制御構文やファイル操作など、自分が欲する知識について体系的に学ぶことができ、コストパフォーマンスが非常に良かった。特に回し者ではない)

さらに余談だが、最初ネット上の記事適当にあさって環境構築してしまったため、いまだにPyenvだのAnacondaだのPipだの、Pythonが動く仕組みについて全然理解できないまま今に至っている)


閑話休題

さてクローラーとはWEBサービス提供するうえで主役ではなく、そのために必要データを集めるツールにすぎない。主役にあたるアプリケーション開発については(ここまで読んでいただいたうえで大変申し訳ないが)私にはシステムエンジニアとしてフリーランスバリバリに働いている姪っ子がおり、強力なサポートを受けることができた。

姪っ子いわく「いまは基本的Javascriptがわかっていればサービス提供できる。さらに言うとJavascriptクローラーWebスクレイピングを行うことも可能」らしく、結果的Python学習時間をかけたことは不要であったらしかった。

それどころかPythonJavascriptメソッド名前微妙に違っていることなどで詰まることが度々あり(特に配列へのappendとpush)、害悪と言っても過言ではなかったように思う。


その後は結局姪っ子に促されるがままにGoogle提供するFirebaseというサービスと、Node.jsという言語について同じく入門書Udemyの講座で学習し、なんとか自分が望む機能を持ったサービスを動かすことができた。姪っ子のサポートを受け始めてから4ヶ月ほど経過していた。


本題となるそのサービスこちら。

その名を パケ裏.com (https://pakeura.com) という、アダルトビデオパッケージ裏面を延々と眺めていられる、人類の夢がパンパンに詰まった代物であるスマートフォンでの閲覧を想定して作った。


「結局エロかよ」と思った諸君ブラウザバックは早計だ。人類技術進歩を支えてきたのはいだって戦争エロなのだ。まずは開発の動機について語らせてほしい。

自分物心らしきものがつき、色を知りはじめたこから常々思っていたのだが、AVパッケージというのはオモテ面と比べ、ウラ面のほうが遥かにエロいと思わないだろうか?

なんらかのオトナの事情があるのかもしれないが、オモテ面には美少女が斜に構えて微笑んでいる写真や、クソデカフォント商品タイトルがババーンと大部分を占めているものが大半である


それに比べてウラ面には、そのAVのなかでも特にエロいシーンの切り抜きが多々あったり、性欲を煽ってやまない官能的な文句がこれでもかと並んでいる。パケ裏にはエロさという概念が所狭しと集っているのである。そんなパケ裏を延々と眺めることができたら…これは私にとって長年の悲願であった。


物理店舗AVを購入することのない私にとって、FANZAでいちいち商品ごとにパッケージ画像クリックし、裏面を覗いていくのはなかなかに面倒な作業である

その点 パケ裏.com を使えば、条件にマッチしたジャンルのパケ裏を無限にしゃぶりつくすことができる。作りたいサービス要件が私の中でかなり明確だったこともあり、思った以上に短い期間で理想的サービスを形にすることができた。


少し大仰な物言いではあるものの、こうして自分にとっての積年の夢を叶えることができた。

趣味というか、金銭の発生しない範囲プログラミングに触れることはとても楽しく、少しずつサービスが形になっていくなかで自分の成長も日々感じることができた。システムエンジニアとして生きていくことは今後もないとは思うが、コロナ禍のおかげで人生でもなかなか得難い、貴重な時間を過ごすことができたように思う。人間万事塞翁が馬とはよく言ったものだ。


最後にくどいようだが、この パケ裏.com(https://pakeura.com)、主観だがかなり実用的なサービスとなっていると思う。ぜひ使っていただき感想をいただけるとありがたい。

また事前に断っておくと、FANZA商品ページへのリンクアフィリエイトになっている。このサービスを通じてパケ裏の偉大さに気づく人が増え、さらに私の懐にちょっとした小遣いが入ってくれば、望外の喜びである

2021-03-21

メルカリ転売屋存在によって成立してるのではないか、という妄

転売ヤーってメルカリ市場流動性確保のために必要なんじゃないかな。

欲しい物が出品されてたり出品したものを誰かがすぐに買ってくれるのは転売ヤーが居るからで、

ここを取り締まると市場として使いにくくなって純粋メルカリを利用する人も減ってしまうから取り締まれない。

彼らは証券取引所におけるデイトレードしてる人たちみたいな存在

取引額、全取引回数のうち転売屋取引がどのくらいの割合を締めてるか知りたいよね。

メルカリは公開しないだろうけど公開されてる全データスクレイピングして分析すれば分かる気がしないでもない。

誰かやってみてくれないかな。

2021-03-17

スクレイピングは本当はしてはいけない

そうなの?

anond:20210317121324

アクセス数功名心プログラミングサイト構築、そういったものに興味があるだけで、校則サイトがどういうことになるかに全く興味がない

これに1票

ただ、元増田を"そそのかした"人がいるってことなので、元増田判断の誤りを悔いる必要はない

元増田別に悪くはないんだから

サイトを作ろう、と誰かに(まあ、どこかの解説サイトをそれこそ読んで、でもいい)言われて作ろうとしただけなのである

スクレイピングライブラリの使い方だけ書いて、スクレイピングは本当はしてはいけないって書いてないサイトみたいなものである

2021-03-14

最近はてならしさが戻ってきたように思う

最近はてなは凄いはてならしい。

雑なスクレイピングしかしてないので情報が遅い。ツイッターと比べると速報で5分、ちょっと濃い情報半日、詳細情報などは5日ほど遅れている。単にブックマークを繰り返してるだけで情報痛を気取ったり、他人記事を雑につまみ食いしたあとの排泄物を「僕が1から作りました」と自慢げに張り出す奴しかないのだから当然と言える。まとめサイトらしくていいね

そして騙されやすくて怒りっぽい。簡単扇動されるし、簡単にキレる。まとめサイトの読者ってまさにこういう感じだよね。

他所まとめサイトベタベタホッテントリに貼る癖も復活してきてる。もうガバナンスガバガバでどこにも存在しない。

非常に民度が下がってきて、とても良いね

インターネットの掃き溜めの行き着く果てだ。

いいぞ。

情報収集は自力でやらなきゃ他人排泄物コレクションすることしか出来ないってことをもう一度思い出させてやれ

2021-03-11

アダルトアフィリエイトで稼ぐということ

はじめに

アダルトアフィリエイトサイトの構築を開始したのが2020年3月中頃で、あれから一年が経とうとしている。

仕事の合間に時間を見つけながらチビチビ構築をはじめ、何度も挫折を繰り返し、2020年11月頃になんとかリリースし、現在はそこそこのアフィリエイト収入を得られるようになったので、回顧がてら流れを書こうと思う。

構想・企画

副収入を得たい、と考えていた当時、ぱっと思いついたのが収益Webサイトの構築だった。

本業システム関係なので技術的な部分はそこそこ分かる、しかし実際にWebで稼いだ経験はない。

いろいろ調べていくうちに、「アダルトアフィリエイトは稼ぎやすい」という記事をよく目にした。

性欲は人間普遍的欲求でありその需要は尽きることはない。僕はアダルトアフィリエイトサイトを構築する方針にした。

収益Webサイトを構築する場合、当たり前だけどまず最初収益モデルから検討すべきだ。

Webサイト収益形態としては、ざっくり言うと「クリック報酬広告」「アフィリエイト収入」「ユーザー直接課金」がある。

クリック報酬広告」は訪問者がクリックするたび収入が発生するが、それなりの収入を求めるなら莫大なPV必要になる。

アフィリエイト収入」もそこそこPV必要だが、最初からアフィリエイト意識したサイトを構築するだけであれば、そこそこのPVでもそこそこの収入が入ると踏んだ。

ユーザー直接課金」はPVがそこまでなくても成立するが、課金したいと思えるコンテンツ提供できるかというと自分には難しい、と判断した。

僕は「アフィリエイト収入」をベースとする、アダルトアフィリエイトサイトを構築することにした。

構築準備

本業技術職のクセにコードをイチから書くのが嫌だった僕は、高速WordpressKUSANAGI使用することにした。

名前ドットコムで安いドメインを取得し、AWS無料枠にKUSANAGIデプロイし、レスポンシブ対応の高速無料テーマであるLuxeritasを採用し、CloudFlareも導入。

金がほとんどかからないのに表示速度は爆速、という鬼の布陣である

また、WordPressなら投稿処理をある程度自動化できる。

世のアフィリエイター達は商品が売れるように丹精を込めて記事を書いていたりするが、そんなもの糞喰らえだ。

Pythonコードを書いて既存サイトからスクレイピングして、加工して、Crontabで自動投稿する。これに限る。

KUSANAGICentOS)には既定でPythonインストールされているので、pipで必要パッケージを追加。

さて、環境は整ったのでコンテンツ作成に取り掛かろう。

最初の失敗

アダルト界の巨塔といえば「Xvide**」や「Pornh**」だ。

世界一アダルトサイトたちからスクレイピング動画を取得し、こちらのサイトを充実させようと考えた。

しかし、ここは無修正天国なので、不用意にスクレイプして無修正動画を載せてしまうと日本では即オナワだ。

考えたのが、モザイクあり動画のみを載せているチャンネルから動画を選定して取得しよう、という試み。

とあるチャンネルでは、動画タイトルFANZAの品番が入っていたりしたので、その品番をキーワードに更にFANZA側でスクレイプし、紹介先ページとして整理できると思った。

収益モデル最初に考えておく重要性はここにある。どういうコンテンツサイト掲載し、どこの商品ページから購入してもらうか?

この流れの整理がついていないと、いいサイトを作ったとしても収益化は実現できない。

「Xvide**」に極上にエロい動画があってそれを自分サイト掲載したとしても、その商品情報が分からなければ商品紹介も出来ないわけである

僕は、動画タイトルの品番から商品特定して紹介する方法であれば、サイト収益化していけると思った。

ところが、自分の考えが甘かったことを知ることになる。

まず、「Xvide**」や「Pornh**」は、違法アップロード天国であるがゆえに、動画削除依頼により次々と消される。

こちら側で取り込んだ動画の死活判定を実装してリンク切れページを削除していくとデータベースが汚れていくし、

今後サイトコンテンツが充実していったあとも追加と削除を繰り返していくのは果てしないことのように思われた。

そもそも商品紹介をするだけなら、「Xvide**」や「Pornh**」から情報を取得する必要があるのだろうか?

「Xvide**」や「Pornh**」では、動画の内容やタイトルから商品情報が分からないケースはとても多い。

FANZA公式サンプル動画でもいいんじゃないのか?そんなことを考え始めた。

僕は、「Xvide**」「Pornh**」からスクレイプする、という方針を辞め、サイトを作り直すことにした。

これが最初の失敗である

二度目の失敗

FANZA公式サンプル動画からスクレイプする方針に改めたが、単純にスクレイプするだけならそのサイトには何の価値もなく、何か付加価値必要だと考えた。

そこで考えついたのが、多言語対応型のアダルトアフィリエイトサイトである

FANZA公式サイトは多言語対応していないため、それに対応するサイトを作れば国内だけでなく世界中から集客を見込める、と思った。

Wordpressには多言語対応できるプラグインが用意されており、ある程度の自動翻訳もしてくれる優秀なプラグインもある。

それに、AWSのboto3ライブラリを使えばAWS Translateを使っての翻訳可能完璧な構想だと思った。

最終的には15言語対応する構成にし、FANZA動画もある程度登録完了し、やっと世に出せる、という状態になった。

ところが、ここでも自分の構想が致命的に誤っていたということを知ることになる。

利用規約にはっきりと明文化されているが、FANZAそもそも海外から利用できないサービスであり、国内ユーザーのみを対象としていた。

そのため、「FANZA公式サイトは多言語対応していない」のは当たり前の話で、前提から既に間違いまくっていた。

ようやくリリースまで漕ぎつけたと思った矢先、敢え無くサイトを作り直すことになった。

これが二度目の失敗である

三度目の失敗

言語対応意味がないことがわかり、サイト方向性を決めあぐね、いろんなアダルトアフィ指南サイト徘徊していた。

そこで「エ○タレスト特化型サイト」というもの存在を知った。

実は「エ○タレスト」はアダルトアフィ業界では非常に有名なサイトで、1日で数百万のPVを誇るモンスターサイトである

どこぞのサイトで見たが、アクセス流入は「3つのS(SEOSNS・Satellite)」を意識しろ、というものがあるらしい。

SEOSNSは今さら既出なので多くは語らないが、Satelliteとは中継、つまりアンテナサイトアクセス交換のことである

「エ○タレスト」への登録はまさしくSatellite戦略であり、登録して動画掲載されれば莫大なPV恩恵を受けることが出来る。

「エ○タレスト」では「Xvide**」「Pornh**」等から動画を紹介する必要があり、公式サンプル動画対応していない。

最初の失敗で「Xvide**」「Pornh**」を避けていたが、莫大なPV恩恵を受けられるなら…という甘い誘惑に負け、特化型サイト検討を始めた。

まず、ここでももちろん無修正動画回避しなければいけないし、視聴時間が長すぎる動画ダメ商品の内容が分からないとダメ、などの依然としたハードルがある。

そこで考えたのが、「エ○タレスト」に既に掲載されている他サイト動画ページから情報を取得し、自サイト掲載する、というもの

既に「エ○タレスト」に掲載されている実績のある動画であるため無修正心配はなく、商品情報も取得可能である

他人の褌で相撲を取るような卑怯まりない戦略だが、動画タイトルカスタマイズ性にオリジナルティを加え、サイトを充実していこうとした。

そして「エ○タレスト」に掲載依頼をしようとしていた矢先、2020年10月からリーチサイト規制」が施行されることを知った。

この規制はつまり、『今までは違法サイトへのURLリンクだけならセーフだったけど、今後はURLリンクだけでも処罰対象になるよ、親告罪だけどね』というものだ。

「エ○タレスト特化型サイト」は、この規制に思いっ切り抵触するサイトなのである

いきなり全てのサイトを取り締まることは現実的不可能だし、そもそも親告罪なのでメーカー側の告訴が無ければ問題ないし、それによる処罰を受ける可能性は低いとは思ったが、わざわざ処罰対象行為リスクを取る必要もないとも思った。

そのため、「エ○タレスト特化型サイト」も取止め、サイトを作り直すことにした。

余談になるが、2020年12月の「Pornh**」動画一斉削除事件により「エ○タレスト特化型サイト」は軒並み壊滅的な被害を受けることになり、やらなくて良かったと今は思う。

アダルトアフィは誰でも稼げる」のは一昔前の時代であり、現在は昔ほどは稼げないと言われている。そのあたり、情勢の変化で受ける影響の大きさを肌で感じる。

これが三度目の失敗である

念願のローンチ

「エ○タレスト特化型サイト」の撤退で心が折れそうになりつつも、初心に帰りFANZA公式サンプル動画で何かできないか考えた。

夜もすがらサンプル動画を視聴して一人快感に耽っている中、サンプル動画の総視聴時間再生するまで分からない、というところに不満を覚えた。

「Xvide**」「Pornh**」ではサムネイル視聴時間が表示されるので、とてもユーザーフレンドリーだ。

ここで思い付いたのが、サンプル動画視聴時間を表示して一覧として並べれば、それが付加価値になるのではないか?ということ。

サンプル動画の中には視聴時間が5分以上のものもあれば、1分以下の極端に短い動画もある。

極端に短い動画排除してある程度以上の視聴時間サンプル動画を一覧化すれば、それだけで価値のあるサイトになると踏んだ。

何より、海賊版サイトを利用せず、正規サンプルを利用する真っ当な方法ポルノ産業に貢献できる、と思うと少し胸が躍った。

方針が決まったので、早速仕組み作りに取り掛かる。

FANZAの新着動画ページからサンプル動画があるページURLの一覧を取得する。

個別ページから商品情報動画URLを取得し、動画視聴時間はFFprobeで取得する。

視聴時間が短いものは除外し、長いもののみ情報を加工してWordpress投稿する。

サムネイル用の画像は、OpenCVで顔認識できるサンプル画像の中からランダムに選定する。

自動投稿の仕組みと流れはざっくりそんな感じだ。

後は、カスタムCSSゴリゴリ書いてレイアウトを整形し、表示処理など気に入らない部分はテーマPHPコード魔改造して対応した。

2020年分の動画全件に対して視聴時間判定と登録処理を繰り返し実行し、2020年11月、ようやくサイトローンチした。

構想から構築までおよそ8ヶ月、三度の失敗と挫折経験して何とかサービス公開まで漕ぎつけることができた。

運用開始後

既に述べたが、アクセス流入のための3つのS(SEOSNS・Satellite)を意識したアクセスアップ対応はもちろん実施した。

SEO対策は、然るべきプラグインを導入し、SEO対応しているLuxeritasを使ってさえいれば、コンテンツを充実させていけばそれで十分と考えた。

SNS対策は、Twitterアカウント作成してTwitterAPIの申請を行い、アクセスキーサイト登録して投稿後に自動ツイートする仕組みを作った。

Satellite対策は、ランキングサイトアンテナサイト登録し、掲示板でのゲリラ活動など水面下でチビチビ広報活動を行った。

結果として功を奏したのはSEO対策のみで、サイトアクセスリファラほとんどが検索エンジンから流入になっている。

なので、SNS・Satelliteの取り組みも強化しなければいけないと思い、この増田を書いている部分はある。そこは勘弁してほしい。

あと、運用開始後も様々な問題が発生した。

動画登録処理がリソース不足やスクレイプ先サイト構成変更のため時々異常終了しており、根本対応にたびたび時間を取られた。

スケジュール投稿が時々失敗したり、Googleサーチコソールでインデクスエラー修正したり、今も運用カバーはチラホラある。

しかし、自動投稿の仕組みを作っているので、正直言うと不具合対応以外にやることはほとんどない。

日常的にやっているのはPV確認、収支確認ログ確認ぐらいのもので、手動更新することを考えるとラクなもんだ。

運用開始後に如何にラクするか」というのはやはり企画時点から考えておくべきだな、とつくづく思った。

アクセスと収支

ここまで読んでくれた人なら気になるであろう、サイトへのアクセスアフィリエイト収入について軽く書く。

WordpressJetPackを見ると、SEO効果のおかげか右肩上がりを維持できていて、2020年12月は2万PV2021年1月は4万PV2021年2月は6万PVと堅調な数字だ。

アフィリエイト収入12月は約2000円、1月は約6000円、2月は約10000円という結果が出ており、アフィリエイター挫折ラインである月500円をすぐに超えることが出来た。

アフィリエイト協会調査によると、2020年は3人に2人は月に10000円も稼げていない状態らしく、僕はとりあえずの成果をあげることができて満足している。

http://affiliate-marketing.jp/release/202007.pdf

AWS無料枠が今月で切れてしまうので、今月までに成果を出せなかったら潔く撤退するつもりだったが、今ではサーバ代くらいなら稼げそうだ。

もっとアクセスが増えれば効果的な広告を打ち出すことも出来るので、マネタイズ増強を踏まえてもう少し運用を続けてみようと思う。

ただし今後については、全く別の収益モデルにも挑戦してみたいので、今のサイトがもう少し軌道に乗ってきたら、色々と手を広げてみようと思う。

アダルトアフィリエイトで稼ぐということ

最後に、作成したサイトをお披露目して結びとさせてもらう。

 Luxjulia - アダルト動画エロ動画無料サンプル蒐集サイト

 https://luxjulia.com/

アダルトアフィリエイトに限らないが、収益Webサイト構築で考えるべきことは以下だ。



それでは皆さん、さようなら。レッツエンジョイ ポルノテックマネー

このネタで本書けそうだわ。

2021-02-23

DuckDuckGoはやっぱり網羅性が悪いなあ・・・

と言っても数多ある企業が皆Googleレベルスクレイピングしたらネットワークが重くなってかなわんが

2021-02-10

はてなブックマーク一行スクレイピング

実行すると、各記事

{

 title:記事タイトル,

 url:記事URL,

 users:ブクマ数,

 tags:[タグ]

}

形式に変換し、500ブクマ以上でフィルタし、ブクマ数降順で返す。


#一行版

curl -s https://b.hatena.ne.jp/hotentry/it | pup --charset utf-8 'div.entrylist-contents-main json{}' | jq -r '[.[] | {title: (.. | select(.class? == "entrylist-contents-title") | .children[].title), url: (.. | select(.class? == "entrylist-contents-title")) | .children[].href, users: (.. | select(.class? == "entrylist-contents-users") | .children[].children[].text | tonumber), tags: ([.. | select(.class? == "entrylist-contents-tags") | .children[]?.children[]?.text])}] | unique | map(select(.users >= 500)) | sort_by(.users) | reverse'


#変数

title='title: (.. | select(.class? == "entrylist-contents-title") | .children[].title)'
users='users: (.. | select(.class? == "entrylist-contents-users") | .children[].children[].text | tonumber)'
url='url: (.. | select(.class? == "entrylist-contents-title")) | .children[].href'
tags='tags: ([.. | select(.class? == "entrylist-contents-tags") | .children[]?.children[]?.text])'
target='https://b.hatena.ne.jp/'
hotentry='hotentry/it'
curl -s $target$hotentry | ¥
pup --charset utf-8 'div.entrylist-contents-main json{}' | ¥
jq -r "[.[] | {${title}, ${url}, ${users}, ${tags}}] | unique | map(select(.users >= 500)) | sort_by(.users) | reverse"

2021-02-09

【必読】 森喜朗会長性差別発言を受けて、●●はどう反応したか の読み方

■【追記アリ】 森喜朗会長性差別発言を受けて、自民党女性局・自民党女性国会議員はどう反応したか https://anond.hatelabo.jp/20210209083036 シリーズの読み方、というか注意点を列挙する。

まず、本来最初エントリをあげたら、本エントリに書く様なことをすぐに書く予定だった事、クソガキみたいな茶々揶揄するトラバ等にプッツンして、急遽全与党議員分の作業を先にしてしまったという言い訳をさせていただきたい

そして結論から先に言えば、一連のエントリでの発言チェックは「SNSで森発言言及した」事に主眼を置くべきで、「SNSで森発言言及しなかった」事は主眼に置くべきではないという事だ。




SNSを常時使っている議員はさほど多くはない

一番最初にこれは言っておくべきで、表の「メディア」欄へのT(witter)やF(acebook)は、あくま自民党Webページ議員詳細ページに登録があれば書いている。TもFも無い場合はnone扱いとしているが、該当期間(2021/02/03 ~ 2021/02/09)の間にツイートFacebookエントリを投下していない議員もたくさんいる。本来プログラムによるスクレイピング等といった手段が取れれば、該当期間の投下エントリ数を各議員、各メディアごとに表せたが、今回は無理だった。まとめている筆者の感覚では該当期間中エントリ投下があった議員数は総議員数の1/4位ではないかと思う。なので、自民党男性衆議院議員についてのエントリをみて、反応があったのが6/258とするのは端的に間違いである。ここまで気を配って作業を始められればよかったのだが、生憎そうはならなかったという事をご考慮頂きたい。

色んなパターンがあり、数か月~数年単位TwitterFacebook更新していない議員もいれば、数週間程前からエントリ投下が止まっている議員もいる。動画個人Webサイト確認しないのでそこで言及している可能性もある。あくまで厳密に、自分が書いた言葉通り受け取って頂きたい。細心の注意を払って確認はしたが、何せ個人の業なので見逃しもあるだろう。





正直死ぬほどダルかった

次手動でやる気がまるでないので、無知なりになんとかスクレイピングに移行したいと思う。そうすればそれなりの時間はかかるだろうが、手間は数十分の一かそれ以下になるし、確認期間のエントリ投下数なども含めて表にしたり分析ができる。筆者はpython環境すらまだないので実現可能か否かも分からない状態だが。正直なところ偉い人にツールを作ってほしい。そうすれば色んな話題について各議員SNSでの反応が可視化できる。






更に追記予定

2021-01-16

AmazonAPIかに詳しいプログラマ来てくれ

Amazon公式API商品検索して良い感じに人気商品とかをリスト化して検索とかできるようにするWebサービスを作ろうと着手してたんだが、

どうやらAmazon商品検索APIAmazonアソシエイトっていうアカウントを作って承認されないと使えないらしいんだ。

んで、困ったことに去年くらいからこのAmazonアソシエイトっていうのがアカウント審査基準が厳しくなったらしくって、

申請申請したサイトで180日以内に3つ以上の売り上げを出す(アフィだけなら貼れる)
↓
Amazonからサイト審査開始
↓
問題なければ承認Amazon Apiが使えるようになる

このような流れになる

ブログとかWebメディア運営者ならこれに従ってやればいいだけだけど、

困ったことに俺が作ろうとしてるのはAmazonAPIを前提としたWebサービスなんだ。APIがなければ何も作れない。

作るものがなければサイトを作って180日以内に3つ以上の売り上げを出すなんてこともできないわけで、

めちゃくちゃ困ってるんだけどさぁ、これ一体どうすればいいわけ

Amazonスクレイピング規約禁止っぽいし、ほぼ詰みか?

教えてパソコンの大先生

2021-01-13

(我々がこのサイト投稿した日記テキストが何者かにスクレイピングされることで将来的にAIは我々の言葉で喋るようになるのだ……ッ!)

2021-01-07

ザコの思うプログラミング

プログラミングを学ぶと稼ぐに困りにくくなるらしい。

毎月家賃光熱費奨学金が口座から引かれるところを見るたびに、GAMEOVERが近づいてきてるような感覚に襲われる、クソ雑魚フリーターからするとすごく羨ましい。

調べてみたらPythonというのから学ぶといいのだとか。

おすすめ本みたいなものから色々探してみて『12からはじめるゼロからPython』というのを手にとって見た。もう2倍以上上回ってるけど、知能と心は12歳みたいなものから問題ないでしょう、多分。

ちなみにゲームプログラミング系の本だったんだけど、これはゲームが作りたいとかがあったわけじゃなくて、なんとなく面白そうだったから。

今までの人生を振り返って、例えば数学教科書なんかそうだけど、2次関数がどうのこうのと公式を並べられて、一時的に覚えることはあっても『で、これはなんの役に立つの?』という思いが先行してやる気がでないことが多かった。だからゲーム作りっていう、学んだらこれができるってのがわかりきったものを手に取ってみました。

それで1ヶ月ぐらいやってみて、内容はわかったし、教科書どおりのことをやるぐらいの実力はついたけどここで思ったんですよ。

『で、こっからどうやって稼ぐの?』

考えてみるとゲームの作り方学んだからって、これを活かす方法がわかんないんですよね。

第一ゲーム作りだったらUnityとかのほうがいいんでしょ?知らないけど。Pythonが良いって話を優先しすぎて足元見えてなかったなぁ。

そこからUnity教科書』っていう、なんか猫が書いてある本を買って、猫がひたすらジャンプして上を目指していくゲームみたいなの作れるようになったんですよ。WebGL?っていうのにして、Unityroomってところに上げて、一人で遊んでニヤニヤしてたんですけど、ふと『あれ、一銭も稼げて無くね』っていう。

そもそもUnity使えるようになったからってどうやって稼げば良いんですかね?

そこで立ち返って、そうそうPythonがおすすめだったんだよ。勝手Unity使い始めてしまった。だからPythonによるスクレイピング機械学習』みたいな本買ったんですよ。

で、読み進めて、なるほどサイトから情報抜き出せるのか~って、やれることわかったんですけどやっぱ『で、どうやって稼ぐの?』ってなるんですよね。

何が言いたいかっていうと、ザコが思うにプログラミングにおいて一番大事なことって発想力とか創造力とか、プログラミング以外の部分なんじゃないかっていう。

スクレイピング機械学習が使えるようになっても、それを活かして何をやればいいのかわからない。

ゲーム作れるようになっても、イラストもかけないし、どんな物作ったら面白いのかわからない。

テレビ活躍してるお笑い芸人と同じ言語を僕は喋れますけど、だからといって彼らのようにはなれないじゃないですか。同じようにプログラミング言語を使えるようになっても、それを使って何をするかが思いつかなかったり、そこの技術力がなかったり。

そういう人にとってプログラミングって稼ぐ道具として不釣り合いだったりするんですかね?

タイトル通りザコの思うプログラミングの話なんで、はてな見るような上澄みの人からすると見える世界はぜんぜん違うんでしょうけど、ちょっと触った人間からするとプログラミング言語って活かし方が良くわからない代物でした。

全然強要とかしないんですけど、よかったらプログラミング副収入得るとしたらどうすればいいのか教えてもらえたら嬉しいです。

2021-01-04

anond:20210104210255

サーバ運用している側からすればそんなのどうでもいい

そもそも攻撃対策しないとダメだしPythonスクレイピングなんて普通Webアクセスと変わらん

勝手忖度してドヤ顔で「無許可スクレイピングはやめよう」とかマウント取る奴の方がウザい

秒間100クエリとか来られたら単にアタックと見なしてブロックするだけだし

そういう意味で適切な間隔は空けるべきだけど

そもそもウェブクリップとかの挙動と見分け付かないしどうでもいい

今時そういう運用できないならサーバ公開するべきじゃない

無許可スクレイピングはやめておきなさい。

ここ最近プログラミングスクールが乱立してる流れと関係あるのかわからないけど、やけにPython使ったスクレイピング記事が目につく。

Qiitaスクレイピング記事を探すと本当にたくさん出てくるけどグレーなことやってる人多くて驚く。

robots.txtがAllowならOKとか数秒あけたらOKとかサイト運営側からしたら迷惑まりないと思うよ。

Librahack事件とか知らない世代なんだろうけどスクレイピングやりたいならまず許可取りましょうね。

それか大人しく公開されてるAPI叩きましょう。

2020-12-30

ホットエントリーにおける「これはひどいタグの出現回数を調べた

はてブの「過去の人エントリー」ページをPythonを使ってスクレイピングし、その中に「これはひどいタグがついたエントリーがいくつあるかを日毎にカウントした。

集計範囲: 2005年2月10日~2020年12月27日

集計の結果、「これはひどいタグのついたエントリーが最も多かった日は2020年10月19日で、13エントリーであることがわかった。

はてなブックマーク - 人気エントリー - 総合 - 2020年10月19日

これはひどいタグ出現数トップ4

せっかくなので1位以外も載せておく。なお、5位以下は数が多すぎるので省略。


2020年は「これはひどいタグがこれまでよりも多くホットエントリーに出現するようになっている。

ホットエントリー全てが「これはひどいタグのついたエントリーになる日は近い。

ログイン ユーザー登録
ようこそ ゲスト さん