はてなキーワード: スクレイピングとは
が、情報の引き出しが無くなるのは怖い。
ツイッターのトレンドで代用しようにもアレはアレで偏った世界に見える。
個人ニュースサイトはブームが終わったせいか皆やる気を無くしているように見える。
ヤフーニュース等の企業系スクレイピングランキングサイトもそれぞれのカラーが強くなってきて総合的なトレンドを追う役にはたたなくなった。
ツイッターでニュースアカウントを片っ端からフォローしたリストは3種類ほど作ってみたがどれも内容が薄い上に重要度が分かりにくい。
そもそも必死になってニュースを追う必要があるのかどうかが疑問なのだが、全く情報を閉ざしてしまうと何も知らない人になってしまいそうで怖い。
とりあえずあれだけ見ておけば最低限度の情報は入ってくるし、情報ソースによる偏りも「はてなブックマークを使っているから」だとヤバい人だが「朝のニュースはあのchの」と言っておけばまだ許されそうな気がする。
そういう時に理由付けとしてニュースキャスターの好みなんて言っておくと政治色が抜けて無難なのかも知れないが、突然の性癖暴露は現代社会ではセクハラなのでこのやり方は時代遅れに思える。
どういうやり方がいいのかが分からん。
とりあえずはてなブックマークで上位のニュースは見るけどブコメは見ないというのはありかも知れない。
晒し上げとしてトップに来ているのかどうかの確認が出来なくなるが、そもそもヤフーAPI導入によって今やまともな意見はかき消されていちいち🐻のAAを並べているような承認おばけと、ダラダラ話が長いだけの承認おばけばかりで、副読URLなどのちょい貼りは流されがちだ。
ネットはドッグイヤーと考えればかれこれ私は50年ぐらいはてなをやっている。
50年、人も会社も何回でも腐り果てることが出来るだけの時間が経っている。
思えばかつて私は個人ニュースサイトだとか2chまとめサイトだとかに張り付いていたのが、カトゆー家が本当に断絶した頃にははてなに重心が移っていた。
これからまた次の時代に備えて重心の位置を変えていくべきなのだろう。
そもそも自分の年齢を考えるとそろそろ表層の薄い知識を追うのを減らして腰を据えて深い知識を集めなければいけない時季だ。
学生時代に暇つぶしでちょこちょこと図書館で知的好奇心のために本を借りていたのと比べると今のインプット量はあまりに少ない。
五輪チケット購入者らの認証情報がネット上に流出してるという報道が出ている。
https://nordot.app/790552913157406720
それに対して、案の定、五輪組織のセキュリティ体制について懸念するコメントが多数投稿されている。しかし、朝日新聞の記事を読むと少し事情が違うことがわかる。
https://www.asahi.com/articles/ASP7P7F5XP7PUTIL067.html
そもそもこれらの記事の経緯としては、(かまし企業として名を馳せている)「ダークトレーサー」という企業がダークウェブ上に認証情報がリークされていると言及したことに端を発するようだ。
記事中の彼らの発言を引用すると、(ここが重要のなのだが)「情報は、購入者やボランティアが詐欺目的のフィッシングサイトなどに誤って入力した際に、盗み取られたものとみられる。公式サイトからサイバー攻撃などで流出したものではないと同社はみている。」とのことである。
これは、確かに「購入者やボランティアの認証情報がリークされている」が、それは「五輪チケットの購入サイトから流出した物ではないと思われる」ということである。
この情報について記者が正しく認識していれば、そもそもこのリークに関して大した報道価値はないと判断できるはずである。
一般人がAmazonのフィッシングで認証情報をパクられたとして、誰がそんなことを共同通信や朝日新聞で知りたいと思うだろうか?
こういった背景から、これらの記事は「五輪運営組織を批判する目的を持ったミスリーディングな記事」だと思う。
そもそも、こういった誤認する可能性のある情報を流すスレットインテリジェンス企業にも問題はある。
連中は犯罪者のサイトを勝手にスクレイピングして情報を収集し、それを元に企業をそそのかして金儲けしてるような輩集団である。
グラフの描画も表計算も数値計算もExcelの方でよくない??
関数、ピボット、VBA、ソルバー当たり使いこなせばだいたいのことできるのでは…
強いて言うならpandasのdf.describe()には感動したけど、普通にExcelでも関数書くだけだしな〜と思ってしまう。
データ分析の基礎しか勉強していないから、あれなんだけど、これからどんどんExcelではできない作業がPythonではできるようになるの???
ちなみに、スクレイピングとかは圧倒的にVBAよりPythonとかなんだろうなってのは思っています。
(追記)
>意識高い系のやつらが「サウナが趣味」って言いがちな感じがあったよね。
個人的に、「サウナイキタイ」のサ活をスクレイピングしていて、
サウナの流行について分析してみていたので、ちょっと言及してみる。
当初の投稿数は月間1,500件程度。
サ道のドラマが始まる2019年7月ごろには、月間約10,000件に達していた。
サ道が終わった2019年10月には、月間約20,000件に達し、3か月間で約2倍に増加していた。
2020年3月には月間約39,000件に達している。半年でさらに倍増していた。
あくまで「サウナイキタイ」の投稿ベースだが、元増田の言及の通り、サウナ利用者は短期間で相当増えているようである。
ちなみに、コロナ禍で2020年4月5月は相当減っているが、6月ごろから持ち直し、7月には3月とほぼ同程度まで投稿が回復している。
8月以降も増えており、8月時点で約44,000件、2021年3月は月間約65,000件になっていた。
ちなみに人気の施設は、「湯乃泉 草加健康センター」で、近頃は平日で約50件、休日には約100件の投稿がされている。
(コロナで都内人気施設が閉館しまくってるのも影響してそうだが。)
ネット好きなサウナ利用者層は2018年4月からサウナイキタイを使っていたと思うので、
その層はかなりの数増えている、とみることができそうだ。
(2021/4/5 15:00 追々記)
各所でいただいたコメントの返信手段に困り途方に暮れたので、Twitterアカウントを作成しました。コメントはすべて目を通しています。励みになります。
直近の開発予定や、アクセス状況とアフィリエイト収入などの数値についてつぶやく予定なので、よければフォローいただけると。
ただしベースが筆不精なためまったく更新しない可能性も大いにあります。何卒ご了承のほど。
(2021/4/5 2:00 追記)
ブコメも含め、反響があって嬉しい。拙文を読んでいただき、サービスも使っていただいてありがとうございます。コメントはすべて目を通し、より実用的なサービスにしていきます。
取り急ぎ気になったコメントへの返信を。
ーーー 以下もとの本文
当方独身アラフォー、去年の秋口までは貿易関連の零細企業に勤める、しがないサラリーマンのおっさんだった。
当時世間的にもなかなか話題になったが、コロナウィルス蔓延の影響の一環で海運用コンテナ価格が暴騰した。そのアオリを受けた私の会社でも流れる仕事の量が激減し、私個人も暇を言い渡される運びとなった。話の本筋から逸れるので詳しくは触れないが、最終的に雀の涙程度の退職金と引き換えに、40を目前に控えて職を失うことになった。
これまで趣味らしい趣味も持たず給料の大半を貯金に回して生きてきた。そのため一生を生き抜くにはとても足りないが、向こう数年間は食べていくのに困らない程度の貯金が手元にあった。それにあわせて、無限とも言えるような暇な時間を得たのだった。
何をするにも自粛自粛で気が滅入る日々だったが、しばらく心身を休めたことで若干の活力が湧き、貿易実務に関連する資格の勉強なんかを始めてみた。
しかしこれがどうにもピンとこない。退職した企業に勤めていたのも、もともと新卒時代の就職活動の失敗に端を発することであったし、仕事内容に魅力を感じていたわけでもなかった。
そんなときにふと、前々から「こんなサービスがあったら絶対使うのに」と温めていたアイデアがあったことを思い出し、WEBサービス開発というものに手を出してみようと思い立った。
が、しかしそのために必要な知識はまったくと言っていいほど持ち合わせていなかった。数年前にちょっとしたホームページを作ろうと、 HTML/CSS/Javascript/PHP やらの、本当にさわりを学んだ程度だ。
HTMLとCSSについてはなんとかかんとか「書いたものを画面に出せる」程度まではいけたが、JavascriptとPHPについては当時その存在意義も含め、トンと理解できなかった記憶がある。
そんなこんなで自分の作りたいものについて調べるうち、どうやらクローラーやらWebスクレイピングやらについて学ぶ必要があり、それにはPythonという言語についてある程度詳しくある必要があるらしかった。
サラリーマン時代、エクセルで本当に簡易なマクロを書いていたが、当時からPythonはマクロの上位互換というイメージを抱いており、いつかは勉強してみたいと思っていたので、これは幸いだった。
入門書を数冊購入し、Udemyというオンラインスクールで入門講座を受講した。かなり漠然とではあるものの、なんとか最低限の知識を身につけることはできたようだった。たぶん。
サービスの開発を志してからここまで一ヶ月ほどだっただろうか。平日休日を問わず毎日PCには触れるようにし、風呂場やトイレで「Qiita Python tips」とかググって出てきた記事に目を通していた。
(余談だがこのころに受講した https://www.udemy.com/course/python-beginner/ というコースは、PCに環境を整えるところから始まり、制御構文やファイル操作など、自分が欲する知識について体系的に学ぶことができ、コストパフォーマンスが非常に良かった。特に回し者ではない)
(さらに余談だが、最初にネット上の記事を適当にあさって環境構築してしまったため、いまだにPyenvだのAnacondaだのPipだの、Pythonが動く仕組みについて全然理解できないまま今に至っている)
閑話休題。
さてクローラーとはWEBサービスを提供するうえで主役ではなく、そのために必要なデータを集めるツールにすぎない。主役にあたるアプリケーション開発については(ここまで読んでいただいたうえで大変申し訳ないが)私にはシステムエンジニアとしてフリーランスでバリバリに働いている姪っ子がおり、強力なサポートを受けることができた。
姪っ子いわく「いまは基本的にJavascriptがわかっていればサービス提供できる。さらに言うとJavascriptでクローラーやWebスクレイピングを行うことも可能」らしく、結果的にPythonの学習に時間をかけたことは不要であったらしかった。
それどころかPythonとJavascriptのメソッドの名前が微妙に違っていることなどで詰まることが度々あり(特に配列へのappendとpush)、害悪と言っても過言ではなかったように思う。
その後は結局姪っ子に促されるがままにGoogleが提供するFirebaseというサービスと、Node.jsという言語について同じく入門書とUdemyの講座で学習し、なんとか自分が望む機能を持ったサービスを動かすことができた。姪っ子のサポートを受け始めてから4ヶ月ほど経過していた。
その名を パケ裏.com (https://pakeura.com) という、アダルトビデオのパッケージ裏面を延々と眺めていられる、人類の夢がパンパンに詰まった代物である。スマートフォンでの閲覧を想定して作った。
「結局エロかよ」と思った諸君、ブラウザバックは早計だ。人類の技術の進歩を支えてきたのはいつだって戦争とエロなのだ。まずは開発の動機について語らせてほしい。
自分に物心らしきものがつき、色を知りはじめたころから常々思っていたのだが、AVのパッケージというのはオモテ面と比べ、ウラ面のほうが遥かにエロいと思わないだろうか?
なんらかのオトナの事情があるのかもしれないが、オモテ面には美少女が斜に構えて微笑んでいる写真や、クソデカフォントで商品タイトルがババーンと大部分を占めているものが大半である。
それに比べてウラ面には、そのAVのなかでも特にエロいシーンの切り抜きが多々あったり、性欲を煽ってやまない官能的な文句がこれでもかと並んでいる。パケ裏にはエロさという概念が所狭しと集っているのである。そんなパケ裏を延々と眺めることができたら…これは私にとって長年の悲願であった。
物理店舗でAVを購入することのない私にとって、FANZAでいちいち商品ごとにパッケージ画像をクリックし、裏面を覗いていくのはなかなかに面倒な作業である。
その点 パケ裏.com を使えば、条件にマッチしたジャンルのパケ裏を無限にしゃぶりつくすことができる。作りたいサービスの要件が私の中でかなり明確だったこともあり、思った以上に短い期間で理想的なサービスを形にすることができた。
少し大仰な物言いではあるものの、こうして自分にとっての積年の夢を叶えることができた。
趣味というか、金銭の発生しない範囲でプログラミングに触れることはとても楽しく、少しずつサービスが形になっていくなかで自分の成長も日々感じることができた。システムエンジニアとして生きていくことは今後もないとは思うが、コロナ禍のおかげで人生でもなかなか得難い、貴重な時間を過ごすことができたように思う。人間万事塞翁が馬とはよく言ったものだ。
最後にくどいようだが、この パケ裏.com(https://pakeura.com)、主観だがかなり実用的なサービスとなっていると思う。ぜひ使っていただき、感想をいただけるとありがたい。
また事前に断っておくと、FANZAの商品ページへのリンクはアフィリエイトになっている。このサービスを通じてパケ裏の偉大さに気づく人が増え、さらに私の懐にちょっとした小遣いが入ってくれば、望外の喜びである。
転売ヤーってメルカリの市場の流動性確保のために必要なんじゃないかな。
欲しい物が出品されてたり出品したものを誰かがすぐに買ってくれるのは転売ヤーが居るからで、
ここを取り締まると市場として使いにくくなって純粋にメルカリを利用する人も減ってしまうから取り締まれない。
彼らは証券取引所におけるデイトレードしてる人たちみたいな存在。
全取引額、全取引回数のうち転売屋の取引がどのくらいの割合を締めてるか知りたいよね。
メルカリは公開しないだろうけど公開されてる全データをスクレイピングして分析すれば分かる気がしないでもない。
誰かやってみてくれないかな。
雑なスクレイピングしかしてないので情報が遅い。ツイッターと比べると速報で5分、ちょっと濃い情報で半日、詳細情報などは5日ほど遅れている。単にブックマークを繰り返してるだけで情報痛を気取ったり、他人の記事を雑につまみ食いしたあとの排泄物を「僕が1から作りました」と自慢げに張り出す奴しかないのだから当然と言える。まとめサイトらしくていいね。
そして騙されやすくて怒りっぽい。簡単に扇動されるし、簡単にキレる。まとめサイトの読者ってまさにこういう感じだよね。
他所のまとめサイトをベタベタホッテントリに貼る癖も復活してきてる。もうガバナンスはガバガバでどこにも存在しない。
インターネットの掃き溜めの行き着く果てだ。
いいぞ。
アダルトアフィリエイトサイトの構築を開始したのが2020年の3月中頃で、あれから早一年が経とうとしている。
仕事の合間に時間を見つけながらチビチビ構築をはじめ、何度も挫折を繰り返し、2020年11月頃になんとかリリースし、現在はそこそこのアフィリエイト収入を得られるようになったので、回顧がてら流れを書こうと思う。
副収入を得たい、と考えていた当時、ぱっと思いついたのが収益型Webサイトの構築だった。
本業がシステム関係なので技術的な部分はそこそこ分かる、しかし実際にWebで稼いだ経験はない。
いろいろ調べていくうちに、「アダルトアフィリエイトは稼ぎやすい」という記事をよく目にした。
性欲は人間の普遍的な欲求でありその需要は尽きることはない。僕はアダルトアフィリエイトのサイトを構築する方針にした。
収益型Webサイトを構築する場合、当たり前だけどまず最初に収益モデルから検討すべきだ。
Webサイトの収益形態としては、ざっくり言うと「クリック報酬広告」「アフィリエイト収入」「ユーザー直接課金」がある。
「クリック報酬広告」は訪問者がクリックするたび収入が発生するが、それなりの収入を求めるなら莫大なPVが必要になる。
「アフィリエイト収入」もそこそこPVが必要だが、最初からアフィリエイトを意識したサイトを構築するだけであれば、そこそこのPVでもそこそこの収入が入ると踏んだ。
「ユーザー直接課金」はPVがそこまでなくても成立するが、課金したいと思えるコンテンツを提供できるかというと自分には難しい、と判断した。
僕は「アフィリエイト収入」をベースとする、アダルトアフィリエイトサイトを構築することにした。
本業が技術職のクセにコードをイチから書くのが嫌だった僕は、高速WordpressのKUSANAGIを使用することにした。
お名前ドットコムで安いドメインを取得し、AWSの無料枠にKUSANAGIをデプロイし、レスポンシブ対応の高速無料テーマであるLuxeritasを採用し、CloudFlareも導入。
金がほとんどかからないのに表示速度は爆速、という鬼の布陣である。
また、WordPressなら投稿処理をある程度自動化できる。
世のアフィリエイター達は商品が売れるように丹精を込めて記事を書いていたりするが、そんなもの糞喰らえだ。
Pythonでコードを書いて既存サイトからスクレイピングして、加工して、Crontabで自動投稿する。これに限る。
KUSANAGI(CentOS)には既定でPythonがインストールされているので、pipで必要なパッケージを追加。
アダルト界の巨塔といえば「Xvide**」や「Pornh**」だ。
世界一のアダルトサイトたちからスクレイピングで動画を取得し、こちらのサイトを充実させようと考えた。
しかし、ここは無修正天国なので、不用意にスクレイプして無修正動画を載せてしまうと日本では即オナワだ。
考えたのが、モザイクあり動画のみを載せているチャンネルから動画を選定して取得しよう、という試み。
とあるチャンネルでは、動画タイトルにFANZAの品番が入っていたりしたので、その品番をキーワードに更にFANZA側でスクレイプし、紹介先ページとして整理できると思った。
収益モデルを最初に考えておく重要性はここにある。どういうコンテンツをサイトに掲載し、どこの商品ページから購入してもらうか?
この流れの整理がついていないと、いいサイトを作ったとしても収益化は実現できない。
「Xvide**」に極上にエロい神動画があってそれを自分のサイトに掲載したとしても、その商品の情報が分からなければ商品紹介も出来ないわけである。
僕は、動画タイトルの品番から商品を特定して紹介する方法であれば、サイトを収益化していけると思った。
まず、「Xvide**」や「Pornh**」は、違法アップロード天国であるがゆえに、動画が削除依頼により次々と消される。
こちら側で取り込んだ動画の死活判定を実装してリンク切れページを削除していくとデータベースが汚れていくし、
今後サイトコンテンツが充実していったあとも追加と削除を繰り返していくのは果てしないことのように思われた。
そもそも、商品紹介をするだけなら、「Xvide**」や「Pornh**」から情報を取得する必要があるのだろうか?
「Xvide**」や「Pornh**」では、動画の内容やタイトルから商品の情報が分からないケースはとても多い。
FANZA公式のサンプル動画でもいいんじゃないのか?そんなことを考え始めた。
僕は、「Xvide**」「Pornh**」からスクレイプする、という方針を辞め、サイトを作り直すことにした。
FANZA公式のサンプル動画からスクレイプする方針に改めたが、単純にスクレイプするだけならそのサイトには何の価値もなく、何か付加価値が必要だと考えた。
そこで考えついたのが、多言語対応型のアダルトアフィリエイトサイトである。
FANZAの公式サイトは多言語対応していないため、それに対応するサイトを作れば国内だけでなく世界中から集客を見込める、と思った。
Wordpressには多言語対応できるプラグインが用意されており、ある程度の自動翻訳もしてくれる優秀なプラグインもある。
それに、AWSのboto3ライブラリを使えばAWS Translateを使っての翻訳も可能。完璧な構想だと思った。
最終的には15言語に対応する構成にし、FANZAの動画もある程度登録が完了し、やっと世に出せる、という状態になった。
ところが、ここでも自分の構想が致命的に誤っていたということを知ることになる。
利用規約にはっきりと明文化されているが、FANZAはそもそも海外から利用できないサービスであり、国内ユーザーのみを対象としていた。
そのため、「FANZAの公式サイトは多言語対応していない」のは当たり前の話で、前提から既に間違いまくっていた。
ようやくリリースまで漕ぎつけたと思った矢先、敢え無くサイトを作り直すことになった。
これが二度目の失敗である。
多言語対応に意味がないことがわかり、サイトの方向性を決めあぐね、いろんなアダルトアフィ指南サイトを徘徊していた。
そこで「エ○タレスト特化型サイト」というものの存在を知った。
実は「エ○タレスト」はアダルトアフィ業界では非常に有名なサイトで、1日で数百万のPVを誇るモンスターサイトである。
どこぞのサイトで見たが、アクセス流入は「3つのS(SEO・SNS・Satellite)」を意識しろ、というものがあるらしい。
SEO・SNSは今さら既出なので多くは語らないが、Satelliteとは中継、つまりアンテナサイトやアクセス交換のことである。
「エ○タレスト」への登録はまさしくSatellite戦略であり、登録して動画が掲載されれば莫大なPVの恩恵を受けることが出来る。
「エ○タレスト」では「Xvide**」「Pornh**」等から動画を紹介する必要があり、公式のサンプル動画は対応していない。
最初の失敗で「Xvide**」「Pornh**」を避けていたが、莫大なPVの恩恵を受けられるなら…という甘い誘惑に負け、特化型サイトの検討を始めた。
まず、ここでももちろん無修正動画は回避しなければいけないし、視聴時間が長すぎる動画もダメ、商品の内容が分からないとダメ、などの依然としたハードルがある。
そこで考えたのが、「エ○タレスト」に既に掲載されている他サイトの動画ページから情報を取得し、自サイトに掲載する、というもの。
既に「エ○タレスト」に掲載されている実績のある動画であるため無修正の心配はなく、商品の情報も取得可能である。
他人の褌で相撲を取るような卑怯極まりない戦略だが、動画タイトルのカスタマイズ性にオリジナルティを加え、サイトを充実していこうとした。
そして「エ○タレスト」に掲載依頼をしようとしていた矢先、2020年10月から「リーチサイト規制」が施行されることを知った。
この規制はつまり、『今までは違法サイトへのURLリンクだけならセーフだったけど、今後はURLリンクだけでも処罰対象になるよ、親告罪だけどね』というものだ。
「エ○タレスト特化型サイト」は、この規制に思いっ切り抵触するサイトなのである。
いきなり全てのサイトを取り締まることは現実的に不可能だし、そもそも親告罪なのでメーカー側の告訴が無ければ問題ないし、それによる処罰を受ける可能性は低いとは思ったが、わざわざ処罰対象の行為でリスクを取る必要もないとも思った。
そのため、「エ○タレスト特化型サイト」も取止め、サイトを作り直すことにした。
余談になるが、2020年12月の「Pornh**」動画一斉削除事件により「エ○タレスト特化型サイト」は軒並み壊滅的な被害を受けることになり、やらなくて良かったと今は思う。
「アダルトアフィは誰でも稼げる」のは一昔前の時代であり、現在は昔ほどは稼げないと言われている。そのあたり、情勢の変化で受ける影響の大きさを肌で感じる。
これが三度目の失敗である。
「エ○タレスト特化型サイト」の撤退で心が折れそうになりつつも、初心に帰りFANZA公式サンプル動画で何かできないか考えた。
夜もすがらサンプル動画を視聴して一人快感に耽っている中、サンプル動画の総視聴時間が再生するまで分からない、というところに不満を覚えた。
「Xvide**」「Pornh**」ではサムネイルに視聴時間が表示されるので、とてもユーザーフレンドリーだ。
ここで思い付いたのが、サンプル動画の視聴時間を表示して一覧として並べれば、それが付加価値になるのではないか?ということ。
サンプル動画の中には視聴時間が5分以上のものもあれば、1分以下の極端に短い動画もある。
極端に短い動画を排除してある程度以上の視聴時間のサンプル動画を一覧化すれば、それだけで価値のあるサイトになると踏んだ。
何より、海賊版サイトを利用せず、正規サンプルを利用する真っ当な方法でポルノ産業に貢献できる、と思うと少し胸が躍った。
方針が決まったので、早速仕組み作りに取り掛かる。
FANZAの新着動画ページから、サンプル動画があるページURLの一覧を取得する。
個別ページから商品情報と動画URLを取得し、動画の視聴時間はFFprobeで取得する。
視聴時間が短いものは除外し、長いもののみ情報を加工してWordpressに投稿する。
サムネイル用の画像は、OpenCVで顔認識できるサンプル画像の中からランダムに選定する。
後は、カスタムCSSをゴリゴリ書いてレイアウトを整形し、表示処理など気に入らない部分はテーマのPHPコードを魔改造して対応した。
2020年分の動画全件に対して視聴時間判定と登録処理を繰り返し実行し、2020年11月、ようやくサイトをローンチした。
構想から構築までおよそ8ヶ月、三度の失敗と挫折を経験して何とかサービス公開まで漕ぎつけることができた。
既に述べたが、アクセス流入のための3つのS(SEO・SNS・Satellite)を意識したアクセスアップ対応はもちろん実施した。
SEO対策は、然るべきプラグインを導入し、SEO対応しているLuxeritasを使ってさえいれば、コンテンツを充実させていけばそれで十分と考えた。
SNS対策は、Twitterアカウントを作成してTwitterAPIの申請を行い、アクセスキーをサイトに登録して投稿後に自動ツイートする仕組みを作った。
Satellite対策は、ランキングサイトやアンテナサイトに登録し、掲示板でのゲリラ活動など水面下でチビチビ広報活動を行った。
結果として功を奏したのはSEO対策のみで、サイトのアクセスリファラのほとんどが検索エンジンからの流入になっている。
なので、SNS・Satelliteの取り組みも強化しなければいけないと思い、この増田を書いている部分はある。そこは勘弁してほしい。
動画の登録処理がリソース不足やスクレイプ先サイトの構成変更のため時々異常終了しており、根本対応にたびたび時間を取られた。
スケジュール投稿が時々失敗したり、Googleサーチコンソールでインデクスエラーを修正したり、今も運用カバーはチラホラある。
しかし、自動投稿の仕組みを作っているので、正直言うと不具合対応以外にやることはほとんどない。
日常的にやっているのはPV確認、収支確認、ログ確認ぐらいのもので、手動更新することを考えるとラクなもんだ。
「運用開始後に如何にラクするか」というのはやはり企画時点から考えておくべきだな、とつくづく思った。
ここまで読んでくれた人なら気になるであろう、サイトへのアクセスとアフィリエイト収入について軽く書く。
WordpressのJetPackを見ると、SEO効果のおかげか右肩上がりを維持できていて、2020年12月は2万PV、2021年1月は4万PV、2021年2月は6万PVと堅調な数字だ。
アフィリエイト収入も12月は約2000円、1月は約6000円、2月は約10000円という結果が出ており、アフィリエイターの挫折ラインである月500円をすぐに超えることが出来た。
アフィリエイト協会の調査によると、2020年は3人に2人は月に10000円も稼げていない状態らしく、僕はとりあえずの成果をあげることができて満足している。
http://affiliate-marketing.jp/release/202007.pdf
AWSの無料枠が今月で切れてしまうので、今月までに成果を出せなかったら潔く撤退するつもりだったが、今ではサーバ代くらいなら稼げそうだ。
もっとアクセスが増えれば効果的な広告を打ち出すことも出来るので、マネタイズ増強を踏まえてもう少し運用を続けてみようと思う。
ただし今後については、全く別の収益モデルにも挑戦してみたいので、今のサイトがもう少し軌道に乗ってきたら、色々と手を広げてみようと思う。
Luxjulia - アダルト動画(エロ動画)無料サンプル蒐集サイト
アダルトアフィリエイトに限らないが、収益型Webサイト構築で考えるべきことは以下だ。
それでは皆さん、さようなら。レッツエンジョイ ポルノ・テック・マネー!
このネタで本書けそうだわ。
実行すると、各記事を
{
users:ブクマ数,
tags:[タグ]
}
の形式に変換し、500ブクマ以上でフィルタし、ブクマ数降順で返す。
#一行版
curl -s https://b.hatena.ne.jp/hotentry/it | pup --charset utf-8 'div.entrylist-contents-main json{}' | jq -r '[.[] | {title: (.. | select(.class? == "entrylist-contents-title") | .children[].title), url: (.. | select(.class? == "entrylist-contents-title")) | .children[].href, users: (.. | select(.class? == "entrylist-contents-users") | .children[].children[].text | tonumber), tags: ([.. | select(.class? == "entrylist-contents-tags") | .children[]?.children[]?.text])}] | unique | map(select(.users >= 500)) | sort_by(.users) | reverse'
#変数版
title='title: (.. | select(.class? == "entrylist-contents-title") | .children[].title)' users='users: (.. | select(.class? == "entrylist-contents-users") | .children[].children[].text | tonumber)' url='url: (.. | select(.class? == "entrylist-contents-title")) | .children[].href' tags='tags: ([.. | select(.class? == "entrylist-contents-tags") | .children[]?.children[]?.text])' target='https://b.hatena.ne.jp/' hotentry='hotentry/it' curl -s $target$hotentry | ¥ pup --charset utf-8 'div.entrylist-contents-main json{}' | ¥ jq -r "[.[] | {${title}, ${url}, ${users}, ${tags}}] | unique | map(select(.users >= 500)) | sort_by(.users) | reverse"
■【追記アリ】 森喜朗会長の性差別発言を受けて、自民党女性局・自民党女性国会議員はどう反応したか https://anond.hatelabo.jp/20210209083036 シリーズの読み方、というか注意点を列挙する。
まず、本来最初のエントリをあげたら、本エントリに書く様なことをすぐに書く予定だった事、クソガキみたいな茶々や揶揄するトラバ等にプッツンして、急遽全与党議員分の作業を先にしてしまったという言い訳をさせていただきたい
そして結論から先に言えば、一連のエントリでの発言チェックは「SNSで森発言へ言及した」事に主眼を置くべきで、「SNSで森発言へ言及しなかった」事は主眼に置くべきではないという事だ。
一番最初にこれは言っておくべきで、表の「メディア」欄へのT(witter)やF(acebook)は、あくまで自民党のWebページの議員詳細ページに登録があれば書いている。TもFも無い場合はnone扱いとしているが、該当期間(2021/02/03 ~ 2021/02/09)の間にツイートやFacebookのエントリを投下していない議員もたくさんいる。本来プログラムによるスクレイピング等といった手段が取れれば、該当期間の投下エントリ数を各議員、各メディアごとに表せたが、今回は無理だった。まとめている筆者の感覚では該当期間中にエントリ投下があった議員数は総議員数の1/4位ではないかと思う。なので、自民党男性衆議院議員についてのエントリをみて、反応があったのが6/258とするのは端的に間違いである。ここまで気を配って作業を始められればよかったのだが、生憎そうはならなかったという事をご考慮頂きたい。
色んなパターンがあり、数か月~数年単位でTwitterもFacebookも更新していない議員もいれば、数週間程前からエントリ投下が止まっている議員もいる。動画や個人のWebサイトも確認しないのでそこで言及している可能性もある。あくまで厳密に、自分が書いた言葉通り受け取って頂きたい。細心の注意を払って確認はしたが、何せ個人の業なので見逃しもあるだろう。
次手動でやる気がまるでないので、無知なりになんとかスクレイピングに移行したいと思う。そうすればそれなりの時間はかかるだろうが、手間は数十分の一かそれ以下になるし、確認期間のエントリ投下数なども含めて表にしたり分析ができる。筆者はpython環境すらまだないので実現可能か否かも分からない状態だが。正直なところ偉い人にツールを作ってほしい。そうすれば色んな話題について各議員のSNSでの反応が可視化できる。
更に追記予定
Amazonの公式APIで商品検索して良い感じに人気商品とかをリスト化して検索とかできるようにするWebサービスを作ろうと着手してたんだが、
どうやらAmazonの商品検索APIはAmazonアソシエイトっていうアカウントを作って承認されないと使えないらしいんだ。
んで、困ったことに去年くらいからこのAmazonアソシエイトっていうのがアカウント審査の基準が厳しくなったらしくって、
申請 ↓ 申請したサイトで180日以内に3つ以上の売り上げを出す(アフィだけなら貼れる) ↓ Amazonからサイトの審査開始 ↓ 問題なければ承認、Amazon Apiが使えるようになる
このような流れになる
ブログとかWebメディアの運営者ならこれに従ってやればいいだけだけど、
困ったことに俺が作ろうとしてるのはAmazonAPIを前提としたWebサービスなんだ。APIがなければ何も作れない。
作るものがなければサイトを作って180日以内に3つ以上の売り上げを出すなんてこともできないわけで、
めちゃくちゃ困ってるんだけどさぁ、これ一体どうすればいいわけよ
Amazonはスクレイピングも規約上禁止っぽいし、ほぼ詰みか?
教えてパソコンの大先生
プログラミングを学ぶと稼ぐに困りにくくなるらしい。
毎月家賃と光熱費と奨学金が口座から引かれるところを見るたびに、GAMEOVERが近づいてきてるような感覚に襲われる、クソ雑魚フリーターからするとすごく羨ましい。
おすすめ本みたいなものから色々探してみて『12歳からはじめるゼロからのPython』というのを手にとって見た。もう2倍以上上回ってるけど、知能と心は12歳みたいなものだから問題ないでしょう、多分。
ちなみにゲームプログラミング系の本だったんだけど、これはゲームが作りたいとかがあったわけじゃなくて、なんとなく面白そうだったから。
今までの人生を振り返って、例えば数学の教科書なんかそうだけど、2次関数がどうのこうのと公式を並べられて、一時的に覚えることはあっても『で、これはなんの役に立つの?』という思いが先行してやる気がでないことが多かった。だからゲーム作りっていう、学んだらこれができるってのがわかりきったものを手に取ってみました。
それで1ヶ月ぐらいやってみて、内容はわかったし、教科書どおりのことをやるぐらいの実力はついたけどここで思ったんですよ。
『で、こっからどうやって稼ぐの?』
考えてみるとゲームの作り方学んだからって、これを活かす方法がわかんないんですよね。
第一、ゲーム作りだったらUnityとかのほうがいいんでしょ?知らないけど。Pythonが良いって話を優先しすぎて足元見えてなかったなぁ。
そこから『Unityの教科書』っていう、なんか猫が書いてある本を買って、猫がひたすらジャンプして上を目指していくゲームみたいなの作れるようになったんですよ。WebGL?っていうのにして、Unityroomってところに上げて、一人で遊んでニヤニヤしてたんですけど、ふと『あれ、一銭も稼げて無くね』っていう。
そもそもUnity使えるようになったからってどうやって稼げば良いんですかね?
そこで立ち返って、そうそうPythonがおすすめだったんだよ。勝手にUnity使い始めてしまった。だから『Pythonによるスクレイピングと機械学習』みたいな本買ったんですよ。
で、読み進めて、なるほどサイトから情報抜き出せるのか~って、やれることわかったんですけどやっぱ『で、どうやって稼ぐの?』ってなるんですよね。
何が言いたいかっていうと、ザコが思うにプログラミングにおいて一番大事なことって発想力とか創造力とか、プログラミング以外の部分なんじゃないかっていう。
スクレイピングと機械学習が使えるようになっても、それを活かして何をやればいいのかわからない。
ゲーム作れるようになっても、イラストもかけないし、どんな物作ったら面白いのかわからない。
テレビで活躍してるお笑い芸人と同じ言語を僕は喋れますけど、だからといって彼らのようにはなれないじゃないですか。同じようにプログラミング言語を使えるようになっても、それを使って何をするかが思いつかなかったり、そこの技術力がなかったり。
そういう人にとってプログラミングって稼ぐ道具として不釣り合いだったりするんですかね?
タイトル通りザコの思うプログラミングの話なんで、はてな見るような上澄みの人からすると見える世界はぜんぜん違うんでしょうけど、ちょっと触った人間からするとプログラミング言語って活かし方が良くわからない代物でした。
全然、強要とかしないんですけど、よかったらプログラミングで副収入得るとしたらどうすればいいのか教えてもらえたら嬉しいです。
はてブの「過去の人気エントリー」ページをPythonを使ってスクレイピングし、その中に「これはひどい」タグがついたエントリーがいくつあるかを日毎にカウントした。
集計の結果、「これはひどい」タグのついたエントリーが最も多かった日は2020年10月19日で、13エントリーであることがわかった。
はてなブックマーク - 人気エントリー - 総合 - 2020年10月19日
せっかくなので1位以外も載せておく。なお、5位以下は数が多すぎるので省略。