はてなキーワード: クローラーとは
ロボット系の研究とかで色々あると思うけど、なかなか難しいと思うんだよなあ
車椅子だけでなく、いわゆるロボットを人間の基準で設計された世界に合わせて動かすとなると、
フレーム問題云々までいかなくても、ドアの開け閉めのモーションだけで永遠に悩めそうというか
ドアのノブ、取っ手の種類はいくつもあるし、その寸法も多種多様なわけだけど、
人間は常識でそれをなんとなく理解して、なんとなくで使えてしまうんだけど、
ロボットはそれが無理なんで、AIだのMLだの最近の時代になっても、
DARPAチャレンジとかで延々とドアの前で計測して、シミュレーションして、学習して、
みたいなのを棒立ちになって繰り返して、ようやく動き出して、それなのに転倒するとかw
映画とかでもそうだけど、作り手視点でなくて単に消費者視点でしか見れないと、
最先端のロボットって馬鹿なの?と思われてしまうわけだけど、そうも簡単に行かないというか、
もっとアドホックというか乱暴で良ければ楽だったりもするんだけど、
要はドアをぶち破るまで行かなくても、そこそこ傷つけてもいいとかだったらいいんだけど、
一応課題が工場の部屋に入ってバルブを締めるとかだと、金属に傷つけると引火したりもあるわけで、
なんだかんだ人間だったら、消防員が初めて見る扉だったとしても、丁寧な開閉が問題なくできるわけで、
クローラーみたいな運搬用の機械で自販機の中身を人間が駅の階段で運んでたりするけど、
飲料缶は最悪下までずり落ちても破損で済むけど、人間は死んでしまうんで、
どんな階段にでも対応できて健常者並みに安全というのを実現するのは難しいんでないかと思ったり
ちなみに、自宅の最寄り駅から近い駅にバリアフリーをかなり徹底した駅があるのだけど、
スロープやエレベーターが充実しているので、普通の駅より障害者を見かける頻度が違う気がする
やっぱり、誰の手助けも借りずに行動したいという気持ちは身体障害者にだってあるだろうし、
技術的な質問はしたけど、どういうサービスを作ってるかは巧妙に隠せていた(と思う)
FANZAにアクセスする必要があって、それを隠したかったからクローラーの部分については特に自分で調べる必要があったんだw
(2021/4/5 15:00 追々記)
各所でいただいたコメントの返信手段に困り途方に暮れたので、Twitterアカウントを作成しました。コメントはすべて目を通しています。励みになります。
直近の開発予定や、アクセス状況とアフィリエイト収入などの数値についてつぶやく予定なので、よければフォローいただけると。
ただしベースが筆不精なためまったく更新しない可能性も大いにあります。何卒ご了承のほど。
(2021/4/5 2:00 追記)
ブコメも含め、反響があって嬉しい。拙文を読んでいただき、サービスも使っていただいてありがとうございます。コメントはすべて目を通し、より実用的なサービスにしていきます。
取り急ぎ気になったコメントへの返信を。
ーーー 以下もとの本文
当方独身アラフォー、去年の秋口までは貿易関連の零細企業に勤める、しがないサラリーマンのおっさんだった。
当時世間的にもなかなか話題になったが、コロナウィルス蔓延の影響の一環で海運用コンテナ価格が暴騰した。そのアオリを受けた私の会社でも流れる仕事の量が激減し、私個人も暇を言い渡される運びとなった。話の本筋から逸れるので詳しくは触れないが、最終的に雀の涙程度の退職金と引き換えに、40を目前に控えて職を失うことになった。
これまで趣味らしい趣味も持たず給料の大半を貯金に回して生きてきた。そのため一生を生き抜くにはとても足りないが、向こう数年間は食べていくのに困らない程度の貯金が手元にあった。それにあわせて、無限とも言えるような暇な時間を得たのだった。
何をするにも自粛自粛で気が滅入る日々だったが、しばらく心身を休めたことで若干の活力が湧き、貿易実務に関連する資格の勉強なんかを始めてみた。
しかしこれがどうにもピンとこない。退職した企業に勤めていたのも、もともと新卒時代の就職活動の失敗に端を発することであったし、仕事内容に魅力を感じていたわけでもなかった。
そんなときにふと、前々から「こんなサービスがあったら絶対使うのに」と温めていたアイデアがあったことを思い出し、WEBサービス開発というものに手を出してみようと思い立った。
が、しかしそのために必要な知識はまったくと言っていいほど持ち合わせていなかった。数年前にちょっとしたホームページを作ろうと、 HTML/CSS/Javascript/PHP やらの、本当にさわりを学んだ程度だ。
HTMLとCSSについてはなんとかかんとか「書いたものを画面に出せる」程度まではいけたが、JavascriptとPHPについては当時その存在意義も含め、トンと理解できなかった記憶がある。
そんなこんなで自分の作りたいものについて調べるうち、どうやらクローラーやらWebスクレイピングやらについて学ぶ必要があり、それにはPythonという言語についてある程度詳しくある必要があるらしかった。
サラリーマン時代、エクセルで本当に簡易なマクロを書いていたが、当時からPythonはマクロの上位互換というイメージを抱いており、いつかは勉強してみたいと思っていたので、これは幸いだった。
入門書を数冊購入し、Udemyというオンラインスクールで入門講座を受講した。かなり漠然とではあるものの、なんとか最低限の知識を身につけることはできたようだった。たぶん。
サービスの開発を志してからここまで一ヶ月ほどだっただろうか。平日休日を問わず毎日PCには触れるようにし、風呂場やトイレで「Qiita Python tips」とかググって出てきた記事に目を通していた。
(余談だがこのころに受講した https://www.udemy.com/course/python-beginner/ というコースは、PCに環境を整えるところから始まり、制御構文やファイル操作など、自分が欲する知識について体系的に学ぶことができ、コストパフォーマンスが非常に良かった。特に回し者ではない)
(さらに余談だが、最初にネット上の記事を適当にあさって環境構築してしまったため、いまだにPyenvだのAnacondaだのPipだの、Pythonが動く仕組みについて全然理解できないまま今に至っている)
閑話休題。
さてクローラーとはWEBサービスを提供するうえで主役ではなく、そのために必要なデータを集めるツールにすぎない。主役にあたるアプリケーション開発については(ここまで読んでいただいたうえで大変申し訳ないが)私にはシステムエンジニアとしてフリーランスでバリバリに働いている姪っ子がおり、強力なサポートを受けることができた。
姪っ子いわく「いまは基本的にJavascriptがわかっていればサービス提供できる。さらに言うとJavascriptでクローラーやWebスクレイピングを行うことも可能」らしく、結果的にPythonの学習に時間をかけたことは不要であったらしかった。
それどころかPythonとJavascriptのメソッドの名前が微妙に違っていることなどで詰まることが度々あり(特に配列へのappendとpush)、害悪と言っても過言ではなかったように思う。
その後は結局姪っ子に促されるがままにGoogleが提供するFirebaseというサービスと、Node.jsという言語について同じく入門書とUdemyの講座で学習し、なんとか自分が望む機能を持ったサービスを動かすことができた。姪っ子のサポートを受け始めてから4ヶ月ほど経過していた。
その名を パケ裏.com (https://pakeura.com) という、アダルトビデオのパッケージ裏面を延々と眺めていられる、人類の夢がパンパンに詰まった代物である。スマートフォンでの閲覧を想定して作った。
「結局エロかよ」と思った諸君、ブラウザバックは早計だ。人類の技術の進歩を支えてきたのはいつだって戦争とエロなのだ。まずは開発の動機について語らせてほしい。
自分に物心らしきものがつき、色を知りはじめたころから常々思っていたのだが、AVのパッケージというのはオモテ面と比べ、ウラ面のほうが遥かにエロいと思わないだろうか?
なんらかのオトナの事情があるのかもしれないが、オモテ面には美少女が斜に構えて微笑んでいる写真や、クソデカフォントで商品タイトルがババーンと大部分を占めているものが大半である。
それに比べてウラ面には、そのAVのなかでも特にエロいシーンの切り抜きが多々あったり、性欲を煽ってやまない官能的な文句がこれでもかと並んでいる。パケ裏にはエロさという概念が所狭しと集っているのである。そんなパケ裏を延々と眺めることができたら…これは私にとって長年の悲願であった。
物理店舗でAVを購入することのない私にとって、FANZAでいちいち商品ごとにパッケージ画像をクリックし、裏面を覗いていくのはなかなかに面倒な作業である。
その点 パケ裏.com を使えば、条件にマッチしたジャンルのパケ裏を無限にしゃぶりつくすことができる。作りたいサービスの要件が私の中でかなり明確だったこともあり、思った以上に短い期間で理想的なサービスを形にすることができた。
少し大仰な物言いではあるものの、こうして自分にとっての積年の夢を叶えることができた。
趣味というか、金銭の発生しない範囲でプログラミングに触れることはとても楽しく、少しずつサービスが形になっていくなかで自分の成長も日々感じることができた。システムエンジニアとして生きていくことは今後もないとは思うが、コロナ禍のおかげで人生でもなかなか得難い、貴重な時間を過ごすことができたように思う。人間万事塞翁が馬とはよく言ったものだ。
最後にくどいようだが、この パケ裏.com(https://pakeura.com)、主観だがかなり実用的なサービスとなっていると思う。ぜひ使っていただき、感想をいただけるとありがたい。
また事前に断っておくと、FANZAの商品ページへのリンクはアフィリエイトになっている。このサービスを通じてパケ裏の偉大さに気づく人が増え、さらに私の懐にちょっとした小遣いが入ってくれば、望外の喜びである。
これ同じ内容の投稿が何回もされているけど "無意味" で終わるんだよな
マンガに限らず世界中に元増田に刺さる・心揺さぶるコンテンツは星の数ほど存在している
仮に引っ張って来れても増田が生き物である限り時間的に全てに目を通すのは無理だぞ
タイミングに任せろよ。自分に刺さるコンテンツの存在に気づかず、
本気で望めば・金積めば意外となんとかなるモンだ
無意味である理由じゃなくてあくまでお題目を可能にする手段が知りたいんだよ!!!なら
趣味と実益を兼ねられて良かったね。まずは論文を読むところからだな
そこまで手間掛けたくないなら何度も言われているように
マンガアプリを複数入れる、マンガ雑誌・アプリを買う これしかないね
ガキが書いたBotを受け流しきれず、安全破壊でサイトが落ちて知らせる(2度)というのはいいが、どうしてガキが破壊したか?というときに
CDN側はオリジンからはわからないから、CDNからクロールできなかったといわれると、そりゃそうかもな。
大量に持っていくと安全破壊で、サイトが落ちる。抜かれたくはないからな。
とはいえ、絵描きのサイトでもないのに、画像や動画がS3になっていないのは、こちらの落ち度。
とはいえ いくつかのケースでは破壊が早すぎるというのと、オリジンと気がついてもオリジンからCDNに飛ぶのが難しいといわれると、そりゃそうだろうな。気をつける
そうかもな、合意する。
絵かきのサイトの場合は、絵は見るのが目的でクロールは対象外だから、クローラーは避けろはrobots.txtに書いてくれ そりゃそうかもな
時間 | 記事数 | 文字数 | 文字数平均 | 文字数中央値 |
---|---|---|---|---|
00 | 94 | 12517 | 133.2 | 55.5 |
01 | 40 | 6558 | 164.0 | 46 |
02 | 24 | 5433 | 226.4 | 50 |
03 | 16 | 3380 | 211.3 | 71.5 |
04 | 19 | 4733 | 249.1 | 92 |
05 | 18 | 3620 | 201.1 | 83.5 |
06 | 23 | 2832 | 123.1 | 100 |
07 | 47 | 7200 | 153.2 | 97 |
08 | 116 | 10455 | 90.1 | 49.5 |
09 | 134 | 9310 | 69.5 | 37.5 |
10 | 123 | 14147 | 115.0 | 43 |
11 | 132 | 14834 | 112.4 | 63.5 |
12 | 194 | 13407 | 69.1 | 42 |
13 | 127 | 12107 | 95.3 | 45 |
14 | 161 | 14638 | 90.9 | 37 |
15 | 168 | 13311 | 79.2 | 48 |
16 | 180 | 17614 | 97.9 | 53 |
17 | 184 | 24893 | 135.3 | 39 |
18 | 303 | 27666 | 91.3 | 38 |
19 | 192 | 16585 | 86.4 | 37 |
20 | 220 | 13424 | 61.0 | 30.5 |
21 | 145 | 12512 | 86.3 | 42 |
22 | 129 | 22202 | 172.1 | 42 |
23 | 168 | 17574 | 104.6 | 48 |
1日 | 2957 | 300952 | 101.8 | 43 |
信用経済(10), 石原伸晃(5), クローラー(10), しほ(8), 18cm(3), 虫ケラ(6), クローラ(3), きらー(5), ディスガイア(3), クロール(10), 氷河(3), 五輪(18), ワクチン(42), 麻生(13), 因果関係(7), 瞑想(8), 楽器(8), ムーブ(10), 嘘つき(10), 女装(7), 不審(6), 身長(15), JK(11), チケット(11), 洗脳(11), 絡ま(8), コロナ禍(17), 不動産(10), 信者(19), プログラマー(17), 搾取(19), 無意味(17), 騙さ(16), オリンピック(17), 反(14), 入院(12)
■西野サロンで炎上した、さいとうしほを救いたい /20210121201121(33), ■背の高い人間に安易に「身長何センチ?」と質問しないほうがいい /20210121202723(31), ■「オッサン趣味をJKに置き換えた漫画」の逆バージョン /20210120200820(19), ■Switchなんだけど、なんでまだ気づかないの? /20210122105924(16), ■パパが毎日ご飯作ってくれたらいいのに /20210122202211(14), ■大学時代好きだった女の子がプペランカー化していた /20210122101329(14), ■泡姫に聞いたチンコサイズとか痛い客の話とか /20210122011250(11), (タイトル不明) /20210122163259(11), ■詐欺の被害にあった /20210122175123(9), ■超時空世紀オーガスの設定むっちゃ面白いのに /20210122004550(9), ■ /20210122142508(8), ■ヤフコメに頓珍漢が湧いている /20210122181003(8), ■『もう中学生』が最近めっちゃ覚醒してる話 /20210121232528(7), ■「コロナは茶番」派の人間を観察してわかったこと /20210121020612(7), ■不味いもの /20210122123323(6), ■東大生に安易に東大ネタを振るやつ全員死んでくれ /20210122153137(6), ■ニート問題の画期的解決法を思いついた! /20210122122013(6), ■自殺する奴ってなんで自殺すんの? /20210122161642(6), ■子供の名前は /20210121230141(6), ■性的写真を撮れないスマホの意義 /20210122212435(5), ■掃除機や洗濯機、エンジンは稼働させることを「かける」っていうけどテレビやオーディオは「かける」とはいわないね /20210121120618(5), ■袋麺の不都合な真実 /20210121190628(5), ■夏頃コロナにかかっておけばよかったと思ってる /20210121190833(5), ■マスクしてれば100%絶対感染しないわけ?? /20210122000745(5), ■女装コスプレイヤーに価値はないの?どう努力すれば誰からも好かれる人気者になれるの? /20210122000949(5), ■さいとうしほを救いたいがキモい /20210122093306(5), ■今後の西野がやりそうなことを予想する /20210122143450(5), ■袋麺にも具をいれてほしい /20210122165801(5), ■大学一年生です。若いから分かる現状があります。力を貸してください。 /20210122172406(5), ■ネットじゃなくて本にしかない情報が多いというけど /20210122173812(5), ■自分のことを嫌いな人を好きにさせる方法はないのか /20210122175112(5), ■ある地方公務員獣医師の呟き /20210122175129(5), ■新型コロナで医療機関が逼迫しているなら /20210122180417(5), ■ここに馴染めない /20210120182029(5)
それは容易いがクローラー対策でstatic pressしたとして なんかピンとこない 技術的にも容易いが なんかピンとこない
そもそも論として情報は無料じゃない。それをクロールするというのが納得行かない いまのほうがクロールしたらサイトがぶっとまって、クロールさせない分まし
s3のstatic pressだとクロールされたときにこうやって、サイトがぶっ止まるという現象を引き起こさないから気が付きにくい
方向性は見えてきた
Wordpressをどうするかだが、画像がないApacheなら少しは軽くなる
あとはコメント欄 どうせ使われてもいない 機能にたいしてクラックくらった場合にどうするか?なんだろうなぁ めんどくせぇ
そりゃ多数のサイトが閉鎖するわ
むしろ、異常負荷が長時間かかったときに、サーバが自閉したAWSのほうが問題。CPUが落ちるのはVCPUだからいいとして
なぜインスタンスごと自閉させた。
半日を超えて不正アクセスされないと、不正アクセスとして、訴える証拠がそろわない。
常時100%でも文句をいわれる筋合いはない