「クローラー」を含む日記 RSS

はてなキーワード: クローラーとは

2021-04-05

anond:20210405132900

ロボット系の研究とかで色々あると思うけど、なかなか難しいと思うんだよなあ

車椅子だけでなく、いわゆるロボット人間基準設計された世界に合わせて動かすとなると、

フレーム問題云々までいかなくても、ドアの開け閉めのモーションだけで永遠に悩めそうというか

ドアのノブ、取っ手の種類はいくつもあるし、その寸法も多種多様なわけだけど、

人間常識でそれをなんとなく理解して、なんとなくで使えてしまうんだけど、

ロボットはそれが無理なんで、AIだのMLだの最近時代になっても、

DARPAチャレンジとかで延々とドアの前で計測して、シミュレーションして、学習して、

みたいなのを棒立ちになって繰り返して、ようやく動き出して、それなのに転倒するとかw

映画とかでもそうだけど、作り手視点でなくて単に消費者視点しか見れないと、

最先端ロボットって馬鹿なの?と思われてしまうわけだけど、そうも簡単に行かないというか、

もっとアドホックというか乱暴で良ければ楽だったりもするんだけど、

要はドアをぶち破るまで行かなくても、そこそこ傷つけてもいいとかだったらいいんだけど、

一応課題工場の部屋に入ってバルブを締めるとかだと、金属に傷つけると引火したりもあるわけで、

なんだかんだ人間だったら、消防員が初めて見る扉だったとしても、丁寧な開閉が問題なくできるわけで、

話が脱線しまくったけど、車椅子特殊タイヤとか、

クローラーみたいな運搬用の機械自販機の中身を人間が駅の階段で運んでたりするけど、

飲料缶は最悪下までずり落ちても破損で済むけど、人間は死んでしまうんで、

どんな階段にでも対応できて健常者並みに安全というのを実現するのは難しいんでないかと思ったり

ちなみに、自宅の最寄り駅から近い駅にバリアフリーをかなり徹底した駅があるのだけど、

スロープやエレベーターが充実しているので、普通の駅より障害者を見かける頻度が違う気がする

やっぱり、誰の手助けも借りずに行動したいという気持ち身体障害者だってあるだろうし、

複雑な技術解決するより、単純な技術最後は勝つとも思っているので、

まずは健常者が基準世界に手を入れることと、

それに連携して車椅子側にも手を入れて、現実的解決策に落とし込む方が実現が早いわけで、

2021-04-04

anond:20210404192714

技術的な質問はしたけど、どういうサービスを作ってるかは巧妙に隠せていた(と思う)

FANZAアクセスする必要があって、それを隠したかたかクローラーの部分については特に自分で調べる必要があったんだw

コロナ失職したアラフォーおっさん自作WEBサービスを公開するまで

(2021/4/5 15:00 追々記)


https://twitter.com/pakeura

各所でいただいたコメントの返信手段に困り途方に暮れたので、Twitterアカウント作成しました。コメントはすべて目を通しています。励みになります

直近の開発予定や、アクセス状況とアフィリエイト収入などの数値についてつぶやく予定なので、よければフォローいただけると。

ただしベースが筆不精なためまったく更新しない可能性も大いにあります。何卒ご了承のほど。


(2021/4/5 2:00 追記


ブコメも含め、反響があって嬉しい。拙文を読んでいただきサービスも使っていただいてありがとうございますコメントはすべて目を通し、より実用的なサービスにしていきます

取り急ぎ気になったコメントへの返信を。

パッケージ引用について】
著作権知的財産権を含む権利関係FANZA担当部門確認し、アフィリエイトのためのPR目的であれば使用問題ないことを確認済みです。


ーーー 以下もとの本文


当方独身アラフォー、去年の秋口までは貿易関連の零細企業に勤める、しがないサラリーマンおっさんだった。

当時世間的にもなかなか話題になったが、コロナウィルス蔓延の影響の一環で海運用コンテナ価格が暴騰した。そのアオリを受けた私の会社でも流れる仕事の量が激減し、私個人も暇を言い渡される運びとなった。話の本筋から逸れるので詳しくは触れないが、最終的に雀の涙程度の退職金と引き換えに、40を目前に控えて職を失うことになった。

これまで趣味らしい趣味も持たず給料の大半を貯金に回して生きてきた。そのため一生を生き抜くにはとても足りないが、向こう数年間は食べていくのに困らない程度の貯金が手元にあった。それにあわせて、無限とも言えるような暇な時間を得たのだった。


何をするにも自粛自粛で気が滅入る日々だったが、しばらく心身を休めたことで若干の活力が湧き、貿易実務に関連する資格勉強なんかを始めてみた。

しかしこれがどうにもピンとこない。退職した企業に勤めていたのも、もともと新卒時代就職活動の失敗に端を発することであったし、仕事内容に魅力を感じていたわけでもなかった。


そんなときにふと、前々から「こんなサービスがあったら絶対使うのに」と温めていたアイデアがあったことを思い出し、WEBサービス開発というものに手を出してみようと思い立った。

が、しかしそのために必要知識はまったくと言っていいほど持ち合わせていなかった。数年前にちょっとしたホームページを作ろうと、 HTML/CSS/Javascript/PHP やらの、本当にさわりを学んだ程度だ。

HTMLCSSについてはなんとかかんとか「書いたものを画面に出せる」程度まではいけたが、JavascriptPHPについては当時その存在意義も含め、トンと理解できなかった記憶がある。


そんなこんなで自分の作りたいものについて調べるうち、どうやらクローラーやらWebスクレイピングやらについて学ぶ必要があり、それにはPythonという言語についてある程度詳しくある必要があるらしかった。

サラリーマン時代エクセルで本当に簡易なマクロを書いていたが、当時からPythonマクロ上位互換というイメージを抱いており、いつかは勉強してみたいと思っていたので、これは幸いだった。

入門書を数冊購入し、Udemyというオンラインスクールで入門講座を受講した。かなり漠然とではあるものの、なんとか最低限の知識を身につけることはできたようだった。たぶん。

サービスの開発を志してからここまで一ヶ月ほどだっただろうか。平日休日を問わず毎日PCには触れるようにし、風呂場やトイレで「Qiita Python tips」とかググって出てきた記事に目を通していた。

(余談だがこのころに受講した https://www.udemy.com/course/python-beginner/ というコースは、PC環境を整えるところからまり制御構文やファイル操作など、自分が欲する知識について体系的に学ぶことができ、コストパフォーマンスが非常に良かった。特に回し者ではない)

さらに余談だが、最初ネット上の記事適当にあさって環境構築してしまったため、いまだにPyenvだのAnacondaだのPipだの、Pythonが動く仕組みについて全然理解できないまま今に至っている)


閑話休題

さてクローラーとはWEBサービス提供するうえで主役ではなく、そのために必要データを集めるツールにすぎない。主役にあたるアプリケーション開発については(ここまで読んでいただいたうえで大変申し訳ないが)私にはシステムエンジニアとしてフリーランスバリバリに働いている姪っ子がおり、強力なサポートを受けることができた。

姪っ子いわく「いまは基本的Javascriptがわかっていればサービス提供できる。さらに言うとJavascriptクローラーWebスクレイピングを行うことも可能」らしく、結果的Python学習時間をかけたことは不要であったらしかった。

それどころかPythonJavascriptメソッド名前微妙に違っていることなどで詰まることが度々あり(特に配列へのappendとpush)、害悪と言っても過言ではなかったように思う。


その後は結局姪っ子に促されるがままにGoogle提供するFirebaseというサービスと、Node.jsという言語について同じく入門書Udemyの講座で学習し、なんとか自分が望む機能を持ったサービスを動かすことができた。姪っ子のサポートを受け始めてから4ヶ月ほど経過していた。


本題となるそのサービスこちら。

その名を パケ裏.com (https://pakeura.com) という、アダルトビデオパッケージ裏面を延々と眺めていられる、人類の夢がパンパンに詰まった代物であるスマートフォンでの閲覧を想定して作った。


「結局エロかよ」と思った諸君ブラウザバックは早計だ。人類技術進歩を支えてきたのはいだって戦争エロなのだ。まずは開発の動機について語らせてほしい。

自分物心らしきものがつき、色を知りはじめたこから常々思っていたのだが、AVパッケージというのはオモテ面と比べ、ウラ面のほうが遥かにエロいと思わないだろうか?

なんらかのオトナの事情があるのかもしれないが、オモテ面には美少女が斜に構えて微笑んでいる写真や、クソデカフォント商品タイトルがババーンと大部分を占めているものが大半である


それに比べてウラ面には、そのAVのなかでも特にエロいシーンの切り抜きが多々あったり、性欲を煽ってやまない官能的な文句がこれでもかと並んでいる。パケ裏にはエロさという概念が所狭しと集っているのである。そんなパケ裏を延々と眺めることができたら…これは私にとって長年の悲願であった。


物理店舗AVを購入することのない私にとって、FANZAでいちいち商品ごとにパッケージ画像クリックし、裏面を覗いていくのはなかなかに面倒な作業である

その点 パケ裏.com を使えば、条件にマッチしたジャンルのパケ裏を無限にしゃぶりつくすことができる。作りたいサービス要件が私の中でかなり明確だったこともあり、思った以上に短い期間で理想的サービスを形にすることができた。


少し大仰な物言いではあるものの、こうして自分にとっての積年の夢を叶えることができた。

趣味というか、金銭の発生しない範囲プログラミングに触れることはとても楽しく、少しずつサービスが形になっていくなかで自分の成長も日々感じることができた。システムエンジニアとして生きていくことは今後もないとは思うが、コロナ禍のおかげで人生でもなかなか得難い、貴重な時間を過ごすことができたように思う。人間万事塞翁が馬とはよく言ったものだ。


最後にくどいようだが、この パケ裏.com(https://pakeura.com)、主観だがかなり実用的なサービスとなっていると思う。ぜひ使っていただき感想をいただけるとありがたい。

また事前に断っておくと、FANZA商品ページへのリンクアフィリエイトになっている。このサービスを通じてパケ裏の偉大さに気づく人が増え、さらに私の懐にちょっとした小遣いが入ってくれば、望外の喜びである

2021-03-17

anond:20210317173713

ほいじゃこれだね

無意味である理由じゃなくてあくまお題目可能にする手段が知りたいんだよ!!!なら

それこそAIディープラーニングのお時間じゃないですか?

趣味実益を兼ねられて良かったね。まずは論文を読むところからだな

Webクローラー作るのはそのあとでいいよ

 

ちなみにワイは過去1万冊以上マンガ持っていて、今も自炊電子書籍で数千タイトルは所有してるけど

マンガヲタクはとても名乗る気にはなれないし、名作と言われているタイトルでも読んでないのいっぱいあるよ

2021-03-16

"無意味" で終わる。可能にする手段が知りたいんだよ!!!なら それこそAIディープラーニングのお時間じゃないですか?

これ同じ内容の投稿が何回もされているけど "無意味" で終わるんだよな

 

マンガに限らず世界中元増田に刺さる・心揺さぶコンテンツは星の数ほど存在している

けれど神じゃないからそれらすべてを認知することは不可能

仮に引っ張って来れても増田が生き物である限り時間的に全てに目を通すのは無理だぞ

タイミングに任せろよ。自分に刺さるコンテンツ存在に気づかず、

完結してた・閲覧不可能になってた時の悔しさは理解するが

本気で望めば・金積めば意外となんとかなるモンだ

 

無意味である理由じゃなくてあくまお題目可能にする手段が知りたいんだよ!!!なら

それこそAIディープラーニングのお時間じゃないですか?

趣味実益を兼ねられて良かったね。まずは論文を読むところからだな

Webクローラー作るのはそのあとでいいよ

 

そこまで手間掛けたくないなら何度も言われているように

マンガアプリ複数入れる、マンガ雑誌・アプリを買う これしかいね

 

anond:20210317171544 anond:20210316171909

2021-02-03

CloudFrontと相性が悪いため

しばらく

こっちをかしてくれ

 

やはり年単位で調整を繰り返しているが

ブログコメント欄

相性が悪いな

コメントスパムもあるから

PHP直撃にすると、こんどはクローラーに潰される

急激な1日だけの大手サイトリンク対応するとCDNになって、コメント対応できない

 

調整がめんどくさいことこの上ない

バランスが難しいね

どうしてもコメントを開けようとすると

ロードバランサー入れてPHPマルチにしないと負荷に耐えられないが

わずか1年で1日未満のあめに、のこりをずっとあげておけはたしかに無謀

Lambda pressでリミッター入れる以外の方法にたどり着けない

2021-01-31

情報の授業が小学校から始まっている関係で、クローラー学生が書く可能性があり、学校サーバからクローラーを回した場合、人数が増えると結構な異常負荷がサーバにかかるおそれあり

誰が悪いと言っても

回線代が無料未成年に、わかるわけない話もあるため

サイト運営社が、未成年未成年犯罪にまきこまないようご注意ください

2021-01-26

デススターが落ちてくるから☆よけてー

ガキが書いたBotを受け流しきれず、安全破壊サイトが落ちて知らせる(2度)というのはいいが、どうしてガキが破壊たか?というとき

万が一オリジンを見つけたとき

CDN側はオリジンからはわからいから、CDNからクロールできなかったといわれると、そりゃそうかもな。

もっとレア記事なんてPASSTHRUにしてあって、

大量に持っていくと安全破壊で、サイトが落ちる。抜かれたくはないからな。

とはいえ絵描きサイトでもないのに、画像動画がS3になっていないのは、こちらの落ち度。

とはいえ いくつかのケースでは破壊が早すぎるというのと、オリジンと気がついてもオリジンからCDNに飛ぶのが難しいといわれると、そりゃそうだろうな。気をつける

回避手段提供していないのに避けろはナンセンス

そうかもな、合意する。

絵かきのサイト場合は、絵は見るのが目的クロール対象外からクローラーは避けろはrobots.txtに書いてくれ そりゃそうかもな

あの、ダース・ベイダー父へ、避け方提供して☆息子

                       ↑ やることは手紙だすだけだけど、映画の中でわりと重要ポジション

CloudFrontCDN配信されているオリジンクロールする目的って無いよなぁ

本当はクロールすんな、読め。お前にデータ無料提供しているわけじゃない。

読むという行為と引き換えに情報がもらえる。取引なんだよ。

それを機械で使って読まないし、利益提供もない。

そういう人でもCDNから機械学習はおめこぼしするが

まったく同じ内容にオリジンクローラーをかけて、情報を吸おうとするとなると

これは合理性を認めがたい

 

robotsCDNはこっちって書けたんだっけ たぶんそれだろうな

オリジンなんてふつうからないが、万が一わかったばあいに 

robotsはいいけどクロールするならCDNにいけというのはrobotsCDNかいとけか勉強になった

2021-01-25

変なクローラー2回めっぽいね。またサーバが落ちてた

だれだかしらないけどURLがほしいならもうあげようか、それともURLかえりゃいいのか、めんどくさい、Blogをやって良いこともあったけど

不幸のけっこうはBlogをやってたことがりゆう

アクセスなんて1日6Hit 蓄えた知恵を無料で上げるだけの ご奉仕も なんか

本当に嫌なことが多い

S3 press をつかわずに wordpressec2で上げてるからクローラーが来ると重すぎて、動かなくなるから

安全破壊で、すぐこわれて、データ流出をとめてくれるし

気が付きやすいから、ハッキング対策には良い。

どう考えても、クローラー広告読まないどころか、広告消して、おいしい記事だけ利用するから

でも、お金がなければs3

おもしろかったは、おもしろかった。

負荷分散とか、いろいろ12年近く勉強になった。いろんなことがあった。

でも1円にもならなかったなぁ。1円ぐらいにはなってるかwww

2021-01-23

[]2021年1月22日金曜日増田

時間記事文字数文字数平均文字数中央値
009412517133.255.5
01406558164.046
02245433226.450
03163380211.371.5
04194733249.192
05183620201.183.5
06232832123.1100
07477200153.297
081161045590.149.5
09134931069.537.5
1012314147115.043
1113214834112.463.5
121941340769.142
131271210795.345
141611463890.937
151681331179.248
161801761497.953
1718424893135.339
183032766691.338
191921658586.437
202201342461.030.5
211451251286.342
2212922202172.142
2316817574104.648
1日2957300952101.843

本日の急増単語 ()内の数字単語が含まれ記事

信用経済(10), 石原伸晃(5), クローラー(10), しほ(8), 18cm(3), 虫ケラ(6), クローラ(3), きらー(5), ディスガイア(3), クロール(10), 氷河(3), 五輪(18), ワクチン(42), 麻生(13), 因果関係(7), 瞑想(8), 楽器(8), ムーブ(10), 嘘つき(10), 女装(7), 不審(6), 身長(15), JK(11), チケット(11), 洗脳(11), 絡ま(8), コロナ禍(17), 不動産(10), 信者(19), プログラマー(17), 搾取(19), 無意味(17), 騙さ(16), オリンピック(17), 反(14), 入院(12)

頻出トラックバック先 ()内の数字は被トラックバック件数

西野サロン炎上した、さいとうしほを救いたい /20210121201121(33), ■背の高い人間安易に「身長センチ?」と質問しないほうがいい /20210121202723(31), ■「オッサン趣味JKに置き換えた漫画」の逆バージョン /20210120200820(19), ■Switchなんだけど、なんでまだ気づかないの? /20210122105924(16), ■パパが毎日ご飯作ってくれたらいいのに /20210122202211(14), ■大学時代好きだった女の子がプペランカー化していた /20210122101329(14), ■泡姫に聞いたチンコサイズとか痛い客の話とか /20210122011250(11), (タイトル不明) /20210122163259(11), ■詐欺被害にあった /20210122175123(9), ■超時空世紀オーガスの設定むっちゃ面白いのに /20210122004550(9), ■ /20210122142508(8), ■ヤフコメに頓珍漢が湧いている /20210122181003(8), ■『もう中学生』が最近めっちゃ覚醒してる話 /20210121232528(7), ■「コロナ茶番」派の人間を観察してわかったこと /20210121020612(7), ■不味いもの /20210122123323(6), ■東大生安易東大ネタを振るやつ全員死んでくれ /20210122153137(6), ■ニート問題画期的解決法を思いついた! /20210122122013(6), ■自殺する奴ってなんで自殺すんの? /20210122161642(6), ■子供名前は /20210121230141(6), ■性的写真を撮れないスマホの意義 /20210122212435(5), ■掃除機洗濯機エンジンは稼働させることを「かける」っていうけどテレビオーディオは「かける」とはいわないね /20210121120618(5), ■袋麺の不都合な真実 /20210121190628(5), ■夏頃コロナにかかっておけばよかったと思ってる /20210121190833(5), ■マスクしてれば100%絶対感染しないわけ?? /20210122000745(5), ■女装コスプレイヤー価値はないの?どう努力すれば誰からも好かれる人気者になれるの? /20210122000949(5), ■さいとうしほを救いたいがキモい /20210122093306(5), ■今後の西野がやりそうなことを予想する /20210122143450(5), ■袋麺にも具をいれてほしい /20210122165801(5), ■大学一年生です。若いから分かる現状があります。力を貸してください。 /20210122172406(5), ■ネットじゃなくて本にしかない情報が多いというけど /20210122173812(5), ■自分のことを嫌いな人を好きにさせる方法はないのか /20210122175112(5), ■ある地方公務員獣医師の呟き /20210122175129(5), ■新型コロナ医療機関が逼迫しているなら /20210122180417(5), ■ここに馴染めない /20210120182029(5)

2021-01-22

anond:20210122190511

なぜプログラマーが、Static配信を嫌がるかというと、こうやって、ハッキングクロールがおきたときにより、わかりやすいために、わざわざ動的に配信している

みごと数時間ぶっとまったからな。悪質なクローラーハッキングされたことを俺に教えてくれた

anond:20210122185903

それは容易いがクローラー対策でstatic pressしたとして なんかピンとこない 技術的にも容易いが なんかピンとこない

そもそも論として情報無料じゃない。それをクロールするというのが納得行かない いまのほうがクロールしたらサイトがぶっとまって、クロールさせない分まし

s3のstatic pressだとクロールされたときにこうやって、サイトがぶっ止まるという現象を引き起こさないから気が付きにくい

ハッカーにこのぐらいやっていいと思わせて、逆に犯罪知財の盗用)を助長しかねない。

方向性は見えてきた

画像はS3で配信するとして、Apacheを通さな

Wordpressをどうするかだが、画像がないApacheなら少しは軽くなる

あとはコメント欄 どうせ使われてもいない 機能にたいしてクラックくらった場合にどうするか?なんだろうなぁ めんどくせぇ

そりゃ多数のサイトが閉鎖するわ

lambda pressにすると 逆にクローラー食らうと金がかかりすぎそう

オリジンクローラー!って、弁当屋が業績悪化で取り壊される話か、と

anond:20210122184022

CDN入れていてもオリジンクローラーかけられたら、そりゃ潰れる

anond:20210122183803

20年ちかくWebサイトやってるが、オリジンサイトクローラーで潰されたのは初

へたすりゃCDNすらわからないやつが、単純クローラー時間制限クロールしたとしか思えねぇ

anond:20210122183709

それにしても、オリジンクローラーはびっくりした。そりゃ、赤字サイトは閉鎖するかスタティックプレスにするわなぁ

しろ、異常負荷が長時間かかったときに、サーバが自閉したAWSのほうが問題CPUが落ちるのはVCPUからいいとして

なぜインスタンスごと自閉させた。

あるいみ、不正アクセスログ取得を妨害された

AWS証拠保全妨害していると言える

半日を超えて不正アクセスされないと、不正アクセスとして、訴える証拠がそろわない。

時間は、素人クローラーの書き方を間違えても起きる

普段CPU利用率が1%なのに時間課金をうけているのだから

常時100%でも文句をいわれる筋合いはない

anond:20210122102514

CPU利用率が常時1%未満だったのが(年単位で安定駆動)100%超えている

 

どうかんがえても、悪質なクローラー

 

とはいえ、こういうのを各にわか学生がふえかねないとなると、こっちで対応だろうな

なぜ、クローラーが3秒に1つとかしかクロールしてこないか

 

しかも、これ100%いくって、同時にいくつクロールしたんだ

オートスケール切ってるからいいようなもの

入れてたらいくら無料記事で払わせる気だ

 

記事公告と引き換えに無料

全部持っていって勝手に保存して良いものはいいがたい。だめじゃないけど、何考えてんだ

しかも、オリジンにこの時間となると

いちおう1配信0.001円ぐらいはかかるのだが・・・

クローラー回しているやつがいるな

単一記事が爆発的にアクセスされるのはキャッシュでたえるようにつくってあるんだが

すべての記事クロールしようとかすると負荷でサーバが落ちた

いろいろPHPで動くから

ちょっとまじめにクローラー対策いるかもな

2020-12-11

anond:20201211191127

会社員なら痴漢を疑われただけで首が飛ぶ。

 

「飛びません、解散」(嫌疑解雇不当解雇不当解雇不当解雇で争ってどうぞ。名誉毀損名誉毀損で争ってどうぞ。国家賠償国家賠償で争ってどうぞ)

・・・と言いたいが、一応、レイプについても触れるか

 

1. 弁護士を用意する。

2. 併せて謝罪会見診断士やまともな広報コンサル相談する。

3. 警察調査を依頼する。

4. 現在調査中という事実だけを公表する。

5. このどさくさに紛れてSNSで一線を超えた発言をするヤツがいないかワード監視をしとく。

 Webクローラー自作するか既存サービスを使う。

6. 一線を超えた発言SNSでしているヤツは粛々と弁護士経由で連絡する。

7. 結果が出揃ったら一線を超えた発言をした相手にした対処と合わせて結果を公表する。

2020-11-27

anond:20201127144016

結局いちばん大事妥当な1行目が無視されてるな

ご愁傷様


で、ユーザー名でググったけどブログが出てこないのでGoogleクローラーは来てないと思われ(今までプライベートだったのだろうか)、

まりこの人のブログに行くための導線ははてブくらいしかないことになり、

なおかつ頼みのそれもあの量と質なのでそりゃあ誰も歯牙にもかけず誰も来やしねえよなという感想である自分サイトブクマすればいいのに)

ユーザークリックしてサービス一覧に行ってはてなブログクリックして記事を見ないと、この人がブログを書いているということに誰も気づけない

そんなことする暇な奴はおらん

理屈思想もどうでもいい

叫ぶ前にまずは道を作れ

話はそれから

ログイン ユーザー登録
ようこそ ゲスト さん