はてなキーワード: クローラとは
なんつーか、何が楽しいとか嫌いとか、そういうのを社会の色んな情報に左右されすぎちゃったなってね。
反省点ではあるんだが「トップガンが流行ってます!」って情報があって、それで映画を見たとして、流行っていなかったとしても楽しいと思えたんかなって。
それで新年の最初の目標は、ネット上の情報に何らかの「数」が付与されている場合は、それを隠すようなfirefoxプラグインを自分用に作ろうかなと。
フォロワー数、イイネ数、反応数、ビュー数、レビュー数、などなど、ノイズにしかならない「数」情報。
極めつけは経済情報を俺が収集し始めたことに関係してるんだよね。
まず人を騙そうとしている嘘が多いし、嘘に限って何らかの「数」が多い。
仮に嘘ではなくとも、俺の人生目標とあいつらの人生目標が全然違うから必要とする経済情報が違う。
だからね、とりあえず自分の目的自体はっきりさせて、それに対して役立つ情報を「数」とか関係なく収集しようと思うんだよね、話はそれからってもんよ。
あと、Googleも極力使わない。DuckDuckGoへ変更する。Google Drive、GmailなどはProtonへ移行。
最悪、DuckDuckGo自体が信用できないってなら、自分専用に情報収集するクローラをローカルサーバーで起動させる。それぐらいしなきゃやっぱダメよ。まあもっと簡単にやるならRSSリーダーかな。
本当のことを言うと、支配者層がコンテンツ市場を支配しているのが気に入らん。あいつらの性癖で高評価されたコンテンツを俺が好むとでも?笑止千万である。
「いかがでしたか?」問題に「欲しい情報が出ない」問題… Google検索の第一人者が語る、検索で不満が募る“意外な理由”とは | 文春オンライン
https://bunshun.jp/articles/-/56122
Google検索の第一人者って何ぞって思って読んだら、クローラ作成者とか自然言語解析やアルゴリズムの研究者とかではなく、SEO業者だった。
https://b.hatena.ne.jp/entry/4723202290562822882/comment/blanqui
WEB屋というか技術屋が多かったはずのはてなにおいて、「SEO業者」の一言で唾棄するコメントにスターが集まってるのを見て悲しくなったわ。まぁ「Google検索の第一人者」という言葉が適切かどうかはともかく。
なんではてなって意地でも何かにイチャモンを付けたがる偏屈ジジイの巣窟になっちゃったんだろうな。何も知らんくせに偉そうなことをいう奴だらけ。ヤフコメレベルのネットスラムになってしまって俺は悲しいよ。
単にドメインだけじゃなくて、サイトの名前や内容(本文)もインデックスされて検索結果に表示されてんのよ。
Google検索死んでる→からの、まとも検索というオルタナギャグがブクマ集めている。
「Google検索は死んでいる」がバズったので「まとも検索」を作った。:村上福之の「ネットとケータイと俺様」:オルタナティブ・ブログ
で、思ったんだけど、YahooJも裏側はGoogleだから無視するとして、他にGoogleの代わりにできそうなエンジンってBingとかDuckDuckGoあたりだよね。
この二つって、本当に独自クローラーで集めてるのかな? 実は裏側はGoogleの検索結果を使ってるような気がしないでもない。
というのも、最近、俺が作った某サイト(独自ドメイン)があるんだけども、これはまだどこからもリンクされてない。つまり自分以外は誰も知らない状態。
で、Googleのサーチコンソールにだけは登録した。数日後にGoogleのクローラが来た。そんでインデックスされた。
ここまでは想定通り。
この段階では検索エンジンが異なるBingやDuckDuckGo等で検索しても当然結果には出てこない…と思ったのだが、試しにサイト名で検索してみたらなぜか結果に出る。
アクセスログを見てみても、自分のアクセスとGoogleクローラのアクセスしか記録されてない。BingボットやDuckDuckGoのクローラは来ていない。
自分が使っているブラウザ(Chrome)にはDuckDuckGoなどの拡張機能も入れていない。
つまり、BingやDuckDuckGoには「俺が作ったばかりの某サイト(独自ドメイン)」の情報はまだ一切ないはずなのに、検索したら表示されるという状態。
これって、Googleの検索結果を利用しないと不可能な芸当だと思うのだが…?
なんでこんな現象が起こってるんだろう?
詳しい人いたら教えて。
そこんとこ詳しく。メタップスとか?
Waf なんて書くな! WAF とかけ!
うっせーな。クラウドベンダーの独自 API なんか使いたくねーんだよ。オラクルじゃあるまいし。
まぁ、それは認める。でもさ、select や create とかのDML/DDL は CRUD と同じだけと、DCL なんて権限を発行できるりょういきにトーシロを突っ込むわけにいかないだろ。何も考えずに GRANT TO なんてプロダクション環境で発行されて日には、権限消失されたら永遠にデータにアクセスできなくなるかもよ?
そりゃそうだけど、フロントエンドは移り変わりが激しいじゃないですか。ほんの数年前までは Flash と DoJa のアプリを作ることがフロントエンド開発者でしたよ?一方データベースや OS の方は、ここ三十年ぐらい Unix と RDB が鉄板だった書ないすか。低レイヤだっていうけど、IoT なんかで C言語開発者はバリバリっすよ。例えば、クラウドフレアなんか CDN の再発明をしてますけど、サーバーラックを見る限りだと差がついているのは低レイヤの根本技術の改善であって、私はそこにプロフェッショナル性を見出しますがね。
わかっていないのはテメーの方だ。今日オーバーフロー問題を抱えている C/C++ でサーバーの開発をしようとするのが危険なのは承知しろよ。パフォーマンスを必要とするなら Rust、または GC があるけど Go言語を使って実装すべきだろ。高学歴なのは結構だけどは、現実は見えてないのか?いい加減にしろ。
そうだね~。卓越したインフラエンジニアがすぐに手に入るなら、問題ないだろうけどさ、ベンチャーや硬直化した雇用形態の我が国で有能なインフラエンジニアをすぐに採用できるかよ。何年前の知識で戦っているの?時代は DevOps なんですよ。必要とあらば、すぐ学んで、応用して、デプロイできるのに「インフラエンジニアを採用から始める」なんて、ヨーロッパが衰退する理由もよくわかるよ。プププ。
誰が Next で SSR なんてするか!あれは SEO が必要な場合に限る。そもそも SSR なんて危険だからまともなエンジニアだったらしないだろ。問題になってないだけで、本当のブラウザとクローラが見える内容が違うなんてスパム認定されてもおかしくないんだ。クローラにインデックスされるページで SPA をやろうとするやつはセンスないで。
すいませんでした。本当にすいません。
ん? AWS SQS だとパフォーマンスに問題があることしたいから Kafka を使いたいのよ。確かに Zookeeper のことは詳しくないよ。だけど、AWS MSK 使うんで。PaaS というもんがあるので、だめなん?ログ収集は GKE みたいに ログに出したら Fluentd で収集してくれる時代になんでグチグチ言われないといけないの?
ハア?インメモリのデータベースに信頼するほどヤワじゃないから。Redis なんて飛んでなんぼ。だから Kafka のようなストレージに保存されるメッセージキューを利用したいの。
これないと、CI の責務が大きくなるじゃん。ほんでもって、ArgoCD なんて Kubernetes で展開したら運用までしないといけないじゃん。メンドクサ。
いや、J1ビザをとってアメリカに留学したことあるよ。あと、「世界でもっとも強力な9のアルゴリズム」「CleanCoder」「戦うプログラマー」 の本に書いてあるじゃん。馬鹿にしてるのか?
情報はウェブでも公開してるのに発信不足って言われないようにどうすれば良いの?
情報を記載したページを検索クローラのブロック対象外にしている
省庁のトップページから3クリック以内で情報にアクセス出来るようになっている
公式twitterアカウントで情報追加、更新した際にtweetする
あと何すれば良いのかな
あのさあ。
どうしておまえらは二つ以上の単語で検索するということをしないんだ?
「戦艦の名前で画像検索するとゲームの絵がー」「競走馬の名前でアニメの絵がー」って騒ぐけど
「金剛 戦艦」「スペシャルウィーク 競走馬」で検索すりゃいいだけだろ。
簡単な話じゃねえか。
なんでそんなこともできないんだ?
たとえば誰かからいきなり「ディープインパクト!」とだけ言われて
競走馬のことなのか映画のことなのか探査機のことなのか楽曲のことなのかお笑いコンビのことなのかプロレス技のことなのか
おまえらには分かるのか?
おまえらに分からないことがどうしてGoogleに分かると思うんだ?
「何も言わなくてもGoogle様は私の調べたいものをエスパーしてくれる」というナイーヴな考えは捨てろ。
「ディープインパクトといえば競走馬に決まってるじゃん!」なんて甘えはGoogle様には通用しないんだよ。
そもそも勘違いしてる奴が多いがGoogleの長所は「検索精度」じゃない。
一時期「Googleの検索精度は高い」と言われていたのは他の(クソザコ)ロボット型サーチエンジンとの比較にすぎない。
本当に「価値の高い」ウェブサイトだけを見たいならディレクトリ型サーチエンジンのYahooでよかった。
Googleが素晴らしいのは「検索範囲の広さ」と「充実した検索オプション」なんだよ。
Googleのクローラはゴミみたいな個人サイトの情報まできっちり拾ってくれる。
それを検索オプションを駆使してフィルタリングすることで欲しい情報を見つけ出せる。
もとより口を開けて待ってるだけで欲しいものが降ってくるサービスじゃない。
いいか、おまえらは「検索汚染に苛まれる哀れな被害者」じゃない。
エコテロリストかよ。
どうしてもGoogleを使いこなせないなら人力検索はてなでも使ってろカスども。
それでも消さないでくれというなら「完全一致」を選択すればいいだけ。
その程度の手間さえかけられない雑魚だから情報弱者なんだよおまえは。
金剛と言えば艦これの金剛のことだと思う人が多数派だとgoogleに示されるのが、母屋を乗っ取られた感じがして、心情的に受け入れ難いのでは?
そういう心情が異常だって言ってんだよこっちは。
これのことなら、好きな馬の名前を検索欄に入力したら「嫌い」がサジェストされてショック受けたって話だから検索結果関係ないよね。
何でその話だと思ったの? ねえねえ?
まあたかだか「嫌い」と出てきただけでショックを受けてしまう繊細ヤクザはネットに向いてないってのも事実だけどな。
「神はサイコロを振らない」って誰の言葉だっけ?と思ってググっとちょっと面食らった。「誰」まで付けて半々か。
「神はサイコロを振らない 誰の言葉」でググれよカス。
「誰」って誰だよ。
バンドのメンバーが「誰」かもしれんし、ドラマの出演者が「誰」かもしれんだろ。
ここで「いや誰といえばアインシュタインが出てくるべきでしょ」というのはおまえの中でしか通用しないルールであって、そんな思い込みは捨てるんだよ。
時間 | 記事数 | 文字数 | 文字数平均 | 文字数中央値 |
---|---|---|---|---|
00 | 94 | 12517 | 133.2 | 55.5 |
01 | 40 | 6558 | 164.0 | 46 |
02 | 24 | 5433 | 226.4 | 50 |
03 | 16 | 3380 | 211.3 | 71.5 |
04 | 19 | 4733 | 249.1 | 92 |
05 | 18 | 3620 | 201.1 | 83.5 |
06 | 23 | 2832 | 123.1 | 100 |
07 | 47 | 7200 | 153.2 | 97 |
08 | 116 | 10455 | 90.1 | 49.5 |
09 | 134 | 9310 | 69.5 | 37.5 |
10 | 123 | 14147 | 115.0 | 43 |
11 | 132 | 14834 | 112.4 | 63.5 |
12 | 194 | 13407 | 69.1 | 42 |
13 | 127 | 12107 | 95.3 | 45 |
14 | 161 | 14638 | 90.9 | 37 |
15 | 168 | 13311 | 79.2 | 48 |
16 | 180 | 17614 | 97.9 | 53 |
17 | 184 | 24893 | 135.3 | 39 |
18 | 303 | 27666 | 91.3 | 38 |
19 | 192 | 16585 | 86.4 | 37 |
20 | 220 | 13424 | 61.0 | 30.5 |
21 | 145 | 12512 | 86.3 | 42 |
22 | 129 | 22202 | 172.1 | 42 |
23 | 168 | 17574 | 104.6 | 48 |
1日 | 2957 | 300952 | 101.8 | 43 |
信用経済(10), 石原伸晃(5), クローラー(10), しほ(8), 18cm(3), 虫ケラ(6), クローラ(3), きらー(5), ディスガイア(3), クロール(10), 氷河(3), 五輪(18), ワクチン(42), 麻生(13), 因果関係(7), 瞑想(8), 楽器(8), ムーブ(10), 嘘つき(10), 女装(7), 不審(6), 身長(15), JK(11), チケット(11), 洗脳(11), 絡ま(8), コロナ禍(17), 不動産(10), 信者(19), プログラマー(17), 搾取(19), 無意味(17), 騙さ(16), オリンピック(17), 反(14), 入院(12)
■西野サロンで炎上した、さいとうしほを救いたい /20210121201121(33), ■背の高い人間に安易に「身長何センチ?」と質問しないほうがいい /20210121202723(31), ■「オッサン趣味をJKに置き換えた漫画」の逆バージョン /20210120200820(19), ■Switchなんだけど、なんでまだ気づかないの? /20210122105924(16), ■パパが毎日ご飯作ってくれたらいいのに /20210122202211(14), ■大学時代好きだった女の子がプペランカー化していた /20210122101329(14), ■泡姫に聞いたチンコサイズとか痛い客の話とか /20210122011250(11), (タイトル不明) /20210122163259(11), ■詐欺の被害にあった /20210122175123(9), ■超時空世紀オーガスの設定むっちゃ面白いのに /20210122004550(9), ■ /20210122142508(8), ■ヤフコメに頓珍漢が湧いている /20210122181003(8), ■『もう中学生』が最近めっちゃ覚醒してる話 /20210121232528(7), ■「コロナは茶番」派の人間を観察してわかったこと /20210121020612(7), ■不味いもの /20210122123323(6), ■東大生に安易に東大ネタを振るやつ全員死んでくれ /20210122153137(6), ■ニート問題の画期的解決法を思いついた! /20210122122013(6), ■自殺する奴ってなんで自殺すんの? /20210122161642(6), ■子供の名前は /20210121230141(6), ■性的写真を撮れないスマホの意義 /20210122212435(5), ■掃除機や洗濯機、エンジンは稼働させることを「かける」っていうけどテレビやオーディオは「かける」とはいわないね /20210121120618(5), ■袋麺の不都合な真実 /20210121190628(5), ■夏頃コロナにかかっておけばよかったと思ってる /20210121190833(5), ■マスクしてれば100%絶対感染しないわけ?? /20210122000745(5), ■女装コスプレイヤーに価値はないの?どう努力すれば誰からも好かれる人気者になれるの? /20210122000949(5), ■さいとうしほを救いたいがキモい /20210122093306(5), ■今後の西野がやりそうなことを予想する /20210122143450(5), ■袋麺にも具をいれてほしい /20210122165801(5), ■大学一年生です。若いから分かる現状があります。力を貸してください。 /20210122172406(5), ■ネットじゃなくて本にしかない情報が多いというけど /20210122173812(5), ■自分のことを嫌いな人を好きにさせる方法はないのか /20210122175112(5), ■ある地方公務員獣医師の呟き /20210122175129(5), ■新型コロナで医療機関が逼迫しているなら /20210122180417(5), ■ここに馴染めない /20210120182029(5)
検索避けなんて迷惑なことをするなと思うし、避けたいなら認証必要にするとか robots.txt でクローラ拒否するなりすべき
https://b.hatena.ne.jp/entry/s/twitter.com/rita0222/status/1281386228118466560
初期はWebアプリケーションとブラウザは不可分だったからHTMLの出力=ブラウザへのレンダリングと考えて差し支えなかったのだろう
その後ステップが分かれてHTMLの出力とブラウザのレンダリング間には直接的な関係性が無くなった(というよりはクローラのような各種サービスやスクレイピングのような二次的なデータの利用方法が生まれた)が, 語が再定義されることはなかったため、Server Side Renderingと(In browserの)レンダリングと暫定的な区別をつけられて今に至る
のかな?
一昔前、2ちゃんねるの管理人であった西村博之氏は運営会社と揉めて2ちゃんねるを手放さざるを得なくなった
そのことに納得がいかなかった彼は2ちゃんねるのコピーサイトである2ch.scを作った(ちなみに元の2ちゃんねるは2ch.scと区別する際には2ch.netと呼ばれるようになった)
2ch.scは2ch.netの機能的な部分だけでなくコンテンツをも丸コピーしており、2ch.netに書き込みがあるとクローラが検知してそのまま2ch.scに同じ内容を書き込んでいく、
そういうトリックで建っているスレも、書き込まれた内容も、書き込み数も2ch.netと全く同じ。
一見書き込みが多く賑わっているように見えても本当は誰もいないという妙ちくりんな空間であった
最近になり純正の2ch.sc民がいるというのを初めて知った。
数年前、元の2ちゃんねるである2ch.netは商標関係で揉めた結果5ちゃんねると名前を変えた。
そういう経緯もあり、今Googleで『2ちゃんねる』と検索して一番上にでてくるのは2ch.scである。そう考えると不幸にもゴーストタウンである2ch.scに迷い込む人がいてもおかしくないだろう。
5ちゃんねると2ch.scのスレ一覧を並べて書き込み数を比較してみると、一部差分があるスレが見つかった。中を見てみると、純正の2ch.sc民は簡単に発見できた。
それも、全体でいうと少なくない人数。
彼らは、そこにいるのが人間だと思い込み、反応など絶対に返ってこないのにbotの書き込みに同意し、ときに反論を期待し相手を非難する。
個人開発記事とか見てると大体お名前.comとかでてくるけど、
ドメインって安くても維持費が1つにつき年間数百円から数千円発生するんだよね
サーバだったら最悪VPS借りて相乗りさせれば何個サービス開発しても1台分以上は料金かからなかったりするけど
人生かけてるサービスだったり一発起業目指して開発したサービスだったらともかく、
開発したサービスが当たるか当たらないかなんて予測は無理なわけで、
ドメインを取得してしまうと1年経つごとにドメイン維持費を払うか維持費をケチって潰すかの選択を迫られることになる
ユーザー投稿型のサービスで廃墟化してるなら潰す選択肢はありかもしれないけど、
クローラでデータ収集する感じのサービスやDBがなくても稼働するようなサービスだとマネタイズできてなくても小さな需要はあるかもしれなくてドメインのために潰すのもアレだし、