「クローラ」を含む日記 RSS

はてなキーワード: クローラとは

2023-01-01

2023は社会影響を防御してコンテンツ消費すんぞ

自己防衛投資、あと海外移住日本脱出だよね。

いやただの俺の個人的目標なんだけどね。

なんつーか、何が楽しいとか嫌いとか、そういうのを社会の色んな情報に左右されすぎちゃったなってね。

反省点ではあるんだが「トップガン流行ってます!」って情報があって、それで映画を見たとして、流行っていなかったとしても楽しいと思えたんかなって。

それで新年最初目標は、ネット上の情報に何らかの「数」が付与されている場合は、それを隠すようなfirefoxプラグイン自分用に作ろうかなと。

フォロワー数、イイネ数、反応数、ビュー数、レビュー数、などなど、ノイズしかならない「数」情報

極めつけは経済情報を俺が収集し始めたことに関係してるんだよね。

まず人を騙そうとしている嘘が多いし、嘘に限って何らかの「数」が多い。

仮に嘘ではなくとも、俺の人生目標あいつらの人生目標全然うから必要とする経済情報が違う。

からね、とりあえず自分目的自体はっきりさせて、それに対して役立つ情報を「数」とか関係なく収集しようと思うんだよね、話はそれからってもんよ。

あと、Googleも極力使わない。DuckDuckGoへ変更する。Google Drive、GmailなどはProtonへ移行。

最悪、DuckDuckGo自体が信用できないってなら、自分専用に情報収集するクローラローカルサーバーで起動させる。それぐらいしなきゃやっぱダメよ。まあもっと簡単にやるならRSSリーダーかな。

本当のことを言うと、支配者層がコンテンツ市場支配しているのが気に入らん。あいつらの性癖で高評価されたコンテンツを俺が好むとでも?笑止千万である

2022-10-20

AIイラストが並んでようが並んでまいがどうでもいいが

改修でクローラがぶっ壊れそうなことが心配だよ

方面迷惑かけやがってエンジニアゴミクズ

2022-08-01

いかがでしたか?」問題に「欲しい情報が出ない」問題… Google検索第一人者が語る、検索で不満が募る“意外な理由”とは | 文春オンライン

https://bunshun.jp/articles/-/56122

辻氏の記事に対するコメントにこんなものがあった。

blanqui 2022/08/01 12:51

Google検索第一人者って何ぞって思って読んだら、クローラ作成者とか自然言語解析やアルゴリズム研究者とかではなく、SEO業者だった。

https://b.hatena.ne.jp/entry/4723202290562822882/comment/blanqui

WEB屋というか技術屋が多かったはずのはてなにおいて、「SEO業者」の一言唾棄するコメントスターが集まってるのを見て悲しくなったわ。まぁ「Google検索第一人者」という言葉が適切かどうかはともかく。

なんではてなって意地でも何かにイチャモンを付けたがる偏屈ジジイ巣窟なっちゃったんだろうな。何も知らんくせに偉そうなことをいう奴だらけ。ヤフコメレベルネットスラムになってしまって俺は悲しいよ。

2022-03-06

anond:20220306023518

あーゴメン。例が悪かった。

じゃあキミ自身運営するサイト(できれば独自ドメイン)でテストしてみてくれ。

以前なら公開した瞬間にクローラがやってきて全てのページがインデックスされていた。

今ではクローラもなかなかやってこないし、やってきても全てがインデックスされるとは限らない。

かなり力を入れて書いたコンテンツでもなぜかインデックスすらされないこともあって、基準が謎すぎる。

2022-02-21

anond:20220221191730

単にドメインだけじゃなくて、サイト名前や内容(本文)もインデックスされて検索結果に表示されてんのよ。

Apacheログ見てもクローラが来た形跡がないのに、どうやって???って話。

Googleクローラしか来たログないのよ。

Google検索は死んで…いないのでは?

Google検索死んでる→からの、まとも検索というオルタナギャグブクマ集めている。

「Google検索は死んでいる」がバズったので「まとも検索」を作った。:村上福之の「ネットとケータイと俺様」:オルタナティブ・ブログ

で、思ったんだけど、YahooJも裏側はGoogleから無視するとして、他にGoogleの代わりにできそうなエンジンってBingとかDuckDuckGoあたりだよね。

この二つって、本当に独自クローラーで集めてるのかな? 実は裏側はGoogle検索結果を使ってるような気がしないでもない。

というのも、最近、俺が作った某サイト独自ドメイン)があるんだけども、これはまだどこからリンクされてない。つまり自分以外は誰も知らない状態

で、Googleのサーチコソールにだけは登録した。数日後にGoogleクローラが来た。そんでインデックスされた。

ここまでは想定通り。

この段階では検索エンジンが異なるBingDuckDuckGo等で検索しても当然結果には出てこない…と思ったのだが、試しにサイト名で検索してみたらなぜか結果に出る。

なんで??????

アクセスログを見てみても、自分アクセスGoogleクローラアクセスしか記録されてない。BingボットDuckDuckGoクローラは来ていない。

自分が使っているブラウザChrome)にはDuckDuckGoなどの拡張機能も入れていない。

まりBingDuckDuckGoには「俺が作ったばかりの某サイト独自ドメイン)」の情報はまだ一切ないはずなのに、検索したら表示されるという状態

これって、Google検索結果を利用しないと不可能な芸当だと思うのだが…?

なんでこんな現象が起こってるんだろう?

詳しい人いたら教えて。

2021-11-25

ある1ページだけAccept-Encodingにbr指定しないと応答が空になるのは何故だ

クローラ避けなら1ページだけやったって意味ないだろ

何のバグ

2021-07-09

anond:20210709214950

ヒエッ、本職きたよ。ヌボボ

ちなみに医学部にいった友人の何人がむしろテック系に流れてきているという事情がある。

そこんとこ詳しく。メタップスとか?

東大卒だったら、言葉を正しく使え!

Waf なんて書くな! WAF とかけ!

Pub/Sub とか

うっせーな。クラウドベンダー独自 API なんか使いたくねーんだよ。オラクルじゃあるまいし。

DCL、DMLDDLといった用語を知っていることをひけらかしたかったのかもしれない

まぁ、それは認める。でもさ、select や create とかのDML/DDLCRUD と同じだけと、DCL なんて権限を発行できるりょういきにトーシロを突っ込むわけにいかないだろ。何も考えずに GRANT TO なんてプロダクション環境で発行されて日には、権限消失されたら永遠にデータアクセスできなくなるかもよ?

現場に放り込まれても10年ぐらいかかる。というより、フロントからバックからレイヤからモバイルまでやることはもはや現実的ではない。

そりゃそうだけど、フロントエンドは移り変わりが激しいじゃないですか。ほんの数年前までは Flash と DoJa のアプリを作ることがフロントエンド開発者でしたよ?一方データベースや OS の方は、ここ三十年ぐらい UnixRDB鉄板だった書ないすか。低レイヤだっていうけど、IoT なんかで C言語開発者バリバリっすよ。例えば、クラウドフレアなんか CDN の再発明をしてますけど、サーバーラックを見る限りだと差がついているのは低レイヤ根本技術改善であって、私はそこにプロフェッショナル性を見出しますがね。

C言語ができないのに「おそらく QUIC か MQTT 」とか分かってない英単語文字を羅列するのは厨ニ病すぎます

わかっていないのはテメーの方だ。今日オーバーフロー問題を抱えている C/C++サーバーの開発をしようとするのが危険なのは承知しろよ。パフォーマンス必要とするなら Rust、または GC があるけど Go言語を使って実装すべきだろ。高学歴なのは結構だけどは、現実は見えてないのか?いい加減にしろ

片手間でできません。インフラエンジニアに触らせます

そうだね~。卓越したインフラエンジニアがすぐに手に入るなら、問題ないだろうけどさ、ベンチャーや硬直化した雇用形態我が国で有能なインフラエンジニアをすぐに採用できるかよ。何年前の知識で戦っているの?時代は DevOps なんですよ。必要とあらば、すぐ学んで、応用して、デプロイできるのに「インフラエンジニア採用から始める」なんて、ヨーロッパが衰退する理由もよくわかるよ。プププ。

NextSSRまで踏み込む結構

誰が NextSSR なんてするか!あれは SEO必要場合に限る。そもそも SSR なんて危険からまともなエンジニアだったらしないだろ。問題になってないだけで、本当のブラウザクローラが見える内容が違うなんてスパム認定されてもおかしくないんだ。クローラインデックスされるページで SPA をやろうとするやつはセンスないで。

MyISAMInnoDBに切り替えるなんてことしているところは無い。万にひとつあったとしても、大事で、それだけで数ヶ月のものなので、この付け焼き刃の知識の人が触る機会はない。

すいませんでした。本当にすいません。

Kafkaを触ったとかいているが、Kafkaはサーバで使ったのかな?どういう利用シーンかというと膨大なログ収集等で使うのだが(ただのNoSQLではない)、Zookkeeperで調停させて、topic数とか調整するんだけど、わかってます

ん? AWS SQS だとパフォーマンス問題があることしたいから Kafka を使いたいのよ。確かに Zookeeper のことは詳しくないよ。だけど、AWS MSK 使うんで。PaaS というもんがあるので、だめなん?ログ収集は GKE みたいに ログに出したら Fluentd収集してくれる時代になんでグチグチ言われないといけないの?

Redisちゃんと使えてる?pub/subとか分かってないと思う(普通に理解する必要あんまない)

ハア?インメモリデータベースに信頼するほどヤワじゃないから。Redis なんて飛んでなんぼ。だから Kafka のようなストレージに保存されるメッセージキューを利用したいの。

code deploy

これないと、CI の責務が大きくなるじゃん。ほんでもって、ArgoCD なんて Kubernetes で展開したら運用までしないといけないじゃん。メンドクサ。

アメリカ事情は知らないはずなので知らないことは書かないようにしましょう。

いや、J1ビザをとってアメリカ留学したことあるよ。あと、「世界もっとも強力な9のアルゴリズム」「CleanCoder」「戦うプログラマー」 の本に書いてあるじゃん馬鹿にしてるのか?

 なぜ、ヨーロッパ人が避けるかといと「やる気がないから」です。以上

SAPアマデウスITとか強いじゃん。うそつき

2021-04-24

政府情報発信不足って何?

情報ウェブでも公開してるのに発信不足って言われないようにどうすれば良いの?

情報記載したページを検索クローラブロック対象外にしている

省庁のトップページから3クリック以内で情報アクセス出来るようになっている

公式twitterアカウント情報追加、更新した際にtweetする

主管省庁のマスコミ向け定例記者会見で大まかな内容を発表する

あと何すれば良いのかな

検索汚染」に憤る情弱もの気持ちがわからない

あのさあ。

どうしておまえらは二つ以上の単語検索するということをしないんだ?

戦艦名前画像検索するとゲームの絵がー」「競走馬名前アニメの絵がー」って騒ぐけど

金剛 戦艦」「スペシャルウィーク 競走馬」で検索すりゃいいだけだろ。

簡単な話じゃねえか。

なんでそんなこともできないんだ?

たとえば誰かからいきなり「ディープインパクト!」とだけ言われて

競走馬のことなのか映画のことなのか探査機のことなのか楽曲のことなのかお笑いコンビのことなのかプロレス技のことなのか

おまえらには分かるのか?

おまえらに分からないことがどうしてGoogleに分かると思うんだ?

「何も言わなくてもGoogle様は私の調べたいものエスパーしてくれる」というナイーヴな考えは捨てろ。

競走馬のことを調べたいなら馬名に「競走馬」を加えろ。

映画のことを調べたいなら作品名に「映画」を加えろ。

ディープインパクトといえば競走馬に決まってるじゃん!」なんて甘えはGoogle様には通用しないんだよ。

そもそも勘違いしてる奴が多いがGoogle長所は「検索精度」じゃない。

一時期「Google検索精度は高い」と言われていたのは他の(クソザコ)ロボットサーチエンジンとの比較にすぎない。

本当に「価値の高い」ウェブサイトだけを見たいならディレクトリサーチエンジンYahooでよかった。

Googleが素晴らしいのは「検索範囲の広さ」と「充実した検索オプション」なんだよ。

Googleクローラゴミみたいな個人サイト情報まできっちり拾ってくれる。

それを検索オプションを駆使してフィルタリングすることで欲しい情報を見つけ出せる。

もとより口を開けて待ってるだけで欲しいものが降ってくるサービスじゃない。

欲しいものを根気よく探せる人のためのサービスなんだ。

いかおまえらは「検索汚染に苛まれる哀れな被害者」じゃない。

ゴミの山に自分から突っ込んでいってる馬鹿」なんだ。

ネットを汚すなーとか言って他人様に殴りかかるのはやめろ。

エコテロリストかよ。

不快ものを見たくないなら自分で工夫しろ

どうしてもGoogleを使いこなせないなら人力検索はてなでも使ってろカスども。


最近Google検索ワード勝手に消すじゃん。

さなとき検索結果が非常に少ないからだろ。

それでも消さないでくれというなら「完全一致」を選択すればいいだけ。

その程度の手間さえかけられない雑魚から情報弱者なんだよおまえは。

金剛と言えば艦これ金剛のことだと思う人が多数派だとgoogleに示されるのが、母屋を乗っ取られた感じがして、心情的に受け入れ難いのでは?

そういう心情が異常だって言ってんだよこっちは。

異常者であることを自覚して悔い改めろ情弱

これのことなら、好きな馬の名前検索欄に入力したら「嫌い」がサジェストされてショック受けたって話だから検索結果関係ないよね。

関係ない話を持ち出してドヤ顔皮肉を言ってる人だ(笑)

何でその話だと思ったの? ねえねえ?

まあたかだか「嫌い」と出てきただけでショックを受けてしまう繊細ヤクザネットに向いてないってのも事実だけどな。

神はサイコロを振らない」って誰の言葉だっけ?と思ってググっとちょっと面食らった。「誰」まで付けて半々か。

神はサイコロを振らない 誰の言葉」でググれよカス

「誰」って誰だよ。

バンドメンバーが「誰」かもしれんし、ドラマ出演者が「誰」かもしれんだろ。

ここで「いや誰といえばアインシュタインが出てくるべきでしょ」というのはおまえの中でしか通用しないルールであって、そんな思い込みは捨てるんだよ。

自分の知らないバンドドラマ情報まで拾ってくれるGoogleクローラの優秀さに感謝してその幸せを噛み締めろ情弱

2021-04-13

anond:20210413134214

戦車もそうだけど、クローラキャタピラと言った方が分かりやすいけど)はちょいちょい外れるからな。

戦車クローラが外れる様子

https://www.youtube.com/watch?v=4CzOonUdW1E

車椅子みたいな、なるべく利用者負担が少なくてメンテフリーな乗りものとなると、タイヤしかむりだろ。

2021-04-05

anond:20210405085916

最近は一周回ってスマホでの見栄えしか理解されなくなってしまった

Webページクローラにどういうテキスト情報で回収されるかの知見は2010年あたりで滅んでしまった

悲しいことだと思う

2021-03-07

これは一種思考実験だが、下半身クローラキャタピラ)に換装すればたいがいの問題解決する。鬱だとか生理用品が買えないだとか弱者男性がどうだとか。逆に言えばお前らはクローラ作業アーム、バケットまで備えたユンボバックホー)の足許にも及ばない価値しかない人間だということになるだろう。

2021-02-09

anond:20210209104601

専門家として当然の配慮ができてないときは叩くぞ

1秒に1回クローラが来ただけで止まる図書館システム作ったところとか

https://b.hatena.ne.jp/entry/librahack.jp/

2021-01-24

anond:20210124103122

からクローラがやってくると

時間で、CPUバースト権利燃え尽きて自動的に閉鎖してしまうっていう脆弱設計だろ?そのまま自動普及はしないから、管理者が手動で再起動

その後、手動でいくつかのスクリプトを実行して、ようやくWeb再開

脆弱だろ 自動普及しないなんて

平均して2時間CPU利用率が100%に張り付くとサイトが落ちるなんて、脆弱だろ

2021-01-23

[]2021年1月22日金曜日増田

時間記事文字数文字数平均文字数中央値
009412517133.255.5
01406558164.046
02245433226.450
03163380211.371.5
04194733249.192
05183620201.183.5
06232832123.1100
07477200153.297
081161045590.149.5
09134931069.537.5
1012314147115.043
1113214834112.463.5
121941340769.142
131271210795.345
141611463890.937
151681331179.248
161801761497.953
1718424893135.339
183032766691.338
191921658586.437
202201342461.030.5
211451251286.342
2212922202172.142
2316817574104.648
1日2957300952101.843

本日の急増単語 ()内の数字単語が含まれ記事

信用経済(10), 石原伸晃(5), クローラー(10), しほ(8), 18cm(3), 虫ケラ(6), クローラ(3), きらー(5), ディスガイア(3), クロール(10), 氷河(3), 五輪(18), ワクチン(42), 麻生(13), 因果関係(7), 瞑想(8), 楽器(8), ムーブ(10), 嘘つき(10), 女装(7), 不審(6), 身長(15), JK(11), チケット(11), 洗脳(11), 絡ま(8), コロナ禍(17), 不動産(10), 信者(19), プログラマー(17), 搾取(19), 無意味(17), 騙さ(16), オリンピック(17), 反(14), 入院(12)

頻出トラックバック先 ()内の数字は被トラックバック件数

西野サロン炎上した、さいとうしほを救いたい /20210121201121(33), ■背の高い人間安易に「身長センチ?」と質問しないほうがいい /20210121202723(31), ■「オッサン趣味JKに置き換えた漫画」の逆バージョン /20210120200820(19), ■Switchなんだけど、なんでまだ気づかないの? /20210122105924(16), ■パパが毎日ご飯作ってくれたらいいのに /20210122202211(14), ■大学時代好きだった女の子がプペランカー化していた /20210122101329(14), ■泡姫に聞いたチンコサイズとか痛い客の話とか /20210122011250(11), (タイトル不明) /20210122163259(11), ■詐欺被害にあった /20210122175123(9), ■超時空世紀オーガスの設定むっちゃ面白いのに /20210122004550(9), ■ /20210122142508(8), ■ヤフコメに頓珍漢が湧いている /20210122181003(8), ■『もう中学生』が最近めっちゃ覚醒してる話 /20210121232528(7), ■「コロナ茶番」派の人間を観察してわかったこと /20210121020612(7), ■不味いもの /20210122123323(6), ■東大生安易東大ネタを振るやつ全員死んでくれ /20210122153137(6), ■ニート問題画期的解決法を思いついた! /20210122122013(6), ■自殺する奴ってなんで自殺すんの? /20210122161642(6), ■子供名前は /20210121230141(6), ■性的写真を撮れないスマホの意義 /20210122212435(5), ■掃除機洗濯機エンジンは稼働させることを「かける」っていうけどテレビオーディオは「かける」とはいわないね /20210121120618(5), ■袋麺の不都合な真実 /20210121190628(5), ■夏頃コロナにかかっておけばよかったと思ってる /20210121190833(5), ■マスクしてれば100%絶対感染しないわけ?? /20210122000745(5), ■女装コスプレイヤー価値はないの?どう努力すれば誰からも好かれる人気者になれるの? /20210122000949(5), ■さいとうしほを救いたいがキモい /20210122093306(5), ■今後の西野がやりそうなことを予想する /20210122143450(5), ■袋麺にも具をいれてほしい /20210122165801(5), ■大学一年生です。若いから分かる現状があります。力を貸してください。 /20210122172406(5), ■ネットじゃなくて本にしかない情報が多いというけど /20210122173812(5), ■自分のことを嫌いな人を好きにさせる方法はないのか /20210122175112(5), ■ある地方公務員獣医師の呟き /20210122175129(5), ■新型コロナ医療機関が逼迫しているなら /20210122180417(5), ■ここに馴染めない /20210120182029(5)

2021-01-22

anond:20210122183921

いわゆる、有名サイトリンクされて潰されるのは過去経験があって、そりゃしょうがねぇとは思ったが

オリジンクローラはもはや、やろうと思ってやったとしか思えねぇ

oriinサーバクローラとかおもしれぇことをするなぁとおもいつつ

めんどくせぇ

それにしても、個人サイトから情報を全部ぶっこ抜こうなんていうのは、久しぶりだな。

あるいみ、トイレの個室でカラオケを歌っていいとか、試供品を全部持っていって転売しても良いとか

驚愕の発想なんだが

どっちがいいかだよな

static pressでs3対応もできるが、こうやって、クローラが来るとサイトが潰れるほうが

すぐに攻撃が来たと気が付きやすいといえば、気が付きやす

2020-11-16

https://togetter.com/li/1623916

検索避けなんて迷惑なことをするなと思うし、避けたいなら認証必要にするとか robots.txtクローラ拒否するなりすべき

2020-09-28

UI改悪の件でpixivがやたら上げられてるけどなんかあったのけ

クローラは正常動作してるから気づかんかった

API直叩き万歳

2020-07-11

https://b.hatena.ne.jp/entry/s/twitter.com/rita0222/status/1281386228118466560

初期はWebアプリケーションブラウザは不可分だったかHTMLの出力=ブラウザへのレンダリングと考えて差し支えなかったのだろう

その後ステップが分かれてHTMLの出力とブラウザレンダリング間には直接的な関係性が無くなった(というよりはクローラのような各種サービススクレイピングのような二次的なデータの利用方法が生まれた)が, 語が再定義されることはなかったため、Server Side Renderingと(In browserの)レンダリング暫定的区別をつけられて今に至る

のかな?

個人想像です

2020-01-09

2ちゃんねる民がホラーみたいになってる

一昔前、2ちゃんねる管理人であった西村博之氏は運営会社と揉めて2ちゃんねるを手放さざるを得なくなった

そのことに納得がいかなかった彼は2ちゃんねるコピーサイトである2ch.scを作った(ちなみに元の2ちゃんねる2ch.sc区別する際には2ch.netと呼ばれるようになった)

2ch.sc2ch.net機能的な部分だけでなくコンテンツをも丸コピーしており、2ch.net書き込みがあるとクローラが検知してそのまま2ch.scに同じ内容を書き込んでいく、

そういうトリックで建っているスレも、書き込まれた内容も、書き込み数も2ch.netと全く同じ。

一見書き込みが多く賑わっているように見えても本当は誰もいないという妙ちくりんな空間であった

最近になり純正2ch.sc民がいるというのを初めて知った。

数年前、元の2ちゃんねるである2ch.net商標関係で揉めた結果5ちゃんねると名前を変えた。

そういう経緯もあり、今Googleで『2ちゃんねる』と検索して一番上にでてくるのは2ch.scである。そう考えると不幸にもゴーストタウンである2ch.scに迷い込む人がいてもおかしくないだろう。

ちゃんねると2ch.scスレ一覧を並べて書き込み数を比較してみると、一部差分があるスレが見つかった。中を見てみると、純正2ch.sc民は簡単発見できた。

それも、全体でいうと少なくない人数。

彼らは、そこにいるのが人間だと思い込み、反応など絶対に返ってこないのにbot書き込み同意し、とき反論を期待し相手非難する。

自分2ちゃんねるの一員であるのが当たり前みたいな顔をして、誰もいないその空間に長年囚われ続けている。

なんかこれってホラー作品の題材にできそうだなって思いました。

2019-10-01

個人アプリ開発時の『ドメイン取得』ってどうすればいいんだろう

個人開発記事とか見てると大体お名前.comとかでてくるけど、

ドメインって安くても維持費が1つにつき年間数百円から数千円発生するんだよね

サーバだったら最悪VPS借りて相乗りさせれば何個サービス開発しても1台分以上は料金かからなかったりするけど

人生かけてるサービスだったり一発起業目指して開発したサービスだったらともかく、

開発したサービスが当たるか当たらないかなんて予測は無理なわけで、

ドメインを取得してしまうと1年経つごとにドメイン維持費を払うか維持費をケチって潰すかの選択を迫られることになる

ユーザー投稿型のサービス廃墟化してるなら潰す選択肢はありかもしれないけど、

クローラデータ収集する感じのサービスDBがなくても稼働するようなサービスだとマネタイズできてなくても小さな需要はあるかもしれなくてドメインのために潰すのもアレだし、

基本やっぱサブドメイン運用でいいんかなぁ プライマリドメインgoogle.comみたいにブランドみたいな位置づけで

みんなどういうルールドメイン取得してんだろ

ログイン ユーザー登録
ようこそ ゲスト さん