「クローラー」を含む日記 RSS

はてなキーワード: クローラーとは

2024-11-14

なんでもかんでもhello worldと表示させるプログラムで入門させようとするのやめろ

こっちはウェブアプリクローラー等)をどうすれば自鯖以外で常時稼働させられるか知りたいのに、hello worldと表示できました、じゃその方法で一度実行したら継続して稼働するのか分からないじゃん。

google app engineやxserverでのjavaの実行の記事が軒並みそういう内容だから途方に暮れてる

2024-11-13

[] クローラ開発

構造情報の変化の監視について

robots.txtの遵守について

速度/接続制限マルチスレッディングについて

訪問済みURLのKVSについて

法的要件確認について

UAIPのローテーションについて

その他

追加的なヒント

2024-11-12

機械学習されないための加工」は画像価値を減らすものばかり問題

robots.txtなどでWebクローラーに避けてもらう

パスワード付きページなので条件が揃わないと外部からアクセスできないようにする

画像の中にサインを入れておいて機械学習側の誤爆を狙う

画像全体に "ウォーターマーク” を掛けてそのまま利用できないようにする

画像全体を変色させる加工を施して学習素材として利用させにくくする (GlazeやNightshadeなど)

スクレイピング対象から避けやすくするため長辺を256px未満にする←New!

上2つのように「自由には触れさせない」作戦はまあいいとして、それ以外は多かれ少なかれ画像劣化させる方向にばかり頭を使っている印象。

仮にそれで機械学習対象から外されたとしても、自らの子と言っても過言じゃないイラストの「劣化版」を出して憚らない、ってのは端から見ていて辛い。

=====

2024/11/13追記

そう言えば、コピープロテクトのせいで正規ユーザー被害を被る、って話は昔からあったね。

CDリッピングは容易で法的にもセーフだけど、そのせいでCCCDかいう特級呪物が産まれたし。

ただ、正規ユーザー被害を受けない限りにおいては、コピープロテクトなどの防衛策で予見される金銭的損害を講じるのは正当だと思う。画像の素材集や映画などにウォーターマークが乗ってたりするのはこのパターン

でも、無償公開分……収益考慮しない趣味絵のようなものにまでウォーターマーク適用するのは (正規ユーザー被害を受けるので) よろしくない。

逆に、Skebはなぜ (依頼した人に渡す分じゃなくて) ネット公開する分の画像ウォーターマークやGlazeなどを施さないのか。処理コストを嫌がっているのか、中の人がその手の技術を好きじゃないのか。

2024-07-24

anond:20240723225623

いないと思う

定期的にタブ開きまくったままにしたい増田が出てくるけど動機わからん

片っ端からメモアプリに突っ込めない理由はなんだろ・・・

 

メモアプリになんのやついちいち書くの面倒だったら

Notion Webclipper(AI要約もできる)とか Raindrop.ion とか使うか、

自前でクローラー作ったらええと違うか?

2024-06-27

AI最近ヤバいエコチェン備忘録

AIが無学(高卒オタクマン)な上に人の忠告を聞かないせいで、実在しない問題、恐怖を内輪で膨らませてた例が最近無茶苦茶多いので備忘録的にリスト

 

「生成画像1枚にスマホ充電522回分の電力がかかる」と論文誤読

 実際は、1000枚に522回分(1枚には0.522回分)と書いてあったのを、英語も読めないのに機械翻訳AI…😂)で無理矢理引用して誤読

 そもそもスマホ電池容量は約20Whほど。522回分では10kWhになる。電気代で言えば卸値でも100円はする。1枚にそんなにかかっていたら商売が成り立たないとも気づかない頭の悪さ(一部は「だからこそ誰かが金を出してる陰謀なんだ」とか訳のわからないことまで言い出す始末)。

 英語力、計算力、金銭感覚のなさ、そして無意識AI翻訳を頼るという馬鹿馬鹿を重ねる失態。

 

OpenAICTOが言った「some creative jobs(いくつかのクリエイティブ業)は最初から要らなかった」を「すべてのクリエイターは要らない」と誤訳捏造

 普通英語力があれば解るが、名詞複数形にsomeがつく場合とそうでない場合では大分訳し方が違う。

 「もともとクリエイティブと呼べないほどの仕事もあった」という程度の言葉を「すべてのクリエイターに対する挑戦」のようにねじ曲げ拡散するのは政治的な行いなのか、単なる狂気なのか。

 

「copainter対策」でイラストに猫の写真を入れだす←NEW!

 そもそも学習対策」は無作為クローラー対策のためにネットにアップする画像に施すものであり、copainterなどの自分で下絵をアップロードするi2iサービスには何の効果もない(というより、もはや何を狙っているのかも不明)のに(詳細は→ https://anond.hatelabo.jp/20240626081537)、イラストに猫の画像を埋め込んで「上手く生成できない画像はこうだ」とか、現在進行形で盛り上がってる。

 あいつらの脳内ではこの自分勝手な被害妄想?(というより、ry)で意味不明発狂を起こしていることすら「AIのせいでクリエイターが先の見えない対策に追われている」と変換されているのがなお凄い。

 その「対策」に何の先も見えないのは、AIが凄いからじゃなくて、お前らが自分で何をやっているのかが解ってないからだw

 AIを怖がるにしても、せめて最低限の仕組みぐらいは理解してから、仕組み的にありえることを怖がれw

 

 この調子だと、これからもこいつらは加速度的に暴走を続けていくと思われるので、記録する場を設けておく。

2024-06-11

anond:20240611151801

別にいいけどそもそもクローラーとかそんな大した仕事ではないし

普通は一から作るというのは大規模なサービスを一から書き直すような時に使うわけよ

クローラースクリプトとか一からかくに決まってるじゃん?

いちいちスクラッチとかフルスクラッチかいう話ではないんだよね

人月?って話で

anond:20240611150902

横だけどまず「フルスクラッチ」ってのが怪しいのと

クローラースクリプトとかエンジニア的に誰でもできることであって

駆け出しの仕事じゃん

スクリプトの時点でスクラッチもクソもないじゃんっていう

スクリプトを一から作るならそりゃそうだろうけど

anond:20240611140449

いやフレームワークも使わないで素のPythonファイルサーバーファイルをあげるクローラーマイクロサービスって言う人君しかいないよ

真昼間に書いてんのも君だし

アメリカから

anond:20240611132306

じゃあPythonクローラー書いてるってコト?

どのサービスがなんのフレームワークでやってんの?

anond:20240611123149

またフワッフワだなあ

なんのアルゴリズム

あとOOPを誰でもできるみたいに言ってるけどできてないんだよ

クローラースクリプト書いてるようなやつは100%できてない

まあスクリプトだろうがなんだろうがまず動かすのが第一歩でそこで9割脱落するけどな

anond:20240611121902

まあクローラーデータ取ってきてまとめてる感じ?

素人では出来ないけど使う方の仕事だし確かにアルゴリズムとかデータストラクチャとかOOPとかはいらなそうな感じだね

まず動かすのが素人には出来ないからね

2024-06-09

SearchConsole で自動生成されたようなクエリパラメーター付きのURLが大量にリストにある

有効なページはそこまで多くないのに、それらのせいでページ数が数万とかになってる

もちろん robots.txt や noindex や canonical はついてるからインデックスはされてないんだけど、SearchConsoleの管理画面に一覧に URL として並んでる

こういうのがあるから有効なページがクロールされるのが遅かったりするのかと思う

実際のページが 500 でも数万件あるとみなされてればクローラーは数万件を処理するわけだし

インデックス登録されないとサイト検索が使えず不便

2024-06-04

アカウント自動で作れるネットクローラーとかありそうじゃない?ロボットではありませんってマウスカーソル操作すればいいわけだし、できるっしょ

2024-03-21

anond:20240321223715

最終的にAIAI学習するという堂々巡りになる可能性が出てくる



意味不明。おまえsdモデルに追加学習するときネットクローラー回してツイッタから画像拾ってるだけだと思ってるんか?

調べてから言え、アホ

2024-03-06

AI絵師たちってさ

なんでインターネットに絵なんか上げちゃったの?

前々からインターネットにモノ上げたら勝手収集されて学習データにされるのは分かりきってたじゃん。

Pixivに上げたら勝手Googleクローラー収集されて検索エンジンに載ってたじゃん。こういうのがAI学習に使われることくらい皆分かってたでしょ。

画像生成AIだって2010年代からずっと話があったんだから、本当に学習データにされたくなかったらその時に辞めることだってできたよね?

それを「いいね」が貰えるという承認欲求で見ないふりをしてきたからでは?

2024-03-02

絵師さんは何もおかしなことを言っていない

もう分断を煽るのはやめませんか

現在混乱を招いている要因は、おそらく以下の二つ

   

1. 著作権法第 30 条の 4 ただし書き解釈

2. それぞれがAIを異なる意味で使っている 

 

 

著作権法第30条 4 ただし書きの解釈

AI利用に向けて改正されたとされる著作権法30条の4は AIならなんでも許されるというわけではない。以下のように条件がついている。

  

著作物は,次に掲げる場合その他の当該著作物表現された思想又は感情を自ら享受し又は他人享受させることを目的としない場合には,その必要と認められる限度において,いずれの方法によるかを問わず,利用することができる。ただし,当該著作物の種類及び用途並びに当該利用の態様に照らし著作権者利益を不当に害することとなる場合は,この限りでない。

 

 

この辺りの解釈について紛糾している様子。

同30条の 4 は平成30年当時、事業者研究者によるAI利用を想定していた。現在では一般市民AIが広く普及し状況が変わってきたこから、同条の適応範囲について再整理を図るという趣旨で公開されたのがAI著作権に関する考え方について(素案)」

そして素案に対するパブリックコメント募集した、というのが現在の流れ。

 

 

  

それぞれがAIを異なる意味で使っている

 

 

 

それぞれは別におかしなことは言っていないと思う

 

 

反反AIネット上にある全ての絵をクロールしているんだよ!お前の絵だけ除けるか!」

 

たぶん、CLIPのこと。テキスト画像翻訳を行う。犬の画像を見て「犬」識別することができる。

ネット上のあらゆる画像テキスト学習することで作られた。OpenAIによって公開。画像生成だけではなくいろんなところに使われている。

  

  

  

PixivAI学習禁止です」

たぶん、画像生成器(拡散モデル)のこと。

画像生成AIテキストエンコーダ(CLIP)と画像生成器の組み合わせでできている。stable diffusion等は拡散モデルを使っている。

   

拡散モデルこんなかんじ

1. イラストを用意する

2. イラストノイズを振って汚す

3. 汚れたイラストから元のイラストを予想させる

 

学習を繰り返しノイズを増やしていくと最後ただのノイズから画像を出力する 連想ゲーム絵師誕生する。連想ゲーム絵師連想しかできないので自分が描いたものが何かわからない。犬を描いてといっても車を描いてくる。なので CLIPが誘導したりダメ出ししたりする。

 

拡散モデル学習に使われるイラスト

どこかのイラストサイトデータベースを使っているはず。「著作権的に安全な〜」みたいな触れ込みのやつはどこかのデータベースを購入して使っているんだと思う。

Pixivの主張は別におかしくない。このあたりはAI著作権に関する考え方について(素案)p7」(エ)において解説されている。"robot.txt"への記述によりAI学習を行うクローラーアクセス制限しているにも関わらず、勝手学習に使うことは「データベース著作物潜在的販路を阻害する行為」として著作権違反になる(Pixivが将来的に本当に販売するかどうかは置いておく)

 

 

絵師AI学習禁止です」 

追加学習(LoRA)のこと。

既存モデル数枚のイラストを追加学習させることで絵柄を模倣ファインチューニング)する。

特定絵師さんのイラスト勝手に使う者がいるようでトラブルになっている。

 

絵柄に著作権はないのでは?

絵柄に著作権はない。学習の際に行われる複製が著作権侵害にあたるかどうかが争点になっている。

 

著作権法30条の4 より

  

この辺りは「AI著作権に関する考え方について(素案)」及びパブコメの返答に現状の解釈が示されているので興味のある方はどうぞ。

(p6. 特定クリエイター著作物のみを用いてファインチューニングを行う場合〜を参照)

※ここははっきりとは断定していないので自分で読んだ方が良いと思う。

  

(私の読解:)

程度問題ぽい。よくある画風なら問題にならないけれどはっきりと特定絵師さんとわかる感じだとダメそうですね

(私の読解終わり)

絵師さんのプロフィールを叩いている人は意味わからん

別にプロフィールなんて「トイレから出たら手を洗ってください」でも「フォローする際には五体投地してください」でも好きに書いてよいだろう。

それが法律に記されているかどうかは関係ない。ただのお願いだ。

AI学習禁止」と書くなと騒いでいる人は何を考えているのかよくわからん

  

AI著作権に関する考え方について(素案)」にも再三出てくるがAI学習技術的に回避することは禁止していない。30条の4は権利制限であって、イラスト差し出せという強制ではない。

分断煽りうんざり

パブリックコメント

 

見ればわかります個人よりも一般企業による意見が多く、返答とあわせてとても読み応えのあるものです。

このファイルを読んで個人の頭の悪そうな意見だけ抜粋してくるのは非常に違和感があります

 

技術創作への興味を失い、ただ相手サイドの頭の悪そうなやつをみつけて叩く人たちとは距離を置きたいところです。

2024-02-23

分散SNS懸念

消せない

分散SNSに搭載されている削除ボタン基本的には「自分のいるサーバーからは消せるけど、他のサーバーにはあくまでもお願いしかできない」仕様なので繋がっているサーバー管理者や設定次第では永遠に消したい投稿が残り続ける。

ネットってそんなもんじゃん、分散型そんなにダメなの?

第三者が悪意のあるなしに関わらず無断で個人情報拡散した場合や、自分が間違えて個人情報投稿してしまった時など、比較簡単情報海外サーバーにも渡ってしま日本国内法律では対応しきれなくなる。

大抵の場合は消してもらえるとは思うが、最悪の場合日本国内サーバーからは消せても外国サーバーには残っており、その国には関連法がないため法に訴えて消してもらうこともできず、日本国内から簡単に閲覧が可能...という状況も想定される。

長々と語っているが、要はサーバー管理者は悪意がなくても犯罪に加担してしま可能性があるということと、情報へのアクセスのしやすさが違う。

また、誹謗中傷デマ無断転載なども勿論同上。

既に誹謗中傷界隈(?)の人間が「言論の自由だ!Xアカウントが凍結された!検閲だ!」と分散SNSに移動してるのをちょくちょく見るのが不穏。

収益性

基本的サーバー運営にはお金がいるのでサーバー管理者マネタイズに追われるが、Xは広告のみでもあの有様だし、現に資金繰りがうまくいかず閉鎖したサーバーも見てきたし、そのうち(サーバー関係なく、モラルのない人が)金儲けにと違法薬物の広告などを出し始めるのも想像に難くない。

法律を逆手に取った攻撃

ご存知の通り、日本ポルノに関する規制が異常にゆるい。児童ポルノに関してもそう。

故に、感覚麻痺しきった日本では普通だと思われる児童ポルノ系の絵柄が多く投稿されるサーバーアカウントはは諸外国サーバーからは切断や凍結されることが多く、代表で言えばPawooがそれ。

場合によってはキャッシュが残っているだけで捕まる国もあるので当たり前なのだが、これを逆手に取り、いつぞやのPixivのように児童ポルノ児童売春に関する投稿を大量にされたら、どんなに本人が平和にやっていてもサーバー管理者がお縄になったり諸外国にあるサーバーから連合を切られたり、その上日本人そのものへの風評被害になりかねない。

まあ、日本のキショさチキンレースをやってる表現の自由戦士達は自分も含むみんなの首をじわじわ絞めるのでこんな攻撃をするまでもなく日本サーバーは切られるんだろうけど.....

日本IPから外国サーバーへの大量投稿、なんてのがあったらなおヤバいかも。

生成AIへの利用

自分がいるサーバー管理者が生成AI反対派でブロックする技術を導入してくれたとしても、クローラーがいるサーバー制限がなければ恐らくなんの意味もない。(今後どうにかできる技術が出てくるかもしれないが、恐らくイタチごっこだと思われる)

絵描きさん、VTuberさん、コスプレイヤーさんなんかはAIに使われると大変だと思うのでご留意されたし。

まあ後述の通り、AIに利用されたくなければ全てのSNSで警戒は必要なのだが、やはり自分悪用する側だとして想像してみると分散SNS収集簡単さにはやはり惹かれるものがある。

よくある誤解

MisskeyはAIへの利用を拒否できる

完全にはできない。削除と同じであくまでもAIに「使わないでください」とお願いができるだけであって完全な拒否不可能(これはSNSに限らずインターネット全般

ネトストやす

これは一長一短なのだが、どの分散SNSRSS配信を使えがちなのでアカウントを持っていなくても投稿内容を監視できて相手にバレずにネトストがしやすい。

企業は自前でサイトを用意しなくてもいいので助かると思う。

思いついたらまた追記していきます

2023-12-04

なんか新しいプロジェクトを立ち上げたいなーと

俺はしがないプログラマー

githubで50スターぐらいのしょぼいコードを置いているが、そんなプロジェクトには何の力も入れていない。プロジェクトと呼ぶのもおこがましいぐらいだ。

仕事ではとあるコンテンツ検索エンジンを作っているが、情報検索、推薦システムクローラー、そういうのを開発するのもだいぶ慣れたのでなにか新しいことをやりたいなと思っているところだ。

リーナストーバルズが言っていたが、「一つのプロジェクトを30年継続するような、そういう人がこの世界には必要だ」らしい。Linuxという価値あるプロジェクトを持つ人はやはりいうことが違う。

しかし、Linuxレベル価値のある何かを30年...それ俺にもできるんだろうか?

自分けが満足できるコードならいくらでも書ける。

しか社会から需要があり、その需要が30年も続くようなものを、果たして俺程度が作れるのか。

そもそも需要というのはどこからまれてくるのだろう、と思うことがある。

それは人に対する社会的信用であったり、あるいは偶然的に宣伝がうまく行ったということもある。

俺は日頃から社会」が俺を評価していないと思うことが多い。そんな状態で、社会のためになる何かを作ることな可能なのか。

社会」が、俺のような人間を「弱者男性」といって差別虐待している状態で、俺は本当に社会のために貢献したいと思えるのだろうか。

一体、弱者男性が作ったどんなプロジェクトであれば人々がサポートしようと思えるのか。

全てが虚しい。

2023-12-01

統合失調症プログラマーの一日

うるさい目覚ましで朝起きる。眠すぎる。二度寝したい。

しか仕事があるので、こたつの上に置いているPCを起動させ、リモートで出社する。

メール一覧を確認した後、今日タスク確認し、今日やろうとしていることを上司に伝える。

ここがポイントなのだが、タスク完了する日数は多めに見積もっておくとよい。2日で終わるタスクは5日かかると言う。

急ぎのタスクなど俺の会社にはない。急いでたくさんこなしても、給料は上がらない。

そう言いつつ、タスクはできる限り早く終わらせる。

例えば見積もりが5日で、終わらせたのが2日であるなら、3日はサボれるということだ。

あと、できるだけ自動化しておく。クローラーファイル統計の生成も、バッチ的に実行するスクリプトも、そういうものはひたすら自動化する。

ではサボっている時に何をしているかオナニーするのも良いし、コンビニおやつを買ってくるのも良い。

あるいはオンラインゲームをするとか、増田をやるとか、とにかくやりたいことをダラダラとやっていればよい。

仕事をしていないことを監視する人は誰もいない。結局、やるべき仕事はやっているのだから、俺が間違っているということはない。

他の社内ニートたちよりも俺のほうが仕事をしている。

そうして仕事時間が終わったら、テキトー挨拶して抜ける。100%定時で退社するべきだというのが俺の論だ。急ぎの仕事もないのに、残業代を貰うわけにはいかない。

さて、一日の仕事が終わった。そして俺はオンラインゲームの続きをする。

あとは普通に夕飯食って風呂入ってシコって寝るだけだ。

こういう人生を歩む弱者男性の俺からすると、なぜ世間の人たちがあんなに頑張れるのか、不思議に思ってしまうのだ。

俺に物資配達するヤマト運輸の運ちゃんはよく頑張っているし、プログラマーなんかよりも100倍役に立っているだろう。

なんというか、他の統合失調症患者人生もたぶんこんな感じなのかな。

2023-08-26

anond:20230826213257

ワイはChatGPTで文章を生成させてクローラー適当画像を取ってきて自動生成しているやで。

広告収入が増えてきて小遣い稼ぎ程度にはなってるやで。

2023-08-24

はてなEV嫌いは異常

https://anond.hatelabo.jp/20230821082124

実際の事象とは異なることを、さも本当であるかのように広めてるよな。

報道によれば、マルハン厚木北店の火災では実際にはエンジン下部から出火し、EV車に起因するものではなかった。

消防当局によると、火災エンジンから発生した。

お前はEVが嫌いかもしれないが、残念ながらこれが事象だ。

嫌いだということを書くのは構わんが、デマの流布は犯罪になるかもしれない。

刑法第233条 信用毀損および偽計業務妨害

虚偽の風説を流布し、または偽計を用いて、人の信用を毀損し、またはその業務妨害した者は、3年以下の懲役または50万円以下の罰金に処する。

正確な情報を元に判断することが重要で、それから書けよ。

お前の書いた事は、お前が消したとしても、クローラーキャッシュされるし、将来訴えられても知らんぞ。

ログイン ユーザー登録
ようこそ ゲスト さん