「スクレイピング」を含む日記 RSS

はてなキーワード: スクレイピングとは

2022-12-05

最近よく見るスパムサイト

マイナー商品Google検索してみる(例えば古いおもちゃ)

すると、上の方にはアマゾン商品ページがあって(売り切れ)、その下辺りにメルカリ検索結果が出てくる

さらに下の方に、見たことのないドメインながら、その商品を売っていそうなECサイトっぽいサイト複数引っかかる(説明文に価格が書いてある)

試しにクリックすると、説明文のページは出てこず、詐欺っぽい広告サイトリダイレクトされる

おそらくまともなECサイトフリマサイトから商品説明文をスクレイピングして、おとりページを作成していると思われる

これなんとかならんの?

2022-11-21

anond:20221121105039

難しいこと考えなくてええねん、思ったこと言えば

ワイは仕事柄、ツイートスクレイピングするねんけど、妙に客観ぶってツイートより思ったまんまをかくツイートのほうが、総体としてはデータとしておもろいと思うで

レビューもそうやろ

2022-10-05

プログラム組める”って言っていい基準

どのレベルまで出来れば普通にプログラム組める”って言っていいの?

hello worldが書ける

2000年対応コーディング単体テストができる

Excelマクロword差し込み印刷みたいのを0から作れる

賃貸情報スクレイピング収集し、好きな条件で検索できるシステムを0から構築できる

⑤500件以上のホテルの予約サイトを0から構築運用できる

2022-09-11

anond:20220911205221

おかしいかどうかわからんけど、

俺の年収より稼いでる人は俺ができることなら全部できて当然

じゃないと世の中フェアじゃないので、

俺より稼いでる人には

データベース設計とかwebサーバー構築、業務会計システムとかワークフローシステムフルスクラッチ開発とかスクレイピングとかSQLチューニングとか全部全部全部独力で当たり前の平気な顔してやってほしいなー

2022-09-01

MidjourneyとStable Diffusion比べて、単純にスクレイピングして画像学習させるだけじゃ、クオリティ出ないんだなって

Stable Diffusionは23億枚の画像学習したっていうのだけど、使っているとクオリティが低い画像が大量に生成される。

自分が書いたプロンプトが悪くて、内部のベクトルが散らばってしまっている可能性はあるのだけど、使用感はStyleGANに近い。

大量に画像学習しているはずだけど、2枚の画像を合成してる感じ。

seedを固定してtext2imgすると元絵っぽいのがなんとなくわかるのだけど、構図が元絵に引っ張られる。

2枚の元画像にない場合は、描こうとするのだけど崩れる。


Midjourneyの方だとわりと適当に入れても「凄い」ってなるし、

言葉で言い表しにくいが、概念学習している感じ。

〇〇をモチーフにと2つ組み合わせれると意外性も含めて画像を出力してくれる。


データセットの枚数を聞くと23億って多いなって思うけど、

スクレイピングしてくるだけじゃクオリティでないなって。

(もちろんデータセット側で低レベルなのはaestheticで切っているのだろうけど)


適当なこというと、Midjourneyの方がオープンになってローカルで動かせるようになって欲しかったな。

2022-08-31

AIイラスト生成で吹き上がる人に対して醒めた目で見ている

イラストレーター仕事がなくなる!って吹き上がっている人が多くてなんだかなあというところがある

そもそも、例えばAIイラスト完璧に新しく自分の絵柄を元に生成できたとして、それに対して上がってきたものの「善し悪し」ってAIが判定するの?

クライアントジャッジしてもいいけど、クライアントいか自分自身要望すら把握していないかっていうの、一番わかっているのイラストレーター自身だろ。

「いやクライアントあほから、それっぽい絵が上がってきたらそれでOKってなるよ」みたいな話をするイラストレーターがいたとしたら、じゃあアホに対してしか仕事できねえ自分を恨んでくれ。逆にそのレベルクライアントはじけるの、買いたたきとかするやつらばっかだからプラスになるんじゃねえか?

イラストレーター仕事が単純に既存の絵にならってそれっぽい絵柄を描くだけの仕事なら確かにAI仕事を奪われるんだけど、イラストレーター仕事の中には要件定義要望の汲み取り、文脈やそれに倣った構図、配置というところの指定が入ってくる。これらはAIにとっては現状ひどく困難で、AIというのは言われたこしかできないのであなた思考をくみ取ることは現状残念ながらできないし、それっぽい文言を生成するのすら、素人には難しいだろう

また、AIが生成してきた絵があったとして、それが本当に案件合致するか?というジャッジ素人には無理である

それを細かく修正することも、どこが悪くてどこがよいのか、という判定を下す人間が適切に対処しないと無理なのだAIは言われたこしかいまだできないのである

から、「審美眼を持ち、顧客要件を読み取り、自分の画風としてイラストを描けてあげられる」というイラストレーター然とした人間は、まだまだ生き残ると思うよ

まあ、デジタル絵というもの学習されやすくなるが、今後もリアルな版画や絵画価値は減衰はしないだろうっていうのもあるしね(むしろ価値が上がりそう)

本当にうまいちゃん仕事ができる人は生き残り続けるだろう

というわけで、ここまでは理屈の話でイラストレーター仕事はなくならないって話なんだけど、今TwitterにてこういったAI禁止を唱えている人々は単純に「自分の絵を勝手に使って絵を作られることの拒否感」というお気持ちレベルの話で吹き上がっている。その人たちに言い換えると「モラル」の話である

これに関しては本当にくそくだらないと思うんだけど、お前たちのその絵柄はpixivTwitterで上がってきている有象無象の絵から一切影響を受けなかったのか?

Twitterという公共の場で流れてくる二次創作を一切享受しなかったの?それと機械の間にどれくらいの差があるの?人間が温かみをもって集めているのと機械文字通り機械的に集めていることの差は何?

それを知らない第三者転用されるのが嫌!っていう人はインターネット作品を上げない方がいいという話になるしかない。インターネットとは、上げた瞬間にどこか知らない場所再利用されているしスクレイピングされているし、集めている当事者ですら、集めているということを検知しないまま集めていることもままある

それをすべて禁止するのは無理である

また、対策として、透かしを入れたところで最近はその透かしを取るAI技術それ自体が発達していっているので早晩意味がなくなるだろう

悪意を持ったやつを想定してサービス作れよ!っていうけど、そもそもより悪意をもってサービスを作るやつの方がインターネットは強いので意味がなくなるし、そちらに流れるだけである

それに「自分の絵柄が模倣される!」と言っている人間の中の何人が「まったくオリジナルな絵柄」を獲得しているのだろうか。

少なくともアニメ調で描いている時点でそれオリジナルではなくないか自分の絵柄が既存の絵とどう違うのかって説明できるやつ何人いるんだ?

なにより一番くだらねえと思おうのは上記の主張をしているやつらのなかで二次創作メインでやってるやつらが多くいることが、本当に、本当に、くだらない

機械学習が絵柄を取ることを心配する前にまず他人作品に乗っかって創作するのやめろよって言いたい

こういった人間心理は「絵が描ける」って単なる技能しかないものアイデンティティとした末路だと思うので、別のところにアイデンティティ確保したら?と思ってしまう。絵が描ける+シチュエーションのような形で

どのみち、この人たちが求めている法整備したら二次創作死ぬだろうし、法律要件組むだけでも結構いろんなところに気をつけないと、AI禁止するよりもっと大きなところに影響が波及しかねないので、おそらく今後10年くらいは法律整備できねえだろうなあという気持ちはある。法というのはそういうものである

まあ、このお気持ち自体は新しい技術が出てきた時の古い職人たちのアレルギー反応のようなものなので、粛々と慣れるまで時間をおくしかないのだろうなあというのを様々な記事コメントを見て感じる次第だった

2022-08-11

プログラミング言語の紹介

初心者Pythonから始めましょう。やりたいことはPythonでだいたいできます世界で一番人気の言語資産豊富にあります低学歴素人がなんと言おうとPythonです。Pythonを覚えるのです。簡単なので1日あれば覚えられるでしょう。

次にSQL勉強しましょう。SQLは3日くらいあれば中級者になれるでしょう。現代データベースはだいたいSQLかそれのパチモンが備わっていますSQLができると仕事の幅が広がるでしょう。

そしてJavaScript勉強しておきましょう。Webブラウザは全部JavaScriptが動きますJavaScript勉強することでWebページで遊ぶことができるようになりますスクレイピングなどの理解も深まりますJavaScriptは便利です。

さて、ここまで来たら仕事必要プログラミングは身についているので次に進む必要は無いです。コンピュータ気持ち理解するためにはC言語をかじってみるのもいいでしょう。大企業で働きたいならJava必須です。型に興味を持ったらOCamlHaskellに手を出してみても良いでしょう。システムプログラミングをしたいならGoやRustも良いです。Goバカみたいに簡単ですがRustは初心者向きではないです。

2022-08-05

anond:20220805144030

ってことはなに?APIしか連携してないのでクローラースクレイピングもしてないってこと?

anond:20220805142117

管理画面にID/PASS入力してログインして

管理画面のスクレイピングして

管理画面で更新処理してるってことよね?


一休食べログぐるなび、OZmall、HOT PEPPERRetty、ヒトサラの管理画面にアクセスするって倫理的にありなのか・・・・・?

あなたが「スクレイピング」という言葉を使うたび

どこかの誰かの頭の中で、スク水女の子が一人、強姦されるのです

Webスクレイピングサービスという存在

適切な目的で適切な手段自分スクレイピングするのは問題ないというのは理解しているが、業としてスクレイピングサービスとして提供するのはちょっとひっかかる

法的に全く問題ないんだろうか?

Webスクレイピングサービスという存在

適切な目的で適切な手段自分スクレイピングするのは問題ないというのは理解しているが、業としてスクレイピングサービスとして提供するのはちょっとひっかかる

法的に全く問題ないんだろうか?

Webスクレイピングサービスという存在

適切な目的で適切な手段自分スクレイピングするのは問題ないというのは理解しているが、業としてスクレイピングサービスとして提供するのはちょっとひっかかる

法的に全く問題ないんだろうか?

2022-08-02

anond:20220802100107

結論から言います

作れません

開発には公式が発行するAPI必要だけど新規受付は5年前に停止しました

スクレイピングなら作れますが、規約上では一応禁止です

2022-07-27

anond:20220727042958

こういうのスクレイピング練習としてやってみたい

とりあえず自分ブクマ一覧が

https://b.hatena.ne.jp/自分ID/bookmark?page=1

から、そこから href属性

<a href="/entry/******/comment/自分ID"

リンクを取得し、その先で

<a href="" class="comment-hatena-star-username"> ID </a>

ID部分を取得して、数え上げたら良さそう

2022-06-16

ツイッター名前に@8wだの@16wだの付けてやがる女をスクレイピングしてヲチするのが最近趣味

である日突然それが消えたアカウントに「もしかして流産しちゃったんですか!?残念です🥺」ってDM送るとほぼ確定でブロックされる

楽しい

2022-05-22

新しい言語勉強する意味あるんだろうか…?

別に何の言語でも良いけど、とりあえず自分が手を出せそうなpythonを題材にする

恥ずかしながら、Webアプリケーション世界しか知らないから、有効な使い道が分かっていない


Pythonを使えば、スタンドアローンアプリケーションも作れるし、コンソールベースバッチも作れるって言うのは分かる

でも、自分が思い浮かぶサービスは、ブラウザベースアプリケーションで事足りる


例えばwebページのスクレイピングをして、その結果を分析してユーザーが見たい形式で表示するアプリケーションを作りたいとする

軽く頭の中で設計すると、分析要件定義さえ出来れば、jsphpWebサーバー周りをこねくり回せば大体作れるだろうな…っていう結論にいたる


視野が狭いだけなんだろうけど、勉強するモチベーションを捻出出来ない

2022-05-19

個人の力って、炎上みたいなことは出来るようになったけど、役に立つことってコンピュータ使っても増えてない

ネット個人でも情報発信できるようになったけど、そんな役に立つノウハウのような知識なんて大したことなかったり、

しろ害になるようなことも多かったわけで。


データ分析するにしても、個人で取ってこれるデータが大したことなかったり、

スクレイピング禁止されてて出来なかったりさ。


業界デフォルトになってるようなソフトだと、個人用って結局ない。

OfficeAdobe例外ってだけで。

2022-05-12

[]3日目

増田書き込みに来るとふと人気エントリを見てしまう。

あとなんとなく「はてなブロックしたたまでも見れる人気エントリリストだけスクレイピングしてるサイトとかないかな」とか考えてたりする。

よくない。

オナ禁したけどイカなきゃセーフとか弄らなきゃセーフとかでエロ画像を見に行くのと同じ構図だ。

全部シャットアウトしていかないと

2022-05-09

業務効率化を、善行として進める人を、信じるな

いわゆるOA分野とか、コンピューターを主に使用する作業の、自動化流行っている。

製品で言えば、RPAとか、ノーコード、あるいはSaaSパッケージソフトとか。

OfficeについてるVBAを使うとか、Pythonスクレイピングとか、そういうのも併せて。

いわゆるマクロ的な何かで、タスク自動化する、という考え方だ。これは昔からあったとも言えるし、製品方法論がここ数年、急激に増えて、環境が激変したとも言える。

さて、個人が、その責任範囲で、自己タスク自動化するのは、組織禁止しているやり方でなければ、それについてとやかく言うつもりはない。

問題は、組織内部での自動化の推進や、それを補助するコンサル、あるいはソフトウェアメーカーベンダーだ。

すべてが駄目というわけではない。

自動化で単純な作業から解放されて、クリエイティブ作業をすれば良い」

「みんなで自動化を覚えて仕事効率化しよう」

この手の発言が、地雷なのだ

言い換えよう。今挙げたようなことを言う(書く)メーカーベンダー、あるいはコンサルから個人まで。それらは皆、地雷だ。関わってはいけない人だ。

====

何故か。それは彼らが現実を見ていないからだ。そして、その現実を見ていないことが、軋轢を生むからだ。もしかしたら現実を見た上で、しらばっくれてる人も居るかもしれないが、タチの悪さは変わらない。

困ったことに、彼らの言う「単純作業から解放されてクリエイティブ仕事を」は、一見理想的環境に見えるのだ。

いや、実際、理想的ではあるのだ。現実的でないという問題さえ目をつむれば。

「世の中には2種類の人間がいる」という、使い古されたレトリックを、労働分野に応用してみよう。

すなわち、言われたことを淡々とやり続けることを好む人と、抽象的な指示や課題に対して、具体的な対応を行うことを好む人だ。

もう少し具体的に書けば、「言われた作業淡々とやる人」と「創意工夫して結果を出そうとする人」になる。

さて、前者の、言われた作業淡々とする人にとって。自動化は、己の存在意義と競合する。つまり自動化されてしまったら、仕事がなくなる。

意識の高い社員や、コンサルソフトウェアメーカーベンダーの言うような「クリエイティブ仕事」なんて興味がない。

そういう人を「意識が低い」「生産性が低い」と卑下するのは簡単だ。だが、それは何も事態解決にはつながらない。

単純作業自動化がなされた時、その人たちに襲いかかるのは、「クリエイティブ仕事」という、安定した手順も方法論もなく、それでいて成否は存在する、という苦痛のような仕事への移行なのだ

そして少なからぬケースで、単純作業淡々と行うことこそ仕事、と捉え、そう働いてきた人は、クリエイティブ仕事とやらでは成果が出せない。ただ苦しむだけになる。

おそらく組織としての生産性は上がるだろう。それをもって成果とするなら、それはそれで矛盾はない。

ただし「働き方改革」のような題目を掲げて、自動化を進めていたのであれば。それは善人面をして、人を地獄に蹴り落とす所業だ。本稿のタイトルで「信じるな」と書いたのは、まさにここにある。

この話には、日本雇用に関する、法律行政の態度や、判例なども影響してくる。

前述したような、単純作業を奪われ、苦痛に満ちた苦手な仕事にたたき落とされた人は、どうなるか。

第一に、会社を去るという選択肢はある。だが、このご時世だ。今と同等の条件すら見つかるかどうかは怪しい。

それを自業自得嘲笑するのは簡単だ。改善肯定し、生産性の向上を是とし、発展を求める価値観からすれば、矛盾はないのだ。それが倫理的に正しいことなのかは、私にはわからないが。

第二に、苦しみながら会社にしがみつくという選択肢もある。正規雇用場合、これが簡単に成立してしまう。「クリエイティブ仕事」をさせた成果がボロクソに悪くても、本人の意図的な手抜きなどがない限り、会社簡単には社員解雇できない。

はて、本人も苦しんでいることが多い、機能不全の社員雇用し続けることが、生産性の向上や、働き方改革ワークライフバランスなどにつながるのか、私は甚だ疑問だ。

まり業務自動化、省力化を目的にするのは、それ自体破綻を招きやすいのだ。それで浮いた人的コストを、どのようにするか。適材適所で別の仕事をあてがえるのか、あるいは解雇して雇用コストを削減するのか。

どうあれ、簡単なことではない。配置転換教育コスト見積もるのは簡単ではないし、非正規からと大量に解雇すれば、それだけで負の風評が生まれたりもするのだから

人は、自分と異質な人に対して、理解が及ばないことがある。これ自体は仕方が無いことと言える。誰しもがわかり合う、なんてのは現実的ではないからこそ、フィクションで度々取り上げられる題材なのだ

しかしながら、業務自動化改善と捉え、自身単純作業を嫌う人の中には、少なから割合で、単純作業を延々と行い、その労働時間を以て成果となす考え方の人を、理解していない、あるいは想定していないケースが多い。

その不理解や想定不足は何を生むのか。自動化の導入失敗や、同僚からの強い反発だ。決してプラスの結果ではない。その現実から目を背けてはいけない。

からね。

自動化や省力化を謳う、製品コンサルの人が。

単純作業から人を解放したい」とか「空いた時間クリエイティブ仕事ができるようになる」なんて、手放しで言っていたら。

その人たちを、信じちゃあいけないよ。



蛇足

筆者は、別に、「単純作業淡々とやることで鬻ぎたい人」を肯定するつもりはない。

少なくともデスクワークパソコンでの仕事等であれば、そういった人は滅びるべくして滅びるだろうと考えている。

だが、彼らに引導を渡すのは、個人や、少人数程度による「カイゼン」的な何かではない。個人や少人数による「カイゼン」が引き起こすのは、せいぜいが内部分裂や、一部の人苦痛を与えるだけなのは、前述した通りで。

引導を渡す、という次元の話で言うと、おそらくは、そういった非効率的な人員を抱え込んだ組織崩壊企業で言えば倒産など)のような、圧倒的かつ、個人抗うことに意味がない流れになると考えている。

もちろんその場合、多くの社員が路頭に迷うだろう。クリエイティブ仕事がどうとか言っていられる状況ではなくなるのは明白だ。

そういう未来が見えているからこそ、ミクロ視点しかモノを見ずに、「自動化業務改善して~」「クリエイティブ仕事を~」というおためごかしを唱える人には、関わってはいけないと考えているのだ。

2022-04-28

anond:20220428032229

そもそもあれ商売として成り立っているのか?

キッズプログラミングとかスマホ教室で飯食ってるイメージ

・・・とか思ってググったらフツーにPython教えてるみたいやが?

Webスクレイピングやろうだってさ、へー

1レッスン(60分)1,320円だって

ログイン ユーザー登録
ようこそ ゲスト さん