「スクレイピング」を含む日記 RSS

はてなキーワード: スクレイピングとは

2022-08-02

anond:20220802100107

結論から言います

作れません

開発には公式が発行するAPI必要だけど新規受付は5年前に停止しました

スクレイピングなら作れますが、規約上では一応禁止です

2022-07-27

anond:20220727042958

こういうのスクレイピング練習としてやってみたい

とりあえず自分ブクマ一覧が

https://b.hatena.ne.jp/自分ID/bookmark?page=1

から、そこから href属性

<a href="/entry/******/comment/自分ID"

リンクを取得し、その先で

<a href="" class="comment-hatena-star-username"> ID </a>

ID部分を取得して、数え上げたら良さそう

2022-06-16

ツイッター名前に@8wだの@16wだの付けてやがる女をスクレイピングしてヲチするのが最近趣味

である日突然それが消えたアカウントに「もしかして流産しちゃったんですか!?残念です🥺」ってDM送るとほぼ確定でブロックされる

楽しい

2022-05-22

新しい言語勉強する意味あるんだろうか…?

別に何の言語でも良いけど、とりあえず自分が手を出せそうなpythonを題材にする

恥ずかしながら、Webアプリケーション世界しか知らないから、有効な使い道が分かっていない


Pythonを使えば、スタンドアローンアプリケーションも作れるし、コンソールベースバッチも作れるって言うのは分かる

でも、自分が思い浮かぶサービスは、ブラウザベースアプリケーションで事足りる


例えばwebページのスクレイピングをして、その結果を分析してユーザーが見たい形式で表示するアプリケーションを作りたいとする

軽く頭の中で設計すると、分析要件定義さえ出来れば、jsphpWebサーバー周りをこねくり回せば大体作れるだろうな…っていう結論にいたる


視野が狭いだけなんだろうけど、勉強するモチベーションを捻出出来ない

2022-05-19

個人の力って、炎上みたいなことは出来るようになったけど、役に立つことってコンピュータ使っても増えてない

ネット個人でも情報発信できるようになったけど、そんな役に立つノウハウのような知識なんて大したことなかったり、

しろ害になるようなことも多かったわけで。


データ分析するにしても、個人で取ってこれるデータが大したことなかったり、

スクレイピング禁止されてて出来なかったりさ。


業界デフォルトになってるようなソフトだと、個人用って結局ない。

OfficeAdobe例外ってだけで。

2022-05-12

[]3日目

増田書き込みに来るとふと人気エントリを見てしまう。

あとなんとなく「はてなブロックしたたまでも見れる人気エントリリストだけスクレイピングしてるサイトとかないかな」とか考えてたりする。

よくない。

オナ禁したけどイカなきゃセーフとか弄らなきゃセーフとかでエロ画像を見に行くのと同じ構図だ。

全部シャットアウトしていかないと

2022-05-09

業務効率化を、善行として進める人を、信じるな

いわゆるOA分野とか、コンピューターを主に使用する作業の、自動化流行っている。

製品で言えば、RPAとか、ノーコード、あるいはSaaSパッケージソフトとか。

OfficeについてるVBAを使うとか、Pythonスクレイピングとか、そういうのも併せて。

いわゆるマクロ的な何かで、タスク自動化する、という考え方だ。これは昔からあったとも言えるし、製品方法論がここ数年、急激に増えて、環境が激変したとも言える。

さて、個人が、その責任範囲で、自己タスク自動化するのは、組織禁止しているやり方でなければ、それについてとやかく言うつもりはない。

問題は、組織内部での自動化の推進や、それを補助するコンサル、あるいはソフトウェアメーカーベンダーだ。

すべてが駄目というわけではない。

自動化で単純な作業から解放されて、クリエイティブ作業をすれば良い」

「みんなで自動化を覚えて仕事効率化しよう」

この手の発言が、地雷なのだ

言い換えよう。今挙げたようなことを言う(書く)メーカーベンダー、あるいはコンサルから個人まで。それらは皆、地雷だ。関わってはいけない人だ。

====

何故か。それは彼らが現実を見ていないからだ。そして、その現実を見ていないことが、軋轢を生むからだ。もしかしたら現実を見た上で、しらばっくれてる人も居るかもしれないが、タチの悪さは変わらない。

困ったことに、彼らの言う「単純作業から解放されてクリエイティブ仕事を」は、一見理想的環境に見えるのだ。

いや、実際、理想的ではあるのだ。現実的でないという問題さえ目をつむれば。

「世の中には2種類の人間がいる」という、使い古されたレトリックを、労働分野に応用してみよう。

すなわち、言われたことを淡々とやり続けることを好む人と、抽象的な指示や課題に対して、具体的な対応を行うことを好む人だ。

もう少し具体的に書けば、「言われた作業淡々とやる人」と「創意工夫して結果を出そうとする人」になる。

さて、前者の、言われた作業淡々とする人にとって。自動化は、己の存在意義と競合する。つまり自動化されてしまったら、仕事がなくなる。

意識の高い社員や、コンサルソフトウェアメーカーベンダーの言うような「クリエイティブ仕事」なんて興味がない。

そういう人を「意識が低い」「生産性が低い」と卑下するのは簡単だ。だが、それは何も事態解決にはつながらない。

単純作業自動化がなされた時、その人たちに襲いかかるのは、「クリエイティブ仕事」という、安定した手順も方法論もなく、それでいて成否は存在する、という苦痛のような仕事への移行なのだ

そして少なからぬケースで、単純作業淡々と行うことこそ仕事、と捉え、そう働いてきた人は、クリエイティブ仕事とやらでは成果が出せない。ただ苦しむだけになる。

おそらく組織としての生産性は上がるだろう。それをもって成果とするなら、それはそれで矛盾はない。

ただし「働き方改革」のような題目を掲げて、自動化を進めていたのであれば。それは善人面をして、人を地獄に蹴り落とす所業だ。本稿のタイトルで「信じるな」と書いたのは、まさにここにある。

この話には、日本雇用に関する、法律行政の態度や、判例なども影響してくる。

前述したような、単純作業を奪われ、苦痛に満ちた苦手な仕事にたたき落とされた人は、どうなるか。

第一に、会社を去るという選択肢はある。だが、このご時世だ。今と同等の条件すら見つかるかどうかは怪しい。

それを自業自得嘲笑するのは簡単だ。改善肯定し、生産性の向上を是とし、発展を求める価値観からすれば、矛盾はないのだ。それが倫理的に正しいことなのかは、私にはわからないが。

第二に、苦しみながら会社にしがみつくという選択肢もある。正規雇用場合、これが簡単に成立してしまう。「クリエイティブ仕事」をさせた成果がボロクソに悪くても、本人の意図的な手抜きなどがない限り、会社簡単には社員解雇できない。

はて、本人も苦しんでいることが多い、機能不全の社員雇用し続けることが、生産性の向上や、働き方改革ワークライフバランスなどにつながるのか、私は甚だ疑問だ。

まり業務自動化、省力化を目的にするのは、それ自体破綻を招きやすいのだ。それで浮いた人的コストを、どのようにするか。適材適所で別の仕事をあてがえるのか、あるいは解雇して雇用コストを削減するのか。

どうあれ、簡単なことではない。配置転換教育コスト見積もるのは簡単ではないし、非正規からと大量に解雇すれば、それだけで負の風評が生まれたりもするのだから

人は、自分と異質な人に対して、理解が及ばないことがある。これ自体は仕方が無いことと言える。誰しもがわかり合う、なんてのは現実的ではないからこそ、フィクションで度々取り上げられる題材なのだ

しかしながら、業務自動化改善と捉え、自身単純作業を嫌う人の中には、少なから割合で、単純作業を延々と行い、その労働時間を以て成果となす考え方の人を、理解していない、あるいは想定していないケースが多い。

その不理解や想定不足は何を生むのか。自動化の導入失敗や、同僚からの強い反発だ。決してプラスの結果ではない。その現実から目を背けてはいけない。

からね。

自動化や省力化を謳う、製品コンサルの人が。

単純作業から人を解放したい」とか「空いた時間クリエイティブ仕事ができるようになる」なんて、手放しで言っていたら。

その人たちを、信じちゃあいけないよ。



蛇足

筆者は、別に、「単純作業淡々とやることで鬻ぎたい人」を肯定するつもりはない。

少なくともデスクワークパソコンでの仕事等であれば、そういった人は滅びるべくして滅びるだろうと考えている。

だが、彼らに引導を渡すのは、個人や、少人数程度による「カイゼン」的な何かではない。個人や少人数による「カイゼン」が引き起こすのは、せいぜいが内部分裂や、一部の人苦痛を与えるだけなのは、前述した通りで。

引導を渡す、という次元の話で言うと、おそらくは、そういった非効率的な人員を抱え込んだ組織崩壊企業で言えば倒産など)のような、圧倒的かつ、個人抗うことに意味がない流れになると考えている。

もちろんその場合、多くの社員が路頭に迷うだろう。クリエイティブ仕事がどうとか言っていられる状況ではなくなるのは明白だ。

そういう未来が見えているからこそ、ミクロ視点しかモノを見ずに、「自動化業務改善して~」「クリエイティブ仕事を~」というおためごかしを唱える人には、関わってはいけないと考えているのだ。

2022-04-28

anond:20220428032229

そもそもあれ商売として成り立っているのか?

キッズプログラミングとかスマホ教室で飯食ってるイメージ

・・・とか思ってググったらフツーにPython教えてるみたいやが?

Webスクレイピングやろうだってさ、へー

1レッスン(60分)1,320円だって

2022-03-19

Google検索エンジン思想を持ったら、回避する方法はあるの?

SNSを使う 以外で

Google検索結果に載せない情報って現状見つけるのすごく難しくない?

そういう検索エンジンって自作できるのかなと思って調べたけど、クローリングスクレイピング検索エンジンの話題は出るが「未知のURL発見する」方法は見つからなかった

作ってみたいなー

2022-02-23

5chのスクリプト荒らしがすげー酷いことになってる

なんJ嫌儲の人気の板で立憲・共産党不祥事とか失言ニュース韓国批判とかの話題が盛り上がると

即埋め立てスクリプトが湧いてリベラルの都合の悪い話題を誰も話せない状態になっている

運営全然対策しないし終わった感やばい

っていうかこれ普通に逮捕案件じゃないの?図書館HPスクレイピングしただけで逮捕起訴されるならこれ逮捕しろ

2022-02-21

自称プログラマー危険

大手企業管理職にはちょくちょく「プログラム書けますよ」っていう人がいる

だいたいの人は研修Java習ってちょこっとだけ書いたことがあるような人なんだけど

この前、仕事した人が

趣味でも書いてるし全然書ける」

とか言ってて凄いマウント取ってくる人だった

そんで

「君はエディタは何を使ってるの?」

ってvimEmacsかの戦争を起こしそうな質問してきた

最近はもっぱらVS Codeですねー」

「ぶいえすこーど・・・?」

Visual Studio Codeですね。流行ってますよ」

「ふーん。エディタお金は払いたくないなぁ」

とか言っててマジかこいつという気分

他にもVirtualbox使ってるだけでドヤ顔してたりスクレイピング自慢してたりするんだけど

大手企業管理職だとこの程度でも十分マウント取れて立場を確保できるんだろうなぁと思うとちょっと羨ましい

2022-02-15

408 名前:名無しさん@恐縮です [sage] :2022/02/14(月) 21:01:53.05 ID:SGWODUnU0

特定班の方々に質問

トレパク元の検索ってどうやってます

426 名前:名無しさん@恐縮です [sage] :2022/02/14(月) 21:03:31.65 ID:3RCK1C720

>>408

Pythonスクレイピングしながらai学習させるプログラム組んでヒットしたら収集するようにしてる

anond:20220215110118

嘘か本当か知らんけど

Pythonスクレイピングしながらai学習させるプログラム組んでヒットしたら収集するようにしてる

とかタイムアタックとか古塔つみRTAとか言われてるね

パクリ認定スクレイピングしてAI学習させて自動化しているみたいな話

スゲーなwと思う反面、冤罪というか、ちょっとぐらい見逃してくれよ!という気持ちが…

それって、今回の件だけでなくて、これまでのありとあらゆる絵がパクリかどうかも自動判定できうるわけで、

そうなると御大水木しげる先生バックベアードどころじゃない、

ちょっとした背景のクルマとか空とか、これってパクリですよねみたいに判定されて、

でも、雲なんて偶然近しい模様だってあるかもしれんし、機械検閲されて、人間が騒ぎ立てる社会って怖いよ、

びっくりするほどディストピアだよ、エロピアあんまり読んだことないよ、と思ったり…

2022-01-25

Linuxエロ管理できて一人前

なんか普段使いPCにもLinuxを入れろみたいなのが話題だけど

Linuxトレーニングとしては本当に有用

トラブル起きたときに直さないとネットにも繋がらない

これが別途用意した開発環境とある程度で諦めたりしちゃうけど

普段使いPCだとそうはいかない

特にエロコンテンツ管理とかしてると直さないと死活問題になる

例えばアップグレードしたらX.org関係がぶっ壊れてGUI出なくなったらマジで困る

必死X.orgを修復する過程ドライバ周りやカーネル周りに詳しくなる

動画を見るためにはコーデック関係理解しないとダメだし

一括で変換して保存したりお気に入り部分だけを切り出したりしようとしてffmpeg無茶苦茶詳しくなる

FANZAセールしてないかスクレイピングしてクロールかけたり

なんならFANZAが閉店したときのために漫画コンテンツキャプチャしてダウンロードしておいたり

家の中でスマホエロコンテンツ見たくなったらWebサーバ建てたり配信サーバ建てたり

とにかく動機は真っ黒レベルで不純だけど技術は恐ろしいほど蓄積する

まずは普段使いPCLinuxにして、技量が貯まれサーバを作ると良いと思う

2022-01-20

anond:20220120125603

フォロワーランダムな取り出し方も、Twitter上でクリックしてみる方法ダメだぞ

あれはフォロー順とか、または活発に活動している人が優先して出たりするから、そこから抽出する方法では偏りがでる

フォロワー全員をスクレイピング等で引っこ抜いて、それをプログラム上で完全にシャッフルして取り出すんだぞ

プログラム言語はなんでもいいけど、こういうのはPythonがよく使われているぞ

まずPython勉強から始めてはどうだ?

2022-01-19

中小企業で一人情シスをやってるけどもう無理かも

従業員50人ぐらいの会社webサーバー構築したり在庫管理会計ソフト連携システムを自社開発して運用したり、スクレイピングデータ収集して統計作ったりPCネットワークトラブル対応したりいろいろやってる。

40代前半で年収400万台前半。

仕事は一日12時間以上労働デフォで土日でも普通に電話がかかってきて休みっぽい休みがとれるのは半分ぐらい。

時給換算するのが恐ろしい。

俺以外はみんな、システム簡単に作れてトラブルが起きないのが当然だと信じて疑わない。

俺がやってる仕事外注したらどれだけ金がかかるか全然わかってない。

いくら説明しても無駄だった。

会社が今ももってるのは、仮に外注して作ってたら金なくてとっくに会社がなくなってたようなシステムを俺が代わりに作ってしまたからと言ったっていい位だ。

それでいて、新しいシステムを作りたい、こういうことをしたい、みたいな話が出ても、それを作ることによる費用対効果説明できる者がいない。

ひどい場合だと、社員一人が月に一度の作業10分の時間短縮を実現するためのツールを、俺が一ヶ月かけて作ったこともある。もちろん事前にその無駄について口を酸っぱくして説明しても無駄

なかなか要望言語化しないのにとにかく作って欲しい困っていると言われるのでなんとか色々聞き出して形にしたものも、使うのは最初の一ヶ月だけとかザラ。

それでも会社にとって本当に必要ものが一部稼働し続けているのは幸いではあるのだが、お前がやってるのは外からお金を稼いでくる仕事じゃないんだから、外で稼いでくるみんなが気持ちよく仕事できるようにどんな要望でも叶えるのが当然だみたいなことを日頃から平気な顔で言われる。

導入がノートラブルでも誰も何も言わないのに少しでも問題があればボロクソに叩かれる。俺がこのシステム作ってなかったらあんたら何もできないじゃん、なんて話が通用しない。

システムログインできない、メールが届かない、パソコンがこわれたとか、そういう問い合わせばかり。問い合わせるときはこういうふうに順序立てていってほしいとか、問い合わせる前にこの資料を見てほしいとか何度説明しても全く聞いていない。

情報リテラシー云々以前の問題があまりにも多すぎてもうそろそろ精神的に限界だが止むに止まれ事情があって辞めるわけにもいかなくて辛い。

まあどうせおまえら転職しろしか言わないんだろうけど。

2021-12-09

経験からWebエンジニアになって年収1000万円を稼げるようになった話

TLDR

(WEBエンジニアリング)未経験から(院卒新卒カードを使って)Webエンジニアになって(5年で)年収1000万円(の会社員と同等の手取り本業副業合わせて)稼げるようになった話

入社まで

工学部情報系でない)の修士課程で、画像処理機械学習を用いた研究をしていた。

PythonLinuxについては少々経験したが、MVCに関する技術は一切触った事がなかった。

就活して、Web系のC向けの名の知れたサービスを自社開発している企業エンジニアとして入社することになった。

※当時は今より牧歌的自分のような人間入社することができた。今はわからない。

副業を始めるまで

PythonFWを使ったWebサービスの開発を行なっていた。

とはいえ、腰を据えて開発している時間は少なかった。大きい企業既存事業にいると開発とは無関係運用や調整業務がかなりあった。

3年目くらいで副業を始めることにした。

理由もっと技術力をつけたかったというものである

上記の通り業務内で技術力を向上させることがむずかしかったのと、未経験業界に来ているハンデを抱えていたのである

Python以外の言語ほとんど書けなかったのでPythonwebスクレイピング案件を探した。

副業エージェントを経由して探した。

5件ほどお祈りされたが、懲りずに応募し続けてたら採用された。Flaskの案件だった。Flaskは書いたことがなかったが採用された。

当時はその会社Python が書けるエンジニアがいなかったので重宝されたし、仕事も任せてもらっていた。

副業をはじめてから

契約は週15時間だった。その間にCOVIDが来て全てが在宅勤務になり、気付いたら週30時間まで稼働するようになっていた。。

当初の見込み通り基礎体力は身に付いていったと思う。

最初案件を納品したあと、次の案件をもらい、段々仕事の幅が広がっていった。

Linuxサーバを触ったりDBサーバを触ったりphp雰囲気で書いたりDockerfileを書いてECS環境を構築したりなど。

Golang, Rust, k8sなど人気の技術案件は探してもちょうどいいものが見つからないのでチュートリアルをやる以上の勉強はできていない。

稼働が落ち着いてきたので副業を増やすことにした。

ちょうど良さそうな募集があったので応募したところ今度は一回で採用された。

給与も少し上がった。後ほど元の副業給与も上がり、本業給与も少しずつ上がった。

年収いくらなのかよくわからなくなったので、月々の手取り銀行口座から調べて、年収1000万円の会社員手取り比較すると大体同じくらいの金額になっていた。

結局年収1000万稼ぐのは難しいのか

犠牲にしていることといえば可処分時間くらいだと思っているので、TLDR節に書いた内容についてはそんなに無理がなくある程度再現性があるんじゃないかと思っている。

辛さでいえば大学院のほうが辛かった。

可処分時間ということでいえばCOVIDで通勤時間が無くなった影響はそれなりにある。

自分について

技術は人並みには好きである

お金は人並み以上に好きである

・要領は決していい方ではない

要領がいい人なら5年も掛けずもっと早く辿り着くのではないか

今回、特にジョブホッパー的な動きはしていない。各職場案件)に恵まれたこともあるし、器用さが足りないといえばそうだと思う。

エージェント中抜きされるという意見もあるが、自分SNSは長続きしないし、勉強会もあまり肌に合わずほとんど出席することはないのでエージェントを通してしか案件を見つけられていない程度の行動力しかない。

今後について

年収についてはおおむね満足するようになり、人間とは面白いもので段々欲がよく出てくるようになった。

モダン技術は、レガシー技術よりも、おしなべて責任範囲が明確であり、何かあったときリカバーがききやすかったり、謎の負債が含まれリスクも少なく、幾分か安心して開発ができる。枯れた理論は好きだが、新しい技術を先回りして身につけることにも興味が湧いてきた。

xRやブロックチェーンといった、技術未来を作っていくことにも興味が出てくるようになった。

自分能力には期待していないので博士課程に戻る予定はないが、これもまた変わるかもしれない。

2021-11-30

メロス激怒した

メロスにはロジスティクスがわから

メロス無職である

プログラムを書き、スクレイピングで遊んで暮して来た

けれども納期に対しては人一倍に敏感であった

安いと思って購入したら納期1月も余裕で超えるらしいので、

我慢できなくて即納できる在庫ポチってしまったが、

まあ、2台購入してもいいかな、と思ったものの、

後々になって、最初に注文した方が在庫がないため組みたれられず、

向こうからスペック下げてもいいっすか?みたいに言われたら、

からポチった即納と仕様が同じになるのではないだろうか、と思ったら、

ああああああああ

2021-11-27

みんなパソコンは便利に感じているものなの?

プログラマーに尋ねると、パソコン活用できて便利になっているという答えが返ってくる。

Python最高!エクセルだせぇという感じだ。


ゲーマーYouTuberパソコンで稼ぐ手段なので便利と返ってくる。


自分プログラミングなんて趣味VisualStudioやJupyterLab、Matlabを触るくらいだ。

Python、Julia、VBA、M言語C++C#とか素人なりに書くが、どうも便利になっているように思えない。

CUIログの処理、スクレイピングとかはいいが、人に見せるためのグラフは毎回細かい調整が必要だし、

グラフや図の説明も毎回書いていて、大変なままだ。

GUIエクセルくらいマウス操作できるようになればいいのに、GUIフレームワークだと操作がひっかかる。

UI議論されているわりに全然良いのがない。


ゲームはしない。

PhotoshopIllustratorも一通り操作はできるようになったが、色々と不便だなと思うことが多い。

動画編集だとDaVinci Resolveでカットなどは便利だなと思ったけれど、Fusionだと複雑過ぎるのか、ネットで調べてもなかなか出てこないし、

これ出来ないかなと思うことが出来ない。

図を作ってアニメーションつけて説明しようとすると、途端に難しくなる。


AnsysやCOMSOLなどがあれば流体シミュレーションなどやれるのだろうけど、

そういったソフトはなかなかない。

どうもパソコンWeb最適化されすぎてる気がしてならない。

2021-11-23

anond:20211123225221

今思ったが、増田の全記事データ容量ってどのぐらいなんだろう。

容量が大したことなくて、スクレイピング許可してくれて、さらスクレイピングしたもの検索可能状態で公開して著作権法違反にならないっていうなら自分実装できそう。

2021-10-28

anond:20211027152420

スクレイピングは便利になる一番身近な処理じゃない?

自分英会話の人気の先生を予約するために、web上のスケジュール監視したりしてた。

anond:20211028085714

VBAWebサーバって実現できるのかな?

と思ってちょっとググってみたんだけど、実現できなそうなんだよなぁ

Webクライアントは実現できる

からVBAスクレイピングはできそうだけど、サーバーは無理みたい

Excelファイルの内容を社内のどこからでもExcel立ち上げずにWebブラウザで見れると便利かなと思ったとき

ExcelファイルDBの代わりにするみたいなのはVBAでは無理に思えたんだけど、どうなんだろ…

あと、Pythonの強みは何でもglueとしてくっつけるところにあるわけで、

対象ExcelだけならPythonである必要はない、VBAでもRubyでもExcel操作はできる

でも、機械学習人工知能系のみならず、PythonExcelと膨大な何かを組み合わせることができるわけで、

それはVBAでは不可能なことだと思うんだよなぁ

でも、井の中の蛙大海を知らず、と言うけど、別に井の中で済むなら問題ないというか、

それどころか大海を知ってしまうと、自分の身の丈の小ささにショックを受けたり、

逆に刺激を受けすぎて、身の丈を越える目標を立ててしまったりもするわけで、

まあ、だから元増田VBAだけ書いていればいいと思うんだ

自分はそこに収まらない何かがやりたいので、PythonだろうがC++だろうがGoだろうが書くんだろうけど

2021-10-18

はてなはもはやクソの役にも立たない

先週の金土日、DLsite少年画報社漫画が55時間無料だった。

だが、はてなではその情報は一切伝わってこなかった。

私はTwitterをやっていたので最初の5時間程度の段階でその情報を知ったが、はてなしかやっていなかったら知ることはなかっただろう。

はてなブックマークはその昔インターネット中の情報から有益な部分を集めて構築されていた。

しかし今は違う。

エコーチェンバーに裏打ちされた手作業によるスクレイピングによって形作られたゴミ集合体だ。

間違いなく言える。

Twitterのほうが10倍優れていると

ログイン ユーザー登録
ようこそ ゲスト さん