「スクレイピング」を含む日記 RSS

はてなキーワード: スクレイピングとは

2019-07-27

anond:20190727194941

別にそんな難しい話じゃない

多分増田APIとかはないか普通にスクレイピングさせるとして

スマホアプリidパス渡して

投稿のページ定期的にをクローリングさせて

トラバが増えてたら元のスマホアプリ経由して通知

まぁ怒られるだろうけどちょっとだけならばれないだろう

誰か

2019-07-24

自分増田マスターだと思っていたけどデイリー三銃士でさえなかった

200~400ブクマぐらいなら月に2つぐらい取れるからまあ俺もそこそこの実力者かなって……自惚れていたよ。

俺はまだ雑魚なんだな。

まあなんで伸びないのかは分かるんだよ

役に立たない

 世の中には役に立つものしかブクマしない人がいる。役に立ちそうだと思ったら読まずにブクマする霞を食べる白ヤギさんが沢山いる。その層にフックできないと1000の壁を超えるだけでも難しい。400人に読ませて全員にブクマさせるのではなく、1000人にブクマさせてそのうち100人けが読めばいいっていうのを目指さないと壁は越えられない。これを目指したいなら専門知識をフル活用してここでしか読めない物を作るか、スクレイパーしまくった便利なまとめを作るのが強い。問題は俺には専門知識もないし、スクレイピングはどうも好きくないことだ。

ニッチ

 オタク系・敗者系・理不尽系・パンティー系・釣り系といった増田は、これはひどいインターネッツ定番ネタとして固定ファンに人気が出やすい。その代わりに、そうじゃない層からは見向きもされない。こういったジャンルをメイン武器に選ぶとブクマの上限にリミットがかかる。年収を増やしたいなら戦うステージを選べというのと同じだな。多数にフックしたいなら役立ち系以外がまず最強なんだが、それ以外でも光属性一人称女性系は強い。役立ち系が無理な以上目指すべきは光のネカマだ。心の子宮を光らせよ。目指せ魂の処女懐胎

時間帯を考えない

 伸びる時間帯。伸びる日がある……らしい。それが具体的にどこにあるのかは諸説があるが、当たらずといえども遠からずの予測はいくつも経っている。自分はそれを完全に無視している。なぜか?自分気持ちよく書くことが一番大事からだ。風を感じて書き、ざっと添削したらお熱い内に投稿する。このやり方は、本気でバズりを目指すならもったいないのだろう。マラソンに裸足で挑むようなものかも知れない。学ばなければいけない。勝ちたいなら。執筆快感より、称賛の快感を目指すなら、本能だけで戦ってはいけない。

完成度を高めない

 自分は書き直しをあまり好まない。ライブ感を楽しみたいから。最低限の添削はするが、面白そうな誤字があったら残したりもする。それが成長を妨げている気がする。見る人が見ればまだ2段階パワーアップさせることが可能状態でいつも投稿しているに違いない。せめて1段階でいいかブラッシュアップしてから投稿しよう。それを繰り返すことで何かが開ける気がする。開けると信じたい。希望を失って書く増田に熱は宿らないと信じたい。熱が宿らない増田が伸びるとは思いたくない。

そもそも増田で伸びるのを目指すのが間違っている

 そんなことは知っている。でもそれを言ったら人生のもの無意味だろ?毎日会社で誰かのケアレスミスコミュニケーションエラーの尻拭いをさせられて、クタクタになって家に帰る。とても釣り合いが取れているとは思えない。さっさと死んでしまったほうがいいのに生きているのは、なんか知らないけど、生きる方向へと突き動かされるから慣性の法則に過ぎないのかも知れないけど、せっかく風が吹いているなら流されてみたくなるから仕方ない。

2019-07-22

平行世界に3人の俺がいる

1人は創作活動に打ち込んで大した結果も出せなくて絶望して死のうとしたけどせっかくだからフリーターになったあとで、細々と今でも新人賞に送り続けている。

1人は親の反対を振り切ってIT系大学に入ってプログラマーになって結局ブラック企業で心を壊されたけど今は立ち直って非正規で再び歩みだした。

1人はEラン大学から公務員試験を受けて地方公務員にはなれず国家公務員になんとか滑り込んだけどブラック職場に苦しみながら今も時給が最低賃金を下回ったまま働いてる。

1人は大学中退してから親をなんとか騙し続けながらダラダラとニートを続けていたがある日限界が来て首を吊った。

1人は精神科ドクターショッピングを繰り返してある日向精神薬をくれる医者と巡り合ったけど結局薬が合わなかったけどいつか良くなると信じて必死に薬代を稼いでいる。

1人はゲームクリエイターを目指して引き篭もって孤独アプリを作ったりどうぶつタワーバトルの作者を妬んだりしながら実質ニートと変わらない暮らしを送っている。

1人は体を鍛えて単純労働者になればいいと考えて頑張って筋トレしたけど辿り着いた職場DQNだらけだったので絶望して逃げ出して今はトヨタ工場でなんとか生かしてもらっている。

1人は警備員なら楽ちんだと聞いてなったはいいけどヤベー客と対応するのが怖くて出来なかったのでビルメンへとスライドして毎日便器に詰まったウンコと戦っている。

1人はアフィリエイトブログで一山当てようと努力して最後スクレイピングを繰り返すだけの虚無になりはてたけど結局儲からなくて仕方がないかツタヤバイトを始めた。

1人は頑張ってCラン大学に入って友達付き合いもそれなりに頑張っていい感じに卒業してメイカーに入ったけどある日残業に耐えきれなくなって今は引き篭もっている。

1人は自分技術的な才能を信じられないからと営業職になったけど自分に一番苦手なのは営業だったのだと気づいてたいけど転職に踏み出せず今も毎日怒鳴られながら生きている。

1人はBラン大学に入れた自分ならきっと凄いことが出来ると思いこんで大学院まで進んでからやはり自分勉強嫌いだと気づいてどこにも踏み出せなくなっている。

1人はとにかく時間稼ぎをしようと親の脛をかじりながらダラダラとコンビニバイトをしているとき例のVtuberに影響されて自分もなろうと3Dの勉強を始めた。

2019-07-06

anond:20190705232802

Web系は楽しそう、スクレイピングとかtwitterapi叩いてとか興味あるよ。

ただこれだけでは面白くないかな。

誰で使える自然言語ライブラリとか、AIライブラリとかあれば夢が広がりそう

2019-06-24

RubyPHPより格上の言語です

まずPHPWebアプリしか開発できません

RubyRubyMotionでスマホアプリも作れます

さらスクレイピングPHPにはできませんがRubyにはできます

PHPはいちいちダラダラ書かないといけませんが

Rubyは1行でさらっと記述することができます

同じことをPHPがやろうとしても見づらいだけです

PHPHTMLに埋め込むだけなので小規模なアプリしか作ることができませんが

Rubyは小規模なものから大規模なものまで簡単に作れます

さらRubyにはRailsという素晴らしいフレームワークがあります

PHPRailsをパクったフレームワークがいくつもありそれはどれもひどいものです

PHPはあまりにも簡単すぎるためにプログラマの質が低いです

Rubyは高尚な言語のためプログラマの質が高いので現場空気も最高です

RubyPHPより格上で上等な言語だというのはそういうことなのです

2019-06-09

日本のホライゾン・スキャニングって科学技術の進展予測出来ているのだろうか

世界各国でホライゾン・スキャニングというもので、国家として科学技術の進展の情報収集するということを行っている。

技術的にはWebクローラースクレイピングによる情報収集である

もちろん日本でも行っているわけだが、バズワードに埋もれている気がしている。


DARPAのようにGizmodoやTechCrunchなどに出てこないが革新的ものをすくい上げられてない

2019-05-21

高校生全員が「Python」を履修するかも

Pythonなんて今の地位にのうのうと暮らしている教師に御しきれるものでもないだろ

セキュリティホールや新しく出てくる記法キャッチアップしていけるのやらw

今の教師なんてデモに動員されてシュプレヒコールで「アベガー」とかやってるのが精々だろ

教員研修用教材

以下のデータは元テニスプレイヤー松岡修造さん (@shuzo_matsuoka) の Twitter発言データダウンロードし,加工したもの分析した結果である

ロクに検証もされていない内容を教えられて巣立っていくこども達が可哀想

授業でスクレイピングやってどっかのサイトを落とすのか?

兵庫県警学校不正指令電磁的記録に関する罪で生徒を補導するために家宅捜索に行くのか?

2019-05-16

RPAにこだわるのがなんか気持ち悪い

RPAて、業務システムの間を繋ぐグルー的なものなので、業務システムが変わったら使えなくなる。

そんな一時しのぎな道具なので、いつでも捨てられるようなジャンクな処理だけを担うべきだと思う。

さらに、たとえジャンクな処理であってももっとオープン技術スタンダード技術実装すべきと思う。RPA製品がなければ動かないのでは将来は負債しかならなくなる。

なのに!なんとしてもRPAを使って工数削減した実績を作るべし!という雰囲気職場に渦巻いている!RPAにこだわるの気持ち悪い!

そのRPA製品を覚えるより、VBA覚えたほうがいいし、WEBスクレイピングを覚えたほうがいいですよ!と思うが口に出せない。

RPA製品だけ使えるようになっても価値がないと思う。

RPAなら自動化してみようか」という人がいるのか?プログラム書けない人は自動化の発想すらないと思う。RPAも使えないでしょ。

と悲観しつつも、願わくばRPA自動化の機運が高まりRPA以外の何らかのプログラムを書ける人が増えんことを!と少し希望を持ってみる。

2019-03-24

著作権かに詳しい人に質問なんだが

映画とかアニメとかゲームとかのタイトルサムネイルAmazonリンク使って

作品を格付けしたり話題ピックアップしたりするよくありそうなWebサービス作ろうと思ってるんだが、

大本になる情報あにこれとか映画情報データベース的な外部のWebサービスからスクレイピングするのって著作権的にありだろうか、

必要情報としてはタイトル、公開日、画像、くらいのもんなんだが、

この辺の情報って別にまとめた人のものになるわけではないし、仮に俺がそういうサービス作ったとして

それがスクレイピングされて別サービス作られたとしても文句は言えないかなって思うんだけど、どうなんやろか

コミュ障が初めて学生ハッカソン参加した話

ちょっと前に地方で開催された学生ハッカソンに参加した。

今までもプログラミングはやっていたのだが、ハッカソン等に行くような友人もほとんどいなかったし

自分なんかが行ってもいいのか?」と思っていたので参加経験はなかった。

まあでもTwitterとかでよく見るエンジニア界隈にあこがれも持っていたりで、コミュ障ながら勇気を出して初めて参加してみた。

それで、イベントに関しては全体的に楽しんで終われたのだけど、少しだけ引っかかる出来事があった。

ハッカソンに参加したことがある人はわかると思うけどイベント最後には

チームで制作した作品プレゼンする時間がある。

そして、その後プレゼン内容についての質疑応答があった。

その時に自分たちのチームで聞かれたのが、作品で利用したデータはどのようにして集めたのか、ということ。

今回は時間がなかったのでスクレイピングなどを使用せずに手動で検索してデータ入力した。とチームメイトが回答をした。

すると、返答が

手打ちかよ!!www」

周囲は爆笑

チームメイトも応えるように申し訳程度に笑って返したのだが、自分愛想笑いもできなかった。

今考えてみれば発言意図はわかる、その方なりに我々をイジってくれたのだろう。

ただ、なまじ技術者としての矜持()だけは持っていて、かつエンジニア界隈への参加経験の浅い

自分には「自分よりも技術力の低いエンジニア馬鹿にした」ように聞こえた。

あぁ、そうか。

ネット上でROMって見ていた楽しそうなエンジニアコミュニティも実際こういうものなのか。

技術の低い人間馬鹿にされてもいいような風潮なんだ。みんな「その程度の技術力で来るなよ」って思ってるんだろうな。

かいろいろ考えた。

もう一度書くが、その発言は単なるイジり程度の返しだと今では心得ている。

それでも、なにか悲しいものは心に残っている。

・・・

この悔しい気持ちをバネにする。

エンジニアを目指す人間なのだから技術で見返す。

自分はへこたれたない。こんなことでエンジニアコミュニティというものを嫌いになったりしない。

こんなことで「技術を身に着けること」を嫌いになったりしない。

これからも強くなってエンジニア界隈に飛び込んでいきたい。

2019-03-20

破産者マップ

閉鎖する時にスクレイピングしたデータを全部公開したら面白かったのに

「正当な理由破産者の一覧を確認したい方もいると思いますので」とかテキトー理由つけて。

2019-03-09

賃貸、やっぱ会社徒歩圏内は高いな

都内在住

徒歩圏内に住んでて、そっから引っ越したいがやっぱ会社徒歩圏内は高い

もっと具体的にいうと山手線圏内が高い

 

20年以内、30平米で14万位

20年以内、40平米で18万位かな

払えるんだけど初期費用しんどい

 

関係ないけど、SUUMOホームズも痒いところに手が届かないな

ピンポイントの条件で網を張りたいんだけど

なぞって検索の通知がないんだよね

かと言って自分プログラム組もうとするとスクレイピングになるんだけど

禁止してるし情報抜かれるのに神経質になってる

そもそもレインズかいう仕組みが謎

めんどくさい

 

23万くらいばーんと出せるようになりたいわ

いや出せるんだけど、流石に躊躇う

2018-10-15

[]2018年10月14日日曜日増田

時間記事文字数文字数平均文字数中央値
0012123030190.347
019413913148.048
02399534244.580
033010199340.043.5
04102934293.468.5
0571184169.160
0616138086.348.5
07213026144.165
08374091110.664
0911016476149.853
101401329695.035.5
1112920863161.746
121531010466.042
1314916612111.534
1417021599127.154
1516418782114.544
1611316822148.968
1710710718100.239
189712131125.147
1912018772156.451.5
202151743481.133
212172085096.155
2220428655140.555
2314923687159.046
1日2612336092128.747

頻出名詞 ()内の数字単語が含まれ記事

人(275), 自分(240), 今(142), 話(129), 男(102), 人間(102), 好き(99), 日本(95), 女(95), 仕事(94), 増田(89), 女性(86), 必要(82), 前(79), フェミニスト(77), 問題(77), 感じ(72), オタク(71), 相手(68), フェミ(66), 意味(66), あと(64), 頭(60), 最近(58), 気持ち(57), レベル(55), 時間(55), ー(54), 普通(54), 金(53), 理解(51), 気(51), 今日(51), 理由(51), 無理(50), 昔(50), 目(50), 男性(50), 存在(50), 関係(49), 勉強(48), 一人(48), 他(48), 会社(48), 世界(47), 言葉(47), 最初(47), キズナアイ(47), 子供(45), 手(43), 他人(43), しない(40), 漫画(40), 人生(40), 意見(40), 日本人(40), 勝手(40), 批判(39), ネット(39), 作品(39), 確か(38), 嫌(38), 結果(38), 別(38), 場合(37), 結局(37), バカ(36), 差別(36), 文章(36), 自体(36), 英語(36), ダメ(35), ただ(35), 馬鹿(35), 扱い(35), 発言(34), 顔(34), まとも(34), 嫌い(34), 正直(34), 心(34), 大学(33), コメント(33), 現実(33), 声(32), 興味(31), 人たち(31), 投稿(31), 個人(31), 本人(31), 全て(30), 記事(30), 表現(30), 最後(30), 絶対(30), 状態(29), 結婚(29), ブクマ(29), しよう(29), 子(29), 小説(29), 社会(29), 仕方(29), 一番(29), 性的(29)

頻出固有名詞 ()内の数字単語が含まれ記事

日本(95), 増田(89), フェミ(66), キズナアイ(47), ブクマ(29), アメリカ(28), じゃなくて(27), いない(25), はてブ(19), 腐女子(18), ブコメ(18), 可能性(18), PHP(17), わからん(17), IT(17), Google(16), ツイッター(16), 一人(15), SNS(15), Twitter(15), スマホ(15), 何度(15), Java(14), 中国(14), hatena(14), 10年(14), 韓国(14), 6時間(13), ツイート(13), キチガイ(13), 萌え絵(13), ラノベ(13), 普通に(13), Redmine(13), フォロワー(13), リアル(12), 東京(12), 富士(12), 耐久レース(12), 二次創作(12), 個人的(12), ワイ(12), なんだろう(12), …。(11), ブクマカ(11), 元増田(11), 1人(10), マジで(10), カス(10), カプ(10), お気持ち(10), w(10), 不快感(10), twitter(10), ネトウヨ(10), いいんじゃない(10), キモオタ(10), なのか(10), ネット上(10), s(10), A(10), Ruby(9), あいつら(9), ここに(9), ID(9), ブログ(9), イケメン(9), OK(9), モテ(9), 何回(9), AI(9), 好きな人(9), フリーランス(9), アレ(9), rci(8), 欧米(8), 自分たち(8), なんや(8), ありません(8), にも(8), 若い女(8), アプリ(8), 数年(8), キモい(8), セーラームーン(8), なんの(8), コナン(8), 価値観(8), マルクス(8), 100万円(7), yahoo(7), よね(7), zyzy(7), 私たち(7), 基本的(7), 新自由主義(7), キツ(7), 技術力(7), Amazon(7), B(7), パワハラ(7), 笑(7), 共産党(7), 出版社(7), アイコン(7), 会社員(7), NHK(7), 消費税(7), 被害者(7), 精神的(7), はてサ(7), マウンティング(7), ヤバい(7)

本日の注目単語 ()内の数字単語が含まれ記事

Redmine(13), スクレイピング(6), rci(8), パーマネント(3), 脳トレ(3), ジャッポス(3), しらべ(3), 神通力(3), 横乳(5), 私と私(3), アウトレット(3), なじら(3), 踏み切っ(3), ホー(3), もやしもん(3), 神頼み(3), PHP(17), 一人一派(16), カプ(11), 醤油(19), イノベーション(10), Java(14), zyzy(9), やりがい(9), 100万円(7), コナン(8), 不快感(10), カフェ(9), パック(9), フェミニスト(65), 蓋(7), 寿司(16), 拡散(12), 三次元(7), プログラマー(13), プログラミング(19), 腐女子(18), Google(16), 都内(13), パソコン(18), 返信(13), ついて(12), 商売(14)

投稿警察もどき日中に再投稿された本文の先頭20文字 ()内の数字投稿された回数

子供女性性を見て加害するのがロリコ(10), 富士6時間耐久レース 富士6時間(5), うんち (5), 富士6時間耐久レース 富士6時間(4), わかる (3), 富士6時間耐久レース 2018 (3), 再投稿は甘え (3), いや〜平均的な人間レベルより下だと(2), >彼女たちをフェミニストと呼ぶのはフ(2), 日本 セルビア 日本 セルビア (2), あってる? (2), 日本 セルビア 日本 セルビア (2), おっおう (2), (2), nederland duitsla(2), 今日も女は毒親叩き (2), 他のは読んだことないけどそれ町が入っ(2), 増田での営業行為は禁じられてますよ (2)

頻出トラックバック先(簡易)

■まともなフェミニストはこれをどう思うの /20181014112046(29), ■そのひとたちはフェミニストではありません /20181014141021(23), ■パック寿司の蓋を醤油皿にする女 /20181014203109(20), ■嫌いな小説書きの話 /20180925051542(15), ■喪女の苦しみ /20181014110541(15), ■SFでも恋愛ものでもスポーツものでも歴史物でもバトルものでもない漫 /20181013233433(14), ■君のためにホームラン打つよ!←打てなかった時はどう言い訳したら許してもらえるの? /20181013185521(9), ■俺の書いた小説が読まれない /20181014135446(9), ■男女平等の何が嫌いか説明しといてやる /20181013125559(8), ■「ネタタグ不快感やばい /20181013125548(7), ■それじゃ聞くけどオリンピック開会式にふさわしいアーティストって誰? /20181012092551(7), ■20年前から小説家を目指してる /20181014142444(7), ■FFTで好きなセリフ 選 /20181014175546(7), ■「NTTデータ女子顔採用、気が強いから嫁にすると大変そう」 /20181014180634(7), ■なんか最近はてブを見るのが辛い /20181014201158(7), ■オタク隔離すればいいんだよなぁ /20181014104258(7), ■外付けCPUって何でないの /20181014215610(6), ■医大の件、女性が声を全然上げない理由 /20181014223925(6), ■チンして /20181013171408(6), ■日本語ってなくすべきじゃね? /20181014231404(6), ■プログラムを学びたい /20181014003945(6), ■27歳男性だけど人生詰んだ /20181014151146(6)

増田合計ブックマーク数 ()内の数字は1日の増減

5706255(3692)

2018-10-14

anond:20181014212820

いや、元増田がやろうとしてるのはスクレイピングではなくて、アドブロックの様なことなのでは?

2018-10-12

Pythonを150時間学んだ結果

プログラミング経験ゼロからPython勉強を始め同時にWEB関連の勉強もしたが未だにrequestとbeautifulsoupを使ったスクレイピングができない。挫折しそう。

2018-09-13

[]  第11話「今日は休む」

2018年9月13日 天気:俺はもう限界

昨日の釣果 5エントリー 0ブクマ

なんだけど、過去増田が伸びている……

こういうパターンの時に昨日の釣果システムでは辻褄が……

今週の釣果システムでも土曜日に書いた増田月曜日に伸びたりすると数字が……

このシステムそもそも間違っているのか?

増田分析スクレイピングして差分が発生した場合それを正確に反映すべきなのだろうか……

pixiv自分の絵についた点数に一喜一憂している絵師とかはどうしてるんだろうか

2018-08-08

高頻度のクローリングスクレイピングとは田代砲である

これは間違いないことなんだよ。

よっぽど鯖が頑丈なサイトに対して行う場合と、極めて健全方法を用いる場合以外は基本的無意味アクセスを繰り返して相手を痛めつけるだけの行為になる。

モラルのない人間や、知識のない人間が行うスクレイピングによって数多の鯖が殺されてきたのを我々は忘れてはならない。

2018-07-11

anond:20180711165459

ワンチャンどころかピコチャンくらいやぞ…>スクレイピングツール

PHPおじさんが敢えて語るべきことでもないが、スクレイピングだったりクローラだったりなんてゲーム開発者flappy birdクローン作るのと同じくらいの手慰みワークだからな…

2018-07-08

anond:20180708220140

検索にもキャッシュにも残ってないのにURLで指摘されたことある

ブラウザ履歴確認したら確かに合ってたので、スクレイピングでもしてるんだろう

そいつと再投稿した自分しか真実は分からないんだろうけど

ログイン ユーザー登録
ようこそ ゲスト さん