投稿

ラベル(スクレイピング)が付いた投稿を表示しています

スクレイピングのコードを自作してみる

自作スクレイピング スクレイピングクラスを自作してみる プログラミングの勉強や調べ物をしてると スクレイピング という言葉を見かけることが多いと思います。スクレイピングとは、あるサイトに記載されている情報の収集をプログラムで自動化することを言います。 人がわざわざサイトにアクセスし内容をメモして、また次のサイトにアクセスして。。。という行動を自動化させ、効率的に必要な情報を集めているのですね。 おそらく スクレイピング で検索をかけると python がよく出てくると思います。pythonにはスクレイピングに関するライブラリなどが充実しているので、簡単にコードを書くことが可能です。 しかし私は python はほぼ未経験です。これを機に python を勉強してもよいのですが何を間違えたのか、今回私は C# で書き、かつライブラリを使用せずに自作でスクレイピング用のコードを書いてみようと思いました。笑 なので、今回は スクレイピングとは を簡単に勉強し、自作したコードについて書いていこうかと思います。 スクレイピングとは さきほど記述しましたが、 スクレイピング とは、プログラムを使用してWebサイトから自動的に情報を収集することを指します。これにより、自分自身の労働を経減らすことができるので効率よく情報集ができるようになります。 これなら調べ物は全てスクレイピングにしてしまえば良いのでは?と思うかもしれません。しかし、このスクレイピングには注意すべきこともあり、一歩間違えると犯罪になる可能性もあります。そのため、スクレイピングをする場合には自己責任でお願いします。。。 何がどう犯罪になるのか?ですが、分かりやすいところでいくと 著作権侵害 などですね。 情報収集するためにアクセスするサイトの情報は、あくまでもそのサイトを運営している企業などものになります。そのため、取得自体は問題にならなくても、取得したデータを公開したりしてしまうと著作権違反になってしまう可能性があります。 ...