裸で独りぼっち

マジの日記

Pyhton2年生勉強第一章_スクレイピングの基礎(テキストの取得)

前提

・クローリングは情報を持ってくること・スクレイピングは解析して必要な情報を収集すること

スクレイピングの良しあしは「robots.txt」ファイルや「robots meta」タグから確認できる

f:id:hadahit0:20200501203723p:plain

これはダメな場合(Amazon

スクレイピングのやり方をQ&Aサイトで質問するな

https://qiita.com/miyabisun/items/9883f7b7006c09efa5a0

 

https://topcourt-law.com/internet_security/scraping-illegal

実践

・外部ライブラリ「requests」を使うのが便利。

「requests.get(URL)」でWebページを取得。「.text」で文字データを取り出す。

「response.encoding = response.apparent_encoding」で日本語文字化け防止

(正しく表示できる文字コードを自動的に選んでくれる)

・f.で書き込みも

 

詳細は著者に悪いので書かない