Pyhton2年生勉強第一章_スクレイピングの基礎(テキストの取得)
前提
・クローリングは情報を持ってくること・スクレイピングは解析して必要な情報を収集すること
・スクレイピングの良しあしは「robots.txt」ファイルや「robots meta」タグから確認できる
これはダメな場合(Amazon)
スクレイピングのやり方をQ&Aサイトで質問するな
https://qiita.com/miyabisun/items/9883f7b7006c09efa5a0
https://topcourt-law.com/internet_security/scraping-illegal
実践
・外部ライブラリ「requests」を使うのが便利。
「requests.get(URL)」でWebページを取得。「.text」で文字データを取り出す。
「response.encoding = response.apparent_encoding」で日本語文字化け防止
(正しく表示できる文字コードを自動的に選んでくれる)
・f.で書き込みも
詳細は著者に悪いので書かない