Pyhton2年生勉強第二章_HTMLの解析
・Beautiful soupでHTMLタグから必要な要素データを取り出せる。
米Beautifulsoupの由来は不思議の国のアリスに出てくる詩
ごちゃごちゃのHTMLスープからおいしい要素を見つけ出す
【1】BeautifulSoupとrequestsを組み合わせて解析を行う。
load_url
html.parser
html.content
【2】要素のみを取り出す
soup.find("要素")
【3】すべての要素を取り出す
for in soup.find_all("要素")
【4】idやclassで探す
find(id=) or find(class_=)
【5】リンク・イメージも書き出す
url = element.get("href")
url = element.get("src")
【6】相対URL→絶対URLへの変換
import urllib
【7】
改行⇔"\n"
【8】
書き入れる:f.write()
filename = ""
with open (filename, "w")as f:
【9】
画像ファイルはバイナリーファイル「⇒ mode="wb"」
【10】ファ増ファイルのぬっきだし
バラバラにしたURLの一番最後を指定
filename = image_url.split("/")[-1]
後ろから一番目=[-1]
【11】Path
pathlibパッケージ
PC上にフォルダを作ったりアクセスしたりする
フォルダ = Path("フォルダ名")
ファルダ.mkdir( exist_ok=True)
ファイルにアクセス:フォルダ.joinpath("ファイル名")
【12】一回アクセスしたら1秒待つ
import time
time.sleep(1)
time=プログラムを一時停止させる
まとめ
・HTMLの取得
・書き出し(f)
・URLの取得
・循環取得
・画像・リンクなど指定しての取得
・ディレクトリを作成しての取得
などを学べた。