裸で独りぼっち

マジの日記

Pyhton2年生勉強第二章_HTMLの解析

・Beautiful soupでHTMLタグから必要な要素データを取り出せる。

米Beautifulsoupの由来は不思議の国のアリスに出てくる詩

ごちゃごちゃのHTMLスープからおいしい要素を見つけ出す

 

【1】BeautifulSoupとrequestsを組み合わせて解析を行う。

load_url

html.parser

html.content

 

【2】要素のみを取り出す

soup.find("要素")

 

【3】すべての要素を取り出す

for in soup.find_all("要素")

 

【4】idやclassで探す

find(id=) or find(class_=)

※classはPython予約語

 

【5】リンク・イメージも書き出す

url = element.get("href")

url = element.get("src")

 

【6】相対URL→絶対URLへの変換

import urllib

 

【7】

改行⇔"\n"

 

【8】

書き入れる:f.write()

filename = ""

with open (filename, "w")as f:

 

【9】

画像ファイルはバイナリーファイル「⇒ mode="wb"」

 

【10】ファ増ファイルのぬっきだし

バラバラにしたURLの一番最後を指定

filename = image_url.split("/")[-1]

後ろから一番目=[-1]

 

【11】Path

pathlibパッケージ

PC上にフォルダを作ったりアクセスしたりする

フォルダ = Path("フォルダ名")

ファルダ.mkdir( exist_ok=True)

ファイルにアクセス:フォルダ.joinpath("ファイル名")

 

【12】一回アクセスしたら1秒待つ

import time 

time.sleep(1)

time=プログラムを一時停止させる

 

まとめ

・HTMLの取得

・書き出し(f)

・URLの取得

絶対パス相対パスの変換

・循環取得

・画像・リンクなど指定しての取得

ディレクトリを作成しての取得

などを学べた。