裸で独りぼっち

マジの日記

Pyhton2年生勉強第二章_HTMLの解析

Python Python2年生

・Beautiful soupでHTMLタグから必要な要素データを取り出せる。

米Beautifulsoupの由来は不思議の国のアリスに出てくる詩

ごちゃごちゃのHTMLスープからおいしい要素を見つけ出す

【1】BeautifulSoupとrequestsを組み合わせて解析を行う。

load_url

html.parser

html.content

【2】要素のみを取り出す

soup.find("要素")

【3】すべての要素を取り出す

for in soup.find_all("要素"）

【4】idやclassで探す

find(id=) or find(class_=)

※classはPythonの予約語

【5】リンク・イメージも書き出す

url = element.get("href")

url = element.get("src")

【6】相対URL→絶対URLへの変換

import urllib

【7】

改行⇔"\n"

【8】

書き入れる：f.write()

filename = ""

with open (filename, "w")as f:

【9】

画像ファイルはバイナリーファイル「⇒ mode="wb"」

【10】ファ増ファイルのぬっきだし

バラバラにしたURLの一番最後を指定

filename = image_url.split("/")[-1]

後ろから一番目＝[-1]

【11】Path

pathlibパッケージ

PC上にフォルダを作ったりアクセスしたりする

フォルダ = Path("フォルダ名")

ファルダ.mkdir( exist_ok=True)

ファイルにアクセス：フォルダ.joinpath("ファイル名")

【12】一回アクセスしたら1秒待つ

import time

time.sleep(1)

time=プログラムを一時停止させる

まとめ

・HTMLの取得

・書き出し（f）

・URLの取得

・絶対パス・相対パスの変換

・循環取得

・画像・リンクなど指定しての取得

・ディレクトリを作成しての取得

などを学べた。