python读取本地html文件(python怎么读取h5文件)
html文件怎么打开 python
用Python的requests库解决这个问题比较简单,例程如下:
import sys
import requests
reload(sys)
sys.setdefaultencoding('utf-8')
r=requests.get('xxx网址')
fh=open('test.html','w')
fh.write(r.text)
fh.close()
说明一下,requests库不是Python内置的,不过很流行,很多发行版都带,没带的话就去requests官网去下载,或者用 pip install requests命令安装最新版。
请问如何用python打开一个html文件
import?wx.html2
class?Brower(wx.Frame):
????def?__init__(self):
????????wx.Frame.__init__(self,?None,?-1,?"BROWER",?size=(-1,?-1))
????????self.browser?=?wx.html2.WebView.New(self,?style=0,?size=(-1,?-1))
????????self.html_file?=?"test.html"
????????self.browser.LoadURL(os.path.realpath("test.html"))
Python怎样抓取当前页面HTML内容?
当然这样子也是可以的,不过通用点的方法是用beautifulsoup库去定位id=phoneCodestatus
python里面request怎么读取html代码?
使用Python 3的requests模块抓取网页源码并保存到文件示例:
import requests
html = requests.get("")
with open('test.txt','w',encoding='utf-8') as f:
f.write(html.text)
这是一个基本的文件保存操作,但这里有几个值得注意的问题:
1.安装requests包,命令行输入pip install requests即可自动安装。很多人推荐使用requests,自带的urllib.request也可以抓取网页源码
2.open方法encoding参数设为utf-8,否则保存的文件会出现乱码。
3.如果直接在cmd中输出抓取的内容,会提示各种编码错误,所以保存到文件查看。
4.with open方法是更好的写法,可以自动操作完毕后释放资源。
另一个例子:
import requests
ff = open('testt.txt','w',encoding='utf-8')
with open('test.txt',encoding="utf-8") as f:
for line in f:
ff.write(line)
ff.close()
这是演示读取一个txt文件,每次读取一行,并保存到另一个txt文件中的示例。
因为在命令行中打印每次读取一行的数据,中文会出现编码错误,所以每次读取一行并保存到另一个文件,这样来测试读取是否正常。(注意open的时候制定encoding编码方式)
python读耶html文件内容
如果只是读文件,无所谓了,用open(filename,"r").read()就可以。
不过你应该是想解析内容,建议用beautifulsoap这个库。或者其他能操纵DOM的库,这样检索修改方便。
python爬虫,读取本地html时编码报错:UnicodeDecodeError: 'ascii' codec can't decode
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
python3 区分了 unicode str 和 byte arrary,并且默认编码不再是 ascii
关于编码问题的终极解决方案:
在python的Lib\site-packages文件夹下新建一个sitecustomize.py
文件,输入:
import sys
sys.setdefaultencoding('gb2312')
这里要注意一点是:这里面你可以设置GBK或者utf8 或者其他类型的编码格式,不一定非要gb2312,主要看你操作的环境需要什么编码格式