PHP中使用file_get_contents抓取网页中文乱码问题解决方法

当PHP使用file_get_contents()函数获取网页内容时，由于不同编码的网页可能存在不同的字符集、编码方式，因此容易出现中文乱码的情况。下面是使用file_get_contents()函数抓取网页中文乱码问题的解决方法：

问题分析

首先需要了解当前网页的编码格式，如果是UTF-8编码，直接使用file_get_contents()函数读取即可，如下：

$url = "https://www.example.com";
$html = file_get_contents($url);

但如果网页编码是GB2312，当PHP使用file_get_contents()函数读取时会遇到中文乱码的问题。因为在GB2312编码下中文是占用两个字节的，而file_get_contents()函数默认在UTF-8编码下读取，导致读取的中文被截断或直接变成乱码。

解决方法

设置HTTP头信息

可以通过设置HTTP头信息来告诉file_get_contents()函数以GB2312编码格式读取网页。代码如下：

$url = "https://www.example.com";
$options = array(
    'http' => array(
        'header' => 'Content-type:text/html;charset=gb2312'
        )
    );
$context = stream_context_create($options);
$html = file_get_contents($url, false, $context);

上面的代码中，首先定义了一个$options数组，该数组设置了HTTP头信息，其中Content-type头部信息告诉file_get_contents()函数以gb2312编码读取网页；然后通过stream_context_create()函数将$options数组转换为资源，传递给file_get_contents()函数的第三个参数。

转码

如果无法获得网页的编码格式，可以先将读取的内容转码成UTF-8编码。代码如下：

$url = "https://www.example.com";
$html = file_get_contents($url);
$html = iconv("gb2312","utf-8//IGNORE",$html);

上面的代码中，先使用file_get_contents()函数获取网页内容，然后通过iconv()函数将内容转码成UTF-8编码。其中"gb2312"表示要转换的原始编码格式，"utf-8//IGNORE"表示要转换的目标编码格式，IGNORE参数表示编码转换遇到无法转换字符时自动忽略。

示例说明

示例1

假设我们要获取新浪新闻的网页，编码为GB2312，可以使用以下代码：

$url = "http://news.sina.com.cn/";
$options = array(
    'http' => array(
        'header' => 'Content-type: text/html;charset=gb2312',
    ),
);
$context = stream_context_create($options);
$html = file_get_contents($url, false, $context);
$html = iconv('gb2312', 'utf-8//IGNORE', $html);
echo $html;

代码中，首先设置URL连接为新浪新闻的首页，然后设置HTTP头信息告诉file_get_contents()函数以gb2312编码读取网页，接着通过stream_context_create()函数将$options数组转换为资源，传递给file_get_contents()函数的第三个参数，最后将读取的网页内容转换成UTF-8编码输出。

示例2

假设我们要获取一个编码为UTF-8的网页，可以直接使用以下代码：

$url = "https://www.baidu.com/";
$html = file_get_contents($url);
echo $html;

代码中，直接使用file_get_contents()函数获取网页内容，不需要设置HTTP头信息，因为UTF-8是一种常见的编码方式，在PHP中默认就支持。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：PHP中使用file_get_contents抓取网页中文乱码问题解决方法 - Python技术站

PHP中使用file_get_contents抓取网页中文乱码问题解决方法

问题分析

解决方法

示例说明

示例1

示例2

相关文章