大家都知道python有很多的用途,但是Python最重要的功能在于数据分析。面对密密麻麻的数字,怎么使用Python来进行数据分析。简单的来理解就是去粗取精。比如最近接到了一个项目,需要我们对新能源汽车行业进行分析的,那么我们会遇到很多问题,比如电动车的续航里程怎么样?每百公里电池消耗情况?主流电动车厂商及厂家分布?结论电动车的续航里程是否可靠等等问题,这里我们就可以利用Python通过某些汽车平台对于市面电动车数据进行数据分析。
针对以上的项目需求,这次爬虫主要爬取某车之家新能源汽车的品牌、车系、车型,用户使用反馈等数据。对于python的步骤之前写了很多文章分享,这里就不详细的梳理步骤了。重点讨论下在爬取过程中网站的反爬机制问题。像汽车之家这样的网站经过网页分析发现反爬不是很严,这里我们只需要加代理防止封IP就可以,但是代理的选择是一个比较难得问题。好用的代理实在太少了,经过博主多次测试对比发现了一家优质的代理商。这里直接使用他们提供的代理去获取需要的数据,代理的使用方式发出来大家参考下,代码示例如下:
import org.apache.commons.httpclient.Credentials;
import org.apache.commons.httpclient.HostConfiguration;
import org.apache.commons.httpclient.HttpClient;
import org.apache.commons.httpclient.HttpMethod;
import org.apache.commons.httpclient.HttpStatus;
import org.apache.commons.httpclient.UsernamePasswordCredentials;
import org.apache.commons.httpclient.auth.AuthScope;
import org.apache.commons.httpclient.methods.GetMethod;
import java.io.IOException;
public class Main {
# 代理服务器(产品官网 www.16yun.cn)
private static final String PROXY_HOST = "t.16yun.cn";
private static final int PROXY_PORT = 31111;
public static void main(String[] args) {
HttpClient client = new HttpClient();
HttpMethod method = new GetMethod("https://httpbin.org/ip");
HostConfiguration config = client.getHostConfiguration();
config.setProxy(PROXY_HOST, PROXY_PORT);
client.getParams().setAuthenticationPreemptive(true);
String username = "16ABCCKJ";
String password = "712323";
Credentials credentials = new UsernamePasswordCredentials(username, password);
AuthScope authScope = new AuthScope(PROXY_HOST, PROXY_PORT);
client.getState().setProxyCredentials(authScope, credentials);
try {
client.executeMethod(method);
if (method.getStatusCode() == HttpStatus.SC_OK) {
String response = method.getResponseBodyAsString();
System.out.println("Response = " + response);
}
} catch (IOException e) {
e.printStackTrace();
} finally {
method.releaseConnection();
}
}
}
文中使用的是动态转发模式的代理,相比传统api要方便简单很多,对爬虫项目更友好,感兴趣的小伙伴可以直接搜索亿牛云了解详细的使用方式。
标签:汽车行业,python,commons,新能源,PROXY,org,apache,import,httpclient From: https://blog.51cto.com/u_13789715/6025882