改FetchHTTP类,
1、在innerProcess方法中的代码
this.http.executeMethod(customConfigOrNull, method);
之前增加:
populateCookies(method);
2、增加私有方法如下:
private void populateCookies(HttpMethodBase method) {
Map<String, Cookie> cookieMap = cookieStorage.getCookiesMap();
//没设置Cookie.
if(cookieMap == null || cookieMap.size() == 0) {
return;
}
StringBuilder sb = new StringBuilder("");
for(Cookie cookie : cookieMap.values()) {
sb.append(cookie.getName());
sb.append('=');
sb.append(cookie.getValue());
sb.append(';');
}
method.setRequestHeader("Cookie", sb.deleteCharAt(sb.length() - 1).toString());
}
3、修改AbstractCookieStorage类,在记录日志的代码之前增加
result.put(cookie.getSortKey(), cookie)
把Cookie放入到Map中,在FetchHTTP的start()方法中,得到配置文件中设置的Cookies。
分享到:
相关推荐
开源的爬虫软件Heritrix3.1.0,文件为可用的源代码,供下载,经测试,可用。
heritrix-3.1.0 最新官网jar包。包括heritrix-3.1.0-dist.zip包与heritrix-3.1.0-src.zip包。是爬虫神器
包含: heritrix-3.1.0-dist.tar.gz heritrix-3.1.0-src.tar.gz 官方文档下载地址
Heritrix是一个爬虫框架,可加如入一些可互换的组件
包含: heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。
Heritrix的使用入门
heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识
Heritrix1.4.4安装配置使用手册,有研究索引技术的可以下载看看.
heritrix3.1.0网络爬虫源码包,包含src和dist
heritrix 的详细配置 与 使用资料.里面对heritrix配置有详细的说明!
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
Heritrix使用详解与高级开发应用 Heritrix开发应用详细
NULL 博文链接:https://fhqiwcw.iteye.com/blog/1388658
Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400TB的数据。 IA期望他们的crawler包含以下几种: 宽带爬虫:能够以更高的...
Heritrix 使用手册 全doc 文本
3.X发布包括一个新的基于Spring-container的设置系统和仅针对web service的浏览器和远程控制界面。 3.X移到新的模型,在单一作业目录下的单一作业可以原地再次启动(每次启动不在需要生成新的作业目录)。
按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页
Heritrix3.0教程 使用入门(三) 配置文件crawler-beans.cxml介绍.docx
heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置
heritrix-1.14.2.zip是一个开源项目