发布于 2016-07-12 15:36:42 | 129 次阅读 | 评论: 1 | 来源: 网友投递

这里有新鲜出炉的Java设计模式,程序狗速度看过来!

Java程序设计语言

java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由Sun Microsystems公司于1995年5月推出的Java程序设计语言和Java平台(即JavaEE(j2ee), JavaME(j2me), JavaSE(j2se))的总称。


crawler4j对response没有指定编码的页面,解析成乱码,很让人烦恼,下面给出解决方法,需要的朋友可以参考下

crawler4j对已有编码的页面抓取效果不错,用jsoup解析,很多会jquery的程序员都可以操作。但是,crawler4j对response没有指定编码的页面,解析成乱码,很让人烦恼。在找了苦闷之中,无意间发现一年代已久的博文,可以解决问题,修改 Page.load() 中的 contentData 编码即可,这让我心中顿时舒坦了很多,接下来的问题都引刃而解了。


public void load(HttpEntity entity) throws Exception {
 contentType = null;  
    Header type = entity.getContentType();  
    if (type != null) {  
        contentType = type.getValue();  
    }  

    contentEncoding = null;  
    Header encoding = entity.getContentEncoding();  
    if (encoding != null) {  
        contentEncoding = encoding.getValue();  
    }  

    Charset charset = ContentType.getOrDefault(entity).getCharset();  
    if (charset != null) {  
        contentCharset = charset.displayName();   
    }else{
     contentCharset = "utf-8";
    }

   //源码
   //contentData = EntityUtils.toByteArray(entity);  
    //修改后的代码
    contentData = EntityUtils.toString(entity, Charset.forName("gbk")).getBytes();

}



相关阅读 :
crawler4j抓取页面使用jsoup解析html时的解决方法
java使用sigar 遇到问题的快速解决方法
java解析XML saxReader.read(xml) 错误:org.dom4j.DocumentException: no protocol
java在linux系统下开机启动无法使用sudo命令的原因及解决办法
解析Neatbeans(常见错误) build-impl.xml:305: Compile failed
Java中出现错误:“编码GBK的不可映射字符”的解决方法
安装J2EE的SDK报错:could not find the required version of the Java(TM)2 Runtime Environment in '(null)'的解决方法
java.lang.NoClassDefFoundError: ognl/PropertyAccessor错误解决办法
java.lang.NoClassDefFoundError解决方案
运行java弹出Orcale JInitiator 版本太旧该如何解决?
java环境变量配置好后双击jar文件无法运行的解决办法
java中文乱码之解决URL中文乱码问题的方法
最新网友评论  共有(1)条评论 发布评论 返回顶部
lnsso 发布于2016-07-26 19:47:25
支持(0)  反对(0)  回复

Copyright © 2007-2017 PHPERZ.COM All Rights Reserved   冀ICP备14009818号  版权声明  广告服务