xuxueli / xxl-crawler Goto Github PK

打开了扩散全站的功能, 但是在 JsoupUtil.findLinks()方法中筛选到的url不全, 标签获得的href是相对路径, 不是决定路径. 使用下面三种方法获得的值全部是相对路径, 校验url不通过导致, 扩散爬取失败, 大佬有遇到过这种情况吗 ?
tips: 使用 JS渲染方式采集数据，"selenisum + phantomjs" 方案

item.absUrl("abs:href");
item.attr("abs:href");
item.attr("href");

爬取的url是 http://www.bootcss.com/

connect timeout超时处理

如何针对对某个url的connect timeout超时做出判断处理，或者重新加入待爬取内容

CrawlerThread的process方法里判断当前链接是否是白名单链接逻辑有问题

// ------- pagevo ----------
if (!crawler.getRunConf().validWhiteUrl(link)) { // limit unvalid-page parse, only allow spread child
return false;
}

这一段代码返回false，如果用户设置了重试次数，会导致无意义的重试。这里应该返回true

[新需求]针对post请求，相同的url，根据参数不同返回不同结果的页面抓取实现

针对post请求，相同的url，根据参数不同返回不同结果的页面抓取实现
是否可考虑在解析页面结果的类中返回当前爬虫对象，这样可以在处理完上一个页面抓取后，向爬虫对象中的url队列添加新的url。增强现在的只能在爬虫初始化的时候添加url（或者只能粗犷的扩散爬取）功能。

线程安全问题

LocalRunData 中使用 LinkedBlockingQueue 来记录需要爬取的url, 这是一个线程安全的队列, 还需要加 volatile 关键字吗 ?

发送post请求时返回400

你好，我在测试用例中没有找到post请求的模板调用

这是我的调用代码
` Map<String,String> dataMap = new HashMap<>();
dataMap.put("category","**");
dataMap.put("currentPage","1");
dataMap.put("pageSize","30");

    Map<String,String> headerMap = new HashMap<>();
    headerMap.put("Accept-Encoding","gzip");
    headerMap.put("Content-Type","application/json;charset=UTF-8");
    headerMap.put("User-Agent","Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36");

    XxlCrawler xxlCrawler = new XxlCrawler.Builder()
            .setUrls(url)
            .setAllowSpread(false)
            .setIfPost(true)
            .setHeaderMap(headerMap)
            .setParamMap(dataMap)
            .setPageParser(new PageParser() {
                @Override
                public void parse(Document html, Element pageVoElement, Object pageVo) {
                    XxlJobLogger.log("html:{}",html);
                }
            })
            .build();
    xxlCrawler.start(true);
    return SUCCESS;`

这是报错：
org.jsoup.HttpStatusException: HTTP error fetching URL. Status=400

JsoupUtil工具类loadPageSource()方法里Connection没有调用requestBody

JsoupUtil工具类loadPageSource()方法里Connection没有调用requestBody，有的接口要求只能通过Connection.requestBody()传递参数，这种情况下，抓取不到数据。

[issue] 多线程情况下，tryFinish()很小的概率会误判当前运行状态

issue description：

多线程情况下，tryFinish()会误判CrawlerThread的运行状态，导致提前stop，以下是运行XxlCrawlerTest，开启3个thread，并打印日志：

概率比较小，大概试10次能出现一次，原因可能如下：
thread-3调用tryFinish()并提前获取了3个CrawlerThread的isRunning状态均为false，刚好此时thread-1调用了crawler.getRunData().getUrl()并将running设为true（但thread-3已经无法知晓），最后thread-3判断runData.getUrlNum()==0为true，由此isEnd为true，导致了误判：

solution：

改写tryFinish()，先判断runData.getUrlNum()==0，再逐一获取CrawlerThread的状态，防止调用crawler.getRunData().getUrl()无法获取running的最新状态：

public void tryFinish(){
    boolean isEnd = runData.getUrlNum()==0;
    boolean isRunning = false;
    for (CrawlerThread crawlerThread: crawlerThreads) {
        if (crawlerThread.isRunning()) {
            isRunning = true;
            break;
        }
    }
    isEnd = isEnd && !isRunning;
    if (isEnd) {
        logger.info(">>>>>>>>>>> xxl crawler is finished.");
        stop();
    }
}

CrawlerThread的running参数加上volatile关键字，保证可见性：

private volatile boolean running;

com.xuxueli.crawler.thread.CrawlerThread#processPage问题

com.xuxueli.crawler.thread.CrawlerThread#processPage中以下代码应该return false比较合适吧？

if (!crawler.getRunConf().validWhiteUrl(pageRequest.getUrl())) {     // limit unvalid-page parse, only allow spread child, finish here
            return true;
        }

xuxueli / xxl-crawler Goto Github PK

xxl-crawler's Issues

Recommend Projects

Recommend Topics

Recommend Org