Giter VIP home page Giter VIP logo

webporter's Issues

怎么启动项目啊

文档里说,依次运行 webporter-collector-zhihu 模块的下面两个类的 main 方法,我倒入eclips后,提示缺少很多依赖包,请问有便捷的方式启动吗

关于fastjason

请问您使用的fastjson版本是多少?在运行这个程序时遇到了"Exception in thread "main" com.alibaba.fastjson.JSONException: unclosed string : z"的问题

请求商务推广合作

作者您好,我们也是一家专业做IP代理的服务商,极速HTTP,想跟您谈谈是否能够达成商业推广上的合作。如果您,有意愿的话,可以联系我,微信:13982004324 谢谢(如果没有意愿的话,抱歉,打扰了)

javascript支持,性能,反扒

我之前也做过一个爬虫的小项目,你说的该项目的特点挺好的,但是就我个人而言,不是非常在意。感觉最关心的内容如下:

  • javascript 支持。很多网页,包括当当,苏宁等,有部分数据都是通过 javascript 渲染得到的,这个框架是否提供支持,可能这个是使用者应该做的,但是这种场景下,框架有和优势。

  • 性能。对于一本的文本网页,其实性能都不是问题,主要和网速有关。但是在这种场景下:
    1. 租的vps, 当然越便宜越好,性能也越差。
    2. 起一个支持 javascript 的 core,耗内存非常严重(当然相对于租的 vps 而言)
    这样一来性能就很敏感了,比起线程,我更倾向于协程。

  • 反扒。这个真的是非常让人头疼的问题,之前做的最让人头疼的就是爬亚马逊。基本无解,但是对于豆瓣这种,应该还是可以解决的,这个框架是否有相应的应对措施?

这是我选择一个爬虫框架考虑的点,省时、省钱、省事。不过作者这个框架确实是很与众不同的,支持!

知乎反爬

现在知乎已经加上反爬的功能了,如何破解,我每次爬一会就把账号给冻结了

请问能够实现爬取过程中暂停功能么?

能不能记录爬取的最后一个用户到某个文件中,下次再运行的时候读取保留的信息,继续爬取。

由于爬取过程比较漫长,能够实现本次终止爬取后,下次能够继续爬取就很方便了。

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.