爬虫利器：jsDOM

标签：频道爬虫 number 利器线程 ready static jsDOM 多线程

之前使用node做爬虫的时候，使用puppeteer来模拟浏览器，然后抓取信息，但是这样的效率和消耗太大了，所以需要一种更为效率的方法：直接使用axios来请求对应的url，然后通过jsDom,渲染成一个虚拟的html然后进行取值。

废话不多说直接上代码：

先安装jsdom
npm i jsdom

然后写下面实例化

const jsdom = require("jsdom");
const { JSDOM } = jsdom;
const dom = new JSDOM(`<!DOCTYPE html><p>Hello world</p>`);
console.log(dom.window.document.querySelector("p").textContent); // "Hello world"

基础的代码逻辑明白了之后，把它使用到我们正常的业务里面：

axios
  .get(url)
  .then((res) => {
       //注意：需要先return 一次 再下一个回调里面进行渲染，因为获取的html数据多的时候 就可能导致实例化失败
    return res.data;
  })
  .then((html) => {
    let dom = new JSDOM(`${html}`);
        //抓取到想要的元素的信息
     console.log(
       dom.window.document.querySelector(".product-single__title").textContent
     );
  });

java多线程开发容易犯的错误

昨天在社区上看到有人讨论多线程使用，多线程遇到一些问题以及一些使用技巧记录一下。为什么要使用多线程，不能是为了用而用，和设计模式一样用的合理，会让程序更易于理解，用的不合理反而会让程序变得更难理解。

过去使用场景有，cms内容管理系统多个编辑配置频道，将多个频道以及频道下文章发布成静态html，如果单线程我们一般是这么去做的，首先通过sql取得全部频道，对频道进行遍历，取到每个频道在取频道下文章列表，然后遍历文章列表的每一片文章，对每一篇文章标题、作者、简介、内容、图片取出根据配置模版生成html文件，文章列表执行完一个取下一个频道循环执行。直到所有频道发布完毕，这是整个站点发布完毕，发布过程结束。

上述方式很好完成了发布这个需求，但是作为研发的我们有没有更好、更快方式去搞定这件事情呢？一定有的，只要我们去想。如果我们将每个频道发布看成一个任务，通过多线程方式并行同时去发布频道那发布时间10个频道理论上会成为原来10分之一，整个发布减少了时间、提升了性能，用户能够更快看到新内容、新文章。

用多线程要对线程、线程池、同步机制不断学习，因为多线程是好东西，但坑也是很多。稍有不慎就会导致程序bug、甚至死锁、线上cpu100%服务不可用。

public class MyVisiblility{
     private static boolean ready;
     private static int number;    
     private static class MyReaderThread extends Thread{
          public void run(){ //读线程
               while(!ready) 
                  Thread.yield();
               System.out.println(number);
          }
     public static void main(String [] args){ //主线程 
          new MyReaderThread().start();
          number=42;
          ready=true;
     }}

这段程序有很大几率输出结果可能为0，也可能是死循环，跟我们期待不一样，原因是什么呢？线程对共享变量的所有操作都必须在自己的工作内存中进行，不能直接从主线程中获取。因为副本主线程修改子线程为能收到。当number变量不可见时输出结果为0，当ready不可见时子线程死循环。解决问题方式将变量加上volatile修饰词解决多线程变量可见性问题。

即程序改为：

public class MyVisiblility{
     private static volatile boolean ready;
     private static volatile int number;    
     private static class MyReaderThread extends Thread{
          public void run(){ //读线程
               while(!ready) 
                  Thread.yield();
               System.out.println(number);
          }
     public static void main(String [] args){ //主线程 
          new MyReaderThread().start();
          number=42;
          ready=true;
     }}

个性化推荐系统（八）--- 机器学习深度学习召回集扩量这篇文章通过CountDownLatch实现主线程等待多个计算线程同步，要将CountDownLatch.down()方法用在finally方法中，不要再其他地方，昨天review发现线上再一个返回逻辑中用了CountDownLatch.down()，再finally中也用了，而finally中时一定会执行的，这时相当于执行了两次主线程有几率不等待剩余线程向下执行，导致程序偶发bug，这个其实是对finally理解不到位。

再有就是经典HashMap用于多线程而没有用ConcurrentHashMap导致线上服务cpu100%详见这篇记一次双11大促压测线上服务cpu100%。

再有就是ThreadLocal变量在ThreadPoolExecuter线程同时使用时，程序异常相见警惕ThreadLocal和ThreadPoolExecutor同时使用。

多线程使用好会提升程序性能简化程序实现，使用不好会引入bug、cpu100%、死循环、程序偶发不正确，并且还不容易定位。这就要求我们要不断研究学习多线程技术，以保证优雅正确将多线程应用到线上服务以及其他各种场景。

标签：频道,爬虫,number,利器,线程,ready,static,jsDOM,多线程
From： https://www.cnblogs.com/q-q56731526/p/17346340.html

相关文章

赞助商

阅读排行