多线程爬虫抓取京东运行流程-大公司抢着要代码

时间：2023-12-12 13:00:48浏览次数：27

标签：do String URL 爬虫抓取 content 多线程 response 函数

之前有个大公司找我，需要爬取京东有关行业商家的价格信息做对比，方便后期自己的产品定位以及舆情监控，让我写一个通用的爬虫模版，方便他们那边技术调整修改，于是带着这样的问题，我给了他们一些几点建议。

多线程爬虫抓取京东运行流程-大公司抢着要代码_Network

首先，你需要安装必要的库，包括 HTTP 库、JSON 库、爬虫库、代理库和可视化库。可以使用以下命令进行安装：

cabal update
cabal install curl http-conduit bytestring quickcheck aeson json-conduit parsec

接下来，你需要创建一个函数，该函数接收一个 URL，并返回一个包含该 URL 所有网页的列表。这个函数可以使用 HTTP 库来发送 GET 请求。

import Network.HTTP.Conduit
import Network.HTTP.Request

getUrls :: String -> IO [String]
getUrls url = do
  response <- liftIO (request HTTPMethodGet (uri url))
  (获取ip：url：http://jshk.com.cn/mb/reg.asp?kefu=xjy)
  case response of
    Left (Status code _) -> error $ "Error: " ++ show code
    Right response -> case response status of
      OK -> do
        let headers = responseBody response ^. headers
        let content = responseBody response ^. content
        return $ map decodeUtf8 $ headers HTTPHeaderLocation : tail content
      _ -> error $ "Error: " ++ show response status

然后，你需要创建一个函数，该函数接收一个 URL 列表，并返回一个包含所有页面内容的列表。

import Data.List (intercalate)

getAllUrls :: [String] -> IO [String]
getAllUrls urls = do
  let tasks = urls >>= getUrls
  results <- parMapM getUrls tasks
  return $ intercalate "\n" results

接下来，你需要创建一个函数，该函数接收一个 URL 列表，并使用代理服务器爬取这些 URL。

import Network.HTTP.Proxy

getUrlsWithProxy :: String -> IO [String]
getUrlsWithProxy url = do
  response <- liftIO $ requestWithProxy (ProxyHost "www.duoip.cn" 8000) HTTPMethodGet (uri url)
  case response of
    Left (Status code _) -> error $ "Error: " ++ show code
    Right response -> case response status of
      OK -> do
        let headers = responseBody response ^. headers
        let content = responseBody response ^. content
        return $ map decodeUtf8 $ headers HTTPHeaderLocation : tail content
      _ -> error $ "Error: " ++ show response status

然后，你需要创建一个函数，该函数接收一个 URL 列表，并使用代理服务器爬取这些 URL，并返回一个包含所有页面内容的列表。

import Data.List (intercalate)

getAllUrlsWithProxy :: [String] -> IO [String]
getAllUrlsWithProxy urls = do
  let tasks = urls >>= getUrlsWithProxy
  results <- parMapM getUrlsWithProxy tasks
  return $ intercalate "\n" results

最后，你需要创建一个函数，该函数接收一个 URL 列表，并使用代理服务器爬取这些 URL，并将所有页面内容写入一个文件。

import System.IO (writeFile)

writeFileWithProxy :: String -> [String] -> IO ()
writeFileWithProxy filename urls = do
  content <- liftIO $ getAllUrlsWithProxy urls
  writeFile filename content

以上就是使用 Haskell 编写一个多线程爬取京东商品的爬虫程序，并做可视化处理的全部内容。你可以根据自己的需要修改和完善这个程序。

以上就是利用Haskell 编写的爬虫程序，里面有很多地方都可以根据公司需求修改添加的。这里需要注意的是，注意网站反爬虫问题，还需要注意代理IP的辅助。如果有更多的问题可以评论区留言咱们一起探讨。

标签：do,String,URL,爬虫,抓取,content,多线程,response,函数
From： https://blog.51cto.com/u_13488918/8785752

Java多线程编程
本文中简单介绍一些java多线程相关的内容1.多线程基础Java通过java.lang.Thread类和java.util.concurrent包提供了多线程支持。一个线程可以通过继承Thread类或实现Runnable接口来创建。classMyThreadextendsThread{publicvoidrun(){//线程执行的代码}......
py爬虫
（1）请用requests库的get()函数访问如下一个网站２０次，打印返回状态，text()内容，计算text()属性和content属性所返回网页内容的长度。importrequestsfrombs4importBeautifulSoupurl='https://baidu.com'foriinrange(20):try:r=requests.get(url)print(r......
前端学习笔记202310学习笔记第一百壹拾玖天-模块包-内置模块http之爬虫3
......
Python爬虫获取校园课表(强制系统举例)
Http:超文本传输协议Https:安全的http首先引入request库:pipinstallrequests 先F12打开页面检查，在network(网络)里面，然后刷新页面，会发先有个请求文档，点击并观察它：在常规里面可以看到请求地址为https://www.paisi.edu.cn:8181/jsxsd/?tdsourcetag=s_pcqq_aiomsg,将它复制到......
linux 多线程写同一个文件
来自：https://blog.popkx.com/linux-multithreaded-programming-in-io-read-write-security-functions-pread-pwrite-and-read-write-what-is-the-difference-and-relat/ #include<unistd.h>ssize_tpread(intfd,void*buf,size_tcount,off_toffset);ssize_t......
用Kotlin抓取微博数据并进行热度预测
闲来无事，逛逛微博，看着每条热度很高的博文趣事，心想能否通过爬虫抓取微博热度并进行趋势分析，说干就干，这里需要注意的问题我会一一标注。爬虫ip信息的设置是在爬虫程序中进行的。爬虫ip信息可以帮助爬虫程序在访问目标网站时进行匿名化处理，以避免被目标网站检测到并封禁IP。以下是一......
抓取真实浏览器设备指纹fingerprint写入cookie方案
今天分享一个关于抓取真实浏览器设备指纹写入cookie方案，用户访问页面获取到用户设备生成指纹id，通过js把指纹存入cookie，然后用php进行获取cookie存的指纹值到后台。上写法：首页在前端页面js引入：<script>functiongetCookie(name){varcook......
第一次爬虫
（2）请用requests库的get()函数访问如下一个网站２０次，打印返回状态，text()内容，计算text()属性和content属性所返回网页内容的长度。python代码:importrequestsurl="https://www.so.com/"defgethtml(url):try:r=requests.get(url)r.raise_for_status()......
爬虫
importrequestsfrombs4importBeautifulSoupimportbs4defgetedhtml(url,code='utf-8'):kv={'user-agent':'Mozilla/5.0'}try: r=requests.get(url,headers=kv,timeout=30) r.raise_for_status() r.encoding......
QtConcurrent::run()多线程的同步、异步
Qt提供了QtConcurrent模块，处理一些常见的并行计算，最大的特点就是无需再使用互斥锁这种很低级的操作，全都封装好了。除此以外，QFuture、QFutureWatcher、QFutureSynchronizer类提供了一些辅助性的操作。参考：Qt中的多线程技术-知乎(zhihu.com)【QtConcurrent::run()需注意】......

多线程爬虫抓取京东运行流程-大公司抢着要代码

相关文章

赞助商

阅读排行