• 2024-08-22requests爬虫学习
    #爬虫的过程,就是模仿浏览器的行为,往目标站点发送请求,接收服务器的响应数据,提取需要的信息,并进行保存的过程。#上网的全过程:#  普通用户:#    打开浏览器-->往目标站点发送请求-->接收响应数据-->渲染到页面上。#  爬虫程序:#    模
  • 2024-08-19BeautifulSoup的基础语法
    一.安装BeautifulSoupBeautifulSoup是一个可以从HTML或XML文件中提取数据的Python扩展库。BeautifulSoup通过合适的转换器实现文档导航、查找、修改文档等。它可以很好的处理不规范标记并生成剖析树(ParseTree);它提供的导航功能(Navigating),可以简单又快速地搜索剖析树以及修改剖
  • 2024-08-09如何使用 beautifulsoup4 选择部分 HTML 标签进行网页抓取
    这是我试图从中抓取数据的网站的链接:https://www.fotmob.com/leagues/47/stats/season/20720/players/goals/premier-league我想使用beautifulsoup4选择class='css-653rx1-StatsContainereozqs6r5'的部分。在您提到find()和find_all()之前,我已经使用了两
  • 2024-08-08UnicodeEncodeError:“ascii”编解码器无法对位置 20 中的字符 u'\xa0' 进行编码:序号不在范围内(128)
    我在处理从不同网页(在不同站点上)获取的文本中的unicode字符时遇到问题。我正在使用BeautifulSoup。问题是错误并不总是可重现的;它有时适用于某些页面,有时,它会因抛出UnicodeEncodeError而呕吐。我已经尝试了几乎所有我能想到的方法,但我还没有找到任何可以一致工作
  • 2024-08-07由于分页,无法使用 python al beautifulsoup 在 tripadvisor 中获取所有结果
    我正在尝试获取餐厅的链接,但我只能获取前30家餐厅的链接,而无法获取所有其他餐厅的链接。马德里地区的餐馆有数百家,分页每页只显示30家,以下代码只获取这30家importreimportrequestsfromopenpyxlimportWorkbookfrombs4importBeautifulSoupasbcity_name='
  • 2024-08-06爬虫简易说明
    想必大家都了解爬虫,也就是爬取网页你所需要的信息相比于网页繁多的爬虫教程,本篇主要将爬虫分为三个部分,以便你清楚,代码的功能以及使用,这三部分分别为1.获取到源代码2.根据网页中的标签特征,获取源代码你所需要的部分3.想一下如何根据页面的逻辑将一系列的网页自动化抓取接下来
  • 2024-08-06关于BeautifulSoup解析
    一.导包frombs4importBeautifulSoup二.建立BeautifulSoup的HTML内容main_page=BeautifulSoup(content,"html.parser")        由于没有安装lxml包,可以直接引入html.parser来完成1.拿标签    (1):语法find(“标签名”,attrs={属性键:属性值}), 获
  • 2024-08-05使用 python 抓取网页
    我有以下网页</div><ahref="https://www.emag.ro/laptop-lenovo-thinkbook-15-iil-cu-procesor-intel-core-i7-1065g7-pana-la-3-90-ghz-15-6-full-hd-16gb-512gb-ssd-intel-iris-plus-graphics-free-dos-mineral-grey-20sm003jrm/pd/DKBK1TMBM/#reviews-section&
  • 2024-08-03如何在网站上抓取多个需要订购的值
    我正在尝试使用beautifulsoup抓取NHL比赛的结果,但我无法弄清楚如何获取比赛进行的日期以及按顺序排列的结果。比赛日期位于标签下,结果位于“field-content”类中。目前,我可以找到这两个值并将它们放置在自变量中,但我想保留它们在原始网站中出现的顺序并将数据放置在单个变量
  • 2024-08-03如何使用 BeautifulSoup python 查找选择标签的选定选项值
    我正在尝试从python中的htmlselect标签获取选定的值。好吧,当选项属性设置为selected="selected"时,它是成功的,但我试图废弃的网站具有不同的选项属性,例如:-html="""<select><optionvalue="">Pleaseselectavlalue</option><o
  • 2024-08-01如何使用 python 和 bs4 修复抓取 web 表输出 csv
    请帮帮我,,我想在“td”、“Barcode”和“namaproduk”中获取2个数据,但我得到的数据非常糟糕。我应该修复什么?importcsvimportrequestsfrombs4importBeautifulSoupoutfile=open("dataaa.csv","w",newline='')writer=csv.writer(outfile)page=0whilepag
  • 2024-08-01如何按页抓取不同位置的元素
    我正在抓取位于页面不同位置的元素。我当前的代码有些工作,但会随机不返回该值。当我设置seller=None时,它​​会生成值None的其他实例,而它应该是卖家名称。我的目标是根据唯一位置抓取100个页面以获取单个元素(并继续添加新的元素)元素的位置)并且如果元素不在页面上,则元
  • 2024-08-0161.BeautifulSoup模块
    BeautifulSoup模块【一】初识1)介绍BeautifulSoup是python的一个库最主要的功能是从网页抓取数据。官方文档:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/#安装pipinstallBeautifulSoup4#导入frombs4importBeautifulSoup2)HTML解析器解析当前页面生成
  • 2024-07-30BeautifulSoup:获取特定标签的标签文本
    我想获取HTML页面上所有显示的文本,直到点击某个标签。例如,我想获取页面上所有显示的文本,直到点击id为“end_content”的标签为止。有没有办法用BeautifulSoup来做到这一点?这与soup.get_text()方法类似,只不过它会在遇到id为“end_content”的标签后停止获取文本。
  • 2024-07-29如何使用 bs4 在 phyton 中传递表情符号抓取文本
    我正在创建一个抓取器,用于抓取URL页面中的所有评论,并将文本保存在txt文件中(1条评论=1txt)。现在,当评论文本中有一些表情符号时,我遇到了问题。事实上,程序停止并显示“UnicodeEncodeError:‘charmap’编解码器无法对字符进行编码”。我怎样才能解决这个问题?(我用的是bs4)
  • 2024-07-29BeautifulSoup:刮擦一个跨度给我一个结果,对于另一个跨度它给出“无”
    我正在为Etsy编写一个抓取器,当我抓取评论的范围时,我得到了正确的输出。然而,当我用价格来获取跨度时,它只给我None值,我不明白为什么。如果有人可以提供帮助,那就太好了!#htmlparsingpage_soup=soup(page_html,"html.parser")#grabseachlistingcarddivs=page_soup.
  • 2024-07-29维基百科页面的 bs4 方法:获取信息框
    我目前正在尝试将bs4方法应用于维基百科页面:结果不会存储在df中,因为维基百科上的抓取是一种非常非常常见的技术-我们可以使用适当的方法来处理许多不同的工作-我在获取结果方面确实遇到了一些问题-并将其存储到df中-作为一个非常常见的Wikipedia-bs4工作的
  • 2024-07-28Python Beautiful Soup 不加载表值
    我是美丽汤的新手,不确定如何从该网站为每个州(新南威尔士州、维多利亚州、昆士兰州、南澳大利亚州)添加“解决”栏:https://www.asxenergy.com.au/futures_au似乎没有显示数值数据。我的起始代码是:frombs4importBeautifulSoupfromurllib.requestimportur
  • 2024-07-27无法刮擦
    我正在尝试从angellist获取公司列表https://angel.co/companies我尝试使用此代码frombs4importBeautifulSoupimporturllib2headers={'User-Agent':'Mozilla/5.0'}req=urllib2.Request('https://angel.co/companies',None,
  • 2024-07-27如何在 Python 中加载站点的所有资源,包括 AJAX 请求等?
    我知道如何使用Python请求网站并读取其文本。过去,我曾尝试使用像BeautifulSoup这样的库来发出对网站上链接的所有请求,但这并没有得到看起来不像完整URL的内容,例如AJAX请求和大多数对原始域(因为“http://example.com”将丢失,更重要的是,它不是<ahref='url'>
  • 2024-07-27在 Chartink.com 上抓取网页
    请帮我抓取这个链接。链接-https://chartink.com/screener/time-pass-48我正在尝试网络抓取,但它没有显示我想要的表格。请帮助我。我已经尝试过这段代码,但它没有给我想要的结果。importrequestsfrombs4importBeautifulSoupURL='https://chartink.com/s
  • 2024-07-26网页抓取 雅虎财经 Python
    我正在尝试从损益表、资产负债表和现金流量报告中收集数据框中给定股票代码的雅虎财务数据。(下面提供了URL)我从使用yfinance的资产负债表中使用了此函数没有像雅虎财经那样的“总债务”但它只适用于股票代码“AAPL”而没有其他内容。我想要一个更强大的网络抓取
  • 2024-07-26试图找出此页面的逻辑:存储了大约 ++ 100 个结果 - 并使用 Python 和 BS4 进行了解析
    试图找出此页面背后的逻辑:我们已将一些结果存储在以下数据库中:https://www.raiffeisen.ch/rch/de/ueber-uns/raiffeisen-gruppe/Organization/raiffeisenbanken/deutsche-schweiz.html#accordionitem_18104049731620873397从a到z大约:120个结果或更多:
  • 2024-07-25我的 python 抓取数据是空的,不确定我的代码出了什么问题
    我的结果是空的,不确定我的代码出了什么问题:这里是我的代码:#尝试从该网站获取数据https://www.watsons.com.sg/health/c/2100000?currentPage=1importrequestsfrombs4importBeautifulSoupimportpandasaspd#Settingdisplayoptionsforpandaspd.
  • 2024-07-25尝试将 bs4 方法应用于维基百科页面:结果不存储在 df 中
    由于维基百科上的抓取是一种非常非常常见的技术-我们可以使用适当的方法来处理许多不同的工作-我在获取结果方面确实遇到了一些问题-并将其存储到df中好吧-作为一个非常常见的Wikipedia-bs4作业的示例-我们可以采用这个:在此页面上,我们有超过600个结果-