web-scraping

2024-08-09如何使用 beautifulsoup4 选择部分 HTML 标签进行网页抓取
这是我试图从中抓取数据的网站的链接：https://www.fotmob.com/leagues/47/stats/season/20720/players/goals/premier-league我想使用beautifulsoup4选择class='css-653rx1-StatsContainereozqs6r5'的部分。在您提到find()和find_all()之前，我已经使用了两
2024-08-09如何在 VS Code 中调试 Scrapy？
问题是我无法在VSCode中调试Scrapy爬虫。问题是，当我开始调试时，它总是会在我的导入之一上中断。当然，为了修复它，我对这个导入进行了很多操作，但它没有帮助。我也尝试过使用venv和不使用venv，但没有帮助。有人遇到同样的问题吗？这是错误当然可以，以下是在VSC
2024-08-07由于分页，无法使用 python al beautifulsoup 在 tripadvisor 中获取所有结果
我正在尝试获取餐厅的链接，但我只能获取前30家餐厅的链接，而无法获取所有其他餐厅的链接。马德里地区的餐馆有数百家，分页每页只显示30家，以下代码只获取这30家importreimportrequestsfromopenpyxlimportWorkbookfrombs4importBeautifulSoupasbcity_name='
2024-08-06如何使用新版本抓取foursquare？
我正在尝试使用此代码从foursquare中抓取场地defgetNearbyVenues(names,latitudes,longitudes,radius=500):venues_list=[]forname,lat,lnginzip(names,latitudes,longitudes):print(name)#CreatetheAPIreques
2024-08-06Python 卡在第 1 页
让它读取下一页结果的最佳方法是什么？目前正在拉取数据，但只有第1页importrequestsimportjsonpage=1url="https://api-prod.grip.events/1/container/4368/search?search=&sort=name&order=asc&type_id=4907,4906,5265,4964,4904,1026,4908&page=%d"headers={
2024-08-05无法从谷歌浏览器中抓取链接
我的代码正在打开选项卡，搜索主题并关闭，但它没有向我发送它应该收集的链接。fromseleniumimportwebdriverpesquisa=input("oquevocêquerpesquisar:")defget_results(search_term):url="https://www.startpage.com"driver=webdriver.Chrome()
2024-08-05模拟登录以在登录墙后进行数据抓取的最简单方法
我正在尝试从雅虎财经抓取数据。我需要的数据只能通过我购买的高级订阅来访问。但是，每当我运行脚本来抓取网页时，它都是在我的登录之外完成的。因此我的脚本返回-{"finance":{"result":nullerror:{"code":"unauthorized"description:"用户未登录"}}}我想模拟我的登录通过
2024-08-05使用 python 抓取网页
我有以下网页</div><ahref="https://www.emag.ro/laptop-lenovo-thinkbook-15-iil-cu-procesor-intel-core-i7-1065g7-pana-la-3-90-ghz-15-6-full-hd-16gb-512gb-ssd-intel-iris-plus-graphics-free-dos-mineral-grey-20sm003jrm/pd/DKBK1TMBM/#reviews-section&
2024-08-04在 Python 中从 HTML 中抓取嵌入的 Google Sheet
这对我来说相对棘手。我正在尝试提取来自python中的google工作表的嵌入表。这是链接我不拥有该工作表，但它是公开可用的。这是迄今为止我的代码，当我输出标题时，它向我显示“”。任何帮助将不胜感激。最终目标是将此表转换为pandasDF。多谢你们importlx
2024-08-04如何使用 Python 在 Google 或 DuckDuckGo 中快速获取答案
我有一个人工智能助手项目，我希望它在互联网上搜索。我想使用适用于Python的GoogleQuickAnswerBox或DuckDuckGoInstantAnswerAPI。我看到了其他问题，但它们对我没有多大帮助。这是我想要实现的一个示例：问题：什么是长颈鹿？Google的答案：DuckDuckGo的
2024-08-04使用 python 和 json 抓取该网站的正确 URL 是什么？
试图抓取这个网站-->https://ucr.gov/enforcement/1000511它曾经使用下面的代码，然后停止了。无法获取响应中的json或任何内容。query="1000511"url='https://ucr.gov/api/enforcement/{}'.format(query)headers={'User-Agent':'Mozilla/5.0(
2024-08-03如何在网站上抓取多个需要订购的值
我正在尝试使用beautifulsoup抓取NHL比赛的结果，但我无法弄清楚如何获取比赛进行的日期以及按顺序排列的结果。比赛日期位于标签下，结果位于“field-content”类中。目前，我可以找到这两个值并将它们放置在自变量中，但我想保留它们在原始网站中出现的顺序并将数据放置在单个变量
2024-08-03使用 selenium 单击没有 id 的提交按钮
我尝试使用提交功能单击提交按钮，但看不到结果。我要抓取的网站是Jntuh提交按钮有以下属性<inputtype="submit"value="Submit">我用过这个.execute脚本Resultbrowser.execute_script("""document.getElementById("myForm").onsubmit();
2024-08-03抓取脚本标签中的数据
任何人都可以建议一种方法来抓取a<script>标签中的数据，具体来说，在本例中是来自AEMO的30分钟表（https://www.aemo.com.au/aemo/apps/visualizes/elec-nem-priceanddemand.html)。要获取数据表，我需要单击在网站上显示该表的按钮或下载按钮。然而，这里的障碍是
2024-08-03尝试使用Python抓取需要先登录的网站但没有成功
我正在尝试抓取一个需要登录的网站（我的路由器GUI），但无论我做了什么，我都会反复返回登录站点的源代码，而不是成功登录后出现的页面。我做了一些阅读，并意识到我需要返回POST请求的答案。我想我找到了它们并返回了所需的值，但仍然-似乎没有任何效果。我使用https://curl.tri
2024-08-03如何使用 BeautifulSoup python 查找选择标签的选定选项值
我正在尝试从python中的htmlselect标签获取选定的值。好吧，当选项属性设置为selected="selected"时，它是成功的，但我试图废弃的网站具有不同的选项属性，例如：-html="""<select><optionvalue="">Pleaseselectavlalue</option><o
2024-08-02为什么我的蜘蛛提取的物品数量有限
例如，当我使用网站“https://en.zalando.de/men-shoes-boots/”时，仅抓取了37个项目。我知道需要某种类型的分页才能到达下一页，但在第一页本身有远远超过37个项目，而且我似乎无法弄清楚为什么脚本在37处停止。任何帮助我将非常感激!!我的蜘蛛元素查找器看起来像这样：
2024-08-02尝试让 BeautifulSoup 打印来自雅虎财经的名字的 URL 列表
目标是让Python/BeautifulSoup抓取雅虎财经和上市公司所有者的名字/姓氏：frombs4importBeautifulSoupimportrequestsurl='https://finance.yahoo.com/quote/GTVI/profile?p=GTVI'page=requests.get(url,headers={"User-Agent":"Mozil
2024-08-01为什么得到的html content.txt是空的？
该计划的目标很简单，就是获得tageschau.de的头条新闻。一开始很正常，但是运行几次后什么也得不到。importrequestsfrombs4importBeautifulSoupheaders={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)''AppleWe
2024-08-01单个 Scrapy 项目与多个项目
我对如何存储所有蜘蛛感到困惑。这些蜘蛛将通过使用命令行调用和从stdin读取的项目输入ApacheNiFi来使用。我还计划让这些蜘蛛的子集在单独的网络服务器上使用scrapyrt返回单个项目结果。我需要在具有不同项目模型的许多不同项目中创建蜘蛛。它们都有相似的设置（比
2024-08-01如何从烂番茄上抓取一页以上的评论？
我一直在使用这个抓取工具来抓取此网址的评论家评论：https://www.rottentomatoes.com/m/avengers_endgame/reviews尽管如此，我一直在努力解决如何浏览其他页面的问题因为这目前正在刮擦第一页的评论家评论。有谁知道我会怎么做？importseleniumfromseleniumimportweb
2024-08-01如何使用 python 和 bs4 修复抓取 web 表输出 csv
请帮帮我，，我想在“td”、“Barcode”和“namaproduk”中获取2个数据，但我得到的数据非常糟糕。我应该修复什么？importcsvimportrequestsfrombs4importBeautifulSoupoutfile=open("dataaa.csv","w",newline='')writer=csv.writer(outfile)page=0whilepag
2024-08-01如何按页抓取不同位置的元素
我正在抓取位于页面不同位置的元素。我当前的代码有些工作，但会随机不返回该值。当我设置seller=None时，它会生成值None的其他实例，而它应该是卖家名称。我的目标是根据唯一位置抓取100个页面以获取单个元素（并继续添加新的元素）元素的位置）并且如果元素不在页面上，则元