python爬虫爬取只显示10个

python爬虫爬取只显示10个,第1张

一个借口几万条数据但是只返回十条_爬虫实践之爬取10000条菜谱数据

2020-12-03 06:37:24

weixin_39990029

码龄5年

关注

be22f93fc7bbc7cbdd62166579a1fd22png

爬虫实践之XX行代码爬取10000菜谱数据

什么是爬虫

爬虫:又叫做 网络蜘蛛,是一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。

点击这里了解Python爬虫介绍

如何合法地爬虫

有些网站不允许网络爬虫,或是对可爬取的内容做了限制,一个网站的爬虫协议可通过访问该网站的robotstxt文件获得

以豆瓣网为例

访问该网址(>

用python实现计时器功能,代码如下:

''' Simple Timing Function

This function prints out a message with the elapsed time from the

previous call It works with most Python 2x platforms The function

uses a simple trick to store a persistent variable (clock) without

using a global variable

'''

import time

def dur( op=None, clock=[timetime()] ):

if op != None:

duration = timetime() - clock[0]

print '%s finished Duration %6f seconds' % (op, duration)

clock[0] = timetime()

# Example

if __name__ == '__main__':

import array

dur() # Initialise the timing clock

opt1 = arrayarray('H')

for i in range(1000):

for n in range(1000):

opt1append(n)

dur('Array from append')

opt2 = arrayarray('H')

seq = range(1000)

for i in range(1000):

opt2extend(seq)

dur('Array from list extend')

opt3 = arrayarray('H')

seq = arrayarray('H', range(1000))

for i in range(1000):

opt3extend(seq)

dur('Array from array extend')

# Output:

# Array from append finished Duration 0175320 seconds

# Array from list extend finished Duration 0068974 seconds

# Array from array extend finished Duration 0001394 seconds

简单写了一个,题目要求在同一天的话就不用想那么多了,望采纳

# 输入旅程开始时间,并分割

print("请输入开始时间:(格式:“小时:分钟”)")

start = input()split(":")

# 换算为分钟

startTime = int(start[0])60+int(start[1])

# 同上

print("请输入结束时间:(格式:“小时:分钟”)")

end = input()split(":")

endTime = int(end[0])60+int(end[1])

# 计算总共相差多少分钟

timeCount = endTime - startTime

# 将分钟换算

timeH = timeCount//60

timeM = timeCount%60

# 输出

print("旅途总用时:%d时%d分"%(timeH,timeM))

import time

def isprime(n):

  if n<2:

      return False

  for i in range(2,n):

      if n%i==0:

          return False

  return True

start=timetime()

lst=[]

for i in range(2,100):

  if isprime(i)==False:

      lstappend(i)

print(lst)

end=timetime()

print(end-start)

Python编程中,用Tkinter中的文本框获取系统当前的时间并且显示,代码如下:

import sys    

from tkinter import 

import time

def tick():

    global time1

    # 从运行程序的计算机上面获取当前的系统时间

    time2 = timestrftime('%H:%M:%S')

    # 如果时间发生变化,代码自动更新显示的系统时间

    if time2 != time1:

        time1 = time2

        clockconfig(text=time2)

        # calls itself every 200 milliseconds

        # to update the time display as needed

        # could use >200 ms, but display gets jerky

    clockafter(200, tick)

root = Tk()

time1 = ''

status = Label(root, text="v10", bd=1, relief=SUNKEN, anchor=W)

statusgrid(row=0, column=0)

clock = Label(root, font=('times', 20, 'bold'), bg='green')

clockgrid(row=0, column=1) 

tick()

rootmainloop()

(1)打开csv文件

import pandas as pd

df=pdread_csv(r’data/datacsv’)

(2)dataframe index 重新排序

data=dfsort_index(axis=0,ascending=False)

(3)dataframe 按照某一列进行升序或者降序排列

data=dfsort([‘date’],ascending=True升序,False降序)

(4)dataframe 的index重新从0开始

data=datareset_index(drop=True)

(5)画横坐标是日期的图

import matplotlibpyplot as plt

x=data[‘date’]#日期是字符串形式

y=data[‘close price’]

pltplot_date(x,y)

(6)求标准差

import numpy as np

npstd

(7)下取整

import math

mathfloor

上取整:mathceil

(8)希尔伯特变换

from scipy import fftpack

hx= fftpackhilbert(price)

(9)值排序

dataorder()

(10)差分

datadiff(1)#一阶差分

dataframe 删除元素

datadrop(元素位置)

(11)嵌套的array处理方法

import itertools

a = [[1,2,3],[4,5,6], [7], [8,9]]

out = list(itertoolschainfrom_iterable(a))

(12)dataframe修改列名

datacolumns=[‘num’,’price’]

(13)excel表导入以后有空行解决办法

import numpy as np

data= datadrop(dataloc[npisnan(datanamevalues)]index)

(15)diff用法

一是dataframe或者series格式,直接就用datadiff()

二是list格式,先转换成转换成list格式data=datatolist() 然后dif=npdiff(data)

(16)dataframe中的日期type不是date格式,不能直接相加减,所以先转换成list格式

t=datatimetolist()

date_time = datetimedatetimestrptime(str(t),’%Y-%m-%d %H:%M:%S’)

date_time=datetimedate(date_timeyear,date_timemonth,date_timeday)

past= date_time - datetimetimedelta(days=n365)

(17)符号化

npsign

(18)字典的使用

label={‘11’:’TP’,’1-1’:’FN’,’-11’:’FP’,’-1-1’:’TN’}

for i in range(len(data1)):

state=str(int(data1[i]))+str(int(data2[i]))

resultappend(label[state])

(19)用plt画图的时候中文不显示的解决办法

from matplotlibfont_manager import FontProperties

font_set = FontProperties(fname=r”c:windowsontssimsunttc”, size=15)

plttitle(u’中文’, fontproperties=font_set)

(20)获取当前程序运行的时间

from time import time

time1=time()

time2=time()

print(time2-time1)

以上是我找到的资料,对于我这个学习Python到半吊子的人来说也是要收藏起来的。

以上就是关于python爬虫爬取只显示10个全部的内容,包括:python爬虫爬取只显示10个、python显示运行时间、使用Python,实现程序运行计时的数码管表示等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!

欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/web/9805857.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-02
下一篇2023-05-02

发表评论

登录后才能评论

评论列表(0条)

    保存