]> git.openstreetmap.org Git - osqa.git/blob - forum_modules/exporter/exporter.py
Fixes the new line problems in the OSQA exporter.
[osqa.git] / forum_modules / exporter / exporter.py
1 import os, tarfile, datetime, logging, re, ConfigParser, shutil
2
3 from django.core.cache import cache
4 from django.utils.translation import ugettext as _
5 from forum.models import *
6 from forum.settings import APP_URL
7 from forum.templatetags.extra_tags import diff_date
8 import xml.etree.ElementTree
9 from xml.etree import ElementTree as ET
10 from xml.etree.ElementTree import Comment, _encode, ProcessingInstruction, QName, fixtag, _escape_attrib, _escape_cdata
11 from forum import settings
12 from django.conf import settings as djsettings
13 import settings as selfsettings
14
15 CACHE_KEY = "%s_exporter_state" % APP_URL
16 EXPORT_STEPS = []
17
18 TMP_FOLDER = os.path.join(os.path.dirname(__file__), 'tmp')
19 LAST_BACKUP = os.path.join(TMP_FOLDER, 'backup.tar.gz')
20
21 DATE_AND_AUTHOR_INF_SECTION = 'DateAndAuthor'
22 OPTIONS_INF_SECTION = 'Options'
23 META_INF_SECTION = 'Meta'
24
25 DATETIME_FORMAT = "%Y-%m-%d %H:%M:%S"
26 DATE_FORMAT = "%Y-%m-%d"
27
28 def Etree_pretty__write(self, file, node, encoding, namespaces,
29                         level=0, identator="    "):
30     tag = node.tag
31     if tag is Comment:
32         file.write(level * identator + "<!-- %s -->" % _escape_cdata(node.text, encoding))
33     elif tag is ProcessingInstruction:
34         file.write("<?%s?>" % _escape_cdata(node.text, encoding))
35     else:
36         items = node.items()
37         xmlns_items = [] # new namespaces in this scope
38         try:
39             if isinstance(tag, QName) or tag[:1] == "{":
40                 tag, xmlns = fixtag(tag, namespaces)
41                 if xmlns: xmlns_items.append(xmlns)
42         except TypeError:
43             raise #_raise_serialization_error(tag)
44         file.write("\n" + level * identator + "<" + _encode(tag, encoding))
45         if items or xmlns_items:
46             items.sort() # lexical order
47             for k, v in items:
48                 try:
49                     if isinstance(k, QName) or k[:1] == "{":
50                         k, xmlns = fixtag(k, namespaces)
51                         if xmlns: xmlns_items.append(xmlns)
52                 except TypeError:
53                     raise #_raise_serialization_error(k)
54                 try:
55                     if isinstance(v, QName):
56                         v, xmlns = fixtag(v, namespaces)
57                         if xmlns: xmlns_items.append(xmlns)
58                 except TypeError:
59                     raise #_raise_serialization_error(v)
60                 file.write(u" %s=\"%s\"" % (_encode(k, encoding),
61                                             _escape_attrib(v, encoding)))
62             for k, v in xmlns_items:
63                 file.write(u" %s=\"%s\"" % (_encode(k, encoding),
64                                             _escape_attrib(v, encoding)))
65         if node.text or len(node):
66             file.write(">")
67             if node.text:
68                 file.write(_escape_cdata(node.text, encoding))
69             for n in node:
70                 self._write(file, n, encoding, namespaces, level + 1, identator)
71             if node.text and len(node.text) < 125:
72                 file.write("</" + _encode(tag, encoding) + ">")
73             else:
74                 file.write("\n" + level * identator + "</" + _encode(tag, encoding) + ">")
75         else:
76             file.write(" />")
77         for k, v in xmlns_items:
78             del namespaces[v]
79     if node.tail:
80         file.write(_escape_cdata(node.tail.replace("\n", (level * identator )+ "\n"), encoding))
81
82 def make_date(date, with_time=True):
83     try:
84         return date.strftime(with_time and DATETIME_FORMAT or DATE_FORMAT)
85     except ValueError, e:
86         return date.replace(year=1900).strftime(with_time and DATETIME_FORMAT or DATE_FORMAT)
87
88
89 def ET_Element_add_tag(el, tag_name, content = None, **attrs):
90     tag = ET.SubElement(el, tag_name)
91
92     if content:
93         tag.text = unicode(content)
94
95     for k, v in attrs.items():
96         tag.set(k, unicode(v))
97
98     return tag
99
100 GOOD_TAG_NAME = re.compile("^\w+$")
101
102 def make_extra(el, v):
103     if v is None:
104         return
105
106
107     if isinstance(v, (int, long, str, unicode, float, bool, dict, list, tuple)):
108         if isinstance(v, tuple):
109             t = 'list'
110         else:
111             t = v.__class__.__name__
112     else:
113         t = 'unknown'
114
115     value = el.add('value', type=t)
116
117     if isinstance(v, (list, tuple)):
118         for i in v:
119             item = value.add('item')
120             make_extra(item, i)
121
122     elif isinstance(v, dict):
123         for k, i in v.items():
124             item = value.add('item', key=k)
125             make_extra(item, i)
126     else:
127         value.text = unicode(v)
128
129 def write_to_file(root, tmp, filename):
130     tree = ET.ElementTree(root)
131     tree.write(os.path.join(tmp, filename), encoding='UTF-8')
132
133 def create_targz(tmp, files, start_time, options, user, state, set_state):
134     if os.path.exists(LAST_BACKUP):
135         os.remove(LAST_BACKUP)
136         
137     t = tarfile.open(name=LAST_BACKUP, mode = 'w:gz')
138
139     state['overall']['status'] = _('Compressing xml files')
140     set_state()
141
142     for f in files:
143         t.add(os.path.join(tmp, f), arcname="/%s" % f)
144
145     if options.get('uplodaded_files', False):
146         state['overall']['status'] = _('Importing uploaded files')
147         set_state()
148         export_upfiles(t)
149
150     if options.get('import_skins_folder', False):
151         state['overall']['status'] = _('Importing skins folder')
152         set_state()
153         export_skinsfolder(t)
154
155     state['overall']['status'] = _('Writing inf file.')
156     set_state()
157
158     now = datetime.datetime.now()
159     domain = re.match('[\w-]+\.[\w-]+(\.[\w-]+)*', djsettings.APP_URL)
160     if domain:
161         domain = '_'.join(domain.get(0).split('.'))
162     else:
163         domain = 'localhost'
164
165     fname = "%s-%s" % (domain, now.strftime('%Y%m%d%H%M'))
166
167     inf = ConfigParser.SafeConfigParser()
168
169     inf.add_section(DATE_AND_AUTHOR_INF_SECTION)
170
171     inf.set(DATE_AND_AUTHOR_INF_SECTION, 'file-name', "%s.tar.gz" % fname)
172     inf.set(DATE_AND_AUTHOR_INF_SECTION, 'author', unicode(user.id))
173     inf.set(DATE_AND_AUTHOR_INF_SECTION, 'site', djsettings.APP_URL)
174     inf.set(DATE_AND_AUTHOR_INF_SECTION, 'started', start_time.strftime(DATETIME_FORMAT))
175     inf.set(DATE_AND_AUTHOR_INF_SECTION, 'finished', now.strftime(DATETIME_FORMAT))
176
177     inf.add_section(OPTIONS_INF_SECTION)
178     inf.set(OPTIONS_INF_SECTION, 'anon-data', str(options.get('anon_data', False)))
179     inf.set(OPTIONS_INF_SECTION, 'with-upfiles', str(options.get('uplodaded_files', False)))
180     inf.set(OPTIONS_INF_SECTION, 'with-skins', str(options.get('import_skins_folder', False)))
181
182     inf.add_section(META_INF_SECTION)
183
184     for id, s in state.items():
185         inf.set(META_INF_SECTION, id, str(s['count']))
186
187     with open(os.path.join(tmp, 'backup.inf'), 'wb') as inffile:
188         inf.write(inffile)
189
190     t.add(os.path.join(tmp, 'backup.inf'), arcname='backup.inf')
191     state['overall']['status'] = _('Saving backup file')
192     set_state()
193     t.close()
194     shutil.copyfile(LAST_BACKUP, os.path.join(selfsettings.EXPORTER_BACKUP_STORAGE, "%s.tar.gz" % fname))
195     shutil.copyfile(os.path.join(tmp, 'backup.inf'), os.path.join(selfsettings.EXPORTER_BACKUP_STORAGE, "%s.backup.inf" % fname))
196
197     
198
199 def export_upfiles(tf):
200     folder = str(settings.UPFILES_FOLDER)
201
202     if os.path.exists(folder):
203         tf.add(folder, arcname='/upfiles')
204
205
206 def export_skinsfolder(tf):
207     folder = djsettings.TEMPLATE_DIRS[0]
208
209     if os.path.exists(folder):
210         tf.add(folder, arcname='/skins')
211
212
213 def export(options, user):
214     original__write = xml.etree.ElementTree.ElementTree._write
215     xml.etree.ElementTree.ElementTree._write = Etree_pretty__write
216     xml.etree.ElementTree._ElementInterface.add = ET_Element_add_tag
217
218     start_time = datetime.datetime.now()
219     tmp = TMP_FOLDER
220     anon_data = options.get('anon_data', False)
221
222     steps = [s for s in EXPORT_STEPS if not (anon_data and s['fn'].is_user_data())]
223
224     state = dict([(s['id'], {
225         'status': _('Queued'), 'count': s['fn'].count(start_time), 'parsed': 0
226     }) for s in steps] + [
227         ('overall', {
228             'status': _('Starting'), 'count': sum([s['fn'].count(start_time) for s in steps]), 'parsed': 0
229         })
230     ])
231
232     full_state = dict(running=True, state=state, time_started="")
233
234     def set_state():
235         full_state['time_started'] = diff_date(start_time)
236         cache.set(CACHE_KEY, full_state)
237
238     set_state()
239
240     def ping_state(name):
241         state[name]['parsed'] += 1
242         state['overall']['parsed'] += 1
243         set_state()
244
245     def run(fn, name):
246         def ping():
247             ping_state(name)
248
249         state['overall']['status'] = _('Exporting %s') % s['name']
250         state[name]['status'] = _('Exporting')
251
252         root, fname = fn(ping, start_time, anon_data)
253
254         state[name]['status'] = _('Writing temp file')
255         state['overall']['status'] = _('Writing %s temp file') % s['name']
256
257         set_state()
258
259         write_to_file(root, tmp, fname)
260         state[name]['status'] = _('Done')
261
262         set_state()
263
264         return fname
265
266     try:
267         dump_files = []
268
269         for s in steps:
270             dump_files.append(run(s['fn'], s['id']))
271
272         state['overall']['status'] = _('Compressing files')
273         set_state()
274
275         create_targz(tmp, dump_files, start_time, options, user, state, set_state)
276         full_state['running'] = False
277         full_state['errors'] = False
278         state['overall']['status'] = _('Done')
279
280         set_state()
281     except Exception, e:
282         full_state['running'] = False
283         full_state['errors'] = "%s: %s" % (e.__class__.__name__, unicode(e))
284         set_state()
285         
286         import traceback
287         logging.error("Error executing xml backup: \n %s" % (traceback.format_exc()))
288     finally:
289         xml.etree.ElementTree.ElementTree._write = original__write
290         del xml.etree.ElementTree._ElementInterface.add
291
292
293 def exporter_step(queryset, root_tag_name, el_tag_name, name, date_lock=None, user_data=False):
294
295     def decorator(fn):
296         def qs(lock):
297             if date_lock:
298                 return queryset.filter(**{"%s__lte" % date_lock: lock})
299             return queryset
300
301         def decorated(ping, lock, anon_data):
302             root = ET.Element(root_tag_name)
303
304             for item in qs(lock).order_by('id').select_related():
305                 el = root.add(el_tag_name)
306                 fn(item, el, anon_data)
307                 ping()
308
309             return root, "%s.xml" % root_tag_name
310
311         def count(lock):
312             return qs(lock).count()
313
314         def is_user_data():
315             return user_data
316
317         decorated.count = count
318         decorated.is_user_data = is_user_data
319
320         EXPORT_STEPS.append(dict(id=root_tag_name, name=name, fn=decorated))
321
322         return decorated
323
324     return decorator
325
326 @exporter_step(Tag.objects.all(), 'tags', 'tag', _('Tags'))
327 def export_tags(t, el, anon_data):
328     el.add('name', t.name)
329     if not anon_data:
330         el.add('author', t.created_by.id)
331     el.add('used', t.used_count)
332
333
334 @exporter_step(User.objects.all(), 'users', 'user', _('Users'), 'date_joined', True)
335 def export_users(u, el, anon_data):
336     el.add('id', u.id)
337     el.add('username', u.username)
338     el.add('password', u.password)
339     el.add('email', u.email, validated=u.email_isvalid and 'true' or 'false')
340     el.add('reputation', u.reputation)
341     el.add('badges', bronze=u.bronze, silver=u.silver, gold=u.gold)
342     el.add('joindate', make_date(u.date_joined))
343     el.add('active', u.is_active and 'true' or 'false')
344
345     el.add('realname', u.real_name)
346     el.add('bio', u.about)
347     el.add('location', u.location)
348     el.add('website', u.website)
349     el.add('birthdate', u.date_of_birth and make_date(u.date_of_birth, with_time=False) or "")
350
351     roles = el.add('roles')
352
353     if u.is_superuser:
354         roles.add('role', 'superuser')
355
356     if u.is_staff:
357         roles.add('role', 'moderator')
358
359     auth = el.add('authKeys')
360     for a in u.auth_keys.all():
361         key = auth.add('key')
362         key.add('provider', a.provider)
363         key.add('key', a.key)
364
365
366     ss = u.subscription_settings
367
368     notify = el.add('notifications', enabled=ss.enable_notifications and 'true' or 'false')
369
370     notify.add('notify', **dict([(t, ss.__dict__.get(t, 'n') == 'i' and 'true' or 'false') for t in ['member_joins', 'new_question', 'new_question_watched_tags', 'subscribed_questions']]))
371
372     notify.add('autoSubscribe', **dict([(t, ss.__dict__.get(t, False) and 'true' or 'false') for t in [
373             'all_questions', 'all_questions_watched_tags', 'questions_asked', 'questions_answered', 'questions_commented', 'questions_viewed']]))
374
375     notify.add('notifyOnSubscribed', **dict([(t, ss.__dict__.get("notify_%s" % t, False) and 'true' or 'false') for t in [
376             'answers', 'reply_to_comments', 'comments_own_post', 'comments', 'accepted']]))
377
378     notify.add('digest', ss.send_digest and 'on' or 'off')
379
380     watched = el.add('watchedTags')
381     rejected = el.add('rejectedTags')
382
383     for m in u.tag_selections.all():
384         if m.reason == 'good':
385             watched.add('tag', m.tag.name)
386         else:
387             rejected.add('tag', m.tag.name)
388
389     
390
391 @exporter_step(Node.objects.all(), 'nodes', 'node', _('Nodes'), 'added_at')
392 def export_nodes(n, el, anon_data):
393     el.add('id', n.id)
394     el.add('type', n.node_type)
395
396     if not anon_data:
397         el.add('author', n.author.id)
398     el.add('date', make_date(n.added_at))
399     el.add('parent', n.parent and n.parent.id or "")
400     el.add('absparent', n.abs_parent and n.abs_parent or "")
401
402     act = el.add('lastactivity')
403     act.add('by', n.last_activity_by and n.last_activity_by.id or "")
404     act.add('at', n.last_activity_at and make_date(n.last_activity_at) or "")
405
406     el.add('title', n.title)
407     el.add('body', n.body)
408
409     el.add('score', n.score)
410
411     tags = el.add('tags')
412
413     for t in n.tagname_list():
414         tags.add('tag', t)
415
416     try:
417         active = n.active_revision and n.active_revision.revision or n.revisions.order_by('revision')[0].revision
418     except IndexError:
419         active = 0
420
421     revs = el.add('revisions', active=active)
422
423     for r in n.revisions.order_by('revision'):
424         rev = revs.add('revision')
425         rev.add('number', r.revision)
426         rev.add('summary', r.summary)
427         if not anon_data:
428             rev.add('author', r.author.id)
429         rev.add('date', make_date(r.revised_at))
430
431         rev.add('title', r.title)
432         rev.add('body', r.body)
433         rev.add('tags', ", ".join(r.tagname_list()))
434
435     el.add('marked', n.marked and 'true' or 'false')
436     el.add('extraRef', n.extra_ref and n.extra_ref.id or "")
437     make_extra(el.add('extraData'), n.extra)
438     el.add('extraCount', n.extra_count and n.extra_count or "")
439
440
441 @exporter_step(Action.objects.all(), 'actions', 'action', _('Actions'), 'action_date')
442 def export_actions(a, el, anon_data):
443     el.add('id', a.id)
444     el.add('type', a.action_type)
445     el.add('date', make_date(a.action_date))
446
447     if not anon_data:
448         el.add('user', a.user.id)
449         el.add('realUser', a.real_user and a.real_user.id or "")
450         el.add('ip', a.ip)
451     el.add('node', a.node and a.node.id or "")
452
453     make_extra(el.add('extraData'), a.extra)
454
455     canceled = el.add('canceled', state=a.canceled and 'true' or 'false')
456
457     if a.canceled:
458         if not anon_data:
459             canceled.add('user', a.canceled_by.id)
460             canceled.add('ip', a.canceled_ip)
461
462         canceled.add('date', make_date(a.canceled_at))        
463
464     if not anon_data:
465         reputes = el.add('reputes')
466
467         for r in a.reputes.all():
468             repute = reputes.add('repute', byCanceled=r.by_canceled and 'true' or 'false')
469             repute.add('user', r.user.id)
470             repute.add('value', r.value)
471
472
473 #@exporter_step(NodeState.objects.all(), 'states', 'state', _('Node states'), 'action__action_date')
474 #def export_states(s, el, anon_data):
475 #    el.add('type', s.state_type)
476 #    el.add('node', s.node.id)
477 #    el.add('trigger', s.action.id)
478
479
480 #@exporter_step(Badge.objects.all(), 'badges', 'badge', _('Badges'), user_data=True)
481 #def export_badges(b, el, anon_data):
482 #    el.add('type', ["", 'gold', 'silver', 'bronze'][b.type])
483 #    el.add('name', b.cls)
484 #    el.add('count', b.awarded_count)
485
486
487 @exporter_step(Award.objects.all(), 'awards', 'award', _('Awards'), 'awarded_at', True)
488 def export_awards(a, el, anon_data):
489     el.add('badge', a.badge.cls)
490     el.add('user', a.user.id)
491     el.add('node', a.node and a.node.id or "")
492     el.add('trigger', a.trigger and a.trigger.id or "")
493     el.add('action', a.action.id)
494
495 @exporter_step(KeyValue.objects.all(), 'settings', 'setting', _('Settings'))
496 def export_settings(s, el, anon_data):
497     el.add('key', s.key)
498     make_extra(el.add('value'), s.value)
499
500
501
502
503
504
505
506
507         
508
509
510
511
512
513
514
515